Day114 都說2026是Agent元年,我的OpenClaw 15人團隊翻車一週後,終於跑順了
整理版優先睇
15個Agent集體「演戲」,一行代碼搞到全線停擺,賀伯分享點樣用工廠思維跑順AI Agent團隊
賀伯係一個35歲嘅工廠IE主管,𠵱家正用OpenClaw搭建AI Agent自動化團隊。佢嘅15個Agent原本設定好cron任務,點知連續3日收到飛書報警轟炸,Dashboard顯示所有Agent工具調用全部靜默失敗——Agent話「做完」,但數據空白、文件冇生成、API冇調用,成個團隊喺度「演戲」。
賀伯查咗成日,終於揾到原因:之前改代碼嗰陣,鬱到一行配置,搞到工具調用接口靜默失敗,但Agent唔識報錯,自己「腦補」結果出嚟。呢個教訓令佢明白,系統穩定唔係睇佢跑得有幾快,而係出錯時你能夠幾快發現。佢即時加入首件確認機制,之後所有Agent即時恢復正常。
跟住仲遇到API超限問題,佢將15個Agent嘅觸發時間間隔15分鐘錯峯執行,搞掂。另外佢發現好多簡單任務唔需要Agent做中間人,直接執行可以慳token同減少出錯。最後佢成套系統形成PDCA閉環:各Agent自動跑任務、飛書推送結果、每日復盤會議、生成日記、日記反哺優化。佢話「AI Agent團隊管理同管工廠產線冇分別,唔係睇你上咗幾多設備,係睇你嘅異常處理能唔能夠形成閉環」。
- Agent團隊管理嘅核心係異常處理閉環,唔係設備數量;翻車之後嘅修正速度決定系統穩定性。
- 架構層面修改要用Claude Code,執行層面用OpenClaw,各管各嘅,避免混埋一齊導致死機。
- Agent可能「演戲」——工具調用靜默失敗但回報成功,必須做首件確認先好批量上線。
- 多Agent排程要錯峯,同時啟動只會搞到API超限,間隔15分鐘係實戰有效嘅策略。
- 簡單任務唔好經過Agent做中間人,直接執行可以慳一半token同埋減少出錯機會。
翻車開端:15個Agent集體「扮工」
賀伯用OpenClaw搭建嘅15人Agent團隊,原本諗住自動化哂所有任務,點知連續3日收到飛書報警轟炸,每日上百條cron失敗通知。佢以為係網絡問題,點知睇Dashboard先發現恐怖事實:所有Agent嘅工具調用全部靜默失敗,Agent話「做完」但數據空白、文件冇生成、API冇調用,成個團隊喺度「演戲」。
Agent話「做完」但數據空白、文件冇生成、API冇調用——佢哋喺度「演戲」,而你呢個管理者完全唔知。呢個就係靜默失敗嘅恐怖之處。
呢種情況同工廠產線嘅良率報告一樣:操作工填咗「OK」,但實際根本冇量,結果整批報廢。賀伯坦言,嗰幾日差啲想成個系統推倒重來。
根因追蹤:一行代碼搞到全線停擺
查咗大半日,終於定位到問題——之前改代碼嗰陣鬱到一行配置,搞到所有Agent嘅工具調用接口靜默失敗。唔報錯、唔中斷、就係唔執行,Agent拎唔到工具返回值,自己「腦補」咗個結果出嚟。
- 修復前:工具調用全部靜默失敗,Dashboard數據空白,Agent回覆純幻覺,飛書報警每日30+條。
- 修復後:工具調用100%正常,Dashboard按時更新,Agent回覆基於真實數據,飛書報警0條。
- 差別就係一行配置,同埋有冇做首件確認。
修復之後所有Agent即時恢復正常,該調API嘅調API,該寫文件嘅寫文件,飛書羣終於消停。賀伯話,呢種感覺好比產線死機一星期後終於跑返——「就改咗一行,成條線活返嚟」。
三大優化策略:錯峯、分工、瘦身
修好bug之後,賀伯仲發現三個問題要執。第一,15個Agent同一時間啟動,API請求超限,搞到成日卡住。佢用標準工時排產嘅思維,將每個Agent嘅觸發時間間隔15分鐘,錯峯執行,之後冇再出現API唔夠用嘅情況。
多Agent排程要錯峯——同時啟動就係找死,間隔15分鐘係實戰有效嘅策略,慳API之餘亦減少堵塞。
第二,佢發現好多任務根本唔需要Agent做中間人,例如簡單調用一個exec命令,Agent喺中間純粹傳話,既浪費Token又增加出錯概率。佢花咗兩日時間,將所有「中間人」任務改成直接執行,Token消耗直接降咗一半有多。
簡單任務唔好經Agent做中間人,直接執行可以慳一半Token,仲減少出錯機會。呢個係工廠七大浪費入面嘅搬運浪費——物料由A搬到B再搬到C,中間B根本冇加工。
第三,佢試過用OpenClaw改自己嘅代碼,結果改到死機。佢總結出一條鐵律:系統架構層面嘅修改全部用Claude Code做,OpenClaw只負責執行面嘅事。搞架構嘅歸架構,搞執行嘅歸執行,唔好混埋一齊。
閉環成型:從覆盤到日記,PDCA循環
𠵱家成個系統每日流程係咁:各Agent按排程自動跑任務,飛書羣定時收到結果推送,每日定時開復盤會議,根據會議結論生成當日日記,日記反哺下一輪優化。呢個閉環同PDCA一模一樣——Plan做咗、Do跑咗、Check覆盤咗、Act改進了,循環起來。
- 1 一定要做首件確認——改完代碼先跑一輪驗證,唔好直接上線。
- 2 架構改動用Claude Code,執行用OpenClaw——各管各嘅。
- 3 多Agent排程要錯峯——同時啟動就係找死。
- 4 簡單任務唔好畀Agent做——慳Token、慳心。
賀伯話,雖然2026年係Agent元年,Gartner預測年底40%企業會接Agent,但真正跑起嚟你會發現踩坑先係常態,跑順只係例外。不過踩完坑回頭睇,進步確實好大,回唔到去喇。
挑戰日更365日,今日係日更第119天
Hi 大家好,我係賀伯,一個初學AI編程同工作流嘅工廠IE,每日分享用Vibe coding同n8n工作流嘅實戰過程
-----------------------------------------------------------------------
報警羣炸咗3日,我先發現15個Agent集體喺度「演戲」
上星期飛書羣嘅消息提醒,我大概睇咗一眼——上百條報警
上百條
每日一打開手機,紅色感嘆號排成排,全部係cron任務失敗嘅通知。差啲冇OpenClaw給卸了
(同生產線上安燈一個道理,燈着咗你唔處理,後面嘅工序全部塞住)
我係賀伯,35歲工廠IE,目前搞緊AI Agent自動化。今日呢篇唔係成功案例分享,而係一份翻車覆盤
01 原本嘅團隊頁面,純粹一嚿工程師審美
之前我嘅賀伯蝦團隊頁面,點講呢,就係一個資料大雜燴。功能都有,數據亦都齊,但如果你畀個非技術人睇,完全唔知邊度有問題
同工廠裏面嗰種冇目視化管理嘅生產線一模一樣——數據全部喺MES系統度,但現場一眼望過去,你根本分唔清邊台設備喺度行、邊台喺度等料

後來同AI反覆討論咗好幾輪,每個Agent都設計咗專屬頭像同角色卡。改完之後,專員日報嘅頁面變成咁:

一目瞭然。清楚好多
邊個今日做咗啲乜、完成率幾多、之後要點樣調整——全部喺一個屏幕度
(呢個位目前仲喺度持續優化,想加個「異常標紅」嘅功能,羣入面小排老師都建議加個「超時預警」)

02 由總管領軍——目視化管理搬到AI團隊
調整完嘅架構好清楚,由總管Agent統一協調,下面每個角色各司其職
整體效果係咁:

搭配飛書嘅通知羣,所有人嘅工作結果定時推送。同工廠嘅生產日報一個邏輯——每日定點看板,異常第一時間上報

到呢度一切都好美好。15個Agent各自有排程、有cron定時觸發、有飛書羣同步結果
完美咩?遠着呢
03 連炸3日——Agent集體「演戲」
將工作流跑通之後,我滿懷期望咁等住每日嘅彙報。結果等嚟嘅係——報警轟炸

一開始以為係網絡問題,查咗好耐。後來仔細翻咗下Dashboard,發現一個恐怖嘅事實:
所有Agent嘅工具調用,全部靜默失敗
即係點呢?即係Agent話「我做完了」,Dashboard上都有回覆記錄,但實際上——根本冇執行任何操作

空跑咗整整3日
3天
每日嘅回覆全部幻覺。Agent話畀你知任務完成咗,但數據係空嘅、文件冇生成、API冇調用。同生產線上嘅良率報告一個道理——操作工喺表上填咗「OK」,但實際上根本冇量
(嗰幾日光報警消息不下上百條,差啲想將成套系統推倒重來)

04 根因:一行代碼,毀咗成條生產線
查咗大半日,終於定位到問題。講出嚟你可能唔信——
就係之前改code嘅時候,鬱到一行配置
搞到所有Agent嘅工具調用接口靜默失敗。唔報錯、唔中斷、就係唔執行。Agent攞唔到工具返回值,就自己「腦補」咗一個結果出嚟
跟防呆機制缺失一模一樣。冇做首件確認就直接批量跑,結果成批報廢

修復之後,所有Agent瞬間恢復正常,該調API嘅調API,該寫文件嘅寫文件。飛書羣終於消停咗。舒服曬
(就改咗一行,成條線生返。呢種感覺懂的都懂)
對比一下就知
差距就係呢度
05 踩坑教訓:讓OpenClaw改自己,等於讓實習生寫SOP
今次踩坑仲有一個重要發現——
之前我試過讓OpenClaw自己改自己嘅code。結果呢?改改嚇就死機
(讓Agent修改自己嘅運行環境,呢個唔係等於讓操作工一邊跑生產線一邊換模具咩)
後來總結出一條鐵律:系統架構層面嘅修改,全部用Claude Code來做。OpenClaw只負責執行面嘅嘢

呢個分工好關鍵。搞架構嘅歸架構,搞執行嘅歸執行,唔好撈亂
同工廠嘅ECN流程一樣——設計變更走工程部簽核,生產線操作員唔可以自己改圖紙
喺工廠做咗10年我先明:系統穩唔穩定,唔係睇佢行得幾快,係睇佢出錯時你幾快發現
06 API唔夠用——15個人同時開工,管道炸咗
修完bug之後又嚟咗個新問題。15個Agent原本設定同一時間全部啟動,結果API請求直接超限

道理好簡單,同標準工時排產一個邏輯——15個工站同時上料,物料供應唔切,成條線就卡住咗
解決方案都唔複雜。將每個Agent嘅觸發時間隔15分鐘,錯峯執行。搞掂
改完之後,再也冇出現API唔夠用嘅情況

(呢個策略目前行咗一星期多,非常穩定)
07 工作流瘦身——將「中間人」全部斬曬
Cron穩定咗,API都唔爆啦。但我發現仲有個問題:好多任務根本唔需要Agent去做

即係點呢?有些任務就係簡單調用一個exec命令,Agent喺中間純粹做咗個傳話嘅。一句話轉發一下,既浪費咗API嘅token,又增加咗出錯機率

用工廠嘅視角睇,呢個就係典型嘅7大浪費裏的搬運浪費——物料由A搬到B再搬到C,中間B根本冇加工

所以我花咗兩日時間,將所有「中間人」任務全部改成直接執行,唔經Agent

改完之後,token消耗直接降咗一半有多
慳咗。真係慳咗
(後續仲想將一啲固定格式嘅彙報都改成模板直出,不過暫時先係咁)

08 覆盤→日記→優化,行得順咗
而家成個系統每日嘅流程係咁:
各Agent按排程自動跑任務 飛書羣定時收到結果推送 - 每日定時開覆盤會議
根據會議結論生成當日日記 日記反饋下一輪優化

呢個閉環同PDCA一模一樣——P做咗、D行咗、C覆盤咗、A改進咗。循環起咗

跟住賀伯蝦團隊一齊成長嘅感覺,真係幾好
(後續打算加一個自動生成周報嘅功能,將每日嘅日記滙總成一份,目前仲摸索緊)
AI Agent團隊管理呢樣嘢,同管理工廠生產線冇乜分別。唔係睇你上咗幾多設備,係睇你嘅異常處理係咪形成閉環
09 最後講一句
呢個星期嘅折騰,總結落嚟就得4條:
- 一定要做首件確認
——改完code先跑一輪驗證,唔好直接上線 - 架構改動用Claude Code,執行用OpenClaw
——各管各嘅 - 多Agent排程要錯峯
——同時啟動就係找死 - 簡單嘅事唔好讓Agent做
——慳token、慳心
都話2026係Agent元年,Gartner預測年底40%嘅企業都要接Agent啦。但真正行起你會發現,踩坑先係常態,行順先係例外
不過呢,踩完坑回頭睇,的確進步咗好多。返唔到轉頭
夠啦。有問題下面留言
以上係今日嘅分享,希望大家有啲收穫
覺得有用㩒個在看,等更多搞AI自動化嘅朋友見到 - 留言
話我知:你嘅Agent團隊踩過最大嘅坑係乜? 轉畀你嗰個都喺度搞OpenClaw嘅朋友
-----------------------------------------------------------------------
喺學習AI編程嘅路上,老徐AI編程做產品嘅知識星球俾咗好多幫助
每個月都有訓練營可以參加(參加星球嘅夥伴免費)
基本上零基礎嘅小白都可以輕易入門(就係我啦)
想一齊加入AI編程嘅行列,但又冇好嘅入門管道嘅朋友,歡迎一齊加入切磋
留言或後台私訊「AI編程」,會提供過去呢幾個月學習AI編程嘅一啲資訊同建立嘅個人知識庫(每日更新)
【ima知識庫】AI編程工具資料庫 https://ima.qq.com/wiki/?shareId=2e1dc0ad31a15e3fc6e8b1954f4c0647ba3bd6ee86244230246d4933d160a02f
呢啲係openclaw相關嘅文章分享,全部都係我用openclaw遇到嘅問題點
Day99 OpenClaw 6個Agent每次重複交代背景,48000 Token全浪費 4個文件搞定共享記憶
Day100 OpenClaw接上飛書後,我嘅AI每日凌晨自動搞定10大熱點分析+內容產出
Day103 OpenClaw跑出一堆數據冇人睇?飛書+Dashboard 3步搞定
Day105 OpenClaw嘅Agent唔聽話?Python+Cron令工作流穩如生產線
Day106 6個Agent+3層記憶+5個Dashboard模塊 我用OpenClaw搭咗個24小時自動運營系統
Day107 OpenClaw蝦一次自動發咗19篇被限流 傾下AI全自動化踩嘅坑
Day108 AI Agent學咗一大堆但係唔出活?OpenClaw 6步閉環令佢自己拆任務、追數據、漲粉絲
我係賀伯,一個35+嘅工廠IE主管,正用工業思維拆解AI編程,每日記錄我由零基礎到用AI賺到第一蚊錢嘅全過程。
挑戰日更365天,今天是日更第119天
Hi 大家好,我是賀伯,一個初學AI編程與工作流的工廠IE,每天分享使用Vibe coding跟n8n工作流的實戰過程
-----------------------------------------------------------------------
報警羣炸了3天,我才發現15個Agent集體在"演戲"
上週飛書羣的消息提醒,我大概瞄了一眼——上百條報警
上百條
每天一打開手機,紅色感嘆號排成排,全是cron任務失敗的通知。差點沒把OpenClaw給卸了
(跟產線上安燈一個道理,燈亮了你不處理,後面的工序全堵着)
我是賀伯,35歲工廠IE,目前在搞AI Agent自動化。今天這篇不是成功案例分享,是一份翻車覆盤
01 原來的團隊頁面,純粹一坨工程師審美
之前我的賀伯蝦團隊頁面,怎麼說呢,就是個資料大雜燴。功能都有,數據也全,但你讓一個非技術人看,完全不知道哪裏有問題
跟工廠裏那種沒有目視化管理的產線一模一樣——數據都在MES系統裏,但現場一眼看過去,你根本分不清哪台設備在跑、哪台在等料

後來跟AI反覆討論了好幾輪,給每個Agent都設計了專屬頭像和角色卡。改完之後,專員日報的頁面變成這樣:

一目瞭然。清楚多了
誰今天干了啥、完成率多少、後續要怎麼調——全在一個屏幕裏
(這塊目前還在持續優化,想加個"異常標紅"的功能,羣裏小排老師也建議加個"超時預警")

02 由總管領軍——目視化管理搬到AI團隊
調整完的架構很清楚,由總管Agent統一協調,下面每個角色各司其職
整體效果長這樣:

搭配飛書的通知羣,所有人的工作結果定時推送。跟工廠的生產日報一個邏輯——每天定點看板,異常第一時間上報

到這裏一切都很美好。15個Agent各自有排程、有cron定時觸發、有飛書羣同步結果
完美嗎?遠着呢
03 連炸3天——Agent集體"演戲"
把工作流跑通之後,我滿懷期待地等着每天的彙報。結果等來的是——報警轟炸

一開始以為是網絡問題,查了半天。後來仔細翻了一下Dashboard,發現一個恐怖的事實:
所有Agent的工具調用,全部靜默失敗
什麼意思呢?就是Agent說"我做完了",Dashboard上也有回覆記錄,但實際上——根本沒執行任何操作

空跑了整整3天
3天
每天的回覆全是幻覺。Agent告訴你任務完成了,但數據是空的、文件沒生成、API沒調用。跟產線上的良率報告一個道理——操作工在表上填了"OK",但實際根本沒量
(那幾天光報警消息不下上百條,差點想把整套系統推倒重來)

04 根因:一行代碼,毀了整條產線
查了大半天,終於定位到問題。說出來你可能不信——
就是之前改代碼的時候,動到了一行配置
導致所有Agent的工具調用接口靜默失敗。不報錯、不中斷、就是不執行。Agent拿不到工具返回值,就自己"腦補"了一個結果出來
跟防呆機制缺失一模一樣。沒有做首件確認就直接批量跑了,結果整批報廢

修復之後,所有Agent瞬間恢復正常,該調API的調API,該寫文件的寫文件。飛書羣終於消停了。舒服了
(就改了一行,整條線活過來了。這感覺懂的都懂)
對比一下就知道了
差距就在這
05 踩坑教訓:讓OpenClaw改自己,等於讓實習生寫SOP
這次踩坑還有一個重要發現——
之前我試過讓OpenClaw自己改自己的代碼。結果呢?改着改着就死機了
(讓Agent修改自己的運行環境,這不就是讓操作工一邊跑產線一邊換模具嗎)
後來總結出一條鐵律:系統架構層面的修改,全部用Claude Code來做。OpenClaw只負責執行面的事情

這個分工很關鍵。搞架構的歸架構,搞執行的歸執行,不要混着來
跟工廠的ECN流程一樣——設計變更走工程部籤核,產線操作員不能自己改圖紙
在工廠幹了10年我才明白:系統穩不穩定,不看它跑得多快,看它出錯時你能多快發現
06 API不夠用——15個人同時幹活,管道炸了
修完bug之後又來了個新問題。15個Agent原本設定同一時間全部啓動,結果API請求直接超限

道理很簡單,跟標準工時排產一個邏輯——15個工站同時上料,物料供應跟不上,整條線就卡住了
解決方案也不復雜。把每個Agent的觸發時間間隔15分鐘,錯峯執行。搞定
改完之後,再也沒出現API不夠用的情況

(這個策略目前跑了一週多了,非常穩定)
07 工作流瘦身——把"中間人"全部砍掉
Cron穩定了,API也不爆了。但我發現還有個問題:很多任務根本不需要Agent來做

什麼意思呢?有些任務就是簡單的調用一個exec命令,Agent在中間純粹當了個傳話的。一句話轉發一下,既浪費了API的token,又增加了出錯概率

用工廠的視角看,這就是典型的7大浪費裏的搬運浪費——物料從A搬到B再搬到C,中間B根本沒加工

所以我花了兩天時間,把所有"中間人"任務全部改成直接執行,不經過Agent

改完之後,token消耗直接降了一半多
省了。真省了
(後續還想把一些固定格式的彙報也改成模板直出,不過暫時先這樣)

08 覆盤→日記→優化,跑起來了
現在整套系統每天的流程是這樣的:
各Agent按排程自動跑任務 飛書羣定時收到結果推送 - 每天定時開復盤會議
根據會議結論生成當天日記 日記反哺下一輪優化

這個閉環跟PDCA一模一樣——P做了、D跑了、C覆盤了、A改進了。循環起來了

跟着賀伯蝦團隊一起成長的感覺,真的挺不錯
(後續打算加一個自動生成周報的功能,把每天的日記彙總成一份,目前還在摸索中)
AI Agent團隊管理這東西,跟管工廠產線沒啥區別。不是看你上了多少設備,是看你的異常處理能不能形成閉環
09 最後說一句
這一週的折騰,總結下來就4條:
- 一定要做首件確認
——改完代碼先跑一輪驗證,別直接上線 - 架構改動用Claude Code,執行用OpenClaw
——各管各的 - 多Agent排程要錯峯
——同時啓動就是找死 - 簡單的事別讓Agent做
——省token、省心
都說2026是Agent元年,Gartner預測年底40%的企業都要接Agent了。但真正跑起來你會發現,踩坑才是常態,跑順才是例外
不過嘛,踩完坑回頭看,確實進步挺大的。回不去了
夠了。有問題底下留言
以上是今天的分享,希望小夥伴有些收穫
覺得有用點個在看,讓更多搞AI自動化的朋友看到 - 留言
告訴我:你的Agent團隊踩過最大的坑是啥? 轉給你那個也在折騰OpenClaw的朋友
-----------------------------------------------------------------------
在學習AI編程的路上,老徐AI編程做產品的知識星球給了很多的幫助
每個月都有訓練營可以參加( 參加星球的夥伴們免費)
基本上0基礎的小白都能輕易地入門(就是我啦)
想要一起加入AI編程的行列,但是又沒有好的入門管道的朋友們,歡迎一起加入切磋
留言或後台私信"AI編程",將提供過去這幾個月以來,學習AI編程的一些資訊以及創建的個人知識庫(每日更新)
【ima知識庫】AI編程工具資料庫 https://ima.qq.com/wiki/?shareId=2e1dc0ad31a15e3fc6e8b1954f4c0647ba3bd6ee86244230246d4933d160a02f
這是openclaw相關的文章分享,都是我在使用openclaw遇到的問題點
Day99 OpenClaw 6個Agent每次重複交代背景,48000 Token全浪費 4個文件搞定共享記憶
Day100 OpenClaw接上飛書後,我的AI每天凌晨自動搞定10大熱點分析+內容產出
Day103 OpenClaw跑出一堆數據沒人看?飛書+Dashboard 3步搞定
Day105 OpenClaw的Agent不聽話?Python+Cron讓工作流穩如生產線
Day106 6個Agent+3層記憶+5個Dashboard模塊 我用OpenClaw搭了個24小時自動運營系統
Day107 OpenClaw蝦一次自動發了19篇被限流 聊聊AI全自動化踩的坑
Day108 AI Agent學了一堆卻不出活?OpenClaw 6步閉環讓它自己拆任務、追數據、漲粉絲
我是賀伯,一個35+的工廠IE主管,正在用工業思維拆解AI編程,每天記錄我從0基礎到用AI賺到第一塊錢的全過程。