Day114 都說2026是Agent元年，我的OpenClaw 15人團隊翻車一週後，終於跑順了

作者：賀伯AI實戰筆記

日期：2026年3月10日下午3:24

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

15個Agent集體「演戲」，一行代碼搞到全線停擺，賀伯分享點樣用工廠思維跑順AI Agent團隊

整理版摘要

賀伯係一個35歲嘅工廠IE主管，𠵱家正用OpenClaw搭建AI Agent自動化團隊。佢嘅15個Agent原本設定好cron任務，點知連續3日收到飛書報警轟炸，Dashboard顯示所有Agent工具調用全部靜默失敗——Agent話「做完」，但數據空白、文件冇生成、API冇調用，成個團隊喺度「演戲」。

賀伯查咗成日，終於揾到原因：之前改代碼嗰陣，鬱到一行配置，搞到工具調用接口靜默失敗，但Agent唔識報錯，自己「腦補」結果出嚟。呢個教訓令佢明白，系統穩定唔係睇佢跑得有幾快，而係出錯時你能夠幾快發現。佢即時加入首件確認機制，之後所有Agent即時恢復正常。

跟住仲遇到API超限問題，佢將15個Agent嘅觸發時間間隔15分鐘錯峯執行，搞掂。另外佢發現好多簡單任務唔需要Agent做中間人，直接執行可以慳token同減少出錯。最後佢成套系統形成PDCA閉環：各Agent自動跑任務、飛書推送結果、每日復盤會議、生成日記、日記反哺優化。佢話「AI Agent團隊管理同管工廠產線冇分別，唔係睇你上咗幾多設備，係睇你嘅異常處理能唔能夠形成閉環」。

Agent團隊管理嘅核心係異常處理閉環，唔係設備數量；翻車之後嘅修正速度決定系統穩定性。
架構層面修改要用Claude Code，執行層面用OpenClaw，各管各嘅，避免混埋一齊導致死機。
Agent可能「演戲」——工具調用靜默失敗但回報成功，必須做首件確認先好批量上線。
多Agent排程要錯峯，同時啟動只會搞到API超限，間隔15分鐘係實戰有效嘅策略。
簡單任務唔好經過Agent做中間人，直接執行可以慳一半token同埋減少出錯機會。

整理重點

翻車開端：15個Agent集體「扮工」

賀伯用OpenClaw搭建嘅15人Agent團隊，原本諗住自動化哂所有任務，點知連續3日收到飛書報警轟炸，每日上百條cron失敗通知。佢以為係網絡問題，點知睇Dashboard先發現恐怖事實：所有Agent嘅工具調用全部靜默失敗，Agent話「做完」但數據空白、文件冇生成、API冇調用，成個團隊喺度「演戲」。

Agent話「做完」但數據空白、文件冇生成、API冇調用——佢哋喺度「演戲」，而你呢個管理者完全唔知。呢個就係靜默失敗嘅恐怖之處。

呢種情況同工廠產線嘅良率報告一樣：操作工填咗「OK」，但實際根本冇量，結果整批報廢。賀伯坦言，嗰幾日差啲想成個系統推倒重來。

整理重點

根因追蹤：一行代碼搞到全線停擺

查咗大半日，終於定位到問題——之前改代碼嗰陣鬱到一行配置，搞到所有Agent嘅工具調用接口靜默失敗。唔報錯、唔中斷、就係唔執行，Agent拎唔到工具返回值，自己「腦補」咗個結果出嚟。

修復前：工具調用全部靜默失敗，Dashboard數據空白，Agent回覆純幻覺，飛書報警每日30+條。
修復後：工具調用100%正常，Dashboard按時更新，Agent回覆基於真實數據，飛書報警0條。
差別就係一行配置，同埋有冇做首件確認。

修復之後所有Agent即時恢復正常，該調API嘅調API，該寫文件嘅寫文件，飛書羣終於消停。賀伯話，呢種感覺好比產線死機一星期後終於跑返——「就改咗一行，成條線活返嚟」。

整理重點

三大優化策略：錯峯、分工、瘦身

修好bug之後，賀伯仲發現三個問題要執。第一，15個Agent同一時間啟動，API請求超限，搞到成日卡住。佢用標準工時排產嘅思維，將每個Agent嘅觸發時間間隔15分鐘，錯峯執行，之後冇再出現API唔夠用嘅情況。

多Agent排程要錯峯——同時啟動就係找死，間隔15分鐘係實戰有效嘅策略，慳API之餘亦減少堵塞。

第二，佢發現好多任務根本唔需要Agent做中間人，例如簡單調用一個exec命令，Agent喺中間純粹傳話，既浪費Token又增加出錯概率。佢花咗兩日時間，將所有「中間人」任務改成直接執行，Token消耗直接降咗一半有多。

簡單任務唔好經Agent做中間人，直接執行可以慳一半Token，仲減少出錯機會。呢個係工廠七大浪費入面嘅搬運浪費——物料由A搬到B再搬到C，中間B根本冇加工。

第三，佢試過用OpenClaw改自己嘅代碼，結果改到死機。佢總結出一條鐵律：系統架構層面嘅修改全部用Claude Code做，OpenClaw只負責執行面嘅事。搞架構嘅歸架構，搞執行嘅歸執行，唔好混埋一齊。

整理重點

閉環成型：從覆盤到日記，PDCA循環

𠵱家成個系統每日流程係咁：各Agent按排程自動跑任務，飛書羣定時收到結果推送，每日定時開復盤會議，根據會議結論生成當日日記，日記反哺下一輪優化。呢個閉環同PDCA一模一樣——Plan做咗、Do跑咗、Check覆盤咗、Act改進了，循環起來。

1 一定要做首件確認——改完代碼先跑一輪驗證，唔好直接上線。
2 架構改動用Claude Code，執行用OpenClaw——各管各嘅。
3 多Agent排程要錯峯——同時啟動就係找死。
4 簡單任務唔好畀Agent做——慳Token、慳心。

賀伯話，雖然2026年係Agent元年，Gartner預測年底40%企業會接Agent，但真正跑起嚟你會發現踩坑先係常態，跑順只係例外。不過踩完坑回頭睇，進步確實好大，回唔到去喇。

10年工程師｜AI大齡學徒｜車間入面嘅建模狂人

👆㩒上面藍字關注公眾號

挑戰日更365日，今日係日更第119天

Hi 大家好，我係賀伯，一個初學AI編程同工作流嘅工廠IE，每日分享用Vibe coding同n8n工作流嘅實戰過程

-----------------------------------------------------------------------

報警羣炸咗3日，我先發現15個Agent集體喺度「演戲」

上星期飛書羣嘅消息提醒，我大概睇咗一眼——上百條報警

上百條

每日一打開手機，紅色感嘆號排成排，全部係cron任務失敗嘅通知。差啲冇OpenClaw給卸了

（同生產線上安燈一個道理，燈着咗你唔處理，後面嘅工序全部塞住）

我係賀伯，35歲工廠IE，目前搞緊AI Agent自動化。今日呢篇唔係成功案例分享，而係一份翻車覆盤

01 原本嘅團隊頁面，純粹一嚿工程師審美

之前我嘅賀伯蝦團隊頁面，點講呢，就係一個資料大雜燴。功能都有，數據亦都齊，但如果你畀個非技術人睇，完全唔知邊度有問題

同工廠裏面嗰種冇目視化管理嘅生產線一模一樣——數據全部喺MES系統度，但現場一眼望過去，你根本分唔清邊台設備喺度行、邊台喺度等料

後來同AI反覆討論咗好幾輪，每個Agent都設計咗專屬頭像同角色卡。改完之後，專員日報嘅頁面變成咁：

一目瞭然。清楚好多

邊個今日做咗啲乜、完成率幾多、之後要點樣調整——全部喺一個屏幕度

（呢個位目前仲喺度持續優化，想加個「異常標紅」嘅功能，羣入面小排老師都建議加個「超時預警」）

02 由總管領軍——目視化管理搬到AI團隊

調整完嘅架構好清楚，由總管Agent統一協調，下面每個角色各司其職

整體效果係咁：

搭配飛書嘅通知羣，所有人嘅工作結果定時推送。同工廠嘅生產日報一個邏輯——每日定點看板，異常第一時間上報

到呢度一切都好美好。15個Agent各自有排程、有cron定時觸發、有飛書羣同步結果

完美咩？遠着呢

03 連炸3日——Agent集體「演戲」

將工作流跑通之後，我滿懷期望咁等住每日嘅彙報。結果等嚟嘅係——報警轟炸

一開始以為係網絡問題，查咗好耐。後來仔細翻咗下Dashboard，發現一個恐怖嘅事實：

所有Agent嘅工具調用，全部靜默失敗

即係點呢？即係Agent話「我做完了」，Dashboard上都有回覆記錄，但實際上——根本冇執行任何操作

空跑咗整整3日

3天

每日嘅回覆全部幻覺。Agent話畀你知任務完成咗，但數據係空嘅、文件冇生成、API冇調用。同生產線上嘅良率報告一個道理——操作工喺表上填咗「OK」，但實際上根本冇量

（嗰幾日光報警消息不下上百條，差啲想將成套系統推倒重來）

04 根因：一行代碼，毀咗成條生產線

查咗大半日，終於定位到問題。講出嚟你可能唔信——

就係之前改code嘅時候，鬱到一行配置

搞到所有Agent嘅工具調用接口靜默失敗。唔報錯、唔中斷、就係唔執行。Agent攞唔到工具返回值，就自己「腦補」咗一個結果出嚟

跟防呆機制缺失一模一樣。冇做首件確認就直接批量跑，結果成批報廢

修復之後，所有Agent瞬間恢復正常，該調API嘅調API，該寫文件嘅寫文件。飛書羣終於消停咗。舒服曬

（就改咗一行，成條線生返。呢種感覺懂的都懂）

對比一下就知

項目	修復前	修復後
工具調用	全部靜默失敗	100%正常
Dashboard數據	空白	按時更新
Agent回覆質量	純幻覺	基於真實數據
飛書報警	每日30+條	0條

差距就係呢度

05 踩坑教訓：讓OpenClaw改自己，等於讓實習生寫SOP

今次踩坑仲有一個重要發現——

之前我試過讓OpenClaw自己改自己嘅code。結果呢？改改嚇就死機

（讓Agent修改自己嘅運行環境，呢個唔係等於讓操作工一邊跑生產線一邊換模具咩）

後來總結出一條鐵律：系統架構層面嘅修改，全部用Claude Code來做。OpenClaw只負責執行面嘅嘢

呢個分工好關鍵。搞架構嘅歸架構，搞執行嘅歸執行，唔好撈亂

同工廠嘅ECN流程一樣——設計變更走工程部簽核，生產線操作員唔可以自己改圖紙

喺工廠做咗10年我先明：系統穩唔穩定，唔係睇佢行得幾快，係睇佢出錯時你幾快發現

06 API唔夠用——15個人同時開工，管道炸咗

修完bug之後又嚟咗個新問題。15個Agent原本設定同一時間全部啟動，結果API請求直接超限

道理好簡單，同標準工時排產一個邏輯——15個工站同時上料，物料供應唔切，成條線就卡住咗

解決方案都唔複雜。將每個Agent嘅觸發時間隔15分鐘，錯峯執行。搞掂

改完之後，再也冇出現API唔夠用嘅情況

（呢個策略目前行咗一星期多，非常穩定）

07 工作流瘦身——將「中間人」全部斬曬

Cron穩定咗，API都唔爆啦。但我發現仲有個問題：好多任務根本唔需要Agent去做

即係點呢？有些任務就係簡單調用一個exec命令，Agent喺中間純粹做咗個傳話嘅。一句話轉發一下，既浪費咗API嘅token，又增加咗出錯機率

用工廠嘅視角睇，呢個就係典型嘅7大浪費裏的搬運浪費——物料由A搬到B再搬到C，中間B根本冇加工

所以我花咗兩日時間，將所有「中間人」任務全部改成直接執行，唔經Agent

改完之後，token消耗直接降咗一半有多

慳咗。真係慳咗

（後續仲想將一啲固定格式嘅彙報都改成模板直出，不過暫時先係咁）

08 覆盤→日記→優化，行得順咗

而家成個系統每日嘅流程係咁：

各Agent按排程自動跑任務
飛書羣定時收到結果推送
每日定時開覆盤會議
根據會議結論生成當日日記
日記反饋下一輪優化

呢個閉環同PDCA一模一樣——P做咗、D行咗、C覆盤咗、A改進咗。循環起咗

跟住賀伯蝦團隊一齊成長嘅感覺，真係幾好

（後續打算加一個自動生成周報嘅功能，將每日嘅日記滙總成一份，目前仲摸索緊）

AI Agent團隊管理呢樣嘢，同管理工廠生產線冇乜分別。唔係睇你上咗幾多設備，係睇你嘅異常處理係咪形成閉環

09 最後講一句

呢個星期嘅折騰，總結落嚟就得4條：

一定要做首件確認
——改完code先跑一輪驗證，唔好直接上線
架構改動用Claude Code，執行用OpenClaw
——各管各嘅
多Agent排程要錯峯
——同時啟動就係找死
簡單嘅事唔好讓Agent做
——慳token、慳心

都話2026係Agent元年，Gartner預測年底40%嘅企業都要接Agent啦。但真正行起你會發現，踩坑先係常態，行順先係例外

不過呢，踩完坑回頭睇，的確進步咗好多。返唔到轉頭

夠啦。有問題下面留言

📝

Thanks

以上係今日嘅分享，希望大家有啲收穫

覺得有用㩒個在看，等更多搞AI自動化嘅朋友見到
留言
話我知：你嘅Agent團隊踩過最大嘅坑係乜？
轉畀你嗰個都喺度搞OpenClaw嘅朋友

-----------------------------------------------------------------------

喺學習AI編程嘅路上，老徐AI編程做產品嘅知識星球俾咗好多幫助

每個月都有訓練營可以參加（參加星球嘅夥伴免費）

基本上零基礎嘅小白都可以輕易入門（就係我啦）

想一齊加入AI編程嘅行列，但又冇好嘅入門管道嘅朋友，歡迎一齊加入切磋

留言或後台私訊「AI編程」，會提供過去呢幾個月學習AI編程嘅一啲資訊同建立嘅個人知識庫（每日更新）

【ima知識庫】AI編程工具資料庫 https://ima.qq.com/wiki/?shareId=2e1dc0ad31a15e3fc6e8b1954f4c0647ba3bd6ee86244230246d4933d160a02f

呢啲係openclaw相關嘅文章分享，全部都係我用openclaw遇到嘅問題點

Day99 OpenClaw 6個Agent每次重複交代背景，48000 Token全浪費 4個文件搞定共享記憶

Day100 OpenClaw接上飛書後，我嘅AI每日凌晨自動搞定10大熱點分析+內容產出

Day103 OpenClaw跑出一堆數據冇人睇？飛書+Dashboard 3步搞定

Day105 OpenClaw嘅Agent唔聽話？Python+Cron令工作流穩如生產線

Day106 6個Agent+3層記憶+5個Dashboard模塊我用OpenClaw搭咗個24小時自動運營系統

Day107 OpenClaw蝦一次自動發咗19篇被限流傾下AI全自動化踩嘅坑

Day108 AI Agent學咗一大堆但係唔出活？OpenClaw 6步閉環令佢自己拆任務、追數據、漲粉絲

我係賀伯，一個35+嘅工廠IE主管，正用工業思維拆解AI編程，每日記錄我由零基礎到用AI賺到第一蚊錢嘅全過程。

10年工程師｜AI大齡學徒｜車間裏的建模狂人

👆點擊上方藍字關注公眾號

挑戰日更365天，今天是日更第119天

Hi 大家好，我是賀伯，一個初學AI編程與工作流的工廠IE，每天分享使用Vibe coding跟n8n工作流的實戰過程

-----------------------------------------------------------------------

報警羣炸了3天，我才發現15個Agent集體在"演戲"

上週飛書羣的消息提醒，我大概瞄了一眼——上百條報警

上百條

每天一打開手機，紅色感嘆號排成排，全是cron任務失敗的通知。差點沒把OpenClaw給卸了

（跟產線上安燈一個道理，燈亮了你不處理，後面的工序全堵着）

我是賀伯，35歲工廠IE，目前在搞AI Agent自動化。今天這篇不是成功案例分享，是一份翻車覆盤

01 原來的團隊頁面，純粹一坨工程師審美

之前我的賀伯蝦團隊頁面，怎麼說呢，就是個資料大雜燴。功能都有，數據也全，但你讓一個非技術人看，完全不知道哪裏有問題

跟工廠裏那種沒有目視化管理的產線一模一樣——數據都在MES系統裏，但現場一眼看過去，你根本分不清哪台設備在跑、哪台在等料

後來跟AI反覆討論了好幾輪，給每個Agent都設計了專屬頭像和角色卡。改完之後，專員日報的頁面變成這樣：

一目瞭然。清楚多了

誰今天干了啥、完成率多少、後續要怎麼調——全在一個屏幕裏

（這塊目前還在持續優化，想加個"異常標紅"的功能，羣裏小排老師也建議加個"超時預警"）

02 由總管領軍——目視化管理搬到AI團隊

調整完的架構很清楚，由總管Agent統一協調，下面每個角色各司其職

整體效果長這樣：

搭配飛書的通知羣，所有人的工作結果定時推送。跟工廠的生產日報一個邏輯——每天定點看板，異常第一時間上報

到這裏一切都很美好。15個Agent各自有排程、有cron定時觸發、有飛書羣同步結果

完美嗎？遠着呢

03 連炸3天——Agent集體"演戲"

把工作流跑通之後，我滿懷期待地等着每天的彙報。結果等來的是——報警轟炸

一開始以為是網絡問題，查了半天。後來仔細翻了一下Dashboard，發現一個恐怖的事實：

所有Agent的工具調用，全部靜默失敗

什麼意思呢？就是Agent說"我做完了"，Dashboard上也有回覆記錄，但實際上——根本沒執行任何操作

空跑了整整3天

3天

每天的回覆全是幻覺。Agent告訴你任務完成了，但數據是空的、文件沒生成、API沒調用。跟產線上的良率報告一個道理——操作工在表上填了"OK"，但實際根本沒量

（那幾天光報警消息不下上百條，差點想把整套系統推倒重來）

04 根因：一行代碼，毀了整條產線

查了大半天，終於定位到問題。說出來你可能不信——

就是之前改代碼的時候，動到了一行配置

導致所有Agent的工具調用接口靜默失敗。不報錯、不中斷、就是不執行。Agent拿不到工具返回值，就自己"腦補"了一個結果出來

跟防呆機制缺失一模一樣。沒有做首件確認就直接批量跑了，結果整批報廢

修復之後，所有Agent瞬間恢復正常，該調API的調API，該寫文件的寫文件。飛書羣終於消停了。舒服了

（就改了一行，整條線活過來了。這感覺懂的都懂）

對比一下就知道了

項目	修復前	修復後
工具調用	全部靜默失敗	100%正常
Dashboard數據	空白	按時更新
Agent回覆質量	純幻覺	基於真實數據
飛書報警	每天30+條	0條

差距就在這

05 踩坑教訓：讓OpenClaw改自己，等於讓實習生寫SOP

這次踩坑還有一個重要發現——

之前我試過讓OpenClaw自己改自己的代碼。結果呢？改着改着就死機了

（讓Agent修改自己的運行環境，這不就是讓操作工一邊跑產線一邊換模具嗎）

後來總結出一條鐵律：系統架構層面的修改，全部用Claude Code來做。OpenClaw只負責執行面的事情

這個分工很關鍵。搞架構的歸架構，搞執行的歸執行，不要混着來

跟工廠的ECN流程一樣——設計變更走工程部籤核，產線操作員不能自己改圖紙

在工廠幹了10年我才明白：系統穩不穩定，不看它跑得多快，看它出錯時你能多快發現

06 API不夠用——15個人同時幹活，管道炸了

修完bug之後又來了個新問題。15個Agent原本設定同一時間全部啓動，結果API請求直接超限

道理很簡單，跟標準工時排產一個邏輯——15個工站同時上料，物料供應跟不上，整條線就卡住了

解決方案也不復雜。把每個Agent的觸發時間間隔15分鐘，錯峯執行。搞定

改完之後，再也沒出現API不夠用的情況

（這個策略目前跑了一週多了，非常穩定）

07 工作流瘦身——把"中間人"全部砍掉

Cron穩定了，API也不爆了。但我發現還有個問題：很多任務根本不需要Agent來做

什麼意思呢？有些任務就是簡單的調用一個exec命令，Agent在中間純粹當了個傳話的。一句話轉發一下，既浪費了API的token，又增加了出錯概率

用工廠的視角看，這就是典型的7大浪費裏的搬運浪費——物料從A搬到B再搬到C，中間B根本沒加工

所以我花了兩天時間，把所有"中間人"任務全部改成直接執行，不經過Agent

改完之後，token消耗直接降了一半多

省了。真省了

（後續還想把一些固定格式的彙報也改成模板直出，不過暫時先這樣）

08 覆盤→日記→優化，跑起來了

現在整套系統每天的流程是這樣的：

各Agent按排程自動跑任務
飛書羣定時收到結果推送
每天定時開復盤會議
根據會議結論生成當天日記
日記反哺下一輪優化

這個閉環跟PDCA一模一樣——P做了、D跑了、C覆盤了、A改進了。循環起來了

跟着賀伯蝦團隊一起成長的感覺，真的挺不錯

（後續打算加一個自動生成周報的功能，把每天的日記彙總成一份，目前還在摸索中）

AI Agent團隊管理這東西，跟管工廠產線沒啥區別。不是看你上了多少設備，是看你的異常處理能不能形成閉環

09 最後說一句

這一週的折騰，總結下來就4條：

一定要做首件確認
——改完代碼先跑一輪驗證，別直接上線
架構改動用Claude Code，執行用OpenClaw
——各管各的
多Agent排程要錯峯
——同時啓動就是找死
簡單的事別讓Agent做
——省token、省心

都說2026是Agent元年，Gartner預測年底40%的企業都要接Agent了。但真正跑起來你會發現，踩坑才是常態，跑順才是例外

不過嘛，踩完坑回頭看，確實進步挺大的。回不去了

夠了。有問題底下留言

📝

Thanks

以上是今天的分享，希望小夥伴有些收穫

覺得有用點個在看，讓更多搞AI自動化的朋友看到
留言
告訴我：你的Agent團隊踩過最大的坑是啥？
轉給你那個也在折騰OpenClaw的朋友

-----------------------------------------------------------------------

在學習AI編程的路上，老徐AI編程做產品的知識星球給了很多的幫助

每個月都有訓練營可以參加( 參加星球的夥伴們免費)

基本上0基礎的小白都能輕易地入門(就是我啦)

想要一起加入AI編程的行列，但是又沒有好的入門管道的朋友們，歡迎一起加入切磋

留言或後台私信"AI編程"，將提供過去這幾個月以來，學習AI編程的一些資訊以及創建的個人知識庫(每日更新)

【ima知識庫】AI編程工具資料庫 https://ima.qq.com/wiki/?shareId=2e1dc0ad31a15e3fc6e8b1954f4c0647ba3bd6ee86244230246d4933d160a02f

這是openclaw相關的文章分享，都是我在使用openclaw遇到的問題點

Day99 OpenClaw 6個Agent每次重複交代背景，48000 Token全浪費 4個文件搞定共享記憶

Day100 OpenClaw接上飛書後，我的AI每天凌晨自動搞定10大熱點分析+內容產出

Day103 OpenClaw跑出一堆數據沒人看？飛書+Dashboard 3步搞定

Day105 OpenClaw的Agent不聽話？Python+Cron讓工作流穩如生產線

Day106 6個Agent+3層記憶+5個Dashboard模塊我用OpenClaw搭了個24小時自動運營系統

Day107 OpenClaw蝦一次自動發了19篇被限流聊聊AI全自動化踩的坑

Day108 AI Agent學了一堆卻不出活？OpenClaw 6步閉環讓它自己拆任務、追數據、漲粉絲

我是賀伯，一個35+的工廠IE主管，正在用工業思維拆解AI編程，每天記錄我從0基礎到用AI賺到第一塊錢的全過程。