我給 Hermes 搭了 12 個 Agent自動開發網站，才發現 AI 工作台最難的不是模型

作者：蝦哥AI

日期：2026年6月8日上午8:20

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

AI工作台最難嘅唔係模型，而係點樣令成班Agent唔好互相添亂

整理版摘要

呢篇文章係作者以佢自己開發嘅本地AI工作台Hermes為例子，分享佢點樣將一個網站開發項目拆成12個Agent嚟協作。作者發現單Agent應付複雜項目好快就會亂，因為冇清晰嘅崗位分工。佢嘅核心觀察係：AI工作台嘅瓶頸唔係模型能力，而係冇一套好似真實團隊咁嘅組織結構。

作者嘅解決方法係為每個Agent定義清楚「自己做咩」、「輸入從邊度嚟」、「輸出交俾邊個」，再用看板嚟管理任務狀態，避免重複同越界工作。佢仲提到模型要分層，唔係全部用最強模型，而係按任務需求分配。另外，佢特別提醒要防止AI將內部開發過程寫入用戶見到嘅產品入面。整體結論係：未來普通人用AI唔會只係同一個最強模型傾偈，而係會變成一個有小組角色、狀態、邊界同驗收嘅工作系統。

AI工作台嘅瓶頸在於分工唔係模型能力——單Agent多工好易亂，要似團隊咁拆角色。
將Hermes拆成12個Agent，每個Agent要有明確嘅輸入輸出同邊界，唔好越界。
睇板比聊天更適合多Agent協作，因為聊天係線性，睇板係狀態化，可以清楚任務進度。
模型要分層，唔使全部上最強模型；需求、架構嗰啲用強模型，整理、檢查用輕模型就得。
要設立QA驗收機制，防止AI將內部過程（例如Agent提示、handoff）寫入用戶界面，造成內容污染。

整理重點

單Agent好快就會亂

如果只係叫一個AI幫你寫幾段代碼，單Agent係夠用。但一旦要「開發一個網站」，複雜度就完全唔同曬。入面有需求拆解、架構設計、頁面開發、視覺調整、交互驗證、部署管理、問題記錄等完全唔同嘅任務。

將呢啲任務全部塞俾一個Agent，佢表面上乜都應承，但好快變成一鍋粥

作者發現AI工作流嘅樽頸好多時唔係「佢唔夠聰明」，而係「佢冇崗位」。

整理重點

拆成12個Agent，補返組織結構

每個Agent必須知三件事：自己負責咩、輸入從邊度嚟、輸出交俾邊個

作者將Hermes知識庫拆成幾組文檔：角色輸入輸出、睇板操作、部署規範、QA驗收、踩坑記錄、模型額度策略、後續優化方向。呢啲文檔本質係俾AI團隊補組織結構。

需求拆解Agent：負責將用戶需求拆成可執行任務
架構設計Agent：決定技術棧同模塊劃分
頁面開發Agent：逐個頁面編寫代碼
視覺檢查Agent：確保UI同設計規範一致
交互驗證Agent：測試用戶操作流程
部署管理Agent：處理伺服器配置同上線
問題記錄Agent：追蹤Bug同改進點

整理重點

睇板比聊天更重要

作者強調Hermes呢套流程更睇重任務狀態、負責人、依賴同驗收，而唔係單個Agent答得有幾靚。

睇板係多Agent嘅關鍵界面，唔係單靠對話

整理重點

模型都要分層，唔好全員頂配

最開始好易有衝動：12個Agent全部用最強模型。但作者話咁樣唔現實，亦冇必要。

直接決定需求、架構、實現同驗收嘅Agent值得用強模型

整理、檢查、記錄、輔助判斷嘅Agent用輕模型更合適

呢啲同真實團隊一樣：唔會叫CTO整理會議紀要，亦唔會叫實習生拍板系統架構。真正成熟嘅AI工作台係將唔同任務放到合適位置，影響成本、速度同穩定性。

整理重點

防止內部過程泄漏，同埋ai-gong嘅誕生

作者做Hermes後，又整咗個ai-gong：本地Codex負責記錄佢做過嘅嘢，遠端OpenClaw負責將文章送入公眾號草稿箱。本地負責記事同寫作，遠端負責交付，分工明確。

唔係將所有能力塞入一個地方，而係讓每個部分做自己最適合嘅事

作者最後確認：未來普通人用AI，會愈來愈似一個小型工作系統，有角色、狀態、邊界、驗收、覆盤同持續沉澱。AI唔只係回答問題嘅工具，而係一種工作組織方式。

我俾Hermes砌咗12個Agent，先發現AI工作台最難嘅唔係模型

蝦哥導讀今日我將Hermes繼續向「本地AI工作台」方向推進：12個Agent、看板、模型分工、網站開發流程。做完之後我發現，真正難嘅唔係令AI變聰明，而係令成班AI唔好互相搞亂。我想要嘅係一個本地AI工作台。具體啲講，係一個可以將項目拆開、派發、推進、驗收嘅多Agent工作台。呢件事聽落好順。但係真係做嘅時候，最首先彈出嚟嘅問題唔係模型能力，而係分工。

單Agent好快就會亂

如果只係俾一個AI幫你寫幾段code，單Agent就夠。

但係一旦件事變成「開發一個網站」，複雜程度即刻變咗。

呢度最少有幾類完全唔同嘅任務：

· 需求要有人拆

· 架構要有人定

· 頁面要有人做

· 視覺要有人跟

· 交互要有人驗

· 部署要有人管

· 後續問題要有人記錄

如果呢啲嘢都塞俾一個Agent，佢表面上乜都應承，實際上好容易變到一鑊粥。

佢頭先仲喺度做產品定位，轉頭又要寫CSS。

啱啱講完要做驗收，下一秒又要返去改需求。

最後你睇落好似有好多output，但係項目推進得有啲亂。

呢個就係我今日最強嘅感受：

AI工作流嘅瓶頸，好多時唔係「佢唔夠聰明」，而係「佢冇崗位」。

我將Hermes拆成12個Agent

所以我俾Hermes定咗一套更加似「小團隊」嘅結構。

唔係一個萬能Agent，而係12個有上下游關係嘅Agent。

每個Agent必須要知道三件事：

· 自己負責啲咩

· input從邊度嚟

· output交俾邊個

呢個比起淨係俾佢一個「你係資深專家」嘅提示詞有用得多。

因為「資深專家」只係身份感。

但係「你收到啲咩、產出啲咩、唔可以越過邊啲界線」，先係真正可以約束工作流嘅嘢。

今日嘅Hermes知識庫入面，我將呢啲嘢拆成咗幾組文件：角色input output、看板操作、部署規範、QA驗收、踩坑記錄、模型額度策略、後續優化方向。

呢套嘢睇落好似文件。

但係本質上，佢係喺度俾AI團隊補返組織結構。

看板比起傾偈更加重要

我以前都會低估看板。

成日覺得AI強咗之後，直接對話就得。

但係今日做Hermes嘅時候，我反而越來越覺得，看板係多Agent嘅關鍵界面。

傾偈窗口適合靈感。

看板適合推進。

原因好簡單：傾偈係線性嘅，看板係狀態化嘅。

一個任務到底係喺度等緊依賴，定係已經就緒，定係處理緊，定係等驗收，淨係靠傾偈記錄好難判斷。

但係放入看板度，狀態就俾固定咗落嚟。

呢件事對多Agent尤其重要。

因為Agent之間最怕嘅唔係「唔做嘢」，而係「重複做嘢」同「越界做嘢」。

一個Agent仲未做完，另一個Agent就開始基於半製成品繼續寫。

一個Agent應該做QA，但係順手改咗產品需求。

一個Agent應該處理部署，但係開始評價視覺風格。

呢啲問題唔係模型問題。

呢個係協作系統問題。

所以Hermes呢套流程入面，我更看重嘅係任務狀態、負責人、依賴同驗收，而唔係單個Agent答得有幾靚。

模型都要分層，唔係全部用最頂級

今日仲有一個好實際嘅決定：模型點樣分。

最開始好容易有一種衝動：既然要做12個Agent，咁就全部用最強模型。

但係呢個唔現實。

都冇必要。

有啲Agent直接決定需求、架構、實現同驗收，佢哋值得用更強嘅模型。

有啲Agent做嘅係整理、檢查、記錄、輔助判斷，用更輕嘅模型反而更加合適。

呢個同真實團隊一樣。

你唔會叫CTO去整理會議紀要。

都唔會叫實習生拍板系統架構。

AI Agent都係咁。

真正成熟嘅AI工作台，唔係將所有任務都掉俾最強模型，而係將唔同任務放喺合適嘅位置。

呢件事會直接影響成本、速度同穩定性。

真正嘅坑：AI好容易將內部過程寫落產品度

今日整理網站開發工作流嘅時候，我特別記咗一條風險：

頁面唔可以出現「開發過程」「Agent提示」「handoff」呢啲面向內部嘅文字。

呢個睇落係小問題。

但係喺AI開發入面好常見。

因為AI好擅長將自己啱啱見到嘅上下文寫入結果。

你叫佢做一個面向用戶嘅網站，佢可能會將開發說明都寫落頁面度。

你叫佢生成產品介紹，佢可能會將任務分工都塞入去。

你叫佢總結功能，佢可能會將內部流程當成賣點。

呢個就係AI協作入面非常典型嘅一類污染：

佢分唔清「俾開發者睇嘅過程」同「俾用戶睇嘅產品」。

所以我而家會將QA驗收單獨抽出來。

唔係為咗形式感。

而係為咗擋住呢啲好容易被忽略嘅小泄漏。

今日順手做咗ai-gong

做完Hermes呢套嘢之後，我又遇到另一個問題：

呢啲過程本身，其實就係內容。

我每日都喺度用AI拆任務、做網站、砌工作流、修系統。

但係如果唔記錄，第二日就剩返一句好空嘅話：

「尋日搞咗嚇AI。」

呢句說話冇任何傳播價值。

真正有價值嘅係過程：

· 點解要拆成12個Agent

· 點解看板比傾偈重要

· 點解模型要分層

· 點解QA要防止內部過程泄漏

· 點解本地工作台同雲端發佈要分開

所以今日我又俾自己做咗一個ai-gong。

佢嘅思路好簡單：本地Codex負責睇我今日到底做咗啲咩，遠端OpenClaw負責將寫好嘅文章送入公眾號草稿箱。

呢個分工好關鍵。

因為我本地嘅VSCode、Codex、Obsidian、Hermes記錄，騰訊雲上面嘅OpenClaw默認係唔知嘅。

如果叫遠端系統硬估我今日做咗啲咩，寫出嚟大概率會好空。

反過來，如果將發佈鏈路都放喺本地，又會破壞OpenClaw現有嘅公眾號草稿箱能力。

所以最穩陣嘅方式係：

本地負責記事同寫作，遠端負責交付。

呢個同Hermes嘅多Agent分工其實係同一回事。

唔係所有能力都塞入一個地方。

而係令每個部分只做自己最適合做嘅嘢。

我今日真正確認嘅一件事

今日呢輪折騰落嚟，我更確定一個判斷：

未來普通人用AI，唔會只係「揾一個最強模型傾偈」。

真正有價值嘅形態，會越來越似一個小型工作系統。

有角色。

有狀態。

有邊界。

有驗收。

有覆盤。

都有持續沉澱。

Hermes嘅12個Agent係咁。

ai-gong都係咁。

一個負責將項目向前推。

一個負責將過程變成內容。

佢哋睇落係兩個項目，其實背後係同一個方法：

唔好幻想一個AI包辦一切。將事情拆清楚，AI先真正開始變得有用。

呢個可能先係我今日最想記錄落嚟嘅嘢。

AI唔止係回答問題嘅工具。

佢開始變成一種工作組織方式。

我給 Hermes 搭了 12 個 Agent，才發現 AI 工作台最難的不是模型

蝦哥導讀今天我把 Hermes 繼續往“本地 AI 工作台”方向推進：12 個 Agent、看板、模型分工、網站開發流程。做完之後我發現，真正難的不是讓 AI 變聰明，而是讓一羣 AI 別互相添亂。我想要的是一個本地 AI 工作台。更具體一點，是一個可以把項目拆開、派發、推進、驗收的多 Agent 工作台。這件事聽起來很順。但真正做起來，最先冒出來的問題不是模型能力，而是分工。

單 Agent 很快就會亂

如果只是讓一個 AI 幫你寫幾段代碼，單 Agent 足夠。

但一旦事情變成“開發一個網站”，複雜度馬上變了。

這裏面至少有幾類完全不同的任務：

· 需求要有人拆

· 架構要有人定

· 頁面要有人做

· 視覺要有人盯

· 交互要有人驗

· 部署要有人管

· 後續問題要有人記錄

如果這些事都塞給一個 Agent，它表面上什麼都答應，實際很容易變成一鍋粥。

它前一段還在做產品定位，後一段又要寫 CSS。

剛說完要做驗收，下一秒又要回去改需求。

最後你看起來有了很多輸出，但項目推進的有點亂。

這就是我今天最強的感受：

AI 工作流的瓶頸，很多時候不是“它不夠聰明”，而是“它沒有崗位”。

我把 Hermes 拆成 12 個 Agent

所以我給 Hermes 定了一套更像“小團隊”的結構。

不是一個萬能 Agent，而是 12 個有上下游關係的 Agent。

每個 Agent 必須知道三件事：

· 自己負責什麼

· 輸入從哪裏來

· 輸出交給誰

這比單純給它一個“你是資深專家”的提示詞有用得多。

因為“資深專家”只是身份感。

但“你收到什麼、產出什麼、不能越過什麼邊界”，才是真正能約束工作流的東西。

今天的 Hermes 知識庫裏，我把這些東西拆成了幾組文檔：角色輸入輸出、看板操作、部署規範、QA 驗收、踩坑記錄、模型額度策略、後續優化方向。

這套東西看起來像文檔。

但本質上，它是在給 AI 團隊補組織結構。

看板比聊天更重要

我以前也會低估看板。

總覺得 AI 強了以後，直接對話就行。

但今天做 Hermes 的時候，我反而越來越覺得，看板是多 Agent 的關鍵界面。

聊天窗口適合靈感。

看板適合推進。

原因很簡單：聊天是線性的，看板是狀態化的。

一個任務到底是在等待依賴，還是已經就緒，還是正在處理，還是等待驗收，光靠聊天記錄很難判斷。

但放到看板裏，狀態就被固定下來了。

這件事對多 Agent 尤其重要。

因為 Agent 之間最怕的不是“不幹活”，而是“重複幹活”和“越界幹活”。

一個 Agent 還沒做完，另一個 Agent 就開始基於半成品繼續寫。

一個 Agent 應該做 QA，卻順手改了產品需求。

一個 Agent 應該處理部署，卻開始評價視覺風格。

這些問題不是模型問題。

這是協作系統問題。

所以 Hermes 這套流程裏，我更看重的是任務狀態、負責人、依賴和驗收，而不是單個 Agent 回答得有多漂亮。

模型也要分層，而不是全員頂配

今天還有一個很實際的決策：模型怎麼分。

最開始很容易有一種衝動：既然要做 12 個 Agent，那就都上最強模型。

但這不現實。

也沒必要。

有些 Agent 直接決定需求、架構、實現和驗收，它們值得用更強的模型。

有些 Agent 做的是整理、檢查、記錄、輔助判斷，用更輕的模型反而更合適。

這和真實團隊一樣。

你不會讓 CTO 去整理會議紀要。

也不會讓實習生拍板系統架構。

AI Agent 也是這樣。

真正成熟的 AI 工作台，不是把所有任務都丟給最強模型，而是把不同任務放到合適的位置。

這件事會直接影響成本、速度和穩定性。

真正的坑：AI 很容易把內部過程寫到產品裏

今天整理網站開發工作流時，我特別記了一條風險：

頁面不能出現“開發過程”“Agent 提示”“handoff”這類面向內部的文字。

這看起來是小問題。

但在 AI 開發裏很常見。

因為 AI 很擅長把自己剛剛看到的上下文寫進結果。

你讓它做一個面向用戶的網站，它可能把開發說明也寫到頁面裏。

你讓它生成產品介紹，它可能把任務分工也塞進去。

你讓它總結功能，它可能把內部流程當成賣點。

這就是 AI 協作裏非常典型的一類污染：

它分不清“給開發者看的過程”和“給用戶看的產品”。

所以我現在會把 QA 驗收單獨拿出來。

不是為了形式感。

而是為了擋住這些很容易被忽略的小泄漏。

今天順手做了 ai-gong

做完 Hermes 這套東西以後，我又遇到另一個問題：

這些過程本身，其實就是內容。

我每天都在用 AI 拆任務、做網站、搭工作流、修系統。

但如果不記錄，第二天就只剩一句很空的話：

“昨天搞了一下 AI。”

這句話沒有任何傳播價值。

真正有價值的是過程：

· 為什麼要拆成 12 個 Agent

· 為什麼看板比聊天重要

· 為什麼模型要分層

· 為什麼 QA 要防止內部過程泄漏

· 為什麼本地工作台和雲端發佈要分開

所以今天我又給自己做了一個 ai-gong。

它的思路很簡單：本地 Codex 負責看我今天到底做了什麼，遠程 OpenClaw 負責把寫好的文章送進公眾號草稿箱。

這個分工很關鍵。

因為我本地的 VSCode、Codex、Obsidian、Hermes 記錄，騰訊雲上的 OpenClaw 默認並不知道。

如果讓遠程系統硬猜我今天干了什麼，寫出來大概率會空。

反過來，如果把發佈鏈路也放在本地，又會破壞 OpenClaw 現有的公眾號草稿箱能力。

所以最穩的方式是：

本地負責記事和寫作，遠程負責交付。

這和 Hermes 的多 Agent 分工其實是一回事。

不是所有能力都塞進一個地方。

而是讓每個部分只做自己最適合做的事。

我今天真正確認的一件事

今天這輪折騰下來，我更確定一個判斷：

未來普通人用 AI，不會只是“找一個最強模型聊天”。

真正有價值的形態，會越來越像一個小型工作系統。

有角色。

有狀態。

有邊界。

有驗收。

有覆盤。

也有持續沉澱。

Hermes 的 12 個 Agent 是這樣。

ai-gong 也是這樣。

一個負責把項目往前推。

一個負責把過程變成內容。

它們看起來是兩個項目，其實背後是同一個方法：

不要幻想一個 AI 包辦一切。把事情拆清楚，AI 才真的開始變有用。

這可能才是我今天最想記錄下來的東西。

AI 不只是回答問題的工具。

它開始變成一種工作組織方式。