我以為 Claude Code workflow 是幫我幹活，結果它把我變成了一羣 agents 的質檢員

作者：縱所周知101

日期：2026年6月1日上午7:03

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

用Claude Code workflow嘅反思：生產力爆升但審查變瓶頸，判斷力先係最值錢嘅嘢

整理版摘要

作者係一個內容創作者，嘗試用Claude Code新出嘅dynamic workflows功能，一次過派出80個agent去設計認知圖解。佢原本以為可以甩手等收貨，點知變咗要逐個審查80版輸出，搞到自己由「做」變成「睇」，仲要睇到成個人散曬。呢個經歷令佢意識到，AI可以放大產出，但審查環節仍然要靠人，結果人變成咗唯一嘅瓶頸。

作者分析，AI令生產自動化之後，產出量升咗98%，但審查時間亦都升咗91%，即係生產踩咗油門，但審查仲用兩條腿跑。呢個結構性問題令使用者陷入兩難：一係做橡皮圖章求其放行，一係俾產出淹死。連Anthropic自己都要出多agent審查工具去攔住自己放出嚟嘅洪水。

結論係，AI將「造」嘅成本打到地板，但「選」嘅價值就頂上天。工具嘅上限唔係佢生成到幾多，而係你能判斷幾多。工種上移咗，但判斷力呢樣嘢冇人教，只能靠自己磨。所以與其一次派80個，不如先派8個，審明白咗先再擴大。最終，喺人人都識生成嘅時代，唯一仲賣到錢嘅，係你個腦入面嗰種分得清好壞嘅判斷。

AI workflow大幅提升產出，但審查成為新瓶頸，人由執行者變咗判斷者。
用workflow時要根據自己審查能力控制agent數量，先小批量對齊再擴大。
AI能生成大量「可用」但唔一定「對味」嘅輸出，品味同判斷力變成稀缺資源。
工種上移但冇培訓，判斷力需要自我磨練，比執行技能更重要。
限制AI輸出量，每次只產出審得完嘅量；同時建立自己對「好」嘅標準。

整理重點

親身經歷：workflow嘅陷阱

作者用Claude Code嗰個dynamic workflows功能，呢個功能係research preview，5月28號先開放。佢一次過派出80個agent去設計認知圖解，諗住可以嘆茶等收貨。

點知貨返曬嚟，80版設計齊齊整整咁砸到面前。佢先發現自己請咗80個互不通氣嘅臨時工，每個都要佢親自對。呢個唔係矯情，係有數嘅：agent湊埋一齊做嘢，成功率比單幹低差唔多一半，卡嘅就係社會智能。

派得出去係本事，收得返嚟先係

呢句說話就係佢嗰日嘅寫照。

整理重點

結構性失衡：生產與審查嘅賽跑

作者本來以為審查就係揾錯處，但發現唔係。80版設計好少出錯，要審嘅係「呢版對唔對味」，而唔係「有冇bug」。呢個係認知活，冇得外包。

生產一腳油門踩到底，審查仲係兩條腿跑，結果就係嘢越堆越多，全部塞喺一個人身上。
到最後，被生產推着走嘅人剩兩個選擇：做橡皮圖章求其放行，或者俾產出淹死。
連Anthropic都頂唔順，今年3月出咗個多agent代碼審查工具，專門去審AI寫嘅嘢。呢個係第一次有頂級實驗室公開承認創造跑贏咗驗證。

Karpathy早講過要俾AI拴根繩，意思係約束輸出量，一次只產出人審得完嘅量。原作者引申話：與其一口氣派80個，不如先派8個，審明白對齊咗再撒下一批。

整理重點

未來出路：判斷力係新嘅護城河

我們被賣咗一個故事：AI越強，人越輕鬆，門檻越低。但作者經歷話俾我哋知，工具替你將「做」搞掂之後，留俾你嘅全部係「判斷」。判斷係比做更高一級嘅台階。

工種確實上移咗，由寫變審，由做變拍板。但呢個上移冇人發獎狀，亦冇人教。過去賴以食飯嘅「會做」唔值錢，值錢嘅係「會判斷」。呢樣嘢學校冇教，老細冇教，AI更加俾唔到你。

所以最終，喺呢個人人都能生成嘅時代，唯一仲賣得出價錢嘅，係你個腦入面嗰點分得清好壞嘅判斷。將呢點嘢磨厚，比學派800個agent重要得多。

我由朝坐到黑，一粒字都冇寫。但係我比任何一日寫稿都攰。

因為我喺度批一個認知圖解嘅前端設計——準確啲講，係批 80 個。我開咗 Claude Code 嘅 workflow，一口氣派咗 80 個 agent 出去，每個都畀我吐返一版。我做嘅嘢，由"做"變成咗"睇"。睇完嗰日我先至認清一件事：睇，比做攰好多。

我一個搞內容、搞認知嘅人，嗰日硬生生將自己坐成咗生產線尾端嘅質檢員。

01我以為派出去就解放咗，點知我變咗唯一嘅瓶頸

先講下 workflow 係個咩嘢，

Claude Code 呢個月尾啱啱開咗 dynamic workflows，仲係 research preview，5月28號嘅事，到今日計埋計埋都係三日。佢同"一個 AI 幫你做嘢"唔係同一回事。佢係 Claude 現場寫一段調度腳本，將你做嘅嘢拆開，掟俾一羣分身去並行做。撒出去，收回來，再整合返。一個 workflow 最多可以拉起 1000 個 subagent，16 個同時跑。

我嗰 80 個，就係咁樣撒出去嘅。

撒出去嗰一下，真係爽。我個腦入面嘅畫面係：80 個員工，同時開工，我嘆緊茶等收貨。

跟住啲貨返咗嚟。80 版設計，齊齊整整砸到我面前。

我請咗 80 個互不通氣、仲要得我一個一個對嘅臨時工。佢哋彼此唔知對方做緊乜，方向各有各走。呢個唔係我矯情，係有數據嘅：agent 一齊做嘢，成功率比單獨做低差唔多一半，卡住嘅就係"社會智能"——佢哋唔會好似人咁互相對齊。

而可以將呢 80 個對齊、收口、揀出嗰個啱嘅人，得我一個。派得出去係本事。收得返嚟，先至係。

02冇人話畀你知：審，比寫更用腦

我本來以為，審就係捉錯。揀 bug、揾毛病、將唔啱嘅揪出嚟。真係落手發現唔係。嗰 80 版設計，出錯嘅其實好少。行得鬱、唔會崩、規規矩矩，揀唔出咩大問題。要命就要命喺呢度。

出錯少，唔等於唔使審。因為我要審嘅根本唔係"佢啱唔啱"——係"佢啱唔啱、好唔好、係唔係我個腦入面嗰個認知圖解本來應該有嘅樣"。

呢兩件事嘅分別。揀錯，係體力活，agent 自己都查到，根本唔使用我。揀"呢 80 個裏邊邊個真係啱我心水"，係認知活——呢個，我外包唔出去。

80 個產出擺喺面前，每一個都講得過去，都"用得"。可以從裏頭一眼認出"呢版捉到路，嗰 79 版爭啲"嘅，靠嘅係我個腦入面嗰套對"認知圖解到底應該係點樣"嘅判斷。

呢套判斷，我有，agent 冇。我一旦有一日冇咗，呢 80 個就係 80 團我分唔清好壞嘅漿糊。

所以對用呢套工具嘅人，要求其實係變高咗，唔係變低。門檻冇消失，佢移咗個位——由"你識唔識做"，移咗去"你分唔分得清好壞"。

呢件事唔係得我一個人撞到。舊年 Stack Overflow 嗰個調查，84% 嘅人用緊 AI，但係得 33% 信得過佢俾嘅嘢。中間爭咗成 51 個百分點。你諗下呢個畫面：一大班人，日日用緊一個自己都唔敢全信嘅嘢。嗰個"敢唔敢信"嘅缺口，邊個嚟填？只能靠用嘅人嗰啲判斷力去填。

當生成變得唔使錢，品味就變成咗最貴嘅嘢。你可以造一萬張圖，但"邊張好"——呢個判斷，係新嘅稀缺品。AI 將"造"嘅成本打到地板，結果將"揀"嘅價值頂到上天。

03生產踩咗油門，審查仲用緊兩條腿跑

攰，唔係因為我懶、亦唔係因為 agent 唔得。係因為一個結構性嘅嘢：生產呢頭被自動化咗，審查呢頭冇。

只要一個系統係咁——生產可以無限放大，審查仲要靠人一個個睇——咁人，必然變成嗰個瓶頸。

呢個都有數據。有統計話，重度用 AI 之後，人做嘅嘢多咗 21%，合併嘅成果量升咗 98%。聽落好靚。但同一批數據裏面，審呢啲嘢花嘅時間，升咗 91%。AI 產出嘅嘢，排隊等人審嘅時間，係人自己寫嘅嘢嘅 4.6 倍。

生產嗰頭一腳油門踩到盡，審查呢頭仲係兩條腿喺度跑。嘢越堆越多，全部塞喺我一個人身上。呢個就係我嗰日"一字都冇寫，但係攰到死"嘅真正原因——我唔係冇產出，我係俾產出浸咗。

有句話我見到嗰陣心諗一下：到最後，被生產推住走嘅人，得返兩個選擇。一係橡皮圖章，閂埋眼放過去；一係被活活浸死。

最可以說明問題嘅，係連 Anthropic 自己都頂唔順。今年 3 月，佢上線咗一個多 agent 嘅代碼審查工具。一個做 AI 嘅公司，專登做咗個 AI，去審 AI 寫出嚟嘅嘢。呢個幾乎係第一次，有頂級實驗室公開承認：創造呢頭，已經跑贏咗驗證嗰頭。佢哋要再造一道閘，去攔自己放出嚟嘅洪水。

Karpathy 早就講過一句，畀 AI 綁條繩。佢嘅意思好實在：一個 AI 秒生成一萬行代碼，冇用——因為人要花幾個鐘先驗得完。真正應該做嘅，係約束佢嘅輸出，等佢一次只係吐出你審得嚟嘅量。

將呢條繩放喺我嗰日嘅事上，道理係通嘅：與其一口氣派 80 個，不如先派 8 個，審清楚、對齊咗，再撒下一批。

04工種上移唔係升職，係俾一隻手推到你仲未學識嘅位置

我哋俾人賣咗一個故事：AI 越強，人越輕鬆，門檻越低，個個都可以上手。我嗰 80 個 agent 批落嚟，信咗另一個版本。

工具幫你將"做"呢件事搞掂之後，剩低畀你嘅，全部係"判斷"。而判斷，係比做更高一級嘅台階。

工種確實上移咗。由寫嘅人，移到審嘅人；由埋頭做嘢嘅，移到抬頭話事嘅。但係呢個上移冇人畀你發獎狀，亦冇人教你點做。去到新位置，你過去賴以維生嘅"識做"，突然唔值錢喇；值錢嘅係"識判斷"。而呢樣嘢，學校冇教過你，老細冇教過你，AI 更加俾唔到你。

所以仲要唔要用 workflow？要唔要一次派 80 個？我冇標準答案，得一把尺：睇你審得嚟幾多。

你判斷力嘅邊界，就係你應該派出去嘅 agent 數量嘅邊界。審得嚟，多多益善，真係正；審唔嚟，派得越多，你就越係幫自己挖窿——挖完仲要自己跳落去填。

工具嘅上限，從來唔係佢可以生成幾多。係你，可以判斷幾多。

嗰日 80 個 agent 冇令我變得輕鬆。佢逼到我睇清：喺呢個人人都可以生成嘅時代，我唯一仲賣得出價錢嘅，係我個腦入面嗰啲"分得清好壞"嘅判斷。

將呢啲嘢磨厚，比起學識派 800 個 agent，重要得多。

嚟 AI 覺醒星球，我哋一齊，將一個人可以做嘅事做到最大——就算，係喺被一班 AI 分身追住跑嘅日子裏面。

周知 · 我哋一齊同 AI 覺醒超級個體

我從早坐到晚，一個字沒寫。但我比哪天寫稿都累。

因為我在批一個認知圖解的前端設計——準確說，是批 80 個。我開了 Claude Code 的 workflow，一口氣派了 80 個 agent 出去，每個給我吐回一版。我的活，從"做"變成了"看"。看完那天我才認清一件事：看，比做累多了。

我一個搞內容、搞認知的人，那天活活把自己坐成了流水線盡頭的質檢員。

01我以為派出去就解放了，結果我成了那個唯一的瓶頸

先說說 workflow 是個什麼東西，

Claude Code 這個月底剛開了 dynamic workflows，還是 research preview，5 月 28 號的事，到今天滿打滿算三天。它跟"一個 AI 幫你幹活"不是一回事。它是 Claude 現場寫一段調度腳本，把你的活拆開，扔給一羣分身去並行幹。撒出去，收回來，再合起來。一個 workflow 最多能拉起 1000 個 subagent，16 個同時跑。

我那 80 個，就是這麼撒出去的。

撒出去那一下，是真爽。我腦子裏的畫面是：80 個員工，同時開工，我喝着茶等收貨。

然後貨回來了。80 版設計，齊刷刷砸到我面前。

我請了 80 個互不通氣、還都得我一個個對的臨時工。它們彼此不知道對方在幹嘛，方向各跑各的。這不是我矯情，是有數的：agent 湊一起幹活，成功率比單幹低差不多一半，卡的就是"社會智能"——它們不會像人一樣互相對齊。

而能把這 80 個對齊、收口、挑出那個對的人，只有我。派得出去是本事。收得回來，才是。

02沒人告訴你的：審，比寫更吃腦子

我本來以為，審就是抓錯。挑 bug、找毛病、把不對的揪出來。真上手發現不是。那 80 版設計，出錯的其實很少。能跑、不崩、規規矩矩，挑不出什麼硬傷。要命就要命在這兒。

出錯少，不等於不用審。因為我要審的根本不是"它錯沒錯"——是"它對不對、好不好、是不是我腦子裏那個認知圖解本該有的樣子"。

這兩件事的區別。挑錯，是力氣活，agent 自己都能查，根本用不着我。挑"這 80 個裏哪個真對上了我的意"，是認知活——這個，我外包不出去。

80 個產出擺面前，每一個都說得過去，都"能用"。能從裏頭一眼認出"這版抓住了，那 79 版差口氣"的，靠的是我腦子裏那套對"認知圖解到底該長啥樣"的判斷。

這套判斷，我有，agent 沒有。我但凡哪天沒有了，這 80 個就是 80 團我分不清好壞的漿糊。

所以對用這套工具的人，要求其實是變高的，不是變低。門檻沒消失，它挪了個地方——從"你會不會做"，挪到了"你分不分得清好壞"。

這事不是我一個人撞上的。去年 Stack Overflow 那個調查，84% 的人在用 AI，可只有 33% 信得過它給的東西。中間差着整整 51 個點。你想想這個畫面：一大羣人，天天在用一個自己都不敢全信的東西。那個"敢不敢信"的缺口，誰來填？只能靠用的人那點判斷力去填。

當生成變得不要錢，品味就變成了最貴的東西。你能造一萬張圖，但"哪張好"——這個判斷，是新的稀缺品。AI 把"造"的成本打到了地板，結果把"選"的價值頂上了天。

03生產踩了油門，審查還在用兩條腿跑

累，不是因為我懶、也不是因為 agent 不行。是因為一個結構性的東西：生產這頭被自動化了，審查這頭沒有。

只要一個系統是這樣——生產能無限放大，審查還得靠人一個個看——那麼人，必然變成那個瓶頸。

這也有數。有統計說，重度用 AI 之後，人乾的活多了 21%，合併的成果量漲了 98%。聽着很美。但同一批數據裏，審這些東西花的時間，漲了 91%。AI 產出的東西，排隊等人審的時長，是人自己寫的東西的 4.6 倍。

生產那頭一腳油門踩到底，審查這頭還是兩條腿在跑。東西越堆越多，全堵在我這一個人身上。這就是我那天"一個字沒寫，卻累到不行"的真正原因——我不是沒產出，我是被產出淹了。

有句話我看到的時候心裏咯噔一下：到最後，被生產推着走的人，只剩兩個選擇。要麼橡皮圖章，閉着眼放過去；要麼被活活淹死。

最能說明問題的，是連 Anthropic 自己都繃不住了。今年 3 月，它上線了一個多 agent 的代碼審查工具。一個做 AI 的公司，專門做了個 AI，去審 AI 寫出來的東西。這幾乎是第一次，有頂級實驗室公開承認：創造這頭，已經跑贏了驗證那頭。它們得再造一道閘，去攔自己放出來的洪水。

Karpathy 早就說過一句，給 AI 拴根繩。他的意思很實在：一個 AI 秒生成一萬行代碼，沒用——因為人得花幾個小時才驗得完。真正該乾的，是約束它的輸出，讓它一次只吐出你審得過來的量。

把這根繩放到我那天的事上，道理是通的：與其一口氣派 80 個，不如先派 8 個，審明白了、對齊了，再撒下一批。

04工種上移不是升職，是被一隻手推到你還沒學會的位置

我們被賣了一個故事：AI 越強，人越輕鬆，門檻越低，人人都能上手。我那 80 個 agent 批下來，信了另一個版本。

工具替你把"做"這件事幹掉之後，剩給你的，全是"判斷"。而判斷，是比做更高的一級台階。

工種確實上移了。從寫的人，移到審的人；從埋頭幹活的，移到抬頭拍板的。可這上移沒人給你發獎狀，也沒人教你怎麼幹。到了新位置上，你過去賴以吃飯的"會做"，突然不值錢了；值錢的是"會判斷"。而這玩意兒，學校沒教過你，老闆沒教過你，AI 更給不了你。

所以還要不要用 workflow？要不要一次派 80 個？我沒有標準答案，只有一把尺子：看你審得過來多少。

你判斷力的邊界，就是你該派出去的 agent 數量的邊界。審得過來，多多益善，那是真香；審不過來，派得越多，你越是給自己挖坑——挖完還得自己跳下去填。

工具的上限，從來不是它能生成多少。是你，能判斷多少。

那天 80 個 agent 沒讓我變輕鬆。它逼着我看清：在這個人人都能生成的時代，我唯一還賣得出價錢的，是我腦子裏那點"分得清好壞"的判斷。

把這點東西磨厚，比學會派 800 個 agent，重要得多。

來 AI 覺醒星球，我們一起，把一個人能做的事做到最大——哪怕，是在被一羣 AI 分身追着跑的日子裏。

周知 · 我們一起和 AI 覺醒超級個體