我以為 Claude Code workflow 是幫我幹活,結果它把我變成了一羣 agents 的質檢員

作者:縱所周知101
日期:2026年6月1日 上午7:03
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

Claude Code workflow嘅反思:生產力爆升但審查變瓶頸,判斷力先係最值錢嘅嘢

整理版摘要

作者係一個內容創作者,嘗試用Claude Code新出嘅dynamic workflows功能,一次過派出80個agent去設計認知圖解。佢原本以為可以甩手等收貨,點知變咗要逐個審查80版輸出,搞到自己由「做」變成「睇」,仲要睇到成個人散曬。呢個經歷令佢意識到,AI可以放大產出,但審查環節仍然要靠人,結果人變成咗唯一嘅瓶頸。

作者分析,AI令生產自動化之後,產出量升咗98%,但審查時間亦都升咗91%,即係生產踩咗油門,但審查仲用兩條腿跑。呢個結構性問題令使用者陷入兩難:一係做橡皮圖章求其放行,一係俾產出淹死。連Anthropic自己都要出多agent審查工具去攔住自己放出嚟嘅洪水。

結論係,AI將「造」嘅成本打到地板,但「選」嘅價值就頂上天。工具嘅上限唔係佢生成到幾多,而係你能判斷幾多。工種上移咗,但判斷力呢樣嘢冇人教,只能靠自己磨。所以與其一次派80個,不如先派8個,審明白咗先再擴大。最終,喺人人都識生成嘅時代,唯一仲賣到錢嘅,係你個腦入面嗰種分得清好壞嘅判斷。

  • AI workflow大幅提升產出,但審查成為新瓶頸,人由執行者變咗判斷者。
  • 用workflow時要根據自己審查能力控制agent數量,先小批量對齊再擴大。
  • AI能生成大量「可用」但唔一定「對味」嘅輸出,品味同判斷力變成稀缺資源。
  • 工種上移但冇培訓,判斷力需要自我磨練,比執行技能更重要。
  • 限制AI輸出量,每次只產出審得完嘅量;同時建立自己對「好」嘅標準。
整理重點

親身經歷:workflow嘅陷阱

作者用Claude Code嗰個dynamic workflows功能,呢個功能係research preview,5月28號先開放。佢一次過派出80個agent去設計認知圖解,諗住可以嘆茶等收貨。

點知貨返曬嚟,80版設計齊齊整整咁砸到面前。佢先發現自己請咗80個互不通氣嘅臨時工,每個都要佢親自對。呢個唔係矯情,係有數嘅:agent湊埋一齊做嘢,成功率比單幹低差唔多一半,卡嘅就係社會智能。

派得出去係本事,收得返嚟先係

呢句說話就係佢嗰日嘅寫照。

整理重點

結構性失衡:生產與審查嘅賽跑

作者本來以為審查就係揾錯處,但發現唔係。80版設計好少出錯,要審嘅係「呢版對唔對味」,而唔係「有冇bug」。呢個係認知活,冇得外包。

  • 生產一腳油門踩到底,審查仲係兩條腿跑,結果就係嘢越堆越多,全部塞喺一個人身上。
  • 到最後,被生產推着走嘅人剩兩個選擇:做橡皮圖章求其放行,或者俾產出淹死。
  • Anthropic都頂唔順,今年3月出咗個多agent代碼審查工具,專門去審AI寫嘅嘢。呢個係第一次有頂級實驗室公開承認創造跑贏咗驗證。

Karpathy早講過要俾AI拴根繩,意思係約束輸出量,一次只產出人審得完嘅量。原作者引申話:與其一口氣派80個,不如先派8個,審明白對齊咗再撒下一批。

整理重點

未來出路:判斷力係新嘅護城河

我們被賣咗一個故事:AI越強,人越輕鬆,門檻越低。但作者經歷話俾我哋知,工具替你將「做」搞掂之後,留俾你嘅全部係「判斷」。判斷係比做更高一級嘅台階。

工種確實上移咗,由寫變審,由做變拍板。但呢個上移冇人發獎狀,亦冇人教。過去賴以食飯嘅「會做」唔值錢,值錢嘅係「會判斷」。呢樣嘢學校冇教,老細冇教,AI更加俾唔到你。

所以最終,喺呢個人人都能生成嘅時代,唯一仲賣得出價錢嘅,係你個腦入面嗰點分得清好壞嘅判斷。將呢點嘢磨厚,比學派800個agent重要得多。


我由朝坐到黑,一粒字都冇寫。但係我比任何一日寫稿都攰。

因為我喺度批一個認知圖解嘅前端設計——準確啲講,係批 80 個。我開咗 Claude Code 嘅 workflow,一口氣派咗 80 個 agent 出去,每個都畀我吐返一版。我做嘅嘢,由"做"變成咗"睇"。睇完嗰日我先至認清一件事:睇,比做攰好多。

我一個搞內容、搞認知嘅人,嗰日硬生生將自己坐成咗生產線尾端嘅質檢員。

全文概要圖

01我以為派出去就解放咗,點知我變咗唯一嘅瓶頸

先講下 workflow 係個咩嘢,

Claude Code 呢個月尾啱啱開咗 dynamic workflows,仲係 research preview,5月28號嘅事,到今日計埋計埋都係三日。佢同"一個 AI 幫你做嘢"唔係同一回事。佢係 Claude 現場寫一段調度腳本,將你做嘅嘢拆開,掟俾一羣分身去並行做。撒出去,收回來,再整合返。一個 workflow 最多可以拉起 1000 個 subagent,16 個同時跑。

我嗰 80 個,就係咁樣撒出去嘅。

撒出去嗰一下,真係爽。我個腦入面嘅畫面係:80 個員工,同時開工,我嘆緊茶等收貨。

跟住啲貨返咗嚟。80 版設計,齊齊整整砸到我面前。

我請咗 80 個互不通氣、仲要得我一個一個對嘅臨時工。佢哋彼此唔知對方做緊乜,方向各有各走。呢個唔係我矯情,係有數據嘅:agent 一齊做嘢,成功率比單獨做低差唔多一半,卡住嘅就係"社會智能"——佢哋唔會好似人咁互相對齊。

而可以將呢 80 個對齊、收口、揀出嗰個啱嘅人,得我一個。派得出去係本事。收得返嚟,先至係。

知識卡片 A

02冇人話畀你知:審,比寫更用腦

我本來以為,審就係捉錯。揀 bug、揾毛病、將唔啱嘅揪出嚟。真係落手發現唔係。嗰 80 版設計,出錯嘅其實好少。行得鬱、唔會崩、規規矩矩,揀唔出咩大問題。要命就要命喺呢度。

出錯少,唔等於唔使審。因為我要審嘅根本唔係"佢啱唔啱"——係"佢啱唔啱、好唔好、係唔係我個腦入面嗰個認知圖解本來應該有嘅樣"。

呢兩件事嘅分別。揀錯,係體力活,agent 自己都查到,根本唔使用我。揀"呢 80 個裏邊邊個真係啱我心水",係認知活——呢個,我外包唔出去。

80 個產出擺喺面前,每一個都講得過去,都"用得"。可以從裏頭一眼認出"呢版捉到路,嗰 79 版爭啲"嘅,靠嘅係我個腦入面嗰套對"認知圖解到底應該係點樣"嘅判斷。

呢套判斷,我有,agent 冇。我一旦有一日冇咗,呢 80 個就係 80 團我分唔清好壞嘅漿糊。

所以對用呢套工具嘅人,要求其實係變高咗,唔係變低。門檻冇消失,佢移咗個位——由"你識唔識做",移咗去"你分唔分得清好壞"。

呢件事唔係得我一個人撞到。舊年 Stack Overflow 嗰個調查,84% 嘅人用緊 AI,但係得 33% 信得過佢俾嘅嘢。中間爭咗成 51 個百分點。你諗下呢個畫面:一大班人,日日用緊一個自己都唔敢全信嘅嘢。嗰個"敢唔敢信"嘅缺口,邊個嚟填?只能靠用嘅人嗰啲判斷力去填。

當生成變得唔使錢,品味就變成咗最貴嘅嘢。你可以造一萬張圖,但"邊張好"——呢個判斷,係新嘅稀缺品。AI 將"造"嘅成本打到地板,結果將"揀"嘅價值頂到上天。

知識卡片 B

03生產踩咗油門,審查仲用緊兩條腿跑

攰,唔係因為我懶、亦唔係因為 agent 唔得。係因為一個結構性嘅嘢:生產呢頭被自動化咗,審查呢頭冇。

只要一個系統係咁——生產可以無限放大,審查仲要靠人一個個睇——咁人,必然變成嗰個瓶頸。

呢個都有數據。有統計話,重度用 AI 之後,人做嘅嘢多咗 21%,合併嘅成果量升咗 98%。聽落好靚。但同一批數據裏面,審呢啲嘢花嘅時間,升咗 91%。AI 產出嘅嘢,排隊等人審嘅時間,係人自己寫嘅嘢嘅 4.6 倍。

生產嗰頭一腳油門踩到盡,審查呢頭仲係兩條腿喺度跑。嘢越堆越多,全部塞喺我一個人身上。呢個就係我嗰日"一字都冇寫,但係攰到死"嘅真正原因——我唔係冇產出,我係俾產出浸咗。

有句話我見到嗰陣心諗一下:到最後,被生產推住走嘅人,得返兩個選擇。一係橡皮圖章,閂埋眼放過去;一係被活活浸死。

最可以說明問題嘅,係連 Anthropic 自己都頂唔順。今年 3 月,佢上線咗一個多 agent 嘅代碼審查工具。一個做 AI 嘅公司,專登做咗個 AI,去審 AI 寫出嚟嘅嘢。呢個幾乎係第一次,有頂級實驗室公開承認:創造呢頭,已經跑贏咗驗證嗰頭。佢哋要再造一道閘,去攔自己放出嚟嘅洪水。

Karpathy 早就講過一句,畀 AI 綁條繩。佢嘅意思好實在:一個 AI 秒生成一萬行代碼,冇用——因為人要花幾個鐘先驗得完。真正應該做嘅,係約束佢嘅輸出,等佢一次只係吐出你審得嚟嘅量。

將呢條繩放喺我嗰日嘅事上,道理係通嘅:與其一口氣派 80 個,不如先派 8 個,審清楚、對齊咗,再撒下一批。

知識卡片 C

04工種上移唔係升職,係俾一隻手推到你仲未學識嘅位置

我哋俾人賣咗一個故事:AI 越強,人越輕鬆,門檻越低,個個都可以上手。我嗰 80 個 agent 批落嚟,信咗另一個版本。

工具幫你將"做"呢件事搞掂之後,剩低畀你嘅,全部係"判斷"。而判斷,係比做更高一級嘅台階。

工種確實上移咗。由寫嘅人,移到審嘅人;由埋頭做嘢嘅,移到抬頭話事嘅。但係呢個上移冇人畀你發獎狀,亦冇人教你點做。去到新位置,你過去賴以維生嘅"識做",突然唔值錢喇;值錢嘅係"識判斷"。而呢樣嘢,學校冇教過你,老細冇教過你,AI 更加俾唔到你。

所以仲要唔要用 workflow?要唔要一次派 80 個?我冇標準答案,得一把尺:睇你審得嚟幾多。

你判斷力嘅邊界,就係你應該派出去嘅 agent 數量嘅邊界。審得嚟,多多益善,真係正;審唔嚟,派得越多,你就越係幫自己挖窿——挖完仲要自己跳落去填。

工具嘅上限,從來唔係佢可以生成幾多。係你,可以判斷幾多。

嗰日 80 個 agent 冇令我變得輕鬆。佢逼到我睇清:喺呢個人人都可以生成嘅時代,我唯一仲賣得出價錢嘅,係我個腦入面嗰啲"分得清好壞"嘅判斷。

將呢啲嘢磨厚,比起學識派 800 個 agent,重要得多。


嚟 AI 覺醒星球,我哋一齊,將一個人可以做嘅事做到最大——就算,係喺被一班 AI 分身追住跑嘅日子裏面。

圖片

周知 · 我哋一齊同 AI 覺醒超級個體


我從早坐到晚,一個字沒寫。但我比哪天寫稿都累。

因為我在批一個認知圖解的前端設計——準確說,是批 80 個。我開了 Claude Code 的 workflow,一口氣派了 80 個 agent 出去,每個給我吐回一版。我的活,從"做"變成了"看"。看完那天我才認清一件事:看,比做累多了。

我一個搞內容、搞認知的人,那天活活把自己坐成了流水線盡頭的質檢員。

全文概要圖

01我以為派出去就解放了,結果我成了那個唯一的瓶頸

先說說 workflow 是個什麼東西,

Claude Code 這個月底剛開了 dynamic workflows,還是 research preview,5 月 28 號的事,到今天滿打滿算三天。它跟"一個 AI 幫你幹活"不是一回事。它是 Claude 現場寫一段調度腳本,把你的活拆開,扔給一羣分身去並行幹。撒出去,收回來,再合起來。一個 workflow 最多能拉起 1000 個 subagent,16 個同時跑。

我那 80 個,就是這麼撒出去的。

撒出去那一下,是真爽。我腦子裏的畫面是:80 個員工,同時開工,我喝着茶等收貨。

然後貨回來了。80 版設計,齊刷刷砸到我面前。

我請了 80 個互不通氣、還都得我一個個對的臨時工。它們彼此不知道對方在幹嘛,方向各跑各的。這不是我矯情,是有數的:agent 湊一起幹活,成功率比單幹低差不多一半,卡的就是"社會智能"——它們不會像人一樣互相對齊。

而能把這 80 個對齊、收口、挑出那個對的人,只有我。派得出去是本事。收得回來,才是。

知識卡片 A

02沒人告訴你的:審,比寫更吃腦子

我本來以為,審就是抓錯。挑 bug、找毛病、把不對的揪出來。真上手發現不是。那 80 版設計,出錯的其實很少。能跑、不崩、規規矩矩,挑不出什麼硬傷。要命就要命在這兒。

出錯少,不等於不用審。因為我要審的根本不是"它錯沒錯"——是"它對不對、好不好、是不是我腦子裏那個認知圖解本該有的樣子"。

這兩件事的區別。挑錯,是力氣活,agent 自己都能查,根本用不着我。挑"這 80 個裏哪個真對上了我的意",是認知活——這個,我外包不出去。

80 個產出擺面前,每一個都說得過去,都"能用"。能從裏頭一眼認出"這版抓住了,那 79 版差口氣"的,靠的是我腦子裏那套對"認知圖解到底該長啥樣"的判斷。

這套判斷,我有,agent 沒有。我但凡哪天沒有了,這 80 個就是 80 團我分不清好壞的漿糊。

所以對用這套工具的人,要求其實是變高的,不是變低。門檻沒消失,它挪了個地方——從"你會不會做",挪到了"你分不分得清好壞"。

這事不是我一個人撞上的。去年 Stack Overflow 那個調查,84% 的人在用 AI,可只有 33% 信得過它給的東西。中間差着整整 51 個點。你想想這個畫面:一大羣人,天天在用一個自己都不敢全信的東西。那個"敢不敢信"的缺口,誰來填?只能靠用的人那點判斷力去填。

當生成變得不要錢,品味就變成了最貴的東西。你能造一萬張圖,但"哪張好"——這個判斷,是新的稀缺品。AI 把"造"的成本打到了地板,結果把"選"的價值頂上了天。

知識卡片 B

03生產踩了油門,審查還在用兩條腿跑

累,不是因為我懶、也不是因為 agent 不行。是因為一個結構性的東西:生產這頭被自動化了,審查這頭沒有。

只要一個系統是這樣——生產能無限放大,審查還得靠人一個個看——那麼人,必然變成那個瓶頸。

這也有數。有統計說,重度用 AI 之後,人乾的活多了 21%,合併的成果量漲了 98%。聽着很美。但同一批數據裏,審這些東西花的時間,漲了 91%。AI 產出的東西,排隊等人審的時長,是人自己寫的東西的 4.6 倍。

生產那頭一腳油門踩到底,審查這頭還是兩條腿在跑。東西越堆越多,全堵在我這一個人身上。這就是我那天"一個字沒寫,卻累到不行"的真正原因——我不是沒產出,我是被產出淹了。

有句話我看到的時候心裏咯噔一下:到最後,被生產推着走的人,只剩兩個選擇。要麼橡皮圖章,閉着眼放過去;要麼被活活淹死。

最能說明問題的,是連 Anthropic 自己都繃不住了。今年 3 月,它上線了一個多 agent 的代碼審查工具。一個做 AI 的公司,專門做了個 AI,去審 AI 寫出來的東西。這幾乎是第一次,有頂級實驗室公開承認:創造這頭,已經跑贏了驗證那頭。它們得再造一道閘,去攔自己放出來的洪水。

Karpathy 早就說過一句,給 AI 拴根繩。他的意思很實在:一個 AI 秒生成一萬行代碼,沒用——因為人得花幾個小時才驗得完。真正該乾的,是約束它的輸出,讓它一次只吐出你審得過來的量。

把這根繩放到我那天的事上,道理是通的:與其一口氣派 80 個,不如先派 8 個,審明白了、對齊了,再撒下一批。

知識卡片 C

04工種上移不是升職,是被一隻手推到你還沒學會的位置

我們被賣了一個故事:AI 越強,人越輕鬆,門檻越低,人人都能上手。我那 80 個 agent 批下來,信了另一個版本。

工具替你把"做"這件事幹掉之後,剩給你的,全是"判斷"。而判斷,是比做更高的一級台階。

工種確實上移了。從寫的人,移到審的人;從埋頭幹活的,移到抬頭拍板的。可這上移沒人給你發獎狀,也沒人教你怎麼幹。到了新位置上,你過去賴以吃飯的"會做",突然不值錢了;值錢的是"會判斷"。而這玩意兒,學校沒教過你,老闆沒教過你,AI 更給不了你。

所以還要不要用 workflow?要不要一次派 80 個?我沒有標準答案,只有一把尺子:看你審得過來多少。

你判斷力的邊界,就是你該派出去的 agent 數量的邊界。審得過來,多多益善,那是真香;審不過來,派得越多,你越是給自己挖坑——挖完還得自己跳下去填。

工具的上限,從來不是它能生成多少。是你,能判斷多少。

那天 80 個 agent 沒讓我變輕鬆。它逼着我看清:在這個人人都能生成的時代,我唯一還賣得出價錢的,是我腦子裏那點"分得清好壞"的判斷。

把這點東西磨厚,比學會派 800 個 agent,重要得多。


來 AI 覺醒星球,我們一起,把一個人能做的事做到最大——哪怕,是在被一羣 AI 分身追着跑的日子裏。

圖片

周知 · 我們一起和 AI 覺醒超級個體