Claude Code 源碼泄露後,我反而更確定:終端 Agent 只該接 3 類活

作者:孟健AI編程
日期:2026年4月1日 上午9:10
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

終端 Agent 唔係萬能,邊界清楚先係關鍵:Claude Code 泄露揭示嘅 3 類該做同 3 類唔該做嘅任務

整理版摘要

孟健呢篇文章係由 Claude Code 源碼泄露事件出發,指出開發者羣體關注嘅唔係八卦,而係終端 Agent 嘅設計邊界。事件中嘅 anti-distillation、undercover mode 等機制,反映出 Anthropic 對 Agent 行為有清晰嘅防護同邊界設定。

作者認為,AI 編程最貴嘅成本唔係 token,而係將模糊需求交出去之後再收回嚟返工嘅浪費。佢指出,好多人高估咗 Agent 嘅能力,但低估咗自己落任務嘅清晰度。正確做法係先諗清楚「呢件事值唔值得讓 Agent 先跑」,而唔係「Agent 能唔能做到」。

整體結論係,終端 Agent 只適合接邊界清楚、可驗證、可回收嘅任務。作者歸納出三類適合(實現任務、工作流任務、探索任務)同三類唔適合(模糊需求、高風險動作、依賴判斷)嘅任務,並提供一個 4 問判斷表幫人決定。最終分工係:人定邊界,Agent 跑第一輪,人做最後判斷。

  • 結論:終端 Agent 唔係萬能,佢最適合邊界清晰、有客觀驗收標準嘅任務,唔應該用嚟承接含糊判斷。
  • 方法:使用時跟「人定邊界 → Agent 跑第一輪 → 人做最後判斷」三步流程,避免返工。
  • 差異Claude Code 嘅 subagents 同 explore-first 流程,令探索同實現分開,減少主會話污染,比普通聊天式 AI 更適合真實 workflow。
  • 啟發:模糊需求係最大成本;與其問「Agent 能唔做到」,不如問「呢件事值唔值得交俾 Agent 先跑」。
  • 可行動點:用 4 問判斷表(目標一句話講清?驗收標準客觀?出錯成本高?返工時邊個收尾?)快速篩選任務。
整理重點

Claude Code 泄露:邊界信號更清晰

孟健指出,Claude Code 源碼泄露之所以引起 1800+ Hacker News points,唔係因為八卦,而係外界睇到咗幾個重要設計信號:有 anti-distillation 機制、undercover mode,同埋對真實工作流敏感嘅判斷。呢啲都表明,終端 Agent 嘅邊界好關鍵。

anti-distillation 機制、undercover mode、權限判斷、會話壓縮

呢件事啟發作者:終端 Agent 唔係唔用得,而係要放喺「邊界清楚」嘅位置上。好多人高估咗 Agent 能力,但低估咗自己落任務嘅清晰度。

整理重點

三類適合交畀終端 Agent 嘅任務

邊界清晰、可驗證、可回收

作者根據 Anthropic 官方 best practices 同自己經驗,歸納出以下三類最適合 Agent 嘅任務:

  1. 1 邊界清晰、驗收明確嘅實現任務:issue 已寫清改動邊界,有測試、截圖或輸出可驗證完成標準。一句話講得清目標。
  2. 2 重複出現、適合流程化嘅工作流任務:例如 issue 初版修復、PR review 跟進、文檔同測試補齊、腳手架改造。呢類任務太碎,人做會不斷切換上下文。
  3. 3 先跑第一輪、再由人拍板嘅探索任務:讓 Agent 掃代碼庫、列改動點、寫計劃、起最小可行版本,將風險先翻出來,再由人決定下一步。
整理重點

三類絕對唔好交畀終端 Agent 嘅任務

作者同時指出,有以下三類任務,佢而家唔會交畀 Agent 單獨閉環:

  1. 1 需求自己都未定清嘅活:目標模糊、邊界唔明、冇寫「唔做咩」,Agent 只會將模糊放大,努力錯方向。
  2. 2 高風險嘅真實動作:涉及生產環境、賬號權限、資金、外部執行,必須有人工接管點。能力越強,越要知道邊度要停。
  3. 3 強依賴視覺判斷同業務感覺嘅任務:複雜 UI 微調、產品取捨、老闆背後意圖,呢啲係判斷問題,唔係 code 問題。判斷未定清前交出去就係預支返工。

返工即係預支,判斷未定清前唔好交

整理重點

上手判斷表:4 問決定係咪交畀 Agent

作者分享咗佢而家每次畀任務前會過嘅 4 個問題,幫你快速篩選:

  1. 1 目標能唔能夠一句話講清?講唔清就係願望,唔係任務。例如「修好登入報錯、跑通測試」係任務,「優化成個登入體驗」係願望。
  2. 2 驗收標準係咪客觀?最好係測試通過、頁面截圖對齊、lint/build 成功呢類。冇驗證,Agent 好容易出「睇落似對嘅錯」。
  3. 3 出錯成本高唔高?低風險讓 Agent 多跑;中風險讓 Agent 提方案、人確認;高風險只準備、唔執行。
  4. 4 返工時邊個收尾?如果最後一定係你自己兜底,就要判斷:呢次交俾 Agent 係減少工作,定係只係推遲工作?

工具就擺喺度,用唔用,係你嘅事。

大家好,我係孟健。Claude Code 今次最值得睇嘅,唔係八卦,而係佢將終端 Agent 嘅邊界扒得更清楚咗。

以前好多人仲喺度問:Claude Code 勁唔勁,值唔值得買,會唔會將 Cursor 打低。

但係今日更現實嘅問題其實係:咩嘢工應該交俾佢,咩嘢工暫時唔好交。

如果呢個邊界冇諗清楚,Agent 唔係幫你提升效率,而係幫你提早做返工。

01 今次泄露,點解值得普通開發者關心

3 月 31 日,Claude Code 因為 npm 包入面帶咗 source map 出嚟,完整 CLI 源碼俾外界睇到咗。相關討論喺 Hacker News 直接衝到 1800+ points、900+ comments,證明呢件事已經唔係小圈子八卦,而係開發者羣體級別嘅關注。

Claude Code 泄露 HN 討論截圖

更重要嘅係,外界唔係淨係見到一堆實現細節,而係見到幾個非常有代表性嘅設計信號:

  • 有 anti-distillation 相關機制,會注入 fake tools 之類嘅反蒸餾手段
  • 有 undercover mode,會盡量避免喺外部倉庫入面暴露 Anthropic 內部痕跡
  • 仲有一堆對真實工作流好敏感嘅判斷:權限、上下文、會話壓縮、客戶端校驗
Claude Code 源碼泄露拆解截圖

呢件事對我嘅啟發好直接:終端 Agent 唔係唔用得,而係佢本來就應該被擺喺「邊界清楚」嘅位置上。

爭議啲講,好多人唔係高估咗 Claude Code 嘅能力,而係高估咗自己落任務嘅清晰度。

AI 編程最貴嘅成本,唔係 token,而係你將模糊需求交出去之後,再收返嚟重做嘅一輪又一輪。

02 我而家淨係將終端 Agent 放喺 3 個位置

1)邊界清晰、驗收明確嘅實現任務

Anthropic 官方 best practices 入面寫得好直白:俾 Claude 一個可驗證嘅成功標準,係最高槓桿動作;推薦流程唔係直接開寫,而係 explore first, then plan, then code。

Claude Code 官方 best practices 截圖

咁就決定了第一類最適合交俾佢嘅工:

  • issue 已經寫清楚
  • 改動邊界明確
  • 有測試、截圖或輸出可以驗證
  • 完成標準一句話可以講得清

呢種任務交俾 Agent,慳落嚟嘅唔係敲代碼嗰幾分鐘,而係少咗中間嗰幾次上下文切換。

2)重複出現、適合流程化嘅工作流任務

GitHub 喺 2 月 4 日將 Claude 同 Codex coding agents 放咗入 public preview,都證明成個行業已經喺度將 Agent 塞入工作流,而唔係淨係當聊天玩具。

GitHub agent public preview 截圖

官方畀嘅入口非常明確:可以從 GitHub、GitHub Mobile、VS Code、issue、PR、Agents tab 直接啟動同分派任務。

呢類最適合 Agent 嘅工通常係:

  • issue 起草初版修復
  • PR review comment 跟進
  • 文檔、配置、測試一齊補齊
  • 腳手架同重複改造任務

人唔係做唔到,而係太碎。碎到最後,真正浪費你嘅唔係技術,而係切來切去。

3)先跑第一輪、再由人拍板嘅探索任務

Claude Code 官方仲單獨將 subagents 拎出嚟講,核心價值就係:將探索同實現放進唔同上下文,減少主會話被污染。

呢其實特別似真實團隊協作。

你先俾 Agent 去:

  • 掃 code base
  • 列改動點
  • 寫第一版計劃
  • 起最小可運行版本
  • 將風險先翻出嚟

然後你再決定邊條路值得繼續行。

好多人將 Agent 當最終執行者。我而家更願意將佢當第一輪推進者。

先等佢將條路踩出嚟,再由人決定值唔值得向前衝。

03 邊 3 類任務,我反而更唔會交俾佢

1)需求自己都未定清嘅工

如果你自己都講唔清楚目標、邊界同唔做啲乜,Agent 只會將模糊放大。佢會好努力,但努力錯方向,比唔努力更貴。

2)高風險嘅真實動作

涉及生產環境、賬號權限、資金、外部執行行動嘅任務,我而家都唔會俾終端 Agent 單獨閉環。能力越強,越要知道邊度必須人工接管。

3)強依賴視覺判斷同業務感覺嘅任務

複雜 UI 微調、產品取捨、老細一句話背後嘅真實意圖,呢啲唔係代碼問題,係判斷問題。判斷未定清之前,將工交出去就係預支返工。

GitHub 上 Claude Code 工作流倉庫截圖

最近 GitHub 上各種 Claude Code how-to、best practice、workflow 倉庫開始一齊冒頭,都證明用戶關注點已經從「邊個模型更強」,轉到「點樣將 Agent 接進主流程」。

04 如果你今日就要上手,我建議用呢張判斷表

我自己而家俾任務之前,會先過 4 個問題。

第一問:目標可唔可以一句話講清

如果一句話講唔清,暫時唔好掟俾 Agent。

比如:

  • ✅「將呢個登入報錯修好,跑通現有測試」
  • ❌「你順手將成個登入體驗優化一下」

前者係任務,後者係願望。

第二問:驗收標準係唔係客觀嘅

最好嘅驗收標準,唔係「睇落差唔多」,而係:

  • 測試通過
  • 頁面截圖對齊
  • lint/build 成功
  • 某個接口返回正確結果

Anthropic 官方 best practices 點解一直強調 verification?因為冇驗證,Agent 好容易生成「睇落好似啱嘅嘢」。呢類錯最煩。你第一眼覺得差唔多,第二日先發現根本冇真正解決問題。

第三問:出錯成本高唔高

如果呢一步一旦出錯,代價係線上事故、賬號權限、資金風險、客戶數據風險,咁就唔好追求型,直接將人工接管點前置。

我而家嘅原則好簡單:

  • 低風險動作,俾 Agent 多啲跑
  • 中風險動作,俾 Agent 提方案,人確認
  • 高風險動作,淨係俾 Agent 做準備,唔俾佢最終執行

第四問:返工嘅時候邊個嚟收尾

好多人低估咗呢一問。

如果呢件事做歪咗,最後一定都係你自己返嚟兜底,咁你就應該提前判斷:今次交俾 Agent,到底係減少工作,定係只係推遲工作。

以前常見嘅流程係:

  • 我自己讀 code
  • 我自己試改
  • 我自己跑測試
  • 我自己回滾
  • 我自己補文檔

而家更合理嘅流程應該係:

  • 我先將邊界寫清
  • Agent 先讀、先試、先列方案
  • Agent 跑第一輪實現同驗證
  • 我淨係接 review、決策同最後嘅 merge

呢個變化表面睇係「俾 AI 做多啲」。

本質上唔係。

本質上係:將你最貴嘅腦力,用喺方向判斷,而唔係用喺反覆起步。

呢個都係點解我而家越來越少問「呢個 Agent 做唔做到」,而係先問「呢件事值唔值得俾 Agent 先跑」。

問題一換,返工會即刻少好多。

05 寫喺最後

所以我今日嘅結論好明確。

Claude Code 今次泄露,真正令人睇清嘅,唔係邊段源碼更刺激,而係:終端 Agent 天生適合邊界清楚、可驗證、可回收嘅任務,唔適合幫你接住所有判斷。

如果你今日就想開始用,最穩陣嘅分工只有三步:

  • 人定邊界
  • Agent 跑第一輪
  • 人做最後判斷

呢個先係我心目中 2026 年 AI 編程最靠譜嘅姿勢。

唔係將人拎走。

而係將人從低價值推進動作入面拎出嚟。

工具就擺喺嗰度。用唔用,係你嘅事。


🚀 想同更多 AI 愛好者交流,共同成長嗎?

同一班志同道合嘅人,持續精進 AI 嘅每一天

我的微信



📚 精選文章推薦

大家好,我是孟健。Claude Code 這次最值得看的,不是八卦,而是它把終端 Agent 的邊界扒得更清楚了。

過去很多人還在問:Claude Code 強不強,值不值得買,會不會把 Cursor 幹掉。

但今天更現實的問題其實是:什麼活該交給它,什麼活先別交。

如果這個邊界沒想清楚,Agent 不是幫你提效,而是幫你把返工提前做掉。

01 這次泄露,為什麼值得普通開發者關心

3 月 31 日,Claude Code 因為 npm 包裏帶出了 source map,完整 CLI 源碼被外界讀到了。相關討論在 Hacker News 直接衝到了 1800+ points、900+ comments,說明這已經不是小圈子八卦,而是開發者羣體級別的關注。

Claude Code 泄露 HN 討論截圖

更關鍵的是,外界不是隻看到了一堆實現細節,而是看到了幾個非常有代表性的設計信號:

  • 有 anti-distillation 相關機制,會注入 fake tools 之類的反蒸餾手段
  • 有 undercover mode,會盡量避免在外部倉庫裏暴露 Anthropic 內部痕跡
  • 還有一堆對真實工作流很敏感的判斷:權限、上下文、會話壓縮、客戶端校驗
Claude Code 源碼泄露拆解截圖

這件事對我的啓發很直接:終端 Agent 不是不能用,而是它本來就該被放在“邊界清楚”的位置上。

爭議一點說,很多人不是高估了 Claude Code 的能力,而是高估了自己下任務的清晰度。

AI 編程最貴的成本,不是 token,而是你把模糊需求交出去以後,再收回來重做的那一輪又一輪。

02 我現在只把終端 Agent 放在 3 個位置

1)邊界清晰、驗收明確的實現任務

Anthropic 官方 best practices 裏寫得很直白:給 Claude 一個可驗證的成功標準,是最高槓杆動作;推薦流程不是直接開寫,而是 explore first, then plan, then code。

Claude Code 官方 best practices 截圖

這就決定了第一類最適合交給它的活:

  • issue 已經寫清楚
  • 改動邊界明確
  • 有測試、截圖或輸出可驗
  • 完成標準一句話能說清

這種任務交給 Agent,省下來的不是敲代碼那幾分鐘,而是少掉中間那幾次上下文切換。

2)重複出現、適合流程化的工作流任務

GitHub 在 2 月 4 日把 Claude 和 Codex coding agents 放進 public preview,也說明整個行業已經在把 Agent 往工作流裏塞,而不是隻當聊天玩具。

GitHub agent public preview 截圖

官方給的入口非常明確:可以從 GitHub、GitHub Mobile、VS Code、issue、PR、Agents tab 裏直接啓動和分派任務。

這類最適合 Agent 的活通常是:

  • issue 起草初版修復
  • PR review comment 跟進
  • 文檔、配置、測試一起補齊
  • 腳手架和重複改造任務

人不是做不了,而是太碎。碎到最後,真正浪費你的不是技術,而是切來切去。

3)先跑第一輪、再由人拍板的探索任務

Claude Code 官方還單獨把 subagents 拿出來講,核心價值就是:把探索和實現放進不同上下文,減少主會話被污染。

這其實特別像真實團隊協作。

你先讓 Agent 去:

  • 掃代碼庫
  • 列改動點
  • 寫第一版計劃
  • 起最小可運行版本
  • 把風險先翻出來

然後你再決定哪條路值得繼續走。

很多人把 Agent 當最終執行者。我現在更願意把它當第一輪推進者。

先讓它把路踩出來,再由人決定是不是值得往前衝。

03 哪 3 類任務,我反而更不會交給它

1)需求自己都沒定清的活

如果你自己都講不清楚目標、邊界和不做什麼,Agent 只會把模糊放大。它會很努力,但努力錯方向,比不努力更貴。

2)高風險的真實動作

涉及生產環境、賬號權限、資金、外部執行動作的任務,我現在都不會讓終端 Agent 單獨閉環。能力越強,越要知道哪裏必須人工接管。

3)強依賴視覺判斷和業務感覺的任務

複雜 UI 微調、產品取捨、老闆一句話背後的真實意圖,這些不是代碼問題,是判斷問題。判斷沒定清前,把活交出去就是預支返工。

GitHub 上 Claude Code 工作流倉庫截圖

最近 GitHub 上各種 Claude Code how-to、best practice、workflow 倉庫開始一起冒頭,也說明用戶關注點已經從“哪個模型更強”,切到“怎麼把 Agent 接進主流程”。

04 如果你今天就要上手,我建議用這張判斷表

我自己現在給任務之前,會先過 4 個問題。

第一問:目標能不能一句話說清

如果一句話說不清,先別丟給 Agent。

比如:

  • ✅「把這個登錄報錯修掉,跑通現有測試」
  • ❌「你順手把整個登錄體驗優化一下」

前者是任務,後者是願望。

第二問:驗收標準是不是客觀的

最好的驗收標準,不是“看起來差不多”,而是:

  • 測試通過
  • 頁面截圖對齊
  • lint/build 成功
  • 某個接口返回正確結果

Anthropic 官方 best practices 為什麼一直強調 verification?因為沒有驗證,Agent 很容易生成“看起來像對的東西”。這類錯最煩。你第一眼覺得差不多,第二天才發現根本沒真正解決問題。

第三問:出錯成本高不高

如果這一步一旦出錯,代價是線上事故、賬號權限、資金風險、客戶數據風險,那就別追求帥,直接把人工接管點前置。

我現在的原則很簡單:

  • 低風險動作,讓 Agent 多跑
  • 中風險動作,讓 Agent 提方案,人確認
  • 高風險動作,只讓 Agent 做準備,不讓它最終執行

第四問:返工時誰來收尾

很多人低估了這一問。

如果這件事做歪了,最後一定還是你自己回來兜底,那你就應該提前判斷:這次交給 Agent,到底是在減少工作,還是隻是在推遲工作。

以前常見的流程是:

  • 我自己讀代碼
  • 我自己試改
  • 我自己跑測試
  • 我自己回滾
  • 我自己補文檔

現在更合理的流程應該是:

  • 我先把邊界寫清
  • Agent 先讀、先試、先列方案
  • Agent 跑第一輪實現和驗證
  • 我只接 review、決策和最後的 merge

這個變化表面看是“讓 AI 多做一點”。

本質上不是。

本質上是:把你最貴的腦力,用在方向判斷,而不是用在反覆起步。

這也是為什麼我現在越來越少問“這個 Agent 能不能做”,而是先問“這件事值不值得讓 Agent 先跑”。

問題一換,返工會立刻少很多。

05 寫在最後

所以我今天的結論很明確。

Claude Code 這次泄露,真正讓人看清的,不是哪段源碼更刺激,而是:終端 Agent 天生適合邊界清楚、可驗證、可回收的任務,不適合替你接住所有判斷。

如果你今天就想開始用,最穩的分工只有三步:

  • 人定邊界
  • Agent 跑第一輪
  • 人做最後判斷

這才是我心裏 2026 年 AI 編程最靠譜的姿勢。

不是把人拿掉。

而是把人從低價值推進動作裏拿出來。

工具就擺在那裏。用不用,是你的事。


🚀 想要與更多AI愛好者交流,共同成長嗎?

和一羣志同道合的人,持續精進 AI 的每一天

我的微信



📚 精選文章推薦