Claude Code 源碼泄露後，我反而更確定：終端 Agent 只該接 3 類活

作者：孟健AI編程

日期：2026年4月1日上午9:10

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

終端 Agent 唔係萬能，邊界清楚先係關鍵：Claude Code 泄露揭示嘅 3 類該做同 3 類唔該做嘅任務

整理版摘要

孟健呢篇文章係由 Claude Code 源碼泄露事件出發，指出開發者羣體關注嘅唔係八卦，而係終端 Agent 嘅設計邊界。事件中嘅 anti-distillation、undercover mode 等機制，反映出 Anthropic 對 Agent 行為有清晰嘅防護同邊界設定。

作者認為，AI 編程最貴嘅成本唔係 token，而係將模糊需求交出去之後再收回嚟返工嘅浪費。佢指出，好多人高估咗 Agent 嘅能力，但低估咗自己落任務嘅清晰度。正確做法係先諗清楚「呢件事值唔值得讓 Agent 先跑」，而唔係「Agent 能唔能做到」。

整體結論係，終端 Agent 只適合接邊界清楚、可驗證、可回收嘅任務。作者歸納出三類適合（實現任務、工作流任務、探索任務）同三類唔適合（模糊需求、高風險動作、依賴判斷）嘅任務，並提供一個 4 問判斷表幫人決定。最終分工係：人定邊界，Agent 跑第一輪，人做最後判斷。

結論：終端 Agent 唔係萬能，佢最適合邊界清晰、有客觀驗收標準嘅任務，唔應該用嚟承接含糊判斷。
方法：使用時跟「人定邊界 → Agent 跑第一輪 → 人做最後判斷」三步流程，避免返工。
差異：Claude Code 嘅 subagents 同 explore-first 流程，令探索同實現分開，減少主會話污染，比普通聊天式 AI 更適合真實 workflow。
啟發：模糊需求係最大成本；與其問「Agent 能唔做到」，不如問「呢件事值唔值得交俾 Agent 先跑」。
可行動點：用 4 問判斷表（目標一句話講清？驗收標準客觀？出錯成本高？返工時邊個收尾？）快速篩選任務。

整理重點

Claude Code 泄露：邊界信號更清晰

孟健指出，Claude Code 源碼泄露之所以引起 1800+ Hacker News points，唔係因為八卦，而係外界睇到咗幾個重要設計信號：有 anti-distillation 機制、undercover mode，同埋對真實工作流敏感嘅判斷。呢啲都表明，終端 Agent 嘅邊界好關鍵。

anti-distillation 機制、undercover mode、權限判斷、會話壓縮

呢件事啟發作者：終端 Agent 唔係唔用得，而係要放喺「邊界清楚」嘅位置上。好多人高估咗 Agent 能力，但低估咗自己落任務嘅清晰度。

整理重點

三類適合交畀終端 Agent 嘅任務

邊界清晰、可驗證、可回收

作者根據 Anthropic 官方 best practices 同自己經驗，歸納出以下三類最適合 Agent 嘅任務：

1 邊界清晰、驗收明確嘅實現任務：issue 已寫清改動邊界，有測試、截圖或輸出可驗證完成標準。一句話講得清目標。
2 重複出現、適合流程化嘅工作流任務：例如 issue 初版修復、PR review 跟進、文檔同測試補齊、腳手架改造。呢類任務太碎，人做會不斷切換上下文。
3 先跑第一輪、再由人拍板嘅探索任務：讓 Agent 掃代碼庫、列改動點、寫計劃、起最小可行版本，將風險先翻出來，再由人決定下一步。

整理重點

三類絕對唔好交畀終端 Agent 嘅任務

作者同時指出，有以下三類任務，佢而家唔會交畀 Agent 單獨閉環：

1 需求自己都未定清嘅活：目標模糊、邊界唔明、冇寫「唔做咩」，Agent 只會將模糊放大，努力錯方向。
2 高風險嘅真實動作：涉及生產環境、賬號權限、資金、外部執行，必須有人工接管點。能力越強，越要知道邊度要停。
3 強依賴視覺判斷同業務感覺嘅任務：複雜 UI 微調、產品取捨、老闆背後意圖，呢啲係判斷問題，唔係 code 問題。判斷未定清前交出去就係預支返工。

返工即係預支，判斷未定清前唔好交

整理重點

上手判斷表：4 問決定係咪交畀 Agent

作者分享咗佢而家每次畀任務前會過嘅 4 個問題，幫你快速篩選：

1 目標能唔能夠一句話講清？講唔清就係願望，唔係任務。例如「修好登入報錯、跑通測試」係任務，「優化成個登入體驗」係願望。
2 驗收標準係咪客觀？最好係測試通過、頁面截圖對齊、lint/build 成功呢類。冇驗證，Agent 好容易出「睇落似對嘅錯」。
3 出錯成本高唔高？低風險讓 Agent 多跑；中風險讓 Agent 提方案、人確認；高風險只準備、唔執行。
4 返工時邊個收尾？如果最後一定係你自己兜底，就要判斷：呢次交俾 Agent 係減少工作，定係只係推遲工作？

工具就擺喺度，用唔用，係你嘅事。

大家好，我係孟健。Claude Code 今次最值得睇嘅，唔係八卦，而係佢將終端 Agent 嘅邊界扒得更清楚咗。

以前好多人仲喺度問：Claude Code 勁唔勁，值唔值得買，會唔會將 Cursor 打低。

但係今日更現實嘅問題其實係：咩嘢工應該交俾佢，咩嘢工暫時唔好交。

如果呢個邊界冇諗清楚，Agent 唔係幫你提升效率，而係幫你提早做返工。

01 今次泄露，點解值得普通開發者關心

3 月 31 日，Claude Code 因為 npm 包入面帶咗 source map 出嚟，完整 CLI 源碼俾外界睇到咗。相關討論喺 Hacker News 直接衝到 1800+ points、900+ comments，證明呢件事已經唔係小圈子八卦，而係開發者羣體級別嘅關注。

更重要嘅係，外界唔係淨係見到一堆實現細節，而係見到幾個非常有代表性嘅設計信號：

有 anti-distillation 相關機制，會注入 fake tools 之類嘅反蒸餾手段
有 undercover mode，會盡量避免喺外部倉庫入面暴露 Anthropic 內部痕跡
仲有一堆對真實工作流好敏感嘅判斷：權限、上下文、會話壓縮、客戶端校驗

呢件事對我嘅啟發好直接：終端 Agent 唔係唔用得，而係佢本來就應該被擺喺「邊界清楚」嘅位置上。

爭議啲講，好多人唔係高估咗 Claude Code 嘅能力，而係高估咗自己落任務嘅清晰度。

AI 編程最貴嘅成本，唔係 token，而係你將模糊需求交出去之後，再收返嚟重做嘅一輪又一輪。

02 我而家淨係將終端 Agent 放喺 3 個位置

1）邊界清晰、驗收明確嘅實現任務

Anthropic 官方 best practices 入面寫得好直白：俾 Claude 一個可驗證嘅成功標準，係最高槓桿動作；推薦流程唔係直接開寫，而係 explore first, then plan, then code。

咁就決定了第一類最適合交俾佢嘅工：

issue 已經寫清楚
改動邊界明確
有測試、截圖或輸出可以驗證
完成標準一句話可以講得清

呢種任務交俾 Agent，慳落嚟嘅唔係敲代碼嗰幾分鐘，而係少咗中間嗰幾次上下文切換。

2）重複出現、適合流程化嘅工作流任務

GitHub 喺 2 月 4 日將 Claude 同 Codex coding agents 放咗入 public preview，都證明成個行業已經喺度將 Agent 塞入工作流，而唔係淨係當聊天玩具。

官方畀嘅入口非常明確：可以從 GitHub、GitHub Mobile、VS Code、issue、PR、Agents tab 直接啟動同分派任務。

呢類最適合 Agent 嘅工通常係：

issue 起草初版修復
PR review comment 跟進
文檔、配置、測試一齊補齊
腳手架同重複改造任務

人唔係做唔到，而係太碎。碎到最後，真正浪費你嘅唔係技術，而係切來切去。

3）先跑第一輪、再由人拍板嘅探索任務

Claude Code 官方仲單獨將 subagents 拎出嚟講，核心價值就係：將探索同實現放進唔同上下文，減少主會話被污染。

呢其實特別似真實團隊協作。

你先俾 Agent 去：

掃 code base
列改動點
寫第一版計劃
起最小可運行版本
將風險先翻出嚟

然後你再決定邊條路值得繼續行。

好多人將 Agent 當最終執行者。我而家更願意將佢當第一輪推進者。

先等佢將條路踩出嚟，再由人決定值唔值得向前衝。

03 邊 3 類任務，我反而更唔會交俾佢

1）需求自己都未定清嘅工

如果你自己都講唔清楚目標、邊界同唔做啲乜，Agent 只會將模糊放大。佢會好努力，但努力錯方向，比唔努力更貴。

2）高風險嘅真實動作

涉及生產環境、賬號權限、資金、外部執行行動嘅任務，我而家都唔會俾終端 Agent 單獨閉環。能力越強，越要知道邊度必須人工接管。

3）強依賴視覺判斷同業務感覺嘅任務

複雜 UI 微調、產品取捨、老細一句話背後嘅真實意圖，呢啲唔係代碼問題，係判斷問題。判斷未定清之前，將工交出去就係預支返工。

最近 GitHub 上各種 Claude Code how-to、best practice、workflow 倉庫開始一齊冒頭，都證明用戶關注點已經從「邊個模型更強」，轉到「點樣將 Agent 接進主流程」。

04 如果你今日就要上手，我建議用呢張判斷表

我自己而家俾任務之前，會先過 4 個問題。

第一問：目標可唔可以一句話講清

如果一句話講唔清，暫時唔好掟俾 Agent。

比如：

✅「將呢個登入報錯修好，跑通現有測試」
❌「你順手將成個登入體驗優化一下」

前者係任務，後者係願望。

第二問：驗收標準係唔係客觀嘅

最好嘅驗收標準，唔係「睇落差唔多」，而係：

測試通過
頁面截圖對齊
lint/build 成功
某個接口返回正確結果

Anthropic 官方 best practices 點解一直強調 verification？因為冇驗證，Agent 好容易生成「睇落好似啱嘅嘢」。呢類錯最煩。你第一眼覺得差唔多，第二日先發現根本冇真正解決問題。

第三問：出錯成本高唔高

如果呢一步一旦出錯，代價係線上事故、賬號權限、資金風險、客戶數據風險，咁就唔好追求型，直接將人工接管點前置。

我而家嘅原則好簡單：

低風險動作，俾 Agent 多啲跑
中風險動作，俾 Agent 提方案，人確認
高風險動作，淨係俾 Agent 做準備，唔俾佢最終執行

第四問：返工嘅時候邊個嚟收尾

好多人低估咗呢一問。

如果呢件事做歪咗，最後一定都係你自己返嚟兜底，咁你就應該提前判斷：今次交俾 Agent，到底係減少工作，定係只係推遲工作。

以前常見嘅流程係：

我自己讀 code
我自己試改
我自己跑測試
我自己回滾
我自己補文檔

而家更合理嘅流程應該係：

我先將邊界寫清
Agent 先讀、先試、先列方案
Agent 跑第一輪實現同驗證
我淨係接 review、決策同最後嘅 merge

呢個變化表面睇係「俾 AI 做多啲」。

本質上唔係。

本質上係：將你最貴嘅腦力，用喺方向判斷，而唔係用喺反覆起步。

呢個都係點解我而家越來越少問「呢個 Agent 做唔做到」，而係先問「呢件事值唔值得俾 Agent 先跑」。

問題一換，返工會即刻少好多。

05 寫喺最後

所以我今日嘅結論好明確。

Claude Code 今次泄露，真正令人睇清嘅，唔係邊段源碼更刺激，而係：終端 Agent 天生適合邊界清楚、可驗證、可回收嘅任務，唔適合幫你接住所有判斷。

如果你今日就想開始用，最穩陣嘅分工只有三步：

人定邊界
Agent 跑第一輪
人做最後判斷

呢個先係我心目中 2026 年 AI 編程最靠譜嘅姿勢。

唔係將人拎走。

而係將人從低價值推進動作入面拎出嚟。

工具就擺喺嗰度。用唔用，係你嘅事。

🚀 想同更多 AI 愛好者交流，共同成長嗎？

同一班志同道合嘅人，持續精進 AI 嘅每一天

📚 精選文章推薦

大家好，我是孟健。Claude Code 這次最值得看的，不是八卦，而是它把終端 Agent 的邊界扒得更清楚了。

過去很多人還在問：Claude Code 強不強，值不值得買，會不會把 Cursor 幹掉。

但今天更現實的問題其實是：什麼活該交給它，什麼活先別交。

如果這個邊界沒想清楚，Agent 不是幫你提效，而是幫你把返工提前做掉。

01 這次泄露，為什麼值得普通開發者關心

3 月 31 日，Claude Code 因為 npm 包裏帶出了 source map，完整 CLI 源碼被外界讀到了。相關討論在 Hacker News 直接衝到了 1800+ points、900+ comments，說明這已經不是小圈子八卦，而是開發者羣體級別的關注。

更關鍵的是，外界不是隻看到了一堆實現細節，而是看到了幾個非常有代表性的設計信號：

有 anti-distillation 相關機制，會注入 fake tools 之類的反蒸餾手段
有 undercover mode，會盡量避免在外部倉庫裏暴露 Anthropic 內部痕跡
還有一堆對真實工作流很敏感的判斷：權限、上下文、會話壓縮、客戶端校驗

這件事對我的啓發很直接：終端 Agent 不是不能用，而是它本來就該被放在“邊界清楚”的位置上。

爭議一點說，很多人不是高估了 Claude Code 的能力，而是高估了自己下任務的清晰度。

AI 編程最貴的成本，不是 token，而是你把模糊需求交出去以後，再收回來重做的那一輪又一輪。

02 我現在只把終端 Agent 放在 3 個位置

1）邊界清晰、驗收明確的實現任務

Anthropic 官方 best practices 裏寫得很直白：給 Claude 一個可驗證的成功標準，是最高槓杆動作；推薦流程不是直接開寫，而是 explore first, then plan, then code。

這就決定了第一類最適合交給它的活：

issue 已經寫清楚
改動邊界明確
有測試、截圖或輸出可驗
完成標準一句話能說清

這種任務交給 Agent，省下來的不是敲代碼那幾分鐘，而是少掉中間那幾次上下文切換。

2）重複出現、適合流程化的工作流任務

GitHub 在 2 月 4 日把 Claude 和 Codex coding agents 放進 public preview，也說明整個行業已經在把 Agent 往工作流裏塞，而不是隻當聊天玩具。

官方給的入口非常明確：可以從 GitHub、GitHub Mobile、VS Code、issue、PR、Agents tab 裏直接啓動和分派任務。

這類最適合 Agent 的活通常是：

issue 起草初版修復
PR review comment 跟進
文檔、配置、測試一起補齊
腳手架和重複改造任務

人不是做不了，而是太碎。碎到最後，真正浪費你的不是技術，而是切來切去。

3）先跑第一輪、再由人拍板的探索任務

Claude Code 官方還單獨把 subagents 拿出來講，核心價值就是：把探索和實現放進不同上下文，減少主會話被污染。

這其實特別像真實團隊協作。

你先讓 Agent 去：

掃代碼庫
列改動點
寫第一版計劃
起最小可運行版本
把風險先翻出來

然後你再決定哪條路值得繼續走。

很多人把 Agent 當最終執行者。我現在更願意把它當第一輪推進者。

先讓它把路踩出來，再由人決定是不是值得往前衝。

03 哪 3 類任務，我反而更不會交給它

1）需求自己都沒定清的活

如果你自己都講不清楚目標、邊界和不做什麼，Agent 只會把模糊放大。它會很努力，但努力錯方向，比不努力更貴。

2）高風險的真實動作

涉及生產環境、賬號權限、資金、外部執行動作的任務，我現在都不會讓終端 Agent 單獨閉環。能力越強，越要知道哪裏必須人工接管。

3）強依賴視覺判斷和業務感覺的任務

複雜 UI 微調、產品取捨、老闆一句話背後的真實意圖，這些不是代碼問題，是判斷問題。判斷沒定清前，把活交出去就是預支返工。

最近 GitHub 上各種 Claude Code how-to、best practice、workflow 倉庫開始一起冒頭，也說明用戶關注點已經從“哪個模型更強”，切到“怎麼把 Agent 接進主流程”。

04 如果你今天就要上手，我建議用這張判斷表

我自己現在給任務之前，會先過 4 個問題。

第一問：目標能不能一句話說清

如果一句話說不清，先別丟給 Agent。

比如：

✅「把這個登錄報錯修掉，跑通現有測試」
❌「你順手把整個登錄體驗優化一下」

前者是任務，後者是願望。

第二問：驗收標準是不是客觀的

最好的驗收標準，不是“看起來差不多”，而是：

測試通過
頁面截圖對齊
lint/build 成功
某個接口返回正確結果

Anthropic 官方 best practices 為什麼一直強調 verification？因為沒有驗證，Agent 很容易生成“看起來像對的東西”。這類錯最煩。你第一眼覺得差不多，第二天才發現根本沒真正解決問題。

第三問：出錯成本高不高

如果這一步一旦出錯，代價是線上事故、賬號權限、資金風險、客戶數據風險，那就別追求帥，直接把人工接管點前置。

我現在的原則很簡單：

低風險動作，讓 Agent 多跑
中風險動作，讓 Agent 提方案，人確認
高風險動作，只讓 Agent 做準備，不讓它最終執行

第四問：返工時誰來收尾

很多人低估了這一問。

如果這件事做歪了，最後一定還是你自己回來兜底，那你就應該提前判斷：這次交給 Agent，到底是在減少工作，還是隻是在推遲工作。

以前常見的流程是：

我自己讀代碼
我自己試改
我自己跑測試
我自己回滾
我自己補文檔

現在更合理的流程應該是：

我先把邊界寫清
Agent 先讀、先試、先列方案
Agent 跑第一輪實現和驗證
我只接 review、決策和最後的 merge

這個變化表面看是“讓 AI 多做一點”。

本質上不是。

本質上是：把你最貴的腦力，用在方向判斷，而不是用在反覆起步。

這也是為什麼我現在越來越少問“這個 Agent 能不能做”，而是先問“這件事值不值得讓 Agent 先跑”。

問題一換，返工會立刻少很多。

05 寫在最後

所以我今天的結論很明確。

Claude Code 這次泄露，真正讓人看清的，不是哪段源碼更刺激，而是：終端 Agent 天生適合邊界清楚、可驗證、可回收的任務，不適合替你接住所有判斷。

如果你今天就想開始用，最穩的分工只有三步：

人定邊界
Agent 跑第一輪
人做最後判斷

這才是我心裏 2026 年 AI 編程最靠譜的姿勢。

不是把人拿掉。

而是把人從低價值推進動作裏拿出來。

工具就擺在那裏。用不用，是你的事。

🚀 想要與更多AI愛好者交流，共同成長嗎？

和一羣志同道合的人，持續精進 AI 的每一天

📚 精選文章推薦