Anthropic專家Barry的3條鐵律:如何高效構建AI Agent(防踩坑篇)

作者:惡人筆記
日期:2026年5月14日 上午7:12
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

Anthropic專家Barry Zhang分享構建AI Agent三條鐵律:別什麼都用Agent、保持簡單、用Agent視角思考

整理版摘要

呢篇文章係根據AnthropicClaude背後嘅公司)Applied AI團隊嘅Barry Zhang喺AI Engineer Summit嘅演講整理出嚟。佢主要分享咗三條構建AI Agent嘅鐵律,想幫開發者避開常見嘅坑,避免浪費token同時間。

Barry指出,而家好多團隊一嚟就All in Agent,但其實好多任務用workflow仲抵、仲穩定。佢建議先用一個4問題判斷清單評估任務適唔適合用Agent。第一條鐵律就係「別什麼任務都用Agent」,要考慮複雜度、價值、關鍵能力同錯誤成本。第二條鐵律係「盡可能保持簡單」,Agent核心只有環境、工具同system prompt三個組件,初期唔好加太多複雜功能。第三條鐵律係「用Agent視角思考」,即係模擬Agent嘅有限上下文去設計系統。Barry仲分享咗啲實用練習,例如將prompt同工具描述問Claude有冇問題。

整體結論係要理性評估場景、保持簡單架構、從Agent視角迭代,先係通往有效、可靠、生產就緒嘅正確路徑。呢篇文章適合正在或準備做Agent嘅開發者參考。

  • 結論:Agent唔係萬能,要用4問題清單判斷任務是否適合,否則用workflow更划算。
  • 方法:保持簡單,只靠環境、工具、system prompt三個組件起步,避免過早加入複雜功能。
  • 差異:用Agent視角思考(模擬有限context)同人類視角嘅差異,幫助設計更可靠。
  • 啟發:很多項目死於過早引入multi-agent,單Agent+優秀工具往往更有效。
  • 可行動點:每週做1-2次角色扮演,將prompt同工具描述畀Claude檢查,迭代設計。
值得記低
連結 x.com

Barry Zhang 演講要點 X 分享

X 上分享嘅 Barry 演講要點,結合 Anthropic 官方指南

整理重點

背景:點解要聽呢啲鐵律?

Agent係AI圈最火嘅話題之一,但好多開發者發現早期項目成日 成本爆炸、效果唔穩定,甚至要放棄。AnthropicBarry Zhang分享咗三條鐵律,幫大家將有限token同時間用喺刀口上。

Barry強調:Agent唔係萬能升級方案,要先用判斷清單評估任務啱唔啱用。

整理重點

第一條鐵律:別什麼任務都用Agent

Barry反覆強調呢點:Agent唔係萬能嘅升級方案。好多團隊一嚟就All in Agent,結果常規任務用workflow仲平仲可控。佢提出一個4問題判斷清單,建議喺啟動項目前逐條自問:

  1. 1 任務複雜度:是否處於模糊問題空間?如果決策樹清晰,優先用workflow。
  2. 2 任務價值:Agent消耗token多,任務價值是否覆蓋成本?例如客服單次預算得幾美分,就唔應該用Agent。
  3. 3 關鍵能力de-risk:Agent喺主路徑每一步係咪可靠?例如coding Agent要寫code、改bug,每一步都係瓶頸。
  4. 4 錯誤成本+發現難度:錯誤代價高又難發現時,加human-in-the-loop或read-only模式,但會限制規模化。

經典例子係Coding任務,通常四項全中,所以好適合Agent。

整理重點

第二條鐵律:盡可能保持簡單

Anthropic對Agent嘅定義好簡潔:模型喺循環裏使用工具。一個有效Agent核心只有3個組件:

  • 環境(Agent運行喺邊)
  • 工具(Agent點樣行動同獲取反饋)
  • System Prompt(目標、約束、期望行為)

Barry觀察到:無論產品形態點唔同,成功Agent底層架構幾乎一樣。

初期千祈唔好過早加入緩存、並行、進度展示等複雜功能。先將呢3個組件打磨好,等行為穩定再優化。

整理重點

第三條鐵律:用Agent視角去思考

呢個係Barry分享最「狠」嘅方法:將自己塞入Agent嘅context window。Agent通常只有10-20K token,只能睇到system prompt、工具描述同最近幾個observation。

佢用Computer Use Agent做例子:你攞到一張靜態截圖同一段寫得差嘅任務描述,點擊一下然後「閉眼」幾秒,再睇新截圖——可能成功,可能搞到電腦崩潰。呢個就係Agent每秒經歷嘅事。

透過呢個練習,你會即刻明Agent真正需要:屏幕分辨率、推薦動作、進度狀態等。

  • 將system prompt畀Claude問:「有冇歧義?你能嚴格照做嗎?
  • 將工具描述畀Claude問:「參數夠唔夠?缺啲咩?
  • 將Agent完整trajectory畀Claude問:「呢步點解咁決定?應該補充咩信息?
整理重點

未來開放問題與總結

Barry仲分享咗三個前沿思考

  • Agent點樣變得budget-aware(成本感知),定義token/時間/金錢預算
  • Self-evolving tools:Agent能否自己設計同改進工具
  • Multi-agent協作:異步通信、子Agent保護主上下文等開放難題

呢啲問題提醒我哋:Agent技術仲喺快速發展,保持簡單、聚焦價值先跟得上節奏。

總結三句抄得嘅作業:別什麼都用Agent、保持簡單、用Agent視角思考。理性評估場景、追求簡單架構、從Agent視角迭代,先係正確路徑。

Agent一直都係AI圈最熱嘅話題之一,好多開發者都試緊用Agent整自動化產品、客服系統或者智能工具。但現實係,大部份早期Agent項目一係成本爆燈、一係效果唔穩定、一係就直接放棄。

最近,Anthropic(Claude背後嘅公司)Applied AI團隊嘅Barry Zhang喺AI Engineer Summit上分享咗《Building Effective Agents》指南嘅升級版演講,社區裡便好多博主都做咗總結分享,下面就整理呢啲內容,畀每一個正在做或者準備做Agent嘅開發者參考。

今日我哋主要拆解佢分享嘅3條「鐵律」,結合成個實際情況分析,畀出落地建議。希望幫你少走冤枉路,將有限嘅token同時間用喺刀鋒上。

第一條鐵律:唔好咩任務都用Agent

呢個係Barry不斷強調嘅最重要一點:Agent唔係萬能嘅升級方案。好多團隊一嚟就「All in Agent」,結果發現常規任務用workflow(固定流程)反而更平、更可控。

Barry畀咗一個實用嘅4問題判斷清單,建議喺啟動項目之前逐個問自己:

  1. 1. 任務複雜度:任務係咪屬於「模糊問題空間」?如果你可以完整畫到決策樹(if-else邏輯清晰),優先揀workflow,每個節點單獨優化,成本低又穩定。
  2. 2. 任務價值:Agent消耗好多token,任務價值係咪足夠抵銷成本?例如客服場景每次預算得幾美分,就應該用workflow處理常見情況。只有「唔計成本都要做曬」嘅高價值任務,先係Agent嘅用武之地。
  3. 3. 關鍵能力de-risk:Agent係咪能夠喺主路徑每一步都表現可靠?例如coding Agent需要寫程式、除錯、從錯誤中恢復。如果某一步係明顯瓶頸,會倍大成本同延遲。
  4. 4. 錯誤成本 + 發現難度:如果錯誤代價高而且好難及時發現,就唔好隨便放手畀Agent全自動行。可以加human-in-the-loop(人手介入)或者read-only模式,當然呢個都會限制規模化。

經典例子:例如Coding任務通常四項全中,模糊、高價值、模型能力強、unit test/CI令錯誤容易發現,咁就非常適合用Agent。

分析與建議
呢條鐵律本質係「成本-收益」思維嘅回歸。目前大模型token價格雖然喺度跌,但成本依然唔可以忽略,尤其係Agent嘅循環調用仲係唔平。建議大家先做一個MVP驗證:用workflow覆蓋80%嘅確定性場景,再用Agent處理剩餘嘅模糊高價值部分。咁樣既可以控制風險,又可以快啲見到價值。盲目All in Agent,好容易好似一啲開發者反映嘅咁,「燒咗幾千美元token之後先發現,80%嘅情況淨係靠if/else就夠曬」。

第二條鐵律:盡量保持簡單

Anthropic對Agent嘅定義非常簡潔:模型喺循環裡面使用工具

一個有效嘅Agent核心只有3個組件

  • • 環境(Agent喺邊度運行)
  • • 工具(Agent點樣行動同獲取反饋)
  • • System Prompt(目標、約束、期望行為)

Barry觀察到:無論產品形態有幾唔同,成功嘅Agent底層結構幾乎一模一樣。喺迭代早期,千祈唔好太早加入緩存、並行、進度展示等複雜功能。先將呢3個組件打磨好,等行為穩定之後再優化。

分析與建議
「簡單」唔係偷懶,而係對抗複雜系統失控嘅最有效武器。好多項目死喺「太早引入multi-agent orchestration」(多Agent協調)。建議採用單Agent + 優秀工具嘅起步策略。大部份情況下,一個設計良好嘅單Agent加上清晰工具,好過幾個協調得唔好嘅Agent。等到單個Agent可靠運行之後,可以再考慮擴展。

第三條鐵律:用Agent嘅視角去諗(最實用練習)

呢個係Barry分享嘅最「狠」嘅一個方法:將自己塞入Agent嘅context window

Agent通常得有限嘅10-20K token,只可以見到system prompt、工具描述同最近幾個observation嘅回傳資訊。Barry用Computer Use Agent舉例:

  • • 你攞到一張靜態截圖 + 一段寫得爛嘅任務描述,然後你㩒一下
  • • 㩒完之後「合埋眼」幾秒,即係你合埋眼操作電腦
  • • 打開眼見到新截圖——可能成功,亦可能搞到電腦死機,你唔知
  • • 然後循環重新開始

呢個其實就係computer use agent每秒經歷嘅事。

透過呢個練習,你會即刻明白Agent真正需要啲乜:畫面解像度資訊(知道點樣㩒)、建議動作/限制(避免不必要嘅探索)、進度狀態(避免重做)等。

偷懶實用招(Barry團隊常用):

  • • 將你嘅system prompt掟畀Claude,問:「有冇歧義?你能唔能夠嚴格照做?」
  • • 將工具描述掟畀Claude,問:「參數夠唔夠?欠啲乜?」
  • • 將Agent嘅完整trajectory(執行軌跡)掟畀Claude,問:「呢一步點解咁決定?應該補充啲乜資訊?」

分析與建議
人類設計師經常企喺「上帝視角」設計,搞到Agent困惑。呢個練習迫我哋從受限資訊視角去迭代prompt同工具,係提升可靠性嘅一個高效方法。推薦大家喺開發中每個禮拜做1-2次呢啲「角色扮演」,效果會遠超憑空想像。結合Anthropic官方指南入面強調嘅清晰工具文檔同few-shot示例,可以顯著降低幻覺同偏差。

未來開放問題(值得提早諗定)

Barry仲分享咗三個前沿思考:

  1. 1. Agent點樣變得budget-aware(成本感知):定義並執行token/時間/金錢預算。
  2. 2. Self-evolving tools:Agent能否自己設計同改進工具。
  3. 3. Multi-agent協作:異步通訊、子Agent保護主上下文等,仍然係開放難題。

呢啲問題亦提醒我哋:Agent技術仲喺快速發展,保持簡單、聚焦價值,先可以跟得上節奏。

總結:可以抄作業嘅三句說話

  1. 1. 唔好咩都用Agent:用判斷清單揾到真正適合嘅場景。
  2. 2. 保持簡單:3組件起步,先打好基礎。
  3. 3. 用Agent視角思考:將自己塞入context window上下文窗口迭代設計。

AI Agent係一個強大槓桿,但唔係萬能武器。理性評估場景、追求簡單架構、企喺Agent視角迭代,先係通往有效、可靠、生產就緒嘅正確路徑。如果你正在整Agent產品,強烈建議去讀一下Anthropic官方嘅《Building Effective Agents》原文。

參考資料:https://x.com/GoSailGlobal/status/2054074674636878159

(本文係基於X上分享嘅Barry演講要點整理,結合Anthropic官方指南同實際思考。所有觀點旨在提供參考,鼓勵大家結合自己嘅場景驗證。)

圖片

Agent一直是AI圈最火的話題之一,很多開發者都在嘗試用Agent打造自動化產品、客服系統或智能工具。但現實是,大部分早期Agent項目要麼成本爆炸、要麼效果不穩定、要麼直接放棄。

最近,Anthropic(Claude背後的公司)Applied AI團隊的Barry Zhang在AI Engineer Summit上分享了《Building Effective Agents》指南的升級版演講,社區裏很多博主都做了總結分享,下面就整理出這些內容,提供給每一個正在或準備做Agent的開發者學習。

今天我們主要來拆解他分享的3條“鐵律”,結合實際分析,給出落地建議。希望幫你少走彎路,把有限的token和時間花在刀刃上。

第一條鐵律:別什麼任務都用Agent

這是Barry反覆強調的最重要一點:Agent不是萬能的升級方案。很多團隊一上來就“All in Agent”,結果發現常規任務用workflow(固定流程)反而更便宜、更可控。

Barry給出了一個實用的4問題判斷清單,建議在啓動項目前逐條自問:

  1. 1. 任務複雜度:任務是否處於“模糊問題空間”?如果能完整畫出決策樹(if-else邏輯清晰),優先用workflow,每個節點單獨優化,成本低且穩定。
  2. 2. 任務價值:Agent消耗token多,任務價值是否足以覆蓋成本?例如客服場景單次預算只有幾美分,就應該用workflow處理常見情況。只有“不計成本也要幹完”的高價值任務,才是Agent的用武之地。
  3. 3. 關鍵能力de-risk:Agent是否能在主路徑每一步都表現可靠?比如coding Agent需要寫代碼、調bug、從錯誤中恢復。如果某一步是明顯瓶頸,會成倍增加成本和延遲。
  4. 4. 錯誤成本 + 發現難度:錯誤代價高且難以及時發現時,不要輕易放手讓Agent全自動跑。可以加human-in-the-loop(人工介入)或read-only模式,當然這也會限制規模化。

經典例子:比如Coding任務通常能四項全中,模糊、高價值、模型能力強、unit test/CI讓錯誤容易發現,這就非常適合Agent。

分析與建議
這條鐵律本質是“成本-收益”思維的迴歸。當前大模型token價格雖在下降,但成本依然不可忽略,尤其是Agent的循環調用仍不便宜。建議大家先做一個MVP驗證:用workflow覆蓋80%的確定性場景,再用Agent處理剩餘的模糊高價值部分。這樣既控制風險,又能快速看到價值。盲目All in Agent,很容易像一些開發者反饋的那樣,“燒掉幾千美元token後才發現,80%的情況僅靠if/else就夠了”。

第二條鐵律:儘可能保持簡單

Anthropic對Agent的定義非常簡潔:模型在循環裏使用工具

一個有效的Agent核心只有3個組件

  • • 環境(Agent運行在哪裏)
  • • 工具(Agent如何行動和獲取反饋)
  • • System Prompt(目標、約束、期望行為)

Barry觀察到:無論產品形態多不同,成功的Agent底層架構幾乎一模一樣。在迭代早期,千萬不要過早加入緩存、並行、進度展示等複雜功能。先把這3個組件打磨到位,等行為穩定後再優化。

分析與建議
“簡單”不是偷懶,而是對抗複雜系統失控的最有效武器。很多項目死於“過早引入multi-agent orchestration”(多Agent協調)。建議採用單Agent + 優秀工具的起點策略。大部分情況下,一個設計良好的單Agent加上清晰工具,勝過多個協調不佳的Agent。等單個Agent可靠運行後,可以再考慮擴展。

第三條鐵律:用Agent的視角去思考(最實用練習)

這是Barry分享的最“狠”的一個方法:把自己塞進Agent的context window

Agent通常只有有限的10-20K token,只能看到system prompt、工具描述和最近幾個observation返回信息。Barry用Computer Use Agent舉例:

  • • 你拿到一張靜態截圖 + 一段寫得糟糕的任務描述,然後你點擊一下
  • • 點擊操作後“閉眼”幾秒,相當於你閉着眼睛操作電腦
  • • 睜眼看到新截圖——可能成功,也可能把電腦搞崩潰,你不知道
  • • 然後循環重新開始

這其實就是computer use agent每秒在經歷的事。

通過這個練習,你會立刻明白Agent真正需要什麼:屏幕分辨率信息(知道怎麼點)、推薦動作/限制(避免不必要的探索)、進度狀態(避免重做)等。

偷懶實用招(Barry團隊常用):

  • • 把你的system prompt丟給Claude,問:“有歧義嗎?你能嚴格照做嗎?”
  • • 把工具描述丟給Claude,問:“參數夠嗎?缺什麼?”
  • • 把Agent的完整trajectory(執行軌跡)丟給Claude,問:“這一步為什麼這麼決定?該補充什麼信息?”

分析與建議
人類設計師常站在“上帝視角”設計,導致Agent困惑。這個練習強迫我們從受限信息視角迭代prompt和工具,是提升可靠性的一個高效方法。推薦大家在開發中每週做1-2次這樣的“角色扮演”,效果會遠超憑空想象。結合Anthropic官方指南中強調的清晰工具文檔和few-shot示例,能顯著降低幻覺和偏差。

未來開放問題(值得提前思考)

Barry還分享了三個前沿思考:

  1. 1. Agent如何變得budget-aware(成本感知):定義並執行token/時間/金錢預算。
  2. 2. Self-evolving tools:Agent能否自己設計和改進工具。
  3. 3. Multi-agent協作:異步通信、子Agent保護主上下文等,仍是開放難題。

這些問題也提醒我們:Agent技術還在快速發展,保持簡單、聚焦價值,才能跟上節奏。

總結:可以抄作業的三句話

  1. 1. 別什麼都用Agent:用判斷清單找到真正適合的場景。
  2. 2. 保持簡單:3組件起步,先把基礎打紮實。
  3. 3. 用Agent視角思考:把自己塞進context window上下文窗口迭代設計。

AI Agent是一個強大槓桿,但不是萬能武器。理性評估場景、追求簡單架構、站在Agent視角迭代,才是通往有效、可靠、生產就緒的正確路徑。如果你正在構建Agent產品,強烈建議去閲讀一下Anthropic官方的《Building Effective Agents》原文。

參考資料:https://x.com/GoSailGlobal/status/2054074674636878159

(本文基於X上分享的Barry演講要點整理,結合Anthropic官方指南與實際思考。所有觀點旨在提供參考,鼓勵大家結合自身場景驗證。)

圖片