Anthropic 的 Harness 哲學:把 Agent 當牲口,而非寵物

作者:AGI Hunt
日期:2026年4月11日 上午4:39
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

Anthropic 將 Agent 從寵物變牲口:拆開大腦同手,延遲跌 60%

整理版摘要

呢篇文章係關於 Anthropic 最新嘅兩篇博客,一篇講點樣整 Agent,一篇講點樣管 Agent。作者係一個技術觀察者,想透過呢兩篇文解釋 Anthropic 嘅「牲口哲學」——即係將 Agent 變成無狀態、可以隨時殺掉重啓嘅組件,而唔係獨一無二、要精心維護嘅寵物。整體結論係:Anthropic 透過將 Agent 架構拆成 Session、Harness、Sandbox 三層,令延遲大幅下降、安全性提升,同時提出一個信任框架嚟確保安全。

文章先用「寵物 vs 牲口」呢個經典比喻嚟引入,然後講返 Anthropic 初期嘅寵物架構有咩問題,再詳細解釋佢哋點樣「腦手分離」,將模型推理、工具調用同執行環境分開。最後提到呢個思路同雲計算演進相似,Harness 正從應用層沉入基礎設施層。作者嘅整理角度係將兩篇博客拼埋一齊睇,強調「牲口跑得快,圍欄都要跟上」嘅互補關係。

  • 結論Anthropic 將 Agent 架構從有狀態嘅寵物轉為無狀態嘅牲口,大幅提升效率同安全性。
  • 方法:將 Agent 拆成三層——Session(會話日誌)、Harness(無狀態編排層)、Sandbox(隔離執行環境),每層只靠接口溝通。
  • 差異:舊架構容器掛咗就冇咗會話,新架構 Harness 可以隨時殺掉重啓,透過 wake(sessionId) 恢復上下文。
  • 啟發:呢個設計靈感來自操作系統,接口比實現更持久;安全採用縱深防禦,憑證唔入 Sandbox,配合 Plan Mode 戰略審批。
  • 可行動點:如果你係開發者,可以參考呢個三層模型設計自家 Agent;應用層嘅用戶可以用 Anthropic 嘅託管服務,唔使自己搭基礎設施。
值得記低
連結 anthropic.com

Anthropic Trustworthy Agents

講 Agent 信任框架嘅文章,包含 Plan Mode、Prompt injection 防禦等。

連結 anthropic.com

Anthropic Managed Agents

講 Agent 架構設計嘅文章,拆成 Session、Harness、Sandbox。

整理重點

寵物 vs 牲口:運維哲學搬入 AI

Anthropic 引用運維圈經典比喻:寵物服務器有名有姓,死咗要搶救;牲口服務器得編號,壞咗換新就得。呢個比喻由 Randy Bias 喺 2012 年提出,本來係解釋雲計算本質,家陣 Anthropic 將佢搬到 AI Agent 架構設計。

寵物 vs 牲口:運維圈的經典比喻

初期 Anthropic 嘅 Agent 係典型寵物架構:模型推理、代碼執行、會話狀態全部塞喺一個容器。容器死咗,會話就冇咗;要調試要入容器睇日誌,可能碰到用戶數據;要連客戶 VPC 要逐條開網絡通道。

整理重點

腦手分離:拆成三層無狀態組件

為咗擺脱寵物困局,Anthropic 工程團隊做咗次徹底手術:將大腦同雙手分開。佢哋拆咗三層——SessionHarnessSandbox,每層只靠接口溝通。

Decoupling the Brain from the Hands

  1. 1 Session:會話日誌,係只增不改嘅事件流,記錄 Agent 做過嘅每一件事。唔喺容器入面,而係存在外部數據庫(PostgresSQLite),容器死咗日誌仲喺度。
  2. 2 Harness:編排層,負責調用 Claude、路由工具調用、管理上下文。關鍵字係無狀態,佢自己唔記任何嘢,所有狀態都從 Session 讀。
  3. 3 Sandbox:執行環境,代碼喺度跑、文件喺度改。係隔離嘅,碰唔到憑證,碰唔到用戶敏感數據。

呢三層之間嘅關係係「接口抽象」。每一層只需要滿足一組接口約定,用咩實現都得。Session 可以係 Postgres 或者內存數組,Sandbox 可以係本地進程或者遠程容器。

接口比實現更持久

整理重點

牲口化嘅收益:延遲降六成,安全性升

Harness 變成無狀態牲口之後,p50 首 Token 延遲(TTFT)下降約 60%,p95 下降超過 90%。之前啟動 Agent 要等成個容器配好(裝環境、掛載文件、注入憑證),家陣推理同容器配置分開,Harness 拎到 Session ID 就可以直接開始調用 Claude,唔使等 Sandbox 準備好。

p50 TTFT 下降約 60%

安全性方面,憑證永遠唔入 SandboxGit token 初始化時注入,OAuth token 留喺外部保險櫃,通過 MCP 代理訪問。就算 Sandbox 被攻破,攻擊者都偷唔到鑰匙。呢個解決咗 Agent 安全嘅老大難問題:prompt injection 就算成功,都偷唔到重要憑證。

整理重點

圍欄不能少:Trustworthy Agents 框架

另一篇博客提出 Agent 信任框架,有五個原則:人類控制、價值對齊、安全交互、透明度、隱私保護。其中 Plan Mode 最值得留意——傳統逐步審批要每步確認,效率低;Plan Mode 改為戰略審批,Agent 先列出成個計劃,你審方向唔係審細節。

Plan Mode:從微觀管理變目標管理

Prompt injection 防禦係多層設計:模型訓練教 Claude 識別惡意指令,生產環境有實時流量監控,外部有紅隊持續測試。加上 Sandbox 憑證隔離,構成縱深防禦。

整理重點

沉入基礎設施:從應用層到標準件

Anthropic 今次做嘅係模型廠商側嘅 Harness Engineering。佢哋唔只教人點搭 Harness,而係將 Harness 做咗個託管服務——Session 持久化、Harness 編排、Sandbox 隔離,用戶唔使自己搭。呢個同十年前雲計算演進好似:由自己管服務器(寵物),到 EC2(自己管牲口),再到 Lambda(連牲口都唔使管)。

Harness 正從應用層沉入基礎設施層

AnthropicMCP 捐俾 Linux 基金會嘅 Agentic AI Foundation,思路一脈相承:當 Agent 變成牲口,接口就要變成標準件。從寵物到牲口,從應用層到基礎設施層——呢個就係 Anthropic 嘅牲口哲學。

今日同大家分享Anthropic最新嘅兩篇blog,一篇講點樣整Agent,一篇講點樣管理Agent。

將兩篇拼埋一齊睇,其實講緊同一件事。

01

寵物會死

運維界有個經典比喻,叫「寵物 vs 牲口」。

寵物伺服器有名嘅,叫Zeus、Athena、Poseidon。佢病咗,你要半夜起身救佢。佢要係死咗⋯⋯咁就大鑊,成個系統隨時一齊冧。

牲口伺服器有編號,叫 #001#002#003。有人病咗?拉走,換部新嘅。

冇人會為一隻牲口喊或者流一滴眼淚。

寵物 vs 牲口:運維圈的經典比喻
寵物 vs 牲口:運維界嘅經典比喻

呢個比喻係Randy Bias喺2012年提出嚟,用嚟解釋雲端運算嘅本質。十四年過去咗,Anthropic將呢套哲學,搬到AI Agent嘅架構設計上。

02

當初嘅寵物

故事要由Anthropic最早嘅Agent架構講起。

一開始,所有嘢都塞喺一個容器入面:模型推理、程式執行、對話狀態,全部打包一齊行。

聽落都幾簡潔,係咪?

但⋯⋯問題都嚟喇。

容器冧咗,對話就冇咗。用戶做到一半嘅任務,話冇就冇。

要除錯?要入去容器睇log,即係可能撞到用戶數據。

要連客戶嘅VPC?要打通網絡通道,每接一個客戶就多一條管⋯⋯

舊架構 vs 新架構:大腦和雙手分開了
舊架構 vs 新架構:大腦同對手分開咗

呢個就係典型嘅「寵物架構」。每個容器都係獨一無二,精心維護,冇得代替。

佢冧咗,你會心痛。

03

腦手分離

痛過之後,Anthropic嘅工程團隊決定做一次徹底嘅手術。

圖片

佢哋幫呢篇blog起咗個副標題:Decoupling the Brain from the Hands,將大腦同對手分開。

點樣分呢?拆成三層。

Session,對話記錄。只加唔改嘅事件流,記錄Agent做過嘅每一件事。佢唔喺容器入面,而係存在外部數據庫(Postgres、SQLite都得)。容器死咗,記錄仲喺度。

Harness,編排層。負責叫Claude、路由工具調用、管理上下文。關鍵詞:無狀態。佢自己唔記任何嘢,所有狀態都係由Session度讀。

Sandbox,執行環境。程式碼喺呢度行,檔案喺呢度改。佢係隔離嘅,掂唔到憑證,掂唔到用戶嘅敏感數據。

Managed Agents 架構:Session、Harness、Sandbox 解耦
Managed Agents 架構:Session、Harness、Sandbox 解耦

呢三層之間嘅關係,用Anthropic自己嘅話講,係「介面抽象」。

每一層只需要滿足一組介面約定,具體用咩實現冇所謂。Session可以用Postgres,亦可以用一個記憶體陣列。Sandbox可以係本地程序,亦可以係遠端容器。

組件接口定義:每層只需滿足接口約定
組件介面定義:每層只需要滿足介面約定

呢套設計嘅靈感,其實嚟自作業系統。

寵物,唔可以再養喇!

圖片

Anthropic團隊喺blog度寫咗噉一句:

“ 我哋將介面當作比實現更持久嘅嘢嚟對待,就好似作業系統喺幾十年前就虛擬化咗硬件一樣。

翻譯一下:具體嘅程式碼會變,但係介面唔會。今日嘅Harness可能同聽日嘅完全唔同,但只要介面穩定,上層唔使改。

如果你讀過我之前嗰篇關於Harness Engineering嘅文章《模型唔係關鍵,Harness先係》,會發現呢個思路同Philipp Schmid嘅「作業系統類比」幾乎一模一樣。模型係CPU,Harness係作業系統核心。

Harness 概念示意
Harness概念示意

只不過Anthropic更進一步:佢哋唔只係將Harness當作業系統設計,仲將佢整成可以隨時殺咗佢重開嘅牲口

04

牲口化嘅收益

將Harness變成無狀態嘅牲口之後,發生咗咩呢?

p50首Token延遲(TTFT)下降咗大約60%,p95下降超過90%。

點解?因為以前啟動一個Agent,要先將成個容器set好:裝環境、掛載檔案、注入憑證,然後先開始推理。而家呢,推理同容器設定係分開嘅,Harness拎到Session ID就可以直接開始叫Claude,唔使等Sandbox準備好。

Session 與 Harness 的交互:事件驅動,無狀態恢復
Session 與 Harness 嘅交互:事件驅動,無狀態恢復

而且,既然Harness係無狀態嘅,咁佢就可以有好多個。

多個大腦(Harness),連接唔同嘅手(Sandbox)。

多個 Harness 連接多個 Sandbox:many brains, many hands
多個 Harness 連接多個 Sandbox:many brains, many hands

一個Harness冧咗?新嘅Harness叫 wake(sessionId),由Session記錄度恢復上下文,繼續做。對用戶嚟講,只係某個工具調用失敗咗一次,Claude自動重試就得。

呢個就係牲口哲學嘅核心:冇嘢係冇得代替㗎。

牲口化的收益:延遲大幅下降
牲口化嘅收益:延遲大幅下降

安全性都跟住提升咗。

憑證永遠唔入Sandbox。Git token喺初始化嗰陣注入,OAuth token留喺外部保險櫃,經MCP代理存取。Sandbox俾人攻破咗⋯⋯攻擊者拎唔到任何憑證。

呢個就解決咗Agent安全領域一個老大難問題:prompt injection就算成功咗,都偷唔到鎖匙。

05

圍欄唔少得

講到安全,Anthropic同一星期仲出咗另一篇blog:《Trustworthy Agents in Practice》。

圖片

牲口跑得快,圍欄要跟得上。

牲口跑得快,圍欄不能少
牲口跑得快,圍欄唔少得

呢篇文章提出咗一個Agent信任框架,建基於五個原則:人類控制、價值對齊、安全交互、透明度、私隱保護。

當中幾個點同Managed Agents嘅架構設計直接呼應。

Plan Mode,可能係最值得留意嘅一個設計。

傳統嘅Agent權限管理係「逐步審批」:Agent每執行一步,你都要㩒一下確認。呢個就好似你請咗個人,佢每打一個字都要請示你,效率可想而知。

Plan Mode改咗做「策略審批」:Agent先將成個行動計劃列曬俾你睇。你審嘅係方向,而唔係每一步細節。相當於由微觀管理變成目標管理。

Prompt injection防禦就係多層設計。

模型訓練階段,已經教Claude識別惡意指令。生產環境入面,有實時流量監控。外部仲有紅隊持續測試。

呢三層加上Sandbox嘅憑證隔離,構成咗一個縱深防禦體系。攻擊者要突破曬所有層先造成到實質傷害。

我之前提過一個概念叫「護欄悖論」:

車速越快,護欄越重要。

護欄悖論:車速越快護欄越重要
護欄悖論:車速越快護欄越重要

Anthropic呢兩篇blog夾埋一齊睇,啱啱好係呢個悖論嘅工程實現:Managed Agents令Agent跑得更快,Trustworthy Agents令圍欄更穩固。

06

沉入基礎設施

返轉頭睇,可以見到一條清晰嘅脈絡。

OpenAI Codex團隊由零寫咗100萬行代碼,Stripe每星期合併1300個PR,Cursor每個鐘1000個commit。

呢啲都係「用戶側」嘅Harness Engineering,係用AI嘅人喺摸索點樣馴服Agent。

而Anthropic今次做嘅,係模型廠商側嘅Harness Engineering。

佢哋唔只係教人點樣幫Agent搭Harness,而係將Harness本身整成一個託管服務。Session持久化、Harness編排、Sandbox隔離,呢啲你唔使自己搞,Anthropic幫你搞掂。

Harness正在由應用層,沉入基礎設施層。

呢個同十幾年前雲端運算嘅演進路徑何其相似。一開始大家自己砌伺服器(寵物),後來有EC2(自己管嘅牲口),再後來有Lambda(連牲口都唔使管,直接行函數)。

Agent嘅基礎設施都喺行同一條路。

Anthropic將MCP捐咗畀Linux基金會嘅Agentic AI Foundation,思路一脈相承:當Agent變成牲口,介面就要變成標準件。

由寵物到牲口,由應用層到基礎設施層。

呢個,就係Anthropic嘅牲口哲學:

我哋需要嘅係牲口,而唔係寵物。



不過我想,或者呢度有必要同打工牛馬們講一句:如有雷同,實屬巧合圖片

◇ ◆ ◇

相關連結:

•  Anthropic Trustworthy Agents:https://www.anthropic.com/research/trustworthy-agents 

•  Anthropic Managed Agents:https://www.anthropic.com/engineering/managed-agents 

今天分享 Anthropic 最新的兩篇博客,一篇講怎麼造 Agent,一篇講怎麼管 Agent。

兩篇拼在一起看,其實講的是同一件事。

01

寵物會死

運維圈有個經典比喻,叫「寵物 vs 牲口」。

寵物服務器有名字,叫 Zeus、Athena、Poseidon。它生病了,你得半夜爬起來搶救。它要是死了……那就完了,整個系統可能跟着一起掛。

牲口服務器有編號,叫 #001#002#003。有人生病了?拉走,換一台新的。

沒人會為一頭牲口哭泣或掉一滴眼淚。

寵物 vs 牲口:運維圈的經典比喻
寵物 vs 牲口:運維圈的經典比喻

這個比喻是 Randy Bias 在 2012 年提出的,用來解釋雲計算的本質。十四年過去了,Anthropic 把這套哲學,搬到了 AI Agent 的架構設計上。

02

當初的寵物

故事得從 Anthropic 最早的 Agent 架構說起。

一開始,所有東西都塞在一個容器裏:模型推理、代碼執行、會話狀態,全部打包在一起跑。

聽起來挺簡潔的,對吧?

但……問題也來了。

容器掛了,會話就丟了。用戶跑到一半的任務,說沒就沒。

要調試?得進到容器裏去看日誌,也就意味着可能碰到用戶數據。

要連客戶的 VPC?得打通網絡通道,每接一個客戶就多一根管子……

舊架構 vs 新架構:大腦和雙手分開了
舊架構 vs 新架構:大腦和雙手分開了

這就是典型的「寵物架構」。每個容器都是獨一無二的,精心維護的,不可替代的。

它掛了,你得心疼。

03

腦手分離

痛過之後,Anthropic 的工程團隊決定做一次徹底的手術。

圖片

他們給這篇博客起了個副標題:Decoupling the Brain from the Hands,把大腦和雙手分開。

怎麼分呢?拆成三層。

Session,會話日誌。只增不改的事件流,記錄 Agent 做過的每一件事。它不在容器裏,而是存在外部數據庫(Postgres、SQLite 都行)。容器死了,日誌還在。

Harness,編排層。負責調用 Claude、路由工具調用、管理上下文。關鍵詞:無狀態。它自己不記任何東西,所有狀態都從 Session 裏讀。

Sandbox,執行環境。代碼在這裏跑,文件在這裏改。它是隔離的,碰不到憑證,碰不到用戶的敏感數據。

Managed Agents 架構:Session、Harness、Sandbox 解耦
Managed Agents 架構:Session、Harness、Sandbox 解耦

這三層之間的關係,用 Anthropic 自己的話說,是「接口抽象」。

每一層只需要滿足一組接口約定,具體用什麼實現無所謂。Session 可以是 Postgres,也可以是一個內存數組。Sandbox 可以是本地進程,也可以是遠程容器。

組件接口定義:每層只需滿足接口約定
組件接口定義:每層只需滿足接口約定

這套設計的靈感,其實來自操作系統。

寵物,不能再養了!

圖片

Anthropic 團隊在博客裏寫了這麼一句:

“ 我們把接口當作比實現更持久的東西來對待,就像操作系統在幾十年前就虛擬化了硬件一樣。

翻譯一下:具體的代碼會變,但接口不會。今天的 Harness 可能跟明天的完全不一樣,但只要接口穩定,上層不用改。

如果你讀過我之前那篇關於 Harness Engineering 的文章《模型不是關鍵,Harness 才是》,會發現這個思路跟 Philipp Schmid 的「操作系統類比」幾乎一模一樣。模型是 CPU,Harness 是操作系統內核。

Harness 概念示意
Harness 概念示意

只不過 Anthropic 更進一步:他們不只是把 Harness 當操作系統設計,還把它做成了可以隨時殺掉重啓的牲口

04

牲口化的收益

把 Harness 變成無狀態的牲口之後,發生了什麼呢?

p50 首 Token 延遲(TTFT)下降了約 60%,p95 下降超過 90%。

為什麼?因為以前啓動一個 Agent,得先把整個容器配好:裝環境、掛載文件、注入憑證,然後才能開始推理。現在呢,推理和容器配置是分開的,Harness 拿到 Session ID 就能直接開始調用 Claude,不用等 Sandbox 準備好。

Session 與 Harness 的交互:事件驅動,無狀態恢復
Session 與 Harness 的交互:事件驅動,無狀態恢復

而且,既然 Harness 是無狀態的,那它就可以有很多個。

多個大腦(Harness),連接不同的手(Sandbox)。

多個 Harness 連接多個 Sandbox:many brains, many hands
多個 Harness 連接多個 Sandbox:many brains, many hands

一個 Harness 掛了?新的 Harness 調用 wake(sessionId),從 Session 日誌裏恢復上下文,接着幹。對用戶來說,只是某個工具調用失敗了一次,Claude 自動重試就行了。

這就是牲口哲學的核心:沒有什麼是不可替代的。

牲口化的收益:延遲大幅下降
牲口化的收益:延遲大幅下降

安全性也跟着提升了。

憑證永遠不進 Sandbox。Git token 在初始化時注入,OAuth token 留在外部保險櫃裏,通過 MCP 代理訪問。Sandbox 被攻破了……攻擊者拿不到任何憑證。

這倒是解決了一個 Agent 安全領域的老大難問題:prompt injection 就算成功了,也偷不到鑰匙。

05

圍欄不能少

說到安全,Anthropic 在同一周還發了另一篇博客:《Trustworthy Agents in Practice》。

圖片

牲口跑得快,圍欄得跟上。

牲口跑得快,圍欄不能少
牲口跑得快,圍欄不能少

這篇文章提出了一個 Agent 信任框架,建立在五個原則之上:人類控制、價值對齊、安全交互、透明度、隱私保護。

其中幾個點跟 Managed Agents 的架構設計直接呼應。

Plan Mode,也許是最值得關注的一個設計。

傳統的 Agent 權限管理是「逐步審批」:Agent 每執行一步,你都得點一下確認。這就像你僱了個人,每打一個字都要請示你,效率可想而知。

Plan Mode 改成了「戰略審批」:Agent 先把整個行動計劃列出來給你看。你審的是方向,而不是每一步細節。相當於從微觀管理變成了目標管理。

Prompt injection 防禦則是多層設計。

模型訓練階段,就在教 Claude 識別惡意指令。生產環境裏,有實時流量監控。外部還有紅隊持續測試。

這三層加上 Sandbox 的憑證隔離,構成了一個縱深防禦體系。攻擊者要突破所有層才能造成實質傷害。

我之前提過一個概念叫「護欄悖論」:

車速越快,護欄越重要。

護欄悖論:車速越快護欄越重要
護欄悖論:車速越快護欄越重要

Anthropic 這兩篇博客合在一起看,恰好是這個悖論的工程實現:Managed Agents 讓 Agent 跑得更快,Trustworthy Agents 讓圍欄更結實。

06

沉入基礎設施

回頭來看,可以看出一條清晰的脈絡。

OpenAI Codex 團隊從零寫了 100 萬行代碼,Stripe 每週合併 1300 個 PR,Cursor 每小時 1000 個 commit。

那些都是「用戶側」的 Harness Engineering,是用 AI 的人在摸索怎麼馴服 Agent。

而 Anthropic 這次做的,是模型廠商側的 Harness Engineering。

他們不只是在教別人怎麼給 Agent 搭 Harness,而是把 Harness 本身做成了一個託管服務。Session 持久化、Harness 編排、Sandbox 隔離,這些你不用自己搭了,Anthropic 幫你搞定。

Harness 正在從應用層,沉入基礎設施層。

這跟十幾年前雲計算的演進路徑何其相似。一開始大家自己搭服務器(寵物),後來有了 EC2(自己管的牲口),再後來有了 Lambda(連牲口都不用管了,直接跑函數)。

Agent 的基礎設施也在走同一條路。

Anthropic 把 MCP 捐給了 Linux 基金會的 Agentic AI Foundation,思路一脈相承:當 Agent 變成牲口,接口就得變成標準件。

從寵物到牲口,從應用層到基礎設施層。

這,就是 Anthropic 的牲口哲學:

我們需要的是牲口,而非寵物。



不過我想,或許這裏有必要給打工牛馬們加一句:如有雷同,實屬巧合圖片

◇ ◆ ◇

相關連結:

•  Anthropic Trustworthy Agents:https://www.anthropic.com/research/trustworthy-agents 

•  Anthropic Managed Agents:https://www.anthropic.com/engineering/managed-agents