Anthropic 的 Harness 哲學：把 Agent 當牲口，而非寵物

作者：AGI Hunt

日期：2026年4月11日上午4:39

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

Anthropic 將 Agent 從寵物變牲口：拆開大腦同手，延遲跌 60%

整理版摘要

呢篇文章係關於 Anthropic 最新嘅兩篇博客，一篇講點樣整 Agent，一篇講點樣管 Agent。作者係一個技術觀察者，想透過呢兩篇文解釋 Anthropic 嘅「牲口哲學」——即係將 Agent 變成無狀態、可以隨時殺掉重啓嘅組件，而唔係獨一無二、要精心維護嘅寵物。整體結論係：Anthropic 透過將 Agent 架構拆成 Session、Harness、Sandbox 三層，令延遲大幅下降、安全性提升，同時提出一個信任框架嚟確保安全。

文章先用「寵物 vs 牲口」呢個經典比喻嚟引入，然後講返 Anthropic 初期嘅寵物架構有咩問題，再詳細解釋佢哋點樣「腦手分離」，將模型推理、工具調用同執行環境分開。最後提到呢個思路同雲計算演進相似，Harness 正從應用層沉入基礎設施層。作者嘅整理角度係將兩篇博客拼埋一齊睇，強調「牲口跑得快，圍欄都要跟上」嘅互補關係。

結論：Anthropic 將 Agent 架構從有狀態嘅寵物轉為無狀態嘅牲口，大幅提升效率同安全性。
方法：將 Agent 拆成三層——Session（會話日誌）、Harness（無狀態編排層）、Sandbox（隔離執行環境），每層只靠接口溝通。
差異：舊架構容器掛咗就冇咗會話，新架構 Harness 可以隨時殺掉重啓，透過 wake(sessionId) 恢復上下文。
啟發：呢個設計靈感來自操作系統，接口比實現更持久；安全採用縱深防禦，憑證唔入 Sandbox，配合 Plan Mode 戰略審批。
可行動點：如果你係開發者，可以參考呢個三層模型設計自家 Agent；應用層嘅用戶可以用 Anthropic 嘅託管服務，唔使自己搭基礎設施。

值得記低

連結 anthropic.com

Anthropic Trustworthy Agents

講 Agent 信任框架嘅文章，包含 Plan Mode、Prompt injection 防禦等。

連結 anthropic.com

Anthropic Managed Agents

講 Agent 架構設計嘅文章，拆成 Session、Harness、Sandbox。

整理重點

寵物 vs 牲口：運維哲學搬入 AI

Anthropic 引用運維圈經典比喻：寵物服務器有名有姓，死咗要搶救；牲口服務器得編號，壞咗換新就得。呢個比喻由 Randy Bias 喺 2012 年提出，本來係解釋雲計算本質，家陣 Anthropic 將佢搬到 AI Agent 架構設計。

寵物 vs 牲口：運維圈的經典比喻

初期 Anthropic 嘅 Agent 係典型寵物架構：模型推理、代碼執行、會話狀態全部塞喺一個容器。容器死咗，會話就冇咗；要調試要入容器睇日誌，可能碰到用戶數據；要連客戶 VPC 要逐條開網絡通道。

整理重點

腦手分離：拆成三層無狀態組件

為咗擺脱寵物困局，Anthropic 工程團隊做咗次徹底手術：將大腦同雙手分開。佢哋拆咗三層——Session、Harness、Sandbox，每層只靠接口溝通。

Decoupling the Brain from the Hands

1 Session：會話日誌，係只增不改嘅事件流，記錄 Agent 做過嘅每一件事。唔喺容器入面，而係存在外部數據庫（Postgres、SQLite），容器死咗日誌仲喺度。
2 Harness：編排層，負責調用 Claude、路由工具調用、管理上下文。關鍵字係無狀態，佢自己唔記任何嘢，所有狀態都從 Session 讀。
3 Sandbox：執行環境，代碼喺度跑、文件喺度改。係隔離嘅，碰唔到憑證，碰唔到用戶敏感數據。

呢三層之間嘅關係係「接口抽象」。每一層只需要滿足一組接口約定，用咩實現都得。Session 可以係 Postgres 或者內存數組，Sandbox 可以係本地進程或者遠程容器。

接口比實現更持久

整理重點

牲口化嘅收益：延遲降六成，安全性升

將 Harness 變成無狀態牲口之後，p50 首 Token 延遲（TTFT）下降約 60%，p95 下降超過 90%。之前啟動 Agent 要等成個容器配好（裝環境、掛載文件、注入憑證），家陣推理同容器配置分開，Harness 拎到 Session ID 就可以直接開始調用 Claude，唔使等 Sandbox 準備好。

p50 TTFT 下降約 60%

安全性方面，憑證永遠唔入 Sandbox。Git token 初始化時注入，OAuth token 留喺外部保險櫃，通過 MCP 代理訪問。就算 Sandbox 被攻破，攻擊者都偷唔到鑰匙。呢個解決咗 Agent 安全嘅老大難問題：prompt injection 就算成功，都偷唔到重要憑證。

整理重點

圍欄不能少：Trustworthy Agents 框架

另一篇博客提出 Agent 信任框架，有五個原則：人類控制、價值對齊、安全交互、透明度、隱私保護。其中 Plan Mode 最值得留意——傳統逐步審批要每步確認，效率低；Plan Mode 改為戰略審批，Agent 先列出成個計劃，你審方向唔係審細節。

Plan Mode：從微觀管理變目標管理

Prompt injection 防禦係多層設計：模型訓練教 Claude 識別惡意指令，生產環境有實時流量監控，外部有紅隊持續測試。加上 Sandbox 憑證隔離，構成縱深防禦。

整理重點

沉入基礎設施：從應用層到標準件

Anthropic 今次做嘅係模型廠商側嘅 Harness Engineering。佢哋唔只教人點搭 Harness，而係將 Harness 做咗個託管服務——Session 持久化、Harness 編排、Sandbox 隔離，用戶唔使自己搭。呢個同十年前雲計算演進好似：由自己管服務器（寵物），到 EC2（自己管牲口），再到 Lambda（連牲口都唔使管）。

Harness 正從應用層沉入基礎設施層

Anthropic 將 MCP 捐俾 Linux 基金會嘅 Agentic AI Foundation，思路一脈相承：當 Agent 變成牲口，接口就要變成標準件。從寵物到牲口，從應用層到基礎設施層——呢個就係 Anthropic 嘅牲口哲學。

今日同大家分享Anthropic最新嘅兩篇blog，一篇講點樣整Agent，一篇講點樣管理Agent。

將兩篇拼埋一齊睇，其實講緊同一件事。

寵物會死

運維界有個經典比喻，叫「寵物 vs 牲口」。

寵物伺服器有名嘅，叫Zeus、Athena、Poseidon。佢病咗，你要半夜起身救佢。佢要係死咗⋯⋯咁就大鑊，成個系統隨時一齊冧。

牲口伺服器有編號，叫 #001、#002、#003。有人病咗？拉走，換部新嘅。

冇人會為一隻牲口喊或者流一滴眼淚。

呢個比喻係Randy Bias喺2012年提出嚟，用嚟解釋雲端運算嘅本質。十四年過去咗，Anthropic將呢套哲學，搬到AI Agent嘅架構設計上。

當初嘅寵物

故事要由Anthropic最早嘅Agent架構講起。

一開始，所有嘢都塞喺一個容器入面：模型推理、程式執行、對話狀態，全部打包一齊行。

聽落都幾簡潔，係咪？

但⋯⋯問題都嚟喇。

容器冧咗，對話就冇咗。用戶做到一半嘅任務，話冇就冇。

要除錯？要入去容器睇log，即係可能撞到用戶數據。

要連客戶嘅VPC？要打通網絡通道，每接一個客戶就多一條管⋯⋯

舊架構 vs 新架構：大腦和雙手分開了 — 舊架構 vs 新架構：大腦同對手分開咗

呢個就係典型嘅「寵物架構」。每個容器都係獨一無二，精心維護，冇得代替。

佢冧咗，你會心痛。

腦手分離

痛過之後，Anthropic嘅工程團隊決定做一次徹底嘅手術。

佢哋幫呢篇blog起咗個副標題：Decoupling the Brain from the Hands，將大腦同對手分開。

點樣分呢？拆成三層。

Session，對話記錄。只加唔改嘅事件流，記錄Agent做過嘅每一件事。佢唔喺容器入面，而係存在外部數據庫（Postgres、SQLite都得）。容器死咗，記錄仲喺度。

Harness，編排層。負責叫Claude、路由工具調用、管理上下文。關鍵詞：無狀態。佢自己唔記任何嘢，所有狀態都係由Session度讀。

Sandbox，執行環境。程式碼喺呢度行，檔案喺呢度改。佢係隔離嘅，掂唔到憑證，掂唔到用戶嘅敏感數據。

Managed Agents 架構：Session、Harness、Sandbox 解耦

呢三層之間嘅關係，用Anthropic自己嘅話講，係「介面抽象」。

每一層只需要滿足一組介面約定，具體用咩實現冇所謂。Session可以用Postgres，亦可以用一個記憶體陣列。Sandbox可以係本地程序，亦可以係遠端容器。

呢套設計嘅靈感，其實嚟自作業系統。

寵物，唔可以再養喇！

Anthropic團隊喺blog度寫咗噉一句：

“ 我哋將介面當作比實現更持久嘅嘢嚟對待，就好似作業系統喺幾十年前就虛擬化咗硬件一樣。

翻譯一下：具體嘅程式碼會變，但係介面唔會。今日嘅Harness可能同聽日嘅完全唔同，但只要介面穩定，上層唔使改。

如果你讀過我之前嗰篇關於Harness Engineering嘅文章《模型唔係關鍵，Harness先係》，會發現呢個思路同Philipp Schmid嘅「作業系統類比」幾乎一模一樣。模型係CPU，Harness係作業系統核心。

只不過Anthropic更進一步：佢哋唔只係將Harness當作業系統設計，仲將佢整成可以隨時殺咗佢重開嘅牲口。

牲口化嘅收益

將Harness變成無狀態嘅牲口之後，發生咗咩呢？

p50首Token延遲（TTFT）下降咗大約60%，p95下降超過90%。

點解？因為以前啟動一個Agent，要先將成個容器set好：裝環境、掛載檔案、注入憑證，然後先開始推理。而家呢，推理同容器設定係分開嘅，Harness拎到Session ID就可以直接開始叫Claude，唔使等Sandbox準備好。

Session 與 Harness 的交互：事件驅動，無狀態恢復 — Session 與 Harness 嘅交互：事件驅動，無狀態恢復

而且，既然Harness係無狀態嘅，咁佢就可以有好多個。

多個大腦（Harness），連接唔同嘅手（Sandbox）。

多個 Harness 連接多個 Sandbox：many brains, many hands

一個Harness冧咗？新嘅Harness叫 wake(sessionId)，由Session記錄度恢復上下文，繼續做。對用戶嚟講，只係某個工具調用失敗咗一次，Claude自動重試就得。

呢個就係牲口哲學嘅核心：冇嘢係冇得代替㗎。

安全性都跟住提升咗。

憑證永遠唔入Sandbox。Git token喺初始化嗰陣注入，OAuth token留喺外部保險櫃，經MCP代理存取。Sandbox俾人攻破咗⋯⋯攻擊者拎唔到任何憑證。

呢個就解決咗Agent安全領域一個老大難問題：prompt injection就算成功咗，都偷唔到鎖匙。

圍欄唔少得

講到安全，Anthropic同一星期仲出咗另一篇blog：《Trustworthy Agents in Practice》。

牲口跑得快，圍欄要跟得上。

呢篇文章提出咗一個Agent信任框架，建基於五個原則：人類控制、價值對齊、安全交互、透明度、私隱保護。

當中幾個點同Managed Agents嘅架構設計直接呼應。

Plan Mode，可能係最值得留意嘅一個設計。

傳統嘅Agent權限管理係「逐步審批」：Agent每執行一步，你都要㩒一下確認。呢個就好似你請咗個人，佢每打一個字都要請示你，效率可想而知。

Plan Mode改咗做「策略審批」：Agent先將成個行動計劃列曬俾你睇。你審嘅係方向，而唔係每一步細節。相當於由微觀管理變成目標管理。

Prompt injection防禦就係多層設計。

模型訓練階段，已經教Claude識別惡意指令。生產環境入面，有實時流量監控。外部仲有紅隊持續測試。

呢三層加上Sandbox嘅憑證隔離，構成咗一個縱深防禦體系。攻擊者要突破曬所有層先造成到實質傷害。

我之前提過一個概念叫「護欄悖論」：

車速越快，護欄越重要。

Anthropic呢兩篇blog夾埋一齊睇，啱啱好係呢個悖論嘅工程實現：Managed Agents令Agent跑得更快，Trustworthy Agents令圍欄更穩固。

沉入基礎設施

返轉頭睇，可以見到一條清晰嘅脈絡。

OpenAI Codex團隊由零寫咗100萬行代碼，Stripe每星期合併1300個PR，Cursor每個鐘1000個commit。

呢啲都係「用戶側」嘅Harness Engineering，係用AI嘅人喺摸索點樣馴服Agent。

而Anthropic今次做嘅，係模型廠商側嘅Harness Engineering。

佢哋唔只係教人點樣幫Agent搭Harness，而係將Harness本身整成一個託管服務。Session持久化、Harness編排、Sandbox隔離，呢啲你唔使自己搞，Anthropic幫你搞掂。

Harness正在由應用層，沉入基礎設施層。

呢個同十幾年前雲端運算嘅演進路徑何其相似。一開始大家自己砌伺服器（寵物），後來有EC2（自己管嘅牲口），再後來有Lambda（連牲口都唔使管，直接行函數）。

Agent嘅基礎設施都喺行同一條路。

Anthropic將MCP捐咗畀Linux基金會嘅Agentic AI Foundation，思路一脈相承：當Agent變成牲口，介面就要變成標準件。

由寵物到牲口，由應用層到基礎設施層。

呢個，就係Anthropic嘅牲口哲學：

我哋需要嘅係牲口，而唔係寵物。

不過我想，或者呢度有必要同打工牛馬們講一句：如有雷同，實屬巧合

◇ ◆ ◇

相關連結：

• Anthropic Trustworthy Agents：https://www.anthropic.com/research/trustworthy-agents

• Anthropic Managed Agents：https://www.anthropic.com/engineering/managed-agents

今天分享 Anthropic 最新的兩篇博客，一篇講怎麼造 Agent，一篇講怎麼管 Agent。

兩篇拼在一起看，其實講的是同一件事。

寵物會死

運維圈有個經典比喻，叫「寵物 vs 牲口」。

寵物服務器有名字，叫 Zeus、Athena、Poseidon。它生病了，你得半夜爬起來搶救。它要是死了……那就完了，整個系統可能跟着一起掛。

牲口服務器有編號，叫 #001、#002、#003。有人生病了？拉走，換一台新的。

沒人會為一頭牲口哭泣或掉一滴眼淚。

這個比喻是 Randy Bias 在 2012 年提出的，用來解釋雲計算的本質。十四年過去了，Anthropic 把這套哲學，搬到了 AI Agent 的架構設計上。

當初的寵物

故事得從 Anthropic 最早的 Agent 架構說起。

一開始，所有東西都塞在一個容器裏：模型推理、代碼執行、會話狀態，全部打包在一起跑。

聽起來挺簡潔的，對吧？

但……問題也來了。

容器掛了，會話就丟了。用戶跑到一半的任務，說沒就沒。

要調試？得進到容器裏去看日誌，也就意味着可能碰到用戶數據。

要連客戶的 VPC？得打通網絡通道，每接一個客戶就多一根管子……

這就是典型的「寵物架構」。每個容器都是獨一無二的，精心維護的，不可替代的。

它掛了，你得心疼。

腦手分離

痛過之後，Anthropic 的工程團隊決定做一次徹底的手術。

他們給這篇博客起了個副標題：Decoupling the Brain from the Hands，把大腦和雙手分開。

怎麼分呢？拆成三層。

Session，會話日誌。只增不改的事件流，記錄 Agent 做過的每一件事。它不在容器裏，而是存在外部數據庫（Postgres、SQLite 都行）。容器死了，日誌還在。

Harness，編排層。負責調用 Claude、路由工具調用、管理上下文。關鍵詞：無狀態。它自己不記任何東西，所有狀態都從 Session 裏讀。

Sandbox，執行環境。代碼在這裏跑，文件在這裏改。它是隔離的，碰不到憑證，碰不到用戶的敏感數據。

這三層之間的關係，用 Anthropic 自己的話說，是「接口抽象」。

每一層只需要滿足一組接口約定，具體用什麼實現無所謂。Session 可以是 Postgres，也可以是一個內存數組。Sandbox 可以是本地進程，也可以是遠程容器。

這套設計的靈感，其實來自操作系統。

寵物，不能再養了！

Anthropic 團隊在博客裏寫了這麼一句：

“ 我們把接口當作比實現更持久的東西來對待，就像操作系統在幾十年前就虛擬化了硬件一樣。

翻譯一下：具體的代碼會變，但接口不會。今天的 Harness 可能跟明天的完全不一樣，但只要接口穩定，上層不用改。

如果你讀過我之前那篇關於 Harness Engineering 的文章《模型不是關鍵，Harness 才是》，會發現這個思路跟 Philipp Schmid 的「操作系統類比」幾乎一模一樣。模型是 CPU，Harness 是操作系統內核。

只不過 Anthropic 更進一步：他們不只是把 Harness 當操作系統設計，還把它做成了可以隨時殺掉重啓的牲口。

牲口化的收益

把 Harness 變成無狀態的牲口之後，發生了什麼呢？

p50 首 Token 延遲（TTFT）下降了約 60%，p95 下降超過 90%。

為什麼？因為以前啓動一個 Agent，得先把整個容器配好：裝環境、掛載文件、注入憑證，然後才能開始推理。現在呢，推理和容器配置是分開的，Harness 拿到 Session ID 就能直接開始調用 Claude，不用等 Sandbox 準備好。

而且，既然 Harness 是無狀態的，那它就可以有很多個。

多個大腦（Harness），連接不同的手（Sandbox）。

一個 Harness 掛了？新的 Harness 調用 wake(sessionId)，從 Session 日誌裏恢復上下文，接着幹。對用戶來說，只是某個工具調用失敗了一次，Claude 自動重試就行了。

這就是牲口哲學的核心：沒有什麼是不可替代的。

安全性也跟着提升了。

憑證永遠不進 Sandbox。Git token 在初始化時注入，OAuth token 留在外部保險櫃裏，通過 MCP 代理訪問。Sandbox 被攻破了……攻擊者拿不到任何憑證。

這倒是解決了一個 Agent 安全領域的老大難問題：prompt injection 就算成功了，也偷不到鑰匙。

圍欄不能少

說到安全，Anthropic 在同一周還發了另一篇博客：《Trustworthy Agents in Practice》。

牲口跑得快，圍欄得跟上。

這篇文章提出了一個 Agent 信任框架，建立在五個原則之上：人類控制、價值對齊、安全交互、透明度、隱私保護。

其中幾個點跟 Managed Agents 的架構設計直接呼應。

Plan Mode，也許是最值得關注的一個設計。

傳統的 Agent 權限管理是「逐步審批」：Agent 每執行一步，你都得點一下確認。這就像你僱了個人，每打一個字都要請示你，效率可想而知。

Plan Mode 改成了「戰略審批」：Agent 先把整個行動計劃列出來給你看。你審的是方向，而不是每一步細節。相當於從微觀管理變成了目標管理。

Prompt injection 防禦則是多層設計。

模型訓練階段，就在教 Claude 識別惡意指令。生產環境裏，有實時流量監控。外部還有紅隊持續測試。

這三層加上 Sandbox 的憑證隔離，構成了一個縱深防禦體系。攻擊者要突破所有層才能造成實質傷害。

我之前提過一個概念叫「護欄悖論」：

車速越快，護欄越重要。

Anthropic 這兩篇博客合在一起看，恰好是這個悖論的工程實現：Managed Agents 讓 Agent 跑得更快，Trustworthy Agents 讓圍欄更結實。

沉入基礎設施

回頭來看，可以看出一條清晰的脈絡。

OpenAI Codex 團隊從零寫了 100 萬行代碼，Stripe 每週合併 1300 個 PR，Cursor 每小時 1000 個 commit。

那些都是「用戶側」的 Harness Engineering，是用 AI 的人在摸索怎麼馴服 Agent。

而 Anthropic 這次做的，是模型廠商側的 Harness Engineering。

他們不只是在教別人怎麼給 Agent 搭 Harness，而是把 Harness 本身做成了一個託管服務。Session 持久化、Harness 編排、Sandbox 隔離，這些你不用自己搭了，Anthropic 幫你搞定。

Harness 正在從應用層，沉入基礎設施層。

這跟十幾年前雲計算的演進路徑何其相似。一開始大家自己搭服務器（寵物），後來有了 EC2（自己管的牲口），再後來有了 Lambda（連牲口都不用管了，直接跑函數）。

Agent 的基礎設施也在走同一條路。

Anthropic 把 MCP 捐給了 Linux 基金會的 Agentic AI Foundation，思路一脈相承：當 Agent 變成牲口，接口就得變成標準件。

從寵物到牲口，從應用層到基礎設施層。

這，就是 Anthropic 的牲口哲學：

我們需要的是牲口，而非寵物。

不過我想，或許這裏有必要給打工牛馬們加一句：如有雷同，實屬巧合

◇ ◆ ◇

相關連結：

• Anthropic Trustworthy Agents：https://www.anthropic.com/research/trustworthy-agents

• Anthropic Managed Agents：https://www.anthropic.com/engineering/managed-agents