Agent Harness Engineering 三重前沿實踐：Codex、Claude Code、Cursor 如何讓人類從編碼者升為架構師

作者：AI 啓蒙小夥伴

日期：2026年5月8日下午11:50

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

Harness Engineering 係 AI 時代新範式：人類從編碼者升做架構師，三大公司實踐揭示核心命題

整理版摘要

呢篇文章係綜合 OpenAI、Anthropic 同 Cursor 三間公司最新發佈嘅 Agent Harness 文章，深入探討 AI 軟件工程點樣由「人類編碼」轉向「人類設計 Harness，智能體編碼」嘅範式轉移。OpenAI 用 Codex 從零開始、五個月內構建一百萬行代碼嘅產品，人類完全唔寫一行 code，角色變咗係「設計環境、明確意圖、構建反饋迴路」。Anthropic 關注長時運行任務，提出 Planner-Generator-Evaluator 三智能體架構，借鑒 GAN 思想將生成同評估分離。Cursor 就似運營互聯網產品咁，用 A/B 測試、保留率等數據驅動方式持續優化 Harness。

三篇文章雖然出發點唔同，但共同指向五個核心命題：第一，上下文係稀缺資源，要俾「地圖」而唔係「說明書」；第二，評估必須外化，唔可以依賴自我批評；第三，架構約束比逐行審查更有效；第四，代碼倉庫係唯一真相來源；第五，Harness 需要隨模型能力動態做減法，唔好一成不變。呢啲命題為 Agent 系統嘅工程實踐提供咗扎實嘅基礎。

整體結論係：軟件工程師嘅核心競爭力正喺度轉移，由「寫正確 code」變成「設計俾智能體理解和執行嘅系統」。呢個範式下，人類要學識將工程品味編碼成可執行規則，建立自動化垃圾回收機制，同埋明白工具可靠性係 Agent 體驗嘅基石。文章最後強調，等待模型變強唔係唯一策略，工程師需要持續喺模型能力邊…

Harness 本質係令智能體喺複雜長時任務中保持連貫、可靠同可驗證嘅基礎設施，而唔係單純令模型更聰明。
三種架構模式：OpenAI 單智能體深度自治加環境工程；Anthropic 多智能體對抗加任務分解；Cursor 動態上下文加數據驅動優化。
五個共同命題：上下文用地圖唔用說明書；評估要外化；架構約束好過代碼審查；代碼倉庫係唯一真相；Harness 要隨模型能力做減法。
關鍵分歧喺智能體數量、評估時機、上下文策略、質量保障同適用場景，反映咗三間公司唔同嘅場景極限。
工程師嘅啟示：核心競爭力轉向設計 Harness；需要系統性垃圾回收機制；主觀品味可以編碼化；工具可靠性係基石；唔好只等模型變強。

值得記低

連結 openai.com

OpenAI - Harness engineering: leveraging Codex in an agent-first world

OpenAI 關於 Codex 做 Harness Engineering 嘅原文，展示單智能體深度自主同環境工程實踐。

連結 anthropic.com

Anthropic - Harness design for long-running application development

Anthropic 提出 Planner-Generator-Evaluator 三智能體架構，專注長時任務。

連結 cursor.com

Cursor - Continually improving our agent harness

Cursor 分享點樣以產品化方式持續優化 Agent Harness，包括動態上下文同工具可靠性工程。

整理重點

Harness 嘅本質：由工具變基礎設施

三篇文章對 Harness 嘅理解底層互通，但各有側重。OpenAI 將 Harness 定義為智能體優先嘅工程基礎設施——唔係輔助人類編碼嘅工具，而係令智能體自主完成軟件全生命週期嘅系統。人類工程師角色重新定義做設計環境、明確意圖、構建反饋迴路。

Anthropic 將 Harness 視為長時運行任務嘅編排架構，關注點係點樣避免「上下文焦慮」同自我評估偏差。佢哋借鑒 GAN 思想，將生成與評估分離，形成多智能體協作閉環。

Cursor 就將 Harness 看作持續演進嘅軟件產品，需要願景驅動、假設驗證、A/B 測試同迭代優化。佢哋強調 Harness 唔係一次性設計出嚟，而係喺模型能力演進中不斷「做減法」同「做加法」嘅動態系統。

整理重點

三種架構模式對比：各自極限與互補

OpenAI 嘅方案可以概括為「一個超級智能體 + 極致環境設計」。單智能體 Codex 驅動幾乎所有工作，人類唔審查每一行 code，而係通過架構約束（自定義 linter、結構測試、強制依賴方向）確保質量。佢哋將「品味」編碼成可執行規則。

Anthropic 嘅方案係「Planner-Generator-Evaluator」三智能體架構，靈感來自 GAN。Planner 將一句話需求擴展成完整規格，Generator 按 Sprint 實現功能，Evaluator 用 Playwright 實際操作用戶界面評分。關鍵創新係生成與評估分離同Sprint 合約。

Cursor 嘅方法更偏向工程方法論同基礎設施。佢哋將上下文策略由早期嘅大量靜態上下文轉向動態上下文拉取（MCP 工具、活躍終端、歷史對話），減少預置信息。評估體系分三層：離線基準、在線 A/B 測試、代理指標（保留率、語義滿意度）。

1 OpenAI：單智能體深度自治 + 環境工程，適用完整產品從零構建。
2 Anthropic：多智能體對抗 + 任務分解，適用長時複雜全棧開發。
3 Cursor：動態上下文 + 數據驅動持續優化，適用日常 IDE 內高頻交互。

整理重點

五個共同核心命題：反覆驗證嘅工程原則

第一，上下文係稀缺資源，需要「地圖」而非「說明書」。OpenAI 明確反對俾智能體「1000 頁說明書」，因為會擠佔上下文空間，而且手冊會腐爛。共同解法係漸進式披露：俾智能體一個高層「地圖」，令佢按需深入。

第二，評估必須外化，唔可以依賴自我批評。Anthropic 最突出貢獻就係呢點，LLM 對自己輸出有系統性偏袒。獨立評估器或人類反饋迴路係必要設計。第三，架構約束比代碼審查更有效，特別係智能體吞吐量遠超人類注意力時，要將品味編碼成自動執行規則。

第四，代碼倉庫係唯一真相來源，呢個改變知識管理範式。第五，Harness 係動態嘅，應隨模型能力「做減法」</highlight_link>。Anthropic 由 Sprint 結構簡化到連續會話，Cursor 由靜態轉動態，OpenAI 由人工審核過渡到自審核。模型能力越強，Harness 形態會遷移，工程師要持續質疑每個組件係咪仍然「承重」。

整理重點

關鍵啟示：對工程師同 Agent 設計者嘅行動指南

第一，工程師核心競爭力由「編寫正確 code 嘅能力」轉向「設計可被智能體理解和執行嘅系統嘅能力」。第二，要建立系統性「AI 垃圾回收」機制，避免智能體生成嘅 code 隨時間熵增。OpenAI 每週花 20% 時間清理「AI 殘渣」，解決方案係將黃金原則編碼到倉庫並定期掃描。

1 工具可靠性係 Agent 體驗嘅基石：Cursor 將工具調用錯誤率降到 0.1% 以下，因為一次失敗會污染後續決策。
2 等待模型變強唔係唯一策略：Anthropic 話有趣嘅 Harness 組合空間唔會隨模型改進而縮小，只會轉移。
3 將人類品味編碼成機器可執行規則：透過 linter、結構測試、Sprint 合約等方式，讓智能體喺邊界內自由發揮。

OpenAI、Anthropic同Cursor都先後出咗有關Harness嘅文章，代表咗當前AI Agent工程（Harness設計）最前線、最深入嘅實踐總結。佢哋唔係獨立嘅個案，而係一齊描繪出一個正在形成嘅工程範式：人類由直接寫程式碼，轉為設計同維護令智能體可以可靠運作嘅「腳手架」（Harness）。

今日我哋就將三篇文章拼埋一齊解讀學習，Harness呢個2026年最值得學嘅方向。

「Harness」嘅本質：由工具變基礎設施

三篇文章對「Harness」嘅理解喺底層係相通，但各有側重：

OpenAI 將佢定義為智能體優先嘅工程基礎設施——唔係輔助人類編碼嘅工具，而係讓智能體可以自主完成軟件全生命週期嘅系統。佢哋嘅實驗極端又徹底：由零開始、五個月內整咗一百萬行代碼嘅產品，冇一行人手寫嘅代碼。人類工程師嘅角色重新定義為「設計環境、明確意圖、構建反饋迴路」。

Anthropic 將佢視為長時間運行任務嘅編排架構。佢哋關注嘅係當Agent需要連續做幾個鐘頭工作時，點樣避免**「上下文焦慮」和自我評估偏差**。核心方案係借鑑GAN思想，將生成同評估分離，形成多智能體協作嘅閉環。

Cursor 就將佢睇成持續演進嘅軟件產品——同任何有野心嘅軟件一樣，需要願景驅動、假設驗證、A/B測試同迭代優化。佢哋強調Harness唔係一次性設計出嚟，而係喺模型能力演進中不斷「做減法」同「做加法」嘅動態系統。

三者嘅共識係：Harness嘅價值唔在於令模型「更聰明」，而在於令模型喺複雜、長時間嘅任務中保持連貫、可靠同可驗證。

三種架構模式嘅對比同互補

1. OpenAI：單智能體深度自治 + 環境工程

Harness engineering: leveraging Codex in an agent-first world
https://openai.com/index/harness-engineering/

OpenAI同Anthropic對Harness Engineering不謀而合：由編碼到駕馭Agent，重構AI Agent時代軟件工程範式

OpenAI嘅方案可以概括為 「一個超級智能體 + 極致環境設計」。

單智能體（Codex） 驅動幾乎所有工作：編碼、測試、文檔、CI配置、代碼審查、甚至合併PR。
環境即合約：人類唔審查每一行代碼，而係通過架構約束（自訂linter、結構測試、強制依賴方向）嚟確保代碼質量。佢哋將「品味」編碼成可執行嘅規則。
漸進式信息披露：AGENTS.md 唔係百科全書，而係「地圖」（約100行），指向代碼倉庫中結構化嘅文檔系統。呢個解決咗上下文窗口稀缺嘅問題。

核心洞察：當代碼完全由智能體生成時，優化目標必須由「人類可讀」轉向「智能體可讀」。代碼倉庫本身就係唯一嘅真相來源——Google Docs、Slack訊息、人類腦海入面嘅隱性知識對智能體嚟講「不存在」。

2. Anthropic：多智能體對抗 + 任務分解

Harness design for long-running application development
https://www.anthropic.com/engineering/harness-design-long-running-apps

一文看懂Harness Engineering：OpenAI、Anthropic們在談什麼，OpenClaw如何用好Harness變得更強？

Claude Code架構深度解讀：Agent系統嘅真正護城河唔喺模型，而喺Harness

Anthropic嘅方案係 「Planner-Generator-Evaluator」三智能體架構，靈感來自GAN。

角色	職責	解決嘅問題
Planner	將一句需求擴展為完整嘅產品規格	避免生成器「邊做邊想」導致範圍不足
Generator	按Sprint逐個實現功能	控制複雜度，保持專注
Evaluator	用Playwright實際操作使用者界面，按標準評分	解決自我評估偏差——生成器傾向於俾自己嘅作品打高分

關鍵創新：

生成與評估分離：讓獨立嘅Evaluator保持懷疑態度，比讓生成器自我批評更容易調優。
Sprint合約：生成器同評估器喺每個Sprint前協商「完成標準」，避免目標漂移。
上下文重置（Context Reset）：喺Sonnet 4.5時代，模型會喺上下文窗口接近極限時產生焦慮並提前收尾。透過結構化交接文件（handoff artifact）重置上下文，比壓縮（compaction）更有效。

值得留意嘅係，隨住Opus 4.6嘅發佈，Anthropic發現模型原生能力已經夠強，可以移除Sprint結構，將評估器改為喺構建結束後單次運行。呢個驗證咗Cursor嘅觀點：Harness嘅複雜度應該隨模型能力演進持續重構。

3. Cursor：動態上下文 + 數據驅動嘅持續優化

Continually improving our agent harness
https://cursor.com/blog/continually-improving-agent-harness

LLM只係引擎，Harness先係底盤：Cursor官方首次系統披露AI Coding Agents工程方法論

Cursor嘅文章更偏向工程方法論同基礎設施，展示咗點樣好似運營互聯網產品咁運營Agent Harness。

上下文策略嘅演進：

早期（2024年末）：大量靜態上下文（代碼庫結構、語義匹配嘅代碼片段）+ 強護欄（限制工具調用次數、改寫文件讀取請求）。
現在：轉向動態上下文——模型按需拉取資訊（MCP工具、活躍終端、歷史對話），減少預置資訊，增加智能體嘅自主決策權。

評估體系嘅三層結構：

離線基準（CursorBench）：快速、標準化嘅質量對比。
在線A/B測試：真實用戶場景中嘅多版本對比。
代理指標：

保留率（Keep Rate）：智能體生成嘅代碼喺固定時間後仍然保留喺代碼庫中嘅比例——直接反映用戶係咪滿意到唔使改。
語義滿意度：用LLM讀取用戶後續訊息，判斷用戶係繼續推進（滿意）定係貼錯誤堆疊（唔滿意）。

工具可靠性工程：Cursor將工具調用錯誤率視為核心指標，透過分類（InvalidArguments、UnexpectedEnvironment、ProviderError等）同專項衝刺，將所有工具調用嘅可靠性推到「兩三個9」（99.9%）。呢個表面睇係基礎設施細節，實際上係防止上下文腐壞嘅關鍵——一次失敗嘅工具調用會留低錯誤資訊，污染後續決策。

五個共同嘅核心命題

睇完三篇文章，可以發現五個被反覆驗證嘅深層命題：

1. 上下文係稀缺資源，需要「地圖」而唔係「說明書」

OpenAI明確反對俾智能體「1000頁嘅說明書」，因為：

會擠佔任務同代碼嘅上下文空間；
「當乜嘢都重要嘅時候，乜嘢都唔重要」；
手冊會快啲腐爛，智能體無法判斷資訊係咪過時。

三者嘅共同解法係漸進式披露：俾智能體一個高層嘅「地圖」（OpenAI嘅AGENTS.md、Anthropic嘅Sprint合約、Cursor嘅動態上下文引用），等佢按需深入。

2. 評估必須外化，唔可以依賴自我批評

呢個係Anthropic最突出嘅貢獻，亦係OpenAI實踐入面嘅隱含邏輯。OpenAI讓Codex喺本地同雲端運行「額外嘅特定智能體審查」，本質上都係外部評估。Cursor就透過保留率同用戶反饋嚟間接評估。

核心原因係：LLM對自己嘅輸出有系統性偏袒，特別係喺主觀質量（例如設計品味）同複雜邏輯正確性上面。獨立嘅評估器（或者人類反饋迴路）係打破呢種偏見嘅必要設計。

3. 架構約束比代碼審查更有效

OpenAI嘅做法最具代表性：佢哋透過自訂linter同結構測試，強制每個業務領域跟從固定嘅分層架構（Types → Config → Repo → Service → Runtime → UI），依賴方向嚴格受限。

喺智能體吞吐量遠超人類注意力嘅場景下，「阻塞式合併門」同「人工逐行審查」已經唔可行。取而代之嘅係將人類嘅工程品味編碼為可自動執行嘅規則，讓智能體喺邊界內自由發揮。

4. 代碼倉庫係唯一嘅真相來源

三篇文章都強調：智能體只可以睇到代碼倉庫入面嘅內容。OpenAI將Slack討論、設計決策全部歸檔到倉庫嘅 docs/ 目錄；Anthropic透過文件進行智能體之間嘅通訊；Cursor嘅動態上下文最終都指向倉庫入面可驗證嘅資訊。

呢個意味住知識管理範式正在轉變：由「文檔系統 + 代碼倉庫」嘅雙軌制，轉向「代碼倉庫即記錄系統」嘅單軌制。

5. Harness係動態嘅，應該隨模型能力「做減法」

Anthropic由Sprint結構到連續會話嘅簡化，Cursor由靜態上下文到動態上下文嘅遷移，OpenAI由人工審核到智能體自審核嘅過渡——三者共同展示咗一個反直覺嘅規律：

模型能力越強，Harness嘅複雜度唔一定越高，但其形態會遷移。 工程師需要持續質疑Harness入面嘅每個組件係咪仍然「承重」，及時剝離過時嘅腳手架，同時喺新邊界上增加新嘅約束。

關鍵分歧與不同路徑選擇

雖然方向一致，三者喺具體策略上存在值得留意嘅差異：

維度	OpenAI	Anthropic	Cursor
智能體數量	單智能體為主，多智能體用嚟審查	明確嘅三智能體分工	未強調多智能體，聚焦單智能體上下文管理
評估時機	持續審查（PR級）	按Sprint或最終單次評估	透過用戶行為間接評估（保留率）
上下文策略	倉庫結構化文檔 + 漸進式披露	上下文重置 + 結構化交接文件	動態上下文拉取（MCP、終端、歷史對話）
質量保障	架構約束（linter、結構測試）	獨立Evaluator + Playwright實測	工具可靠性 + A/B測試 + 代理指標
適用場景	完整產品從零構建	長時間運行嘅複雜全棧開發	日常編程輔助（IDE內）

呢啲差異反映出場景嘅本質唔同：OpenAI探索嘅係「無人編碼」嘅極限，Anthropic探索嘅係「長時間自主」嘅極限，Cursor探索嘅係「高頻互動」嘅極限。

對軟件工程實踐嘅啟示

呢三篇文章共同指向幾個對行業有深遠影響嘅判斷：

1. 工程師嘅核心競爭力正在轉移由「寫正確代碼嘅能力」轉向「設計可以被智能體理解同執行嘅系統嘅能力」。OpenAI團隊講得好直接：「當軟件工程團隊嘅主要工作唔再係寫代碼，而係設計環境、明確意圖同構建反饋迴路嘅時候，會發生咩事？」

2. AI slop需要有系統性嘅垃圾回收機制OpenAI坦誠咁提到，團隊曾經每星期花20%嘅時間清理「AI殘渣」——智能體復現咗倉庫入面唔夠理想嘅模式導致嘅代碼漂移。佢哋嘅解決方案係將「黃金原則」編碼到倉庫入面，並定期運行後台智能體掃描偏差。呢個提示我哋：完全自主嘅代碼生成必然伴隨熵增，需要自動化嘅「垃圾回收」機制。

3. 主觀品味嘅可編碼化Anthropic嘅前端設計實驗表明，就算係「呢個設計係咪好睇」呢類主觀判斷，都可以透過精心設計嘅評分標準（設計質量、原創性、工藝、功能性）同少量示例（few-shot）校準，轉化為可執行嘅評估邏輯。呢個為創意類工作嘅自動化提供咗方法論。

4. 工具可靠性係Agent體驗嘅基石Cursor對工具錯誤率嘅極致追求（降到0.1%以下）揭示咗一個容易忽略嘅真相：Agent嘅「智能」體驗唔單止取決於模型能力，更取決於工具鏈嘅確定性。一次失敗嘅文件讀取或shell調用，足以令智能體陷入錯誤嘅推理鏈。

5. 等模型變強唔係唯一策略Anthropic嘅結論係：「有趣Harness組合嘅空間唔會隨模型改進而縮小，而係會轉移。」呢個意味住AI工程師嘅工作唔會快啲被模型能力「吞噬」，而係需要持續喺模型能力邊界上揾到新嘅組合方式。

總結

呢三篇文章共同描繪咗一幅清晰嘅圖景：軟件工程正在經歷由「人類編碼」到「人類設計Harness，智能體編碼」嘅範式轉移。

OpenAI 展示咗呢種轉移嘅極端可能性——完全自主、百萬行代碼級別嘅工程；
Anthropic 提供咗長時間複雜任務嘅理論框架——生成與評估嘅對抗性分離；
Cursor 就展示咗點樣以產品化嘅方式持續運營同優化呢種轉移——數據驅動、動態上下文、工具可靠性工程。

對Agent設計同開發者嚟講，最關鍵嘅takeaway係：唔好淨係關注令模型「更聰明」，而係要關注點樣令模型喺真實工程環境入面「更可靠」。呢個需要嘅唔係更大嘅模型，而係更好嘅上下文設計、更清晰嘅評估標準、更嚴格嘅架構約束，同埋將人類品味持續編碼為機器可執行規則嘅能力。

"Harness" 的本質：從工具到基礎設施

三篇文章對 "Harness" 的理解在底層是相通的，但各有側重：

OpenAI 將其定義為智能體優先的工程基礎設施——不是輔助人類編碼的工具，而是讓智能體能夠自主完成軟件全生命週期的系統。他們的實驗極端而徹底：從零開始、五個月內構建了一百萬行代碼的產品，沒有一行人工編寫的代碼。人類工程師的角色被重新定義為"設計環境、明確意圖、構建反饋迴路"。

Anthropic 將其視為長時運行任務的編排架構。他們關注的是當 Agent 需要連續工作數小時時，如何避免**"上下文焦慮"和自我評估偏差**。核心方案是借鑑 GAN 思想，將生成與評估分離，形成多智能體協作的閉環。

Cursor 則將其看作持續演進的軟件產品——和任何有野心的軟件一樣，需要願景驅動、假設驗證、A/B 測試和迭代優化。他們強調 Harness 不是一次性設計出來的，而是在模型能力演進中不斷"做減法"和"做加法"的動態系統。

三者的共識是：Harness 的價值不在於讓模型"更聰明"，而在於讓模型在複雜、長時的任務中保持連貫、可靠和可驗證。

三種架構模式的對比與互補

1. OpenAI：單智能體深度自治 + 環境工程

Harness engineering: leveraging Codex in an agent-first world
https://openai.com/index/harness-engineering/

OpenAI 和 Anthropic 對 Harness Engineering 不謀而合：從編碼到駕馭 Agent，重構 AI Agent 時代軟件工程範式

OpenAI 的方案可以概括為 "一個超級智能體 + 極致環境設計"。

單智能體（Codex） 驅動幾乎所有工作：編碼、測試、文檔、CI 配置、代碼審查、甚至合併 PR。
環境即契約：人類不審查每一行代碼，而是通過架構約束（自定義 linter、結構測試、強制依賴方向）來確保代碼質量。他們把"品味"編碼成了可執行的規則。
漸進式信息披露：AGENTS.md 不是百科全書，而是"地圖"（約 100 行），指向代碼倉庫中結構化的文檔系統。這解決了上下文窗口稀缺的問題。

核心洞察：當代碼完全由智能體生成時，優化目標必須從"人類可讀"轉向"智能體可讀"。代碼倉庫本身就是唯一的真相來源——Google Docs、Slack 消息、人類頭腦中的隱性知識對智能體而言"不存在"。

2. Anthropic：多智能體對抗 + 任務分解

Harness design for long-running application development
https://www.anthropic.com/engineering/harness-design-long-running-apps

一文看懂 Harness Engineering：OpenAI、Anthropic 們在談什麼，OpenClaw 如何用好 Harness 變得更強？

Claude Code 架構深度解讀：Agent 系統的真正護城河不在模型，而在 Harness

Anthropic 的方案是 "Planner-Generator-Evaluator" 三智能體架構，靈感來自 GAN。

角色	職責	解決的問題
Planner	將一句話需求擴展為完整的產品規格	避免生成器"邊做邊想"導致範圍不足
Generator	按 Sprint 逐個實現功能	控制複雜度，保持專注
Evaluator	用 Playwright 實際操作用戶界面，按標準評分	解決自我評估偏差——生成器傾向於給自己的作品打高分

關鍵創新：

生成與評估分離：讓獨立的 Evaluator 保持懷疑態度，比讓生成器自我批評更容易調優。
Sprint 合約：生成器和評估器在每個 Sprint 前協商"完成標準"，避免目標漂移。
上下文重置（Context Reset）：在 Sonnet 4.5 時代，模型會在上下文窗口接近極限時產生焦慮並提前收尾。通過結構化交接文件（handoff artifact）重置上下文，比壓縮（compaction）更有效。

值得注意的是，隨着 Opus 4.6 的發佈，Anthropic 發現模型原生能力已足夠強，可以移除 Sprint 結構，將評估器改為在構建結束後單次運行。這驗證了 Cursor 的觀點：Harness 的複雜度應隨模型能力演進持續重構。

3. Cursor：動態上下文 + 數據驅動的持續優化

Continually improving our agent harness
https://cursor.com/blog/continually-improving-agent-harness

LLM 只是引擎，Harness 才是底盤：Cursor 官方首次系統披露 AI Coding Agents 工程方法論

Cursor 的文章更偏向工程方法論和基礎設施，展示瞭如何像運營互聯網產品一樣運營 Agent Harness。

上下文策略的演進：

早期（2024 年末）：大量靜態上下文（代碼庫結構、語義匹配的代碼片段）+ 強護欄（限制工具調用次數、改寫文件讀取請求）。
現在：轉向動態上下文——模型按需拉取信息（MCP 工具、活躍終端、歷史對話），減少預置信息，增加智能體的自主決策權。

評估體系的三層結構：

離線基準（CursorBench）：快速、標準化的質量對比。
在線 A/B 測試：真實用戶場景中的多版本對比。
代理指標：

保留率（Keep Rate）：智能體生成的代碼在固定時間後仍保留在代碼庫中的比例——直接反映用戶是否滿意到無需修改。
語義滿意度：用 LLM 讀取用戶後續消息，判斷用戶是繼續推進（滿意）還是粘貼錯誤堆棧（不滿意）。

工具可靠性工程： Cursor 將工具調用錯誤率視為核心指標，通過分類（InvalidArguments、UnexpectedEnvironment、ProviderError 等）和專項衝刺，將所有工具調用的可靠性推到了"兩三個 9"（99.9%）。這看似是基礎設施細節，實則是防止上下文腐壞的關鍵——一次失敗的工具調用會留下錯誤信息，污染後續決策。

五個共同的核心命題

通讀三篇文章，可以發現五個被反覆驗證的深層命題：

1. 上下文是稀缺資源，需要"地圖"而非"說明書"

OpenAI 明確反對給智能體"1000 頁的說明書"，因為：

會擠佔任務和代碼的上下文空間；
"當一切都重要時，一切都不重要"；
手冊會迅速腐爛，智能體無法判斷信息是否過時。

三者的共同解法是漸進式披露：給智能體一個高層的"地圖"（OpenAI 的 AGENTS.md、Anthropic 的 Sprint 合約、Cursor 的動態上下文引用），讓它按需深入。

2. 評估必須外化，不能依賴自我批評

這是 Anthropic 最突出的貢獻，也是 OpenAI 實踐中的隱含邏輯。OpenAI 讓 Codex 在本地和雲端運行"額外的特定智能體審查"，本質上也是外部評估。Cursor 則通過保留率和用戶反饋來間接評估。

核心原因是：LLM 對自己的輸出有系統性偏袒，特別是在主觀質量（如設計品味）和複雜邏輯正確性上。獨立的評估器（或人類反饋迴路）是打破這種偏見的必要設計。

3. 架構約束比代碼審查更有效

OpenAI 的做法最具代表性：他們通過自定義 linter 和結構測試，強制每個業務領域遵循固定的分層架構（Types → Config → Repo → Service → Runtime → UI），依賴方向嚴格受限。

在智能體吞吐量遠超人類注意力的場景下，"阻塞式合併門"和"人工逐行審查"不再可行。取而代之的是將人類的工程品味編碼為可自動執行的規則，讓智能體在邊界內自由發揮。

4. 代碼倉庫是唯一的真相來源

三篇文章都強調：智能體只能看到代碼倉庫中的內容。OpenAI 將 Slack 討論、設計決策全部歸檔到倉庫的 docs/ 目錄；Anthropic 通過文件進行智能體間通信；Cursor 的動態上下文也最終指向倉庫內的可驗證信息。

這意味着知識管理範式正在轉變：從"文檔系統 + 代碼倉庫"的雙軌制，轉向"代碼倉庫即記錄系統"的單軌制。

5. Harness 是動態的，應隨模型能力"做減法"

Anthropic 從 Sprint 結構到連續會話的簡化，Cursor 從靜態上下文到動態上下文的遷移，OpenAI 從人工審核到智能體自審核的過渡——三者共同展示了一個反直覺的規律：

模型能力越強，Harness 的複雜度不一定越高，但其形態會遷移。 工程師需要持續質疑 Harness 中的每個組件是否仍然"承重"，及時剝離過時的腳手架，同時在新邊界上增加新的約束。

關鍵分歧與不同路徑選擇

儘管方向一致，三者在具體策略上存在值得注意的差異：

維度	OpenAI	Anthropic	Cursor
智能體數量	單智能體為主，多智能體用於審查	明確的三智能體分工	未強調多智能體，聚焦單智能體上下文管理
評估時機	持續審查（PR 級）	按 Sprint 或最終單次評估	通過用戶行為間接評估（保留率）
上下文策略	倉庫結構化文檔 + 漸進式披露	上下文重置 + 結構化交接文件	動態上下文拉取（MCP、終端、歷史對話）
質量保障	架構約束（linter、結構測試）	獨立 Evaluator + Playwright 實測	工具可靠性 + A/B 測試 + 代理指標
適用場景	完整產品從零構建	長時運行的複雜全棧開發	日常編程輔助（IDE 內）

這些差異反映了場景的本質不同：OpenAI 探索的是"無人編碼"的極限，Anthropic 探索的是"長時自主"的極限，Cursor 探索的是"高頻交互"的極限。

對軟件工程實踐的啓示

這三篇文章共同指向幾個對行業有深遠影響的判斷：

1. 工程師的核心競爭力正在轉移從"編寫正確代碼的能力"轉向"設計可被智能體理解和執行的系統的能力"。OpenAI 團隊說得很直接："當軟件工程團隊的主要工作不再是編寫代碼，而是設計環境、明確意圖和構建反饋迴路時，會發生什麼？"

2. AI slop 需要系統性的垃圾回收機制OpenAI 坦誠地提到，團隊曾每週花 20% 的時間清理"AI 殘渣"——智能體復現了倉庫中不夠理想的模式導致的代碼漂移。他們的解決方案是將"黃金原則"編碼到倉庫中，並定期運行後台智能體掃描偏差。這提示我們：完全自主的代碼生成必然伴隨熵增，需要自動化的"垃圾回收"機制。

3. 主觀品味的可編碼化Anthropic 的前端設計實驗表明，即使是"這個設計是否好看"這類主觀判斷，也可以通過精心設計的評分標準（設計質量、原創性、工藝、功能性）和少量示例（few-shot）校準，轉化為可執行的評估邏輯。這為創意類工作的自動化提供了方法論。

4. 工具可靠性是 Agent 體驗的基石Cursor 對工具錯誤率的極致追求（降到 0.1% 以下）揭示了一個容易被忽視的真相：Agent 的"智能"體驗不僅取決於模型能力，更取決於工具鏈的確定性。一次失敗的文件讀取或 shell 調用，足以讓智能體陷入錯誤的推理鏈。

5. 等待模型變強不是唯一策略Anthropic 的結論是："有趣 Harness 組合的空間不會隨着模型改進而縮小，而是會轉移。" 這意味着 AI 工程師的工作不會很快被模型能力"吞噬"，而是需要持續在模型能力邊界上找到新的組合方式。

總結

這三篇文章共同描繪了一幅清晰的圖景：軟件工程正在經歷從"人類編碼"到"人類設計 Harness，智能體編碼"的範式轉移。

OpenAI 展示了這種轉移的極端可能性——完全自主、百萬行代碼級別的工程；
Anthropic 提供了長時複雜任務的理論框架——生成與評估的對抗性分離；
Cursor 則展示瞭如何以產品化的方式持續運營和優化這種轉移——數據驅動、動態上下文、工具可靠性工程。

對 Agent 設計和開發者而言，最關鍵的 takeaway 是：不要只關注讓模型"更聰明"，而要關注如何讓模型在真實工程環境中"更可靠"。這需要的不是更大的模型，而是更好的上下文設計、更清晰的評估標準、更嚴格的架構約束，以及將人類品味持續編碼為機器可執行規則的能力。

Agent Harness Engineering 三重前沿實踐：Codex、Claude Code、Cursor 如何讓人類從編碼者升為架構師

Harness 嘅本質：由工具變基礎設施

三種架構模式對比：各自極限與互補

五個共同核心命題：反覆驗證嘅工程原則

關鍵啟示：對工程師同 Agent 設計者嘅行動指南

「Harness」嘅本質：由工具變基礎設施

三種架構模式嘅對比同互補

1. OpenAI：單智能體深度自治 + 環境工程

2. Anthropic：多智能體對抗 + 任務分解

3. Cursor：動態上下文 + 數據驅動嘅持續優化

五個共同嘅核心命題

1. 上下文係稀缺資源，需要「地圖」而唔係「說明書」

2. 評估必須外化，唔可以依賴自我批評

3. 架構約束比代碼審查更有效

4. 代碼倉庫係唯一嘅真相來源

5. Harness係動態嘅，應該隨模型能力「做減法」

關鍵分歧與不同路徑選擇

對軟件工程實踐嘅啟示

總結

相關資源推薦

"Harness" 的本質：從工具到基礎設施

三種架構模式的對比與互補

1. OpenAI：單智能體深度自治 + 環境工程

2. Anthropic：多智能體對抗 + 任務分解

3. Cursor：動態上下文 + 數據驅動的持續優化

五個共同的核心命題

1. 上下文是稀缺資源，需要"地圖"而非"說明書"

2. 評估必須外化，不能依賴自我批評

3. 架構約束比代碼審查更有效

4. 代碼倉庫是唯一的真相來源

5. Harness 是動態的，應隨模型能力"做減法"

關鍵分歧與不同路徑選擇

對軟件工程實踐的啓示

總結

相關資源推薦