Agent Harness Engineering 三重前沿實踐:Codex、Claude Code、Cursor 如何讓人類從編碼者升為架構師

作者:AI 啓蒙小夥伴
日期:2026年5月8日 下午11:50
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

Harness Engineering 係 AI 時代新範式:人類從編碼者升做架構師,三大公司實踐揭示核心命題

整理版摘要

呢篇文章係綜合 OpenAI、Anthropic 同 Cursor 三間公司最新發佈嘅 Agent Harness 文章,深入探討 AI 軟件工程點樣由「人類編碼」轉向「人類設計 Harness,智能體編碼」嘅範式轉移。OpenAI 用 Codex 從零開始、五個月內構建一百萬行代碼嘅產品,人類完全唔寫一行 code,角色變咗係「設計環境、明確意圖、構建反饋迴路」。Anthropic 關注長時運行任務,提出 Planner-Generator-Evaluator 三智能體架構,借鑒 GAN 思想將生成同評估分離。Cursor 就似運營互聯網產品咁,用 A/B 測試、保留率等數據驅動方式持續優化 Harness。

三篇文章雖然出發點唔同,但共同指向五個核心命題:第一,上下文係稀缺資源,要俾「地圖」而唔係「說明書」;第二,評估必須外化,唔可以依賴自我批評;第三,架構約束比逐行審查更有效;第四,代碼倉庫係唯一真相來源;第五,Harness 需要隨模型能力動態做減法,唔好一成不變。呢啲命題為 Agent 系統嘅工程實踐提供咗扎實嘅基礎。

整體結論係:軟件工程師嘅核心競爭力正喺度轉移,由「寫正確 code」變成「設計俾智能體理解和執行嘅系統」。呢個範式下,人類要學識將工程品味編碼成可執行規則,建立自動化垃圾回收機制,同埋明白工具可靠性係 Agent 體驗嘅基石。文章最後強調,等待模型變強唔係唯一策略,工程師需要持續喺模型能力邊…

  • Harness 本質係令智能體喺複雜長時任務中保持連貫、可靠同可驗證嘅基礎設施,而唔係單純令模型更聰明。
  • 三種架構模式OpenAI 單智能體深度自治加環境工程;Anthropic 多智能體對抗加任務分解;Cursor 動態上下文加數據驅動優化。
  • 五個共同命題:上下文用地圖唔用說明書;評估要外化;架構約束好過代碼審查;代碼倉庫係唯一真相;Harness 要隨模型能力做減法。
  • 關鍵分歧喺智能體數量、評估時機、上下文策略、質量保障同適用場景,反映咗三間公司唔同嘅場景極限。
  • 工程師嘅啟示:核心競爭力轉向設計 Harness;需要系統性垃圾回收機制;主觀品味可以編碼化;工具可靠性係基石;唔好只等模型變強。
值得記低
連結 openai.com

OpenAI - Harness engineering: leveraging Codex in an agent-first world

OpenAI 關於 Codex 做 Harness Engineering 嘅原文,展示單智能體深度自主同環境工程實踐。

連結 anthropic.com

Anthropic - Harness design for long-running application development

Anthropic 提出 Planner-Generator-Evaluator 三智能體架構,專注長時任務。

連結 cursor.com

Cursor - Continually improving our agent harness

Cursor 分享點樣以產品化方式持續優化 Agent Harness,包括動態上下文同工具可靠性工程。

整理重點

Harness 嘅本質:由工具變基礎設施

三篇文章對 Harness 嘅理解底層互通,但各有側重。OpenAIHarness 定義為智能體優先嘅工程基礎設施——唔係輔助人類編碼嘅工具,而係令智能體自主完成軟件全生命週期嘅系統。人類工程師角色重新定義做設計環境、明確意圖、構建反饋迴路。

AnthropicHarness 視為長時運行任務嘅編排架構,關注點係點樣避免「上下文焦慮」同自我評估偏差。佢哋借鑒 GAN 思想,將生成與評估分離,形成多智能體協作閉環。

Cursor 就將 Harness 看作持續演進嘅軟件產品,需要願景驅動、假設驗證、A/B 測試同迭代優化。佢哋強調 Harness 唔係一次性設計出嚟,而係喺模型能力演進中不斷「做減法」同「做加法」嘅動態系統。

整理重點

三種架構模式對比:各自極限與互補

OpenAI 嘅方案可以概括為「一個超級智能體 + 極致環境設計」。單智能體 Codex 驅動幾乎所有工作,人類唔審查每一行 code,而係通過架構約束(自定義 linter、結構測試、強制依賴方向)確保質量。佢哋將「品味」編碼成可執行規則。

Anthropic 嘅方案係「Planner-Generator-Evaluator」三智能體架構,靈感來自 GANPlanner 將一句話需求擴展成完整規格,Generator 按 Sprint 實現功能,Evaluator 用 Playwright 實際操作用戶界面評分。關鍵創新係生成與評估分離同Sprint 合約。

Cursor 嘅方法更偏向工程方法論同基礎設施。佢哋將上下文策略由早期嘅大量靜態上下文轉向動態上下文拉取(MCP 工具、活躍終端、歷史對話),減少預置信息。評估體系分三層:離線基準、在線 A/B 測試、代理指標(保留率、語義滿意度)。

  1. 1 OpenAI:單智能體深度自治 + 環境工程,適用完整產品從零構建。
  2. 2 Anthropic:多智能體對抗 + 任務分解,適用長時複雜全棧開發。
  3. 3 Cursor:動態上下文 + 數據驅動持續優化,適用日常 IDE 內高頻交互。
整理重點

五個共同核心命題:反覆驗證嘅工程原則

第一,上下文係稀缺資源,需要「地圖」而非「說明書」。OpenAI 明確反對俾智能體「1000 頁說明書」,因為會擠佔上下文空間,而且手冊會腐爛。共同解法係漸進式披露:俾智能體一個高層「地圖」,令佢按需深入。

第二,評估必須外化,唔可以依賴自我批評。Anthropic 最突出貢獻就係呢點,LLM 對自己輸出有系統性偏袒。獨立評估器或人類反饋迴路係必要設計。第三,架構約束比代碼審查更有效,特別係智能體吞吐量遠超人類注意力時,要將品味編碼成自動執行規則。

第四,代碼倉庫係唯一真相來源,呢個改變知識管理範式。第五,Harness 係動態嘅,應隨模型能力「做減法」</highlight_link>。Anthropic 由 Sprint 結構簡化到連續會話,Cursor 由靜態轉動態,OpenAI 由人工審核過渡到自審核。模型能力越強,Harness 形態會遷移,工程師要持續質疑每個組件係咪仍然「承重」。

整理重點

關鍵啟示:對工程師同 Agent 設計者嘅行動指南

第一,工程師核心競爭力由「編寫正確 code 嘅能力」轉向「設計可被智能體理解和執行嘅系統嘅能力」。第二,要建立系統性「AI 垃圾回收」機制,避免智能體生成嘅 code 隨時間熵增。OpenAI 每週花 20% 時間清理「AI 殘渣」,解決方案係將黃金原則編碼到倉庫並定期掃描。

  1. 1 工具可靠性係 Agent 體驗嘅基石Cursor 將工具調用錯誤率降到 0.1% 以下,因為一次失敗會污染後續決策。
  2. 2 等待模型變強唔係唯一策略Anthropic 話有趣嘅 Harness 組合空間唔會隨模型改進而縮小,只會轉移。
  3. 3 將人類品味編碼成機器可執行規則:透過 linter、結構測試、Sprint 合約等方式,讓智能體喺邊界內自由發揮。

OpenAI、Anthropic同Cursor都先後出咗有關Harness嘅文章,代表咗當前AI Agent工程(Harness設計)最前線、最深入嘅實踐總結。佢哋唔係獨立嘅個案,而係一齊描繪出一個正在形成嘅工程範式:人類由直接寫程式碼,轉為設計同維護令智能體可以可靠運作嘅「腳手架」(Harness)

今日我哋就將三篇文章拼埋一齊解讀學習,Harness呢個2026年最值得學嘅方向。


「Harness」嘅本質:由工具變基礎設施

三篇文章對「Harness」嘅理解喺底層係相通,但各有側重:

OpenAI 將佢定義為智能體優先嘅工程基礎設施——唔係輔助人類編碼嘅工具,而係讓智能體可以自主完成軟件全生命週期嘅系統。佢哋嘅實驗極端又徹底:由零開始、五個月內整咗一百萬行代碼嘅產品,冇一行人手寫嘅代碼。人類工程師嘅角色重新定義為「設計環境、明確意圖、構建反饋迴路」。

Anthropic 將佢視為長時間運行任務嘅編排架構。佢哋關注嘅係當Agent需要連續做幾個鐘頭工作時,點樣避免**「上下文焦慮」自我評估偏差**。核心方案係借鑑GAN思想,將生成同評估分離,形成多智能體協作嘅閉環。

Cursor 就將佢睇成持續演進嘅軟件產品——同任何有野心嘅軟件一樣,需要願景驅動、假設驗證、A/B測試同迭代優化。佢哋強調Harness唔係一次性設計出嚟,而係喺模型能力演進中不斷「做減法」同「做加法」嘅動態系統。

三者嘅共識係:Harness嘅價值唔在於令模型「更聰明」,而在於令模型喺複雜、長時間嘅任務中保持連貫、可靠同可驗證。


三種架構模式嘅對比同互補

1. OpenAI:單智能體深度自治 + 環境工程

Harness engineering: leveraging Codex in an agent-first world

https://openai.com/index/harness-engineering/

OpenAI同Anthropic對Harness Engineering不謀而合:由編碼到駕馭Agent,重構AI Agent時代軟件工程範式

OpenAI嘅方案可以概括為 「一個超級智能體 + 極致環境設計」

  • 單智能體(Codex) 驅動幾乎所有工作:編碼、測試、文檔、CI配置、代碼審查、甚至合併PR。
  • 環境即合約:人類唔審查每一行代碼,而係通過架構約束(自訂linter、結構測試、強制依賴方向)嚟確保代碼質量。佢哋將「品味」編碼成可執行嘅規則。
  • 漸進式信息披露AGENTS.md 唔係百科全書,而係「地圖」(約100行),指向代碼倉庫中結構化嘅文檔系統。呢個解決咗上下文窗口稀缺嘅問題。

核心洞察:當代碼完全由智能體生成時,優化目標必須由「人類可讀」轉向「智能體可讀」。代碼倉庫本身就係唯一嘅真相來源——Google Docs、Slack訊息、人類腦海入面嘅隱性知識對智能體嚟講「不存在」。

2. Anthropic:多智能體對抗 + 任務分解

Harness design for long-running application development

https://www.anthropic.com/engineering/harness-design-long-running-apps

一文看懂Harness Engineering:OpenAI、Anthropic們在談什麼,OpenClaw如何用好Harness變得更強?

Claude Code架構深度解讀:Agent系統嘅真正護城河唔喺模型,而喺Harness

Anthropic嘅方案係 「Planner-Generator-Evaluator」三智能體架構,靈感來自GAN。

角色職責解決嘅問題
Planner將一句需求擴展為完整嘅產品規格避免生成器「邊做邊想」導致範圍不足
Generator按Sprint逐個實現功能控制複雜度,保持專注
Evaluator用Playwright實際操作使用者界面,按標準評分解決自我評估偏差——生成器傾向於俾自己嘅作品打高分

關鍵創新

  • 生成與評估分離:讓獨立嘅Evaluator保持懷疑態度,比讓生成器自我批評更容易調優。
  • Sprint合約:生成器同評估器喺每個Sprint前協商「完成標準」,避免目標漂移。
  • 上下文重置(Context Reset):喺Sonnet 4.5時代,模型會喺上下文窗口接近極限時產生焦慮並提前收尾。透過結構化交接文件(handoff artifact)重置上下文,比壓縮(compaction)更有效。

值得留意嘅係,隨住Opus 4.6嘅發佈,Anthropic發現模型原生能力已經夠強,可以移除Sprint結構,將評估器改為喺構建結束後單次運行。呢個驗證咗Cursor嘅觀點:Harness嘅複雜度應該隨模型能力演進持續重構。

3. Cursor:動態上下文 + 數據驅動嘅持續優化

Continually improving our agent harness

https://cursor.com/blog/continually-improving-agent-harness

LLM只係引擎,Harness先係底盤:Cursor官方首次系統披露AI Coding Agents工程方法論

Cursor嘅文章更偏向工程方法論同基礎設施,展示咗點樣好似運營互聯網產品咁運營Agent Harness。

上下文策略嘅演進

  • 早期(2024年末):大量靜態上下文(代碼庫結構、語義匹配嘅代碼片段)+ 強護欄(限制工具調用次數、改寫文件讀取請求)。
  • 現在:轉向動態上下文——模型按需拉取資訊(MCP工具、活躍終端、歷史對話),減少預置資訊,增加智能體嘅自主決策權。

評估體系嘅三層結構

  1. 離線基準(CursorBench):快速、標準化嘅質量對比。
  2. 在線A/B測試:真實用戶場景中嘅多版本對比。
  3. 代理指標
    • 保留率(Keep Rate):智能體生成嘅代碼喺固定時間後仍然保留喺代碼庫中嘅比例——直接反映用戶係咪滿意到唔使改。
    • 語義滿意度:用LLM讀取用戶後續訊息,判斷用戶係繼續推進(滿意)定係貼錯誤堆疊(唔滿意)。

工具可靠性工程:Cursor將工具調用錯誤率視為核心指標,透過分類(InvalidArguments、UnexpectedEnvironment、ProviderError等)同專項衝刺,將所有工具調用嘅可靠性推到「兩三個9」(99.9%)。呢個表面睇係基礎設施細節,實際上係防止上下文腐壞嘅關鍵——一次失敗嘅工具調用會留低錯誤資訊,污染後續決策。


五個共同嘅核心命題

睇完三篇文章,可以發現五個被反覆驗證嘅深層命題:

1. 上下文係稀缺資源,需要「地圖」而唔係「說明書」

OpenAI明確反對俾智能體「1000頁嘅說明書」,因為:

  • 會擠佔任務同代碼嘅上下文空間;
  • 「當乜嘢都重要嘅時候,乜嘢都唔重要」;
  • 手冊會快啲腐爛,智能體無法判斷資訊係咪過時。

三者嘅共同解法係漸進式披露:俾智能體一個高層嘅「地圖」(OpenAI嘅AGENTS.md、Anthropic嘅Sprint合約、Cursor嘅動態上下文引用),等佢按需深入。

2. 評估必須外化,唔可以依賴自我批評

呢個係Anthropic最突出嘅貢獻,亦係OpenAI實踐入面嘅隱含邏輯。OpenAI讓Codex喺本地同雲端運行「額外嘅特定智能體審查」,本質上都係外部評估。Cursor就透過保留率同用戶反饋嚟間接評估。

核心原因係:LLM對自己嘅輸出有系統性偏袒,特別係喺主觀質量(例如設計品味)同複雜邏輯正確性上面。獨立嘅評估器(或者人類反饋迴路)係打破呢種偏見嘅必要設計。

3. 架構約束比代碼審查更有效

OpenAI嘅做法最具代表性:佢哋透過自訂linter同結構測試,強制每個業務領域跟從固定嘅分層架構(Types → Config → Repo → Service → Runtime → UI),依賴方向嚴格受限。

喺智能體吞吐量遠超人類注意力嘅場景下,「阻塞式合併門」同「人工逐行審查」已經唔可行。取而代之嘅係將人類嘅工程品味編碼為可自動執行嘅規則,讓智能體喺邊界內自由發揮。

4. 代碼倉庫係唯一嘅真相來源

三篇文章都強調:智能體只可以睇到代碼倉庫入面嘅內容。OpenAI將Slack討論、設計決策全部歸檔到倉庫嘅 docs/ 目錄;Anthropic透過文件進行智能體之間嘅通訊;Cursor嘅動態上下文最終都指向倉庫入面可驗證嘅資訊。

呢個意味住知識管理範式正在轉變:由「文檔系統 + 代碼倉庫」嘅雙軌制,轉向「代碼倉庫即記錄系統」嘅單軌制。

5. Harness係動態嘅,應該隨模型能力「做減法」

Anthropic由Sprint結構到連續會話嘅簡化,Cursor由靜態上下文到動態上下文嘅遷移,OpenAI由人工審核到智能體自審核嘅過渡——三者共同展示咗一個反直覺嘅規律:

模型能力越強,Harness嘅複雜度唔一定越高,但其形態會遷移。 工程師需要持續質疑Harness入面嘅每個組件係咪仍然「承重」,及時剝離過時嘅腳手架,同時喺新邊界上增加新嘅約束。


關鍵分歧與不同路徑選擇

雖然方向一致,三者喺具體策略上存在值得留意嘅差異:

維度OpenAIAnthropicCursor
智能體數量單智能體為主,多智能體用嚟審查明確嘅三智能體分工未強調多智能體,聚焦單智能體上下文管理
評估時機持續審查(PR級)按Sprint或最終單次評估透過用戶行為間接評估(保留率)
上下文策略倉庫結構化文檔 + 漸進式披露上下文重置 + 結構化交接文件動態上下文拉取(MCP、終端、歷史對話)
質量保障架構約束(linter、結構測試)獨立Evaluator + Playwright實測工具可靠性 + A/B測試 + 代理指標
適用場景完整產品從零構建長時間運行嘅複雜全棧開發日常編程輔助(IDE內)

呢啲差異反映出場景嘅本質唔同:OpenAI探索嘅係「無人編碼」嘅極限,Anthropic探索嘅係「長時間自主」嘅極限,Cursor探索嘅係「高頻互動」嘅極限。


對軟件工程實踐嘅啟示

呢三篇文章共同指向幾個對行業有深遠影響嘅判斷:

1. 工程師嘅核心競爭力正在轉移由「寫正確代碼嘅能力」轉向「設計可以被智能體理解同執行嘅系統嘅能力」。OpenAI團隊講得好直接:「當軟件工程團隊嘅主要工作唔再係寫代碼,而係設計環境、明確意圖同構建反饋迴路嘅時候,會發生咩事?」

2. AI slop需要有系統性嘅垃圾回收機制OpenAI坦誠咁提到,團隊曾經每星期花20%嘅時間清理「AI殘渣」——智能體復現咗倉庫入面唔夠理想嘅模式導致嘅代碼漂移。佢哋嘅解決方案係將「黃金原則」編碼到倉庫入面,並定期運行後台智能體掃描偏差。呢個提示我哋:完全自主嘅代碼生成必然伴隨熵增,需要自動化嘅「垃圾回收」機制。

3. 主觀品味嘅可編碼化Anthropic嘅前端設計實驗表明,就算係「呢個設計係咪好睇」呢類主觀判斷,都可以透過精心設計嘅評分標準(設計質量、原創性、工藝、功能性)同少量示例(few-shot)校準,轉化為可執行嘅評估邏輯。呢個為創意類工作嘅自動化提供咗方法論。

4. 工具可靠性係Agent體驗嘅基石Cursor對工具錯誤率嘅極致追求(降到0.1%以下)揭示咗一個容易忽略嘅真相:Agent嘅「智能」體驗唔單止取決於模型能力,更取決於工具鏈嘅確定性。一次失敗嘅文件讀取或shell調用,足以令智能體陷入錯誤嘅推理鏈。

5. 等模型變強唔係唯一策略Anthropic嘅結論係:「有趣Harness組合嘅空間唔會隨模型改進而縮小,而係會轉移。」 呢個意味住AI工程師嘅工作唔會快啲被模型能力「吞噬」,而係需要持續喺模型能力邊界上揾到新嘅組合方式。


總結

呢三篇文章共同描繪咗一幅清晰嘅圖景:軟件工程正在經歷由「人類編碼」到「人類設計Harness,智能體編碼」嘅範式轉移。

  • OpenAI 展示咗呢種轉移嘅極端可能性——完全自主、百萬行代碼級別嘅工程;
  • Anthropic 提供咗長時間複雜任務嘅理論框架——生成與評估嘅對抗性分離;
  • Cursor 就展示咗點樣以產品化嘅方式持續運營同優化呢種轉移——數據驅動、動態上下文、工具可靠性工程。

對Agent設計同開發者嚟講,最關鍵嘅takeaway係:唔好淨係關注令模型「更聰明」,而係要關注點樣令模型喺真實工程環境入面「更可靠」。呢個需要嘅唔係更大嘅模型,而係更好嘅上下文設計、更清晰嘅評估標準、更嚴格嘅架構約束,同埋將人類品味持續編碼為機器可執行規則嘅能力。

相關資源推薦

LLM只係引擎,Harness先係底盤:Cursor官方首次系統披露AI Coding Agents工程方法論

Claude Code架構深度解讀:Agent系統嘅真正護城河唔喺模型,而喺Harness

一文看懂Harness Engineering:OpenAI、Anthropic們在談什麼,OpenClaw如何用好Harness變得更強?

OpenAI同Anthropic對Harness Engineering不謀而合:由編碼到駕馭Agent,重構AI Agent時代軟件工程範式


OpenAI、Anthropic 和 Cursor 先後都發表了 Harness 相關文章,代表了當前 AI Agent 工程(Harness 設計)最前沿、最深入的實踐總結。它們並非孤立的個案,而是共同勾勒出一個正在形成的工程範式:人類從直接編寫代碼,轉向設計和維護讓智能體可靠運轉的"腳手架"(Harness)

今天咱們就把三篇文章結合起來一起解讀學習,Harness 這個 2026 年最值得學習的方向。


"Harness" 的本質:從工具到基礎設施

三篇文章對 "Harness" 的理解在底層是相通的,但各有側重:

OpenAI 將其定義為智能體優先的工程基礎設施——不是輔助人類編碼的工具,而是讓智能體能夠自主完成軟件全生命週期的系統。他們的實驗極端而徹底:從零開始、五個月內構建了一百萬行代碼的產品,沒有一行人工編寫的代碼。人類工程師的角色被重新定義為"設計環境、明確意圖、構建反饋迴路"。

Anthropic 將其視為長時運行任務的編排架構。他們關注的是當 Agent 需要連續工作數小時時,如何避免**"上下文焦慮"自我評估偏差**。核心方案是借鑑 GAN 思想,將生成與評估分離,形成多智能體協作的閉環。

Cursor 則將其看作持續演進的軟件產品——和任何有野心的軟件一樣,需要願景驅動、假設驗證、A/B 測試和迭代優化。他們強調 Harness 不是一次性設計出來的,而是在模型能力演進中不斷"做減法"和"做加法"的動態系統。

三者的共識是:Harness 的價值不在於讓模型"更聰明",而在於讓模型在複雜、長時的任務中保持連貫、可靠和可驗證。


三種架構模式的對比與互補

1. OpenAI:單智能體深度自治 + 環境工程

Harness engineering: leveraging Codex in an agent-first world

https://openai.com/index/harness-engineering/

OpenAI 和 Anthropic 對 Harness Engineering 不謀而合:從編碼到駕馭 Agent,重構 AI Agent 時代軟件工程範式

OpenAI 的方案可以概括為 "一個超級智能體 + 極致環境設計"

  • 單智能體(Codex) 驅動幾乎所有工作:編碼、測試、文檔、CI 配置、代碼審查、甚至合併 PR。
  • 環境即契約:人類不審查每一行代碼,而是通過架構約束(自定義 linter、結構測試、強制依賴方向)來確保代碼質量。他們把"品味"編碼成了可執行的規則。
  • 漸進式信息披露AGENTS.md 不是百科全書,而是"地圖"(約 100 行),指向代碼倉庫中結構化的文檔系統。這解決了上下文窗口稀缺的問題。

核心洞察:當代碼完全由智能體生成時,優化目標必須從"人類可讀"轉向"智能體可讀"。代碼倉庫本身就是唯一的真相來源——Google Docs、Slack 消息、人類頭腦中的隱性知識對智能體而言"不存在"。

2. Anthropic:多智能體對抗 + 任務分解

Harness design for long-running application development

https://www.anthropic.com/engineering/harness-design-long-running-apps

一文看懂 Harness Engineering:OpenAI、Anthropic 們在談什麼,OpenClaw 如何用好 Harness 變得更強?

Claude Code 架構深度解讀:Agent 系統的真正護城河不在模型,而在 Harness

Anthropic 的方案是 "Planner-Generator-Evaluator" 三智能體架構,靈感來自 GAN。

角色職責解決的問題
Planner將一句話需求擴展為完整的產品規格避免生成器"邊做邊想"導致範圍不足
Generator按 Sprint 逐個實現功能控制複雜度,保持專注
Evaluator用 Playwright 實際操作用戶界面,按標準評分解決自我評估偏差——生成器傾向於給自己的作品打高分

關鍵創新

  • 生成與評估分離:讓獨立的 Evaluator 保持懷疑態度,比讓生成器自我批評更容易調優。
  • Sprint 合約:生成器和評估器在每個 Sprint 前協商"完成標準",避免目標漂移。
  • 上下文重置(Context Reset):在 Sonnet 4.5 時代,模型會在上下文窗口接近極限時產生焦慮並提前收尾。通過結構化交接文件(handoff artifact)重置上下文,比壓縮(compaction)更有效。

值得注意的是,隨着 Opus 4.6 的發佈,Anthropic 發現模型原生能力已足夠強,可以移除 Sprint 結構,將評估器改為在構建結束後單次運行。這驗證了 Cursor 的觀點:Harness 的複雜度應隨模型能力演進持續重構。

3. Cursor:動態上下文 + 數據驅動的持續優化

Continually improving our agent harness

https://cursor.com/blog/continually-improving-agent-harness

LLM 只是引擎,Harness 才是底盤:Cursor 官方首次系統披露 AI Coding Agents 工程方法論

Cursor 的文章更偏向工程方法論和基礎設施,展示瞭如何像運營互聯網產品一樣運營 Agent Harness。

上下文策略的演進

  • 早期(2024 年末):大量靜態上下文(代碼庫結構、語義匹配的代碼片段)+ 強護欄(限制工具調用次數、改寫文件讀取請求)。
  • 現在:轉向動態上下文——模型按需拉取信息(MCP 工具、活躍終端、歷史對話),減少預置信息,增加智能體的自主決策權。

評估體系的三層結構

  1. 離線基準(CursorBench):快速、標準化的質量對比。
  2. 在線 A/B 測試:真實用戶場景中的多版本對比。
  3. 代理指標
    • 保留率(Keep Rate):智能體生成的代碼在固定時間後仍保留在代碼庫中的比例——直接反映用戶是否滿意到無需修改。
    • 語義滿意度:用 LLM 讀取用戶後續消息,判斷用戶是繼續推進(滿意)還是粘貼錯誤堆棧(不滿意)。

工具可靠性工程: Cursor 將工具調用錯誤率視為核心指標,通過分類(InvalidArguments、UnexpectedEnvironment、ProviderError 等)和專項衝刺,將所有工具調用的可靠性推到了"兩三個 9"(99.9%)。這看似是基礎設施細節,實則是防止上下文腐壞的關鍵——一次失敗的工具調用會留下錯誤信息,污染後續決策。


五個共同的核心命題

通讀三篇文章,可以發現五個被反覆驗證的深層命題:

1. 上下文是稀缺資源,需要"地圖"而非"說明書"

OpenAI 明確反對給智能體"1000 頁的說明書",因為:

  • 會擠佔任務和代碼的上下文空間;
  • "當一切都重要時,一切都不重要";
  • 手冊會迅速腐爛,智能體無法判斷信息是否過時。

三者的共同解法是漸進式披露:給智能體一個高層的"地圖"(OpenAI 的 AGENTS.md、Anthropic 的 Sprint 合約、Cursor 的動態上下文引用),讓它按需深入。

2. 評估必須外化,不能依賴自我批評

這是 Anthropic 最突出的貢獻,也是 OpenAI 實踐中的隱含邏輯。OpenAI 讓 Codex 在本地和雲端運行"額外的特定智能體審查",本質上也是外部評估。Cursor 則通過保留率和用戶反饋來間接評估。

核心原因是:LLM 對自己的輸出有系統性偏袒,特別是在主觀質量(如設計品味)和複雜邏輯正確性上。獨立的評估器(或人類反饋迴路)是打破這種偏見的必要設計。

3. 架構約束比代碼審查更有效

OpenAI 的做法最具代表性:他們通過自定義 linter 和結構測試,強制每個業務領域遵循固定的分層架構(Types → Config → Repo → Service → Runtime → UI),依賴方向嚴格受限。

在智能體吞吐量遠超人類注意力的場景下,"阻塞式合併門"和"人工逐行審查"不再可行。取而代之的是將人類的工程品味編碼為可自動執行的規則,讓智能體在邊界內自由發揮。

4. 代碼倉庫是唯一的真相來源

三篇文章都強調:智能體只能看到代碼倉庫中的內容。OpenAI 將 Slack 討論、設計決策全部歸檔到倉庫的 docs/ 目錄;Anthropic 通過文件進行智能體間通信;Cursor 的動態上下文也最終指向倉庫內的可驗證信息。

這意味着知識管理範式正在轉變:從"文檔系統 + 代碼倉庫"的雙軌制,轉向"代碼倉庫即記錄系統"的單軌制。

5. Harness 是動態的,應隨模型能力"做減法"

Anthropic 從 Sprint 結構到連續會話的簡化,Cursor 從靜態上下文到動態上下文的遷移,OpenAI 從人工審核到智能體自審核的過渡——三者共同展示了一個反直覺的規律:

模型能力越強,Harness 的複雜度不一定越高,但其形態會遷移。 工程師需要持續質疑 Harness 中的每個組件是否仍然"承重",及時剝離過時的腳手架,同時在新邊界上增加新的約束。


關鍵分歧與不同路徑選擇

儘管方向一致,三者在具體策略上存在值得注意的差異:

維度OpenAIAnthropicCursor
智能體數量單智能體為主,多智能體用於審查明確的三智能體分工未強調多智能體,聚焦單智能體上下文管理
評估時機持續審查(PR 級)按 Sprint 或最終單次評估通過用戶行為間接評估(保留率)
上下文策略倉庫結構化文檔 + 漸進式披露上下文重置 + 結構化交接文件動態上下文拉取(MCP、終端、歷史對話)
質量保障架構約束(linter、結構測試)獨立 Evaluator + Playwright 實測工具可靠性 + A/B 測試 + 代理指標
適用場景完整產品從零構建長時運行的複雜全棧開發日常編程輔助(IDE 內)

這些差異反映了場景的本質不同:OpenAI 探索的是"無人編碼"的極限,Anthropic 探索的是"長時自主"的極限,Cursor 探索的是"高頻交互"的極限。


對軟件工程實踐的啓示

這三篇文章共同指向幾個對行業有深遠影響的判斷:

1. 工程師的核心競爭力正在轉移從"編寫正確代碼的能力"轉向"設計可被智能體理解和執行的系統的能力"。OpenAI 團隊說得很直接:"當軟件工程團隊的主要工作不再是編寫代碼,而是設計環境、明確意圖和構建反饋迴路時,會發生什麼?"

2. AI slop 需要系統性的垃圾回收機制OpenAI 坦誠地提到,團隊曾每週花 20% 的時間清理"AI 殘渣"——智能體復現了倉庫中不夠理想的模式導致的代碼漂移。他們的解決方案是將"黃金原則"編碼到倉庫中,並定期運行後台智能體掃描偏差。這提示我們:完全自主的代碼生成必然伴隨熵增,需要自動化的"垃圾回收"機制。

3. 主觀品味的可編碼化Anthropic 的前端設計實驗表明,即使是"這個設計是否好看"這類主觀判斷,也可以通過精心設計的評分標準(設計質量、原創性、工藝、功能性)和少量示例(few-shot)校準,轉化為可執行的評估邏輯。這為創意類工作的自動化提供了方法論。

4. 工具可靠性是 Agent 體驗的基石Cursor 對工具錯誤率的極致追求(降到 0.1% 以下)揭示了一個容易被忽視的真相:Agent 的"智能"體驗不僅取決於模型能力,更取決於工具鏈的確定性。一次失敗的文件讀取或 shell 調用,足以讓智能體陷入錯誤的推理鏈。

5. 等待模型變強不是唯一策略Anthropic 的結論是:"有趣 Harness 組合的空間不會隨着模型改進而縮小,而是會轉移。" 這意味着 AI 工程師的工作不會很快被模型能力"吞噬",而是需要持續在模型能力邊界上找到新的組合方式。


總結

這三篇文章共同描繪了一幅清晰的圖景:軟件工程正在經歷從"人類編碼"到"人類設計 Harness,智能體編碼"的範式轉移。

  • OpenAI 展示了這種轉移的極端可能性——完全自主、百萬行代碼級別的工程;
  • Anthropic 提供了長時複雜任務的理論框架——生成與評估的對抗性分離;
  • Cursor 則展示瞭如何以產品化的方式持續運營和優化這種轉移——數據驅動、動態上下文、工具可靠性工程。

對 Agent 設計和開發者而言,最關鍵的 takeaway 是:不要只關注讓模型"更聰明",而要關注如何讓模型在真實工程環境中"更可靠"。這需要的不是更大的模型,而是更好的上下文設計、更清晰的評估標準、更嚴格的架構約束,以及將人類品味持續編碼為機器可執行規則的能力。

相關資源推薦

LLM 只是引擎,Harness 才是底盤:Cursor 官方首次系統披露 AI Coding Agents 工程方法論

Claude Code 架構深度解讀:Agent 系統的真正護城河不在模型,而在 Harness

一文看懂 Harness Engineering:OpenAI、Anthropic 們在談什麼,OpenClaw 如何用好 Harness 變得更強?

OpenAI 和 Anthropic 對 Harness Engineering 不謀而合:從編碼到駕馭 Agent,重構 AI Agent 時代軟件工程範式