Agent Harness Engineering 三重前沿實踐:Codex、Claude Code、Cursor 如何讓人類從編碼者升為架構師
整理版優先睇
Harness Engineering 係 AI 時代新範式:人類從編碼者升做架構師,三大公司實踐揭示核心命題
呢篇文章係綜合 OpenAI、Anthropic 同 Cursor 三間公司最新發佈嘅 Agent Harness 文章,深入探討 AI 軟件工程點樣由「人類編碼」轉向「人類設計 Harness,智能體編碼」嘅範式轉移。OpenAI 用 Codex 從零開始、五個月內構建一百萬行代碼嘅產品,人類完全唔寫一行 code,角色變咗係「設計環境、明確意圖、構建反饋迴路」。Anthropic 關注長時運行任務,提出 Planner-Generator-Evaluator 三智能體架構,借鑒 GAN 思想將生成同評估分離。Cursor 就似運營互聯網產品咁,用 A/B 測試、保留率等數據驅動方式持續優化 Harness。
三篇文章雖然出發點唔同,但共同指向五個核心命題:第一,上下文係稀缺資源,要俾「地圖」而唔係「說明書」;第二,評估必須外化,唔可以依賴自我批評;第三,架構約束比逐行審查更有效;第四,代碼倉庫係唯一真相來源;第五,Harness 需要隨模型能力動態做減法,唔好一成不變。呢啲命題為 Agent 系統嘅工程實踐提供咗扎實嘅基礎。
整體結論係:軟件工程師嘅核心競爭力正喺度轉移,由「寫正確 code」變成「設計俾智能體理解和執行嘅系統」。呢個範式下,人類要學識將工程品味編碼成可執行規則,建立自動化垃圾回收機制,同埋明白工具可靠性係 Agent 體驗嘅基石。文章最後強調,等待模型變強唔係唯一策略,工程師需要持續喺模型能力邊…
- Harness 本質係令智能體喺複雜長時任務中保持連貫、可靠同可驗證嘅基礎設施,而唔係單純令模型更聰明。
- 三種架構模式:OpenAI 單智能體深度自治加環境工程;Anthropic 多智能體對抗加任務分解;Cursor 動態上下文加數據驅動優化。
- 五個共同命題:上下文用地圖唔用說明書;評估要外化;架構約束好過代碼審查;代碼倉庫係唯一真相;Harness 要隨模型能力做減法。
- 關鍵分歧喺智能體數量、評估時機、上下文策略、質量保障同適用場景,反映咗三間公司唔同嘅場景極限。
- 工程師嘅啟示:核心競爭力轉向設計 Harness;需要系統性垃圾回收機制;主觀品味可以編碼化;工具可靠性係基石;唔好只等模型變強。
OpenAI - Harness engineering: leveraging Codex in an agent-first world
OpenAI 關於 Codex 做 Harness Engineering 嘅原文,展示單智能體深度自主同環境工程實踐。
Anthropic - Harness design for long-running application development
Anthropic 提出 Planner-Generator-Evaluator 三智能體架構,專注長時任務。
Cursor - Continually improving our agent harness
Cursor 分享點樣以產品化方式持續優化 Agent Harness,包括動態上下文同工具可靠性工程。
Harness 嘅本質:由工具變基礎設施
三篇文章對 Harness 嘅理解底層互通,但各有側重。OpenAI 將 Harness 定義為智能體優先嘅工程基礎設施——唔係輔助人類編碼嘅工具,而係令智能體自主完成軟件全生命週期嘅系統。人類工程師角色重新定義做設計環境、明確意圖、構建反饋迴路。
Anthropic 將 Harness 視為長時運行任務嘅編排架構,關注點係點樣避免「上下文焦慮」同自我評估偏差。佢哋借鑒 GAN 思想,將生成與評估分離,形成多智能體協作閉環。
Cursor 就將 Harness 看作持續演進嘅軟件產品,需要願景驅動、假設驗證、A/B 測試同迭代優化。佢哋強調 Harness 唔係一次性設計出嚟,而係喺模型能力演進中不斷「做減法」同「做加法」嘅動態系統。
三種架構模式對比:各自極限與互補
OpenAI 嘅方案可以概括為「一個超級智能體 + 極致環境設計」。單智能體 Codex 驅動幾乎所有工作,人類唔審查每一行 code,而係通過架構約束(自定義 linter、結構測試、強制依賴方向)確保質量。佢哋將「品味」編碼成可執行規則。
Anthropic 嘅方案係「Planner-Generator-Evaluator」三智能體架構,靈感來自 GAN。Planner 將一句話需求擴展成完整規格,Generator 按 Sprint 實現功能,Evaluator 用 Playwright 實際操作用戶界面評分。關鍵創新係生成與評估分離同Sprint 合約。
Cursor 嘅方法更偏向工程方法論同基礎設施。佢哋將上下文策略由早期嘅大量靜態上下文轉向動態上下文拉取(MCP 工具、活躍終端、歷史對話),減少預置信息。評估體系分三層:離線基準、在線 A/B 測試、代理指標(保留率、語義滿意度)。
- 1 OpenAI:單智能體深度自治 + 環境工程,適用完整產品從零構建。
- 2 Anthropic:多智能體對抗 + 任務分解,適用長時複雜全棧開發。
- 3 Cursor:動態上下文 + 數據驅動持續優化,適用日常 IDE 內高頻交互。
五個共同核心命題:反覆驗證嘅工程原則
第一,上下文係稀缺資源,需要「地圖」而非「說明書」。OpenAI 明確反對俾智能體「1000 頁說明書」,因為會擠佔上下文空間,而且手冊會腐爛。共同解法係漸進式披露:俾智能體一個高層「地圖」,令佢按需深入。
第二,評估必須外化,唔可以依賴自我批評。Anthropic 最突出貢獻就係呢點,LLM 對自己輸出有系統性偏袒。獨立評估器或人類反饋迴路係必要設計。第三,架構約束比代碼審查更有效,特別係智能體吞吐量遠超人類注意力時,要將品味編碼成自動執行規則。
第四,代碼倉庫係唯一真相來源,呢個改變知識管理範式。第五,Harness 係動態嘅,應隨模型能力「做減法」</highlight_link>。Anthropic 由 Sprint 結構簡化到連續會話,Cursor 由靜態轉動態,OpenAI 由人工審核過渡到自審核。模型能力越強,Harness 形態會遷移,工程師要持續質疑每個組件係咪仍然「承重」。
關鍵啟示:對工程師同 Agent 設計者嘅行動指南
第一,工程師核心競爭力由「編寫正確 code 嘅能力」轉向「設計可被智能體理解和執行嘅系統嘅能力」。第二,要建立系統性「AI 垃圾回收」機制,避免智能體生成嘅 code 隨時間熵增。OpenAI 每週花 20% 時間清理「AI 殘渣」,解決方案係將黃金原則編碼到倉庫並定期掃描。
- 1 工具可靠性係 Agent 體驗嘅基石:Cursor 將工具調用錯誤率降到 0.1% 以下,因為一次失敗會污染後續決策。
- 2 等待模型變強唔係唯一策略:Anthropic 話有趣嘅 Harness 組合空間唔會隨模型改進而縮小,只會轉移。
- 3 將人類品味編碼成機器可執行規則:透過 linter、結構測試、Sprint 合約等方式,讓智能體喺邊界內自由發揮。
OpenAI、Anthropic同Cursor都先後出咗有關Harness嘅文章,代表咗當前AI Agent工程(Harness設計)最前線、最深入嘅實踐總結。佢哋唔係獨立嘅個案,而係一齊描繪出一個正在形成嘅工程範式:人類由直接寫程式碼,轉為設計同維護令智能體可以可靠運作嘅「腳手架」(Harness)。
今日我哋就將三篇文章拼埋一齊解讀學習,Harness呢個2026年最值得學嘅方向。
「Harness」嘅本質:由工具變基礎設施
三篇文章對「Harness」嘅理解喺底層係相通,但各有側重:
OpenAI 將佢定義為智能體優先嘅工程基礎設施——唔係輔助人類編碼嘅工具,而係讓智能體可以自主完成軟件全生命週期嘅系統。佢哋嘅實驗極端又徹底:由零開始、五個月內整咗一百萬行代碼嘅產品,冇一行人手寫嘅代碼。人類工程師嘅角色重新定義為「設計環境、明確意圖、構建反饋迴路」。
Anthropic 將佢視為長時間運行任務嘅編排架構。佢哋關注嘅係當Agent需要連續做幾個鐘頭工作時,點樣避免**「上下文焦慮」和自我評估偏差**。核心方案係借鑑GAN思想,將生成同評估分離,形成多智能體協作嘅閉環。
Cursor 就將佢睇成持續演進嘅軟件產品——同任何有野心嘅軟件一樣,需要願景驅動、假設驗證、A/B測試同迭代優化。佢哋強調Harness唔係一次性設計出嚟,而係喺模型能力演進中不斷「做減法」同「做加法」嘅動態系統。
三者嘅共識係:Harness嘅價值唔在於令模型「更聰明」,而在於令模型喺複雜、長時間嘅任務中保持連貫、可靠同可驗證。
三種架構模式嘅對比同互補
1. OpenAI:單智能體深度自治 + 環境工程
Harness engineering: leveraging Codex in an agent-first world
https://openai.com/index/harness-engineering/
OpenAI同Anthropic對Harness Engineering不謀而合:由編碼到駕馭Agent,重構AI Agent時代軟件工程範式
OpenAI嘅方案可以概括為 「一個超級智能體 + 極致環境設計」。
- 單智能體(Codex) 驅動幾乎所有工作:編碼、測試、文檔、CI配置、代碼審查、甚至合併PR。
- 環境即合約:人類唔審查每一行代碼,而係通過架構約束(自訂linter、結構測試、強制依賴方向)嚟確保代碼質量。佢哋將「品味」編碼成可執行嘅規則。
- 漸進式信息披露:
AGENTS.md唔係百科全書,而係「地圖」(約100行),指向代碼倉庫中結構化嘅文檔系統。呢個解決咗上下文窗口稀缺嘅問題。
核心洞察:當代碼完全由智能體生成時,優化目標必須由「人類可讀」轉向「智能體可讀」。代碼倉庫本身就係唯一嘅真相來源——Google Docs、Slack訊息、人類腦海入面嘅隱性知識對智能體嚟講「不存在」。
2. Anthropic:多智能體對抗 + 任務分解
Harness design for long-running application development
https://www.anthropic.com/engineering/harness-design-long-running-apps
一文看懂Harness Engineering:OpenAI、Anthropic們在談什麼,OpenClaw如何用好Harness變得更強?
Claude Code架構深度解讀:Agent系統嘅真正護城河唔喺模型,而喺Harness
Anthropic嘅方案係 「Planner-Generator-Evaluator」三智能體架構,靈感來自GAN。
| 角色 | 職責 | 解決嘅問題 |
|---|---|---|
| Planner | 將一句需求擴展為完整嘅產品規格 | 避免生成器「邊做邊想」導致範圍不足 |
| Generator | 按Sprint逐個實現功能 | 控制複雜度,保持專注 |
| Evaluator | 用Playwright實際操作使用者界面,按標準評分 | 解決自我評估偏差——生成器傾向於俾自己嘅作品打高分 |
關鍵創新:
- 生成與評估分離:讓獨立嘅Evaluator保持懷疑態度,比讓生成器自我批評更容易調優。
- Sprint合約:生成器同評估器喺每個Sprint前協商「完成標準」,避免目標漂移。
- 上下文重置(Context Reset):喺Sonnet 4.5時代,模型會喺上下文窗口接近極限時產生焦慮並提前收尾。透過結構化交接文件(handoff artifact)重置上下文,比壓縮(compaction)更有效。
值得留意嘅係,隨住Opus 4.6嘅發佈,Anthropic發現模型原生能力已經夠強,可以移除Sprint結構,將評估器改為喺構建結束後單次運行。呢個驗證咗Cursor嘅觀點:Harness嘅複雜度應該隨模型能力演進持續重構。
3. Cursor:動態上下文 + 數據驅動嘅持續優化
Continually improving our agent harness
https://cursor.com/blog/continually-improving-agent-harness
LLM只係引擎,Harness先係底盤:Cursor官方首次系統披露AI Coding Agents工程方法論
Cursor嘅文章更偏向工程方法論同基礎設施,展示咗點樣好似運營互聯網產品咁運營Agent Harness。
上下文策略嘅演進:
- 早期(2024年末):大量靜態上下文(代碼庫結構、語義匹配嘅代碼片段)+ 強護欄(限制工具調用次數、改寫文件讀取請求)。
- 現在:轉向動態上下文——模型按需拉取資訊(MCP工具、活躍終端、歷史對話),減少預置資訊,增加智能體嘅自主決策權。
評估體系嘅三層結構:
- 離線基準(CursorBench):快速、標準化嘅質量對比。
- 在線A/B測試:真實用戶場景中嘅多版本對比。
- 代理指標:
- 保留率(Keep Rate):智能體生成嘅代碼喺固定時間後仍然保留喺代碼庫中嘅比例——直接反映用戶係咪滿意到唔使改。
- 語義滿意度:用LLM讀取用戶後續訊息,判斷用戶係繼續推進(滿意)定係貼錯誤堆疊(唔滿意)。
工具可靠性工程:Cursor將工具調用錯誤率視為核心指標,透過分類(InvalidArguments、UnexpectedEnvironment、ProviderError等)同專項衝刺,將所有工具調用嘅可靠性推到「兩三個9」(99.9%)。呢個表面睇係基礎設施細節,實際上係防止上下文腐壞嘅關鍵——一次失敗嘅工具調用會留低錯誤資訊,污染後續決策。
五個共同嘅核心命題
睇完三篇文章,可以發現五個被反覆驗證嘅深層命題:
1. 上下文係稀缺資源,需要「地圖」而唔係「說明書」
OpenAI明確反對俾智能體「1000頁嘅說明書」,因為:
- 會擠佔任務同代碼嘅上下文空間;
- 「當乜嘢都重要嘅時候,乜嘢都唔重要」;
- 手冊會快啲腐爛,智能體無法判斷資訊係咪過時。
三者嘅共同解法係漸進式披露:俾智能體一個高層嘅「地圖」(OpenAI嘅AGENTS.md、Anthropic嘅Sprint合約、Cursor嘅動態上下文引用),等佢按需深入。
2. 評估必須外化,唔可以依賴自我批評
呢個係Anthropic最突出嘅貢獻,亦係OpenAI實踐入面嘅隱含邏輯。OpenAI讓Codex喺本地同雲端運行「額外嘅特定智能體審查」,本質上都係外部評估。Cursor就透過保留率同用戶反饋嚟間接評估。
核心原因係:LLM對自己嘅輸出有系統性偏袒,特別係喺主觀質量(例如設計品味)同複雜邏輯正確性上面。獨立嘅評估器(或者人類反饋迴路)係打破呢種偏見嘅必要設計。
3. 架構約束比代碼審查更有效
OpenAI嘅做法最具代表性:佢哋透過自訂linter同結構測試,強制每個業務領域跟從固定嘅分層架構(Types → Config → Repo → Service → Runtime → UI),依賴方向嚴格受限。
喺智能體吞吐量遠超人類注意力嘅場景下,「阻塞式合併門」同「人工逐行審查」已經唔可行。取而代之嘅係將人類嘅工程品味編碼為可自動執行嘅規則,讓智能體喺邊界內自由發揮。
4. 代碼倉庫係唯一嘅真相來源
三篇文章都強調:智能體只可以睇到代碼倉庫入面嘅內容。OpenAI將Slack討論、設計決策全部歸檔到倉庫嘅 docs/ 目錄;Anthropic透過文件進行智能體之間嘅通訊;Cursor嘅動態上下文最終都指向倉庫入面可驗證嘅資訊。
呢個意味住知識管理範式正在轉變:由「文檔系統 + 代碼倉庫」嘅雙軌制,轉向「代碼倉庫即記錄系統」嘅單軌制。
5. Harness係動態嘅,應該隨模型能力「做減法」
Anthropic由Sprint結構到連續會話嘅簡化,Cursor由靜態上下文到動態上下文嘅遷移,OpenAI由人工審核到智能體自審核嘅過渡——三者共同展示咗一個反直覺嘅規律:
模型能力越強,Harness嘅複雜度唔一定越高,但其形態會遷移。 工程師需要持續質疑Harness入面嘅每個組件係咪仍然「承重」,及時剝離過時嘅腳手架,同時喺新邊界上增加新嘅約束。
關鍵分歧與不同路徑選擇
雖然方向一致,三者喺具體策略上存在值得留意嘅差異:
| 維度 | OpenAI | Anthropic | Cursor |
|---|---|---|---|
| 智能體數量 | 單智能體為主,多智能體用嚟審查 | 明確嘅三智能體分工 | 未強調多智能體,聚焦單智能體上下文管理 |
| 評估時機 | 持續審查(PR級) | 按Sprint或最終單次評估 | 透過用戶行為間接評估(保留率) |
| 上下文策略 | 倉庫結構化文檔 + 漸進式披露 | 上下文重置 + 結構化交接文件 | 動態上下文拉取(MCP、終端、歷史對話) |
| 質量保障 | 架構約束(linter、結構測試) | 獨立Evaluator + Playwright實測 | 工具可靠性 + A/B測試 + 代理指標 |
| 適用場景 | 完整產品從零構建 | 長時間運行嘅複雜全棧開發 | 日常編程輔助(IDE內) |
呢啲差異反映出場景嘅本質唔同:OpenAI探索嘅係「無人編碼」嘅極限,Anthropic探索嘅係「長時間自主」嘅極限,Cursor探索嘅係「高頻互動」嘅極限。
對軟件工程實踐嘅啟示
呢三篇文章共同指向幾個對行業有深遠影響嘅判斷:
1. 工程師嘅核心競爭力正在轉移由「寫正確代碼嘅能力」轉向「設計可以被智能體理解同執行嘅系統嘅能力」。OpenAI團隊講得好直接:「當軟件工程團隊嘅主要工作唔再係寫代碼,而係設計環境、明確意圖同構建反饋迴路嘅時候,會發生咩事?」
2. AI slop需要有系統性嘅垃圾回收機制OpenAI坦誠咁提到,團隊曾經每星期花20%嘅時間清理「AI殘渣」——智能體復現咗倉庫入面唔夠理想嘅模式導致嘅代碼漂移。佢哋嘅解決方案係將「黃金原則」編碼到倉庫入面,並定期運行後台智能體掃描偏差。呢個提示我哋:完全自主嘅代碼生成必然伴隨熵增,需要自動化嘅「垃圾回收」機制。
3. 主觀品味嘅可編碼化Anthropic嘅前端設計實驗表明,就算係「呢個設計係咪好睇」呢類主觀判斷,都可以透過精心設計嘅評分標準(設計質量、原創性、工藝、功能性)同少量示例(few-shot)校準,轉化為可執行嘅評估邏輯。呢個為創意類工作嘅自動化提供咗方法論。
4. 工具可靠性係Agent體驗嘅基石Cursor對工具錯誤率嘅極致追求(降到0.1%以下)揭示咗一個容易忽略嘅真相:Agent嘅「智能」體驗唔單止取決於模型能力,更取決於工具鏈嘅確定性。一次失敗嘅文件讀取或shell調用,足以令智能體陷入錯誤嘅推理鏈。
5. 等模型變強唔係唯一策略Anthropic嘅結論係:「有趣Harness組合嘅空間唔會隨模型改進而縮小,而係會轉移。」 呢個意味住AI工程師嘅工作唔會快啲被模型能力「吞噬」,而係需要持續喺模型能力邊界上揾到新嘅組合方式。
總結
呢三篇文章共同描繪咗一幅清晰嘅圖景:軟件工程正在經歷由「人類編碼」到「人類設計Harness,智能體編碼」嘅範式轉移。
- OpenAI 展示咗呢種轉移嘅極端可能性——完全自主、百萬行代碼級別嘅工程;
- Anthropic 提供咗長時間複雜任務嘅理論框架——生成與評估嘅對抗性分離;
- Cursor 就展示咗點樣以產品化嘅方式持續運營同優化呢種轉移——數據驅動、動態上下文、工具可靠性工程。
對Agent設計同開發者嚟講,最關鍵嘅takeaway係:唔好淨係關注令模型「更聰明」,而係要關注點樣令模型喺真實工程環境入面「更可靠」。呢個需要嘅唔係更大嘅模型,而係更好嘅上下文設計、更清晰嘅評估標準、更嚴格嘅架構約束,同埋將人類品味持續編碼為機器可執行規則嘅能力。
相關資源推薦
LLM只係引擎,Harness先係底盤:Cursor官方首次系統披露AI Coding Agents工程方法論
Claude Code架構深度解讀:Agent系統嘅真正護城河唔喺模型,而喺Harness
一文看懂Harness Engineering:OpenAI、Anthropic們在談什麼,OpenClaw如何用好Harness變得更強?
OpenAI同Anthropic對Harness Engineering不謀而合:由編碼到駕馭Agent,重構AI Agent時代軟件工程範式
OpenAI、Anthropic 和 Cursor 先後都發表了 Harness 相關文章,代表了當前 AI Agent 工程(Harness 設計)最前沿、最深入的實踐總結。它們並非孤立的個案,而是共同勾勒出一個正在形成的工程範式:人類從直接編寫代碼,轉向設計和維護讓智能體可靠運轉的"腳手架"(Harness)。
今天咱們就把三篇文章結合起來一起解讀學習,Harness 這個 2026 年最值得學習的方向。
"Harness" 的本質:從工具到基礎設施
三篇文章對 "Harness" 的理解在底層是相通的,但各有側重:
OpenAI 將其定義為智能體優先的工程基礎設施——不是輔助人類編碼的工具,而是讓智能體能夠自主完成軟件全生命週期的系統。他們的實驗極端而徹底:從零開始、五個月內構建了一百萬行代碼的產品,沒有一行人工編寫的代碼。人類工程師的角色被重新定義為"設計環境、明確意圖、構建反饋迴路"。
Anthropic 將其視為長時運行任務的編排架構。他們關注的是當 Agent 需要連續工作數小時時,如何避免**"上下文焦慮"和自我評估偏差**。核心方案是借鑑 GAN 思想,將生成與評估分離,形成多智能體協作的閉環。
Cursor 則將其看作持續演進的軟件產品——和任何有野心的軟件一樣,需要願景驅動、假設驗證、A/B 測試和迭代優化。他們強調 Harness 不是一次性設計出來的,而是在模型能力演進中不斷"做減法"和"做加法"的動態系統。
三者的共識是:Harness 的價值不在於讓模型"更聰明",而在於讓模型在複雜、長時的任務中保持連貫、可靠和可驗證。
三種架構模式的對比與互補
1. OpenAI:單智能體深度自治 + 環境工程
Harness engineering: leveraging Codex in an agent-first world
https://openai.com/index/harness-engineering/
OpenAI 和 Anthropic 對 Harness Engineering 不謀而合:從編碼到駕馭 Agent,重構 AI Agent 時代軟件工程範式
OpenAI 的方案可以概括為 "一個超級智能體 + 極致環境設計"。
- 單智能體(Codex) 驅動幾乎所有工作:編碼、測試、文檔、CI 配置、代碼審查、甚至合併 PR。
- 環境即契約:人類不審查每一行代碼,而是通過架構約束(自定義 linter、結構測試、強制依賴方向)來確保代碼質量。他們把"品味"編碼成了可執行的規則。
- 漸進式信息披露:
AGENTS.md不是百科全書,而是"地圖"(約 100 行),指向代碼倉庫中結構化的文檔系統。這解決了上下文窗口稀缺的問題。
核心洞察:當代碼完全由智能體生成時,優化目標必須從"人類可讀"轉向"智能體可讀"。代碼倉庫本身就是唯一的真相來源——Google Docs、Slack 消息、人類頭腦中的隱性知識對智能體而言"不存在"。
2. Anthropic:多智能體對抗 + 任務分解
Harness design for long-running application development
https://www.anthropic.com/engineering/harness-design-long-running-apps
一文看懂 Harness Engineering:OpenAI、Anthropic 們在談什麼,OpenClaw 如何用好 Harness 變得更強?
Claude Code 架構深度解讀:Agent 系統的真正護城河不在模型,而在 Harness
Anthropic 的方案是 "Planner-Generator-Evaluator" 三智能體架構,靈感來自 GAN。
| 角色 | 職責 | 解決的問題 |
|---|---|---|
| Planner | 將一句話需求擴展為完整的產品規格 | 避免生成器"邊做邊想"導致範圍不足 |
| Generator | 按 Sprint 逐個實現功能 | 控制複雜度,保持專注 |
| Evaluator | 用 Playwright 實際操作用戶界面,按標準評分 | 解決自我評估偏差——生成器傾向於給自己的作品打高分 |
關鍵創新:
- 生成與評估分離:讓獨立的 Evaluator 保持懷疑態度,比讓生成器自我批評更容易調優。
- Sprint 合約:生成器和評估器在每個 Sprint 前協商"完成標準",避免目標漂移。
- 上下文重置(Context Reset):在 Sonnet 4.5 時代,模型會在上下文窗口接近極限時產生焦慮並提前收尾。通過結構化交接文件(handoff artifact)重置上下文,比壓縮(compaction)更有效。
值得注意的是,隨着 Opus 4.6 的發佈,Anthropic 發現模型原生能力已足夠強,可以移除 Sprint 結構,將評估器改為在構建結束後單次運行。這驗證了 Cursor 的觀點:Harness 的複雜度應隨模型能力演進持續重構。
3. Cursor:動態上下文 + 數據驅動的持續優化
Continually improving our agent harness
https://cursor.com/blog/continually-improving-agent-harness
LLM 只是引擎,Harness 才是底盤:Cursor 官方首次系統披露 AI Coding Agents 工程方法論
Cursor 的文章更偏向工程方法論和基礎設施,展示瞭如何像運營互聯網產品一樣運營 Agent Harness。
上下文策略的演進:
- 早期(2024 年末):大量靜態上下文(代碼庫結構、語義匹配的代碼片段)+ 強護欄(限制工具調用次數、改寫文件讀取請求)。
- 現在:轉向動態上下文——模型按需拉取信息(MCP 工具、活躍終端、歷史對話),減少預置信息,增加智能體的自主決策權。
評估體系的三層結構:
- 離線基準(CursorBench):快速、標準化的質量對比。
- 在線 A/B 測試:真實用戶場景中的多版本對比。
- 代理指標:
- 保留率(Keep Rate):智能體生成的代碼在固定時間後仍保留在代碼庫中的比例——直接反映用戶是否滿意到無需修改。
- 語義滿意度:用 LLM 讀取用戶後續消息,判斷用戶是繼續推進(滿意)還是粘貼錯誤堆棧(不滿意)。
工具可靠性工程: Cursor 將工具調用錯誤率視為核心指標,通過分類(InvalidArguments、UnexpectedEnvironment、ProviderError 等)和專項衝刺,將所有工具調用的可靠性推到了"兩三個 9"(99.9%)。這看似是基礎設施細節,實則是防止上下文腐壞的關鍵——一次失敗的工具調用會留下錯誤信息,污染後續決策。
五個共同的核心命題
通讀三篇文章,可以發現五個被反覆驗證的深層命題:
1. 上下文是稀缺資源,需要"地圖"而非"說明書"
OpenAI 明確反對給智能體"1000 頁的說明書",因為:
- 會擠佔任務和代碼的上下文空間;
- "當一切都重要時,一切都不重要";
- 手冊會迅速腐爛,智能體無法判斷信息是否過時。
三者的共同解法是漸進式披露:給智能體一個高層的"地圖"(OpenAI 的 AGENTS.md、Anthropic 的 Sprint 合約、Cursor 的動態上下文引用),讓它按需深入。
2. 評估必須外化,不能依賴自我批評
這是 Anthropic 最突出的貢獻,也是 OpenAI 實踐中的隱含邏輯。OpenAI 讓 Codex 在本地和雲端運行"額外的特定智能體審查",本質上也是外部評估。Cursor 則通過保留率和用戶反饋來間接評估。
核心原因是:LLM 對自己的輸出有系統性偏袒,特別是在主觀質量(如設計品味)和複雜邏輯正確性上。獨立的評估器(或人類反饋迴路)是打破這種偏見的必要設計。
3. 架構約束比代碼審查更有效
OpenAI 的做法最具代表性:他們通過自定義 linter 和結構測試,強制每個業務領域遵循固定的分層架構(Types → Config → Repo → Service → Runtime → UI),依賴方向嚴格受限。
在智能體吞吐量遠超人類注意力的場景下,"阻塞式合併門"和"人工逐行審查"不再可行。取而代之的是將人類的工程品味編碼為可自動執行的規則,讓智能體在邊界內自由發揮。
4. 代碼倉庫是唯一的真相來源
三篇文章都強調:智能體只能看到代碼倉庫中的內容。OpenAI 將 Slack 討論、設計決策全部歸檔到倉庫的 docs/ 目錄;Anthropic 通過文件進行智能體間通信;Cursor 的動態上下文也最終指向倉庫內的可驗證信息。
這意味着知識管理範式正在轉變:從"文檔系統 + 代碼倉庫"的雙軌制,轉向"代碼倉庫即記錄系統"的單軌制。
5. Harness 是動態的,應隨模型能力"做減法"
Anthropic 從 Sprint 結構到連續會話的簡化,Cursor 從靜態上下文到動態上下文的遷移,OpenAI 從人工審核到智能體自審核的過渡——三者共同展示了一個反直覺的規律:
模型能力越強,Harness 的複雜度不一定越高,但其形態會遷移。 工程師需要持續質疑 Harness 中的每個組件是否仍然"承重",及時剝離過時的腳手架,同時在新邊界上增加新的約束。
關鍵分歧與不同路徑選擇
儘管方向一致,三者在具體策略上存在值得注意的差異:
| 維度 | OpenAI | Anthropic | Cursor |
|---|---|---|---|
| 智能體數量 | 單智能體為主,多智能體用於審查 | 明確的三智能體分工 | 未強調多智能體,聚焦單智能體上下文管理 |
| 評估時機 | 持續審查(PR 級) | 按 Sprint 或最終單次評估 | 通過用戶行為間接評估(保留率) |
| 上下文策略 | 倉庫結構化文檔 + 漸進式披露 | 上下文重置 + 結構化交接文件 | 動態上下文拉取(MCP、終端、歷史對話) |
| 質量保障 | 架構約束(linter、結構測試) | 獨立 Evaluator + Playwright 實測 | 工具可靠性 + A/B 測試 + 代理指標 |
| 適用場景 | 完整產品從零構建 | 長時運行的複雜全棧開發 | 日常編程輔助(IDE 內) |
這些差異反映了場景的本質不同:OpenAI 探索的是"無人編碼"的極限,Anthropic 探索的是"長時自主"的極限,Cursor 探索的是"高頻交互"的極限。
對軟件工程實踐的啓示
這三篇文章共同指向幾個對行業有深遠影響的判斷:
1. 工程師的核心競爭力正在轉移從"編寫正確代碼的能力"轉向"設計可被智能體理解和執行的系統的能力"。OpenAI 團隊說得很直接:"當軟件工程團隊的主要工作不再是編寫代碼,而是設計環境、明確意圖和構建反饋迴路時,會發生什麼?"
2. AI slop 需要系統性的垃圾回收機制OpenAI 坦誠地提到,團隊曾每週花 20% 的時間清理"AI 殘渣"——智能體復現了倉庫中不夠理想的模式導致的代碼漂移。他們的解決方案是將"黃金原則"編碼到倉庫中,並定期運行後台智能體掃描偏差。這提示我們:完全自主的代碼生成必然伴隨熵增,需要自動化的"垃圾回收"機制。
3. 主觀品味的可編碼化Anthropic 的前端設計實驗表明,即使是"這個設計是否好看"這類主觀判斷,也可以通過精心設計的評分標準(設計質量、原創性、工藝、功能性)和少量示例(few-shot)校準,轉化為可執行的評估邏輯。這為創意類工作的自動化提供了方法論。
4. 工具可靠性是 Agent 體驗的基石Cursor 對工具錯誤率的極致追求(降到 0.1% 以下)揭示了一個容易被忽視的真相:Agent 的"智能"體驗不僅取決於模型能力,更取決於工具鏈的確定性。一次失敗的文件讀取或 shell 調用,足以讓智能體陷入錯誤的推理鏈。
5. 等待模型變強不是唯一策略Anthropic 的結論是:"有趣 Harness 組合的空間不會隨着模型改進而縮小,而是會轉移。" 這意味着 AI 工程師的工作不會很快被模型能力"吞噬",而是需要持續在模型能力邊界上找到新的組合方式。
總結
這三篇文章共同描繪了一幅清晰的圖景:軟件工程正在經歷從"人類編碼"到"人類設計 Harness,智能體編碼"的範式轉移。
- OpenAI 展示了這種轉移的極端可能性——完全自主、百萬行代碼級別的工程;
- Anthropic 提供了長時複雜任務的理論框架——生成與評估的對抗性分離;
- Cursor 則展示瞭如何以產品化的方式持續運營和優化這種轉移——數據驅動、動態上下文、工具可靠性工程。
對 Agent 設計和開發者而言,最關鍵的 takeaway 是:不要只關注讓模型"更聰明",而要關注如何讓模型在真實工程環境中"更可靠"。這需要的不是更大的模型,而是更好的上下文設計、更清晰的評估標準、更嚴格的架構約束,以及將人類品味持續編碼為機器可執行規則的能力。
相關資源推薦
LLM 只是引擎,Harness 才是底盤:Cursor 官方首次系統披露 AI Coding Agents 工程方法論
Claude Code 架構深度解讀:Agent 系統的真正護城河不在模型,而在 Harness
一文看懂 Harness Engineering:OpenAI、Anthropic 們在談什麼,OpenClaw 如何用好 Harness 變得更強?
OpenAI 和 Anthropic 對 Harness Engineering 不謀而合:從編碼到駕馭 Agent,重構 AI Agent 時代軟件工程範式