OpenAI 和 Anthropic 對 Harness Engineering 不謀而合:從編碼到駕馭 Agent,重構 AI Agent 時代軟件工程範式

作者:AI 啓蒙小夥伴
日期:2026年3月25日 下午11:51
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

OpenAIAnthropic共推Harness Engineering:從寫Code到設計Agent駕馭系統

整理版摘要

呢篇文章綜合咗OpenAIAnthropic近期發表嘅技術博文,兩者不約而同提出「Harness Engineering」呢個核心概念。文章背景係AI編程Agent(如Claude Code、Codex)快速進化,傳統軟件工程正面臨範式轉變。作者想解答嘅問題係:喺Agent自主編碼能力愈來愈強嘅情況下,工程師應該點樣重新定位自己嘅角色?整體結論係:人類工程師嘅價值唔再係寫每一行Code,而係設計一個令Agent可以可靠執行嘅「駕馭系統」(Harness)。

OpenAI嘅文章基於一個百萬行Code嘅真實項目(零人工編碼),強調環境規範、工具鏈設計同反饋迴路,核心觀點係「人類掌舵,Agent執行」。Anthropic嘅文章則從多Agent架構出發,特別關注主觀質量評估(如前端設計)同長週期任務連貫性,提出用「生成器+評估器」嚟解決自我評估偏差。兩者雖然側重點唔同,但都指向同一個方向:工程工作嘅價值正從「寫Code」轉移到「設計環境」。

呢個轉變要求工程師具備新能力:系統架構設計、評估標準制定、多Agent編排、情境工程。文章預測2026年Harness Engineering會成為AI Engineering入面一個極其關鍵嘅領域,而家就係時候開始思考點樣重構我哋嘅開發流程。

  • Harness Engineering係AI時代軟件工程新範式:工程師角色從親自編寫代碼轉向設計讓Agent可靠執行嘅駕馭系統。
  • Anthropic用多Agent架構(生成器+評估器)解決主觀質量評估同長週期連貫性,關鍵機制包括Sprint合同同上下文重置。
  • OpenAI透過嚴格分層架構、機械規則(自定義Linter)同智能體互審,將人類品味編碼為環境約束,實現零人工編碼。
  • 上下文管理係核心挑戰:要用「地圖」(AGENTS.md)而非「說明書」;評估器必須分離生成與評估,避免自我寬容。
  • 持續維護對抗漂移:建立黃金原則、後台掃描機制,定期清理技術債務;模型能力提升後要重新審視駕馭系統設計。
值得記低
連結 anthropic.com

Anthropic:Harness design for long-running application development

Anthropic 技術博文,詳述多Agent架構、Sprint合同同上下文重置等實踐

連結 openai.com

OpenAI:Harness engineering: leveraging Codex in an agent-first world

OpenAI 技術博文,基於百萬行Code項目分享嚴格架構、機械規則同持續維護經驗

整理重點

從寫Code到設計Harness:範式轉變嘅核心

兩篇博文共同指向一個關鍵轉變:人類工程師嘅角色正從直接編寫代碼,轉向設計讓智能體有效工作嘅「駕馭系統」(Harness)。Anthropic強調透過多智能體架構(生成器+評估器)解決複雜任務,特別關注主觀質量評估同長週期任務連貫性。OpenAI則基於完全由Codex生成代碼(零人工編碼)嘅實踐經驗,強調環境規範、工具鏈設計同反饋迴路嘅重要性。

整理重點

關鍵挑戰與對策:上下文、自我評估同架構約束

長週期任務嘅連貫性係第一個挑戰。Anthropic發現模型會有「上下文焦慮」(Context Anxiety),喺接近上下文限制時提前結束任務。佢哋嘅解法係上下文重置(Context Reset):定期清空上下文,透過結構化製品(Artifacts)傳遞狀態,而非簡單壓縮歷史記錄。OpenAI則用漸進式情境披露,提供「地圖」而非「1000頁說明書」,以AGENTS.md作為內容目錄,指向結構化docs/知識庫。

自我評估偏差係第二個挑戰。AnthropicGAN啟發,分離生成器同評估器智能體,評估器用Playwright MCP直接操作頁面動態測試,並透過少量示例校準評估標準。OpenAI則讓Codex喺本地審核自身更改,請求其他智能體審查,形成「Ralph Wiggum循環」,同時將人類品味編碼為自定義Linter、結構測試等機械規則。

  1. 1 Anthropic嘅三智能體架構:規劃器將簡短提示擴展為完整產品規格;生成器按Sprint逐個實現功能;評估器按合同標準評分。
  2. 2 OpenAI嘅嚴格分層架構:六層依賴規則(TypesConfigRepo→Service→Runtime→UI),只能向前依賴;Providers作為唯一橫切入口。
  3. 3 核心洞見:智能體喺嚴格邊界同可預測結構嘅環境中表現最佳。約束不是限制,而係速度嘅倍增器。
整理重點

實踐成果與成本對比:效率與質量嘅取捨

Anthropic嘅實驗顯示,完整駕馭系統需6小時/$200,而單智能體僅需20分鐘/$9。雖然成本高20倍以上,但產出質量差距顯著:單智能體版本核心功能損壞(遊戲無法運行),駕馭版本功能完整且有AI集成。OpenAI嘅百萬行Code項目則以約人工編碼1/10嘅時間完成,團隊從3人擴大到7人時,人均吞吐量反而增加(平均每人每天3.5個PRs)。

整理重點

最佳實踐總結:上下文、評估、架構與維護

上下文管理方面,共同原則是上下文係稀缺資源,過多指導會失效且迅速腐爛。Anthropic用結構化製品喺上下文重置間傳遞狀態;OpenAIAGENTS.md作為目錄,實現漸進式披露。評估與反饋迴路方面,分離生成與評估係解決自我評估偏差嘅關鍵,評估器需要具體可操作嘅評分標準,動態測試優於靜態檢查。

  • 架構約束作為倍增器:透過Linter、結構測試將「品味」編碼為機械規則;喺中央強制執行邊界,喺本地允許自主權。
  • 持續維護對抗漂移OpenAI嘅「黃金原則」定期運行後台Codex任務掃描偏差,發起重構PR;技術債務以小額貸款方式償還。
  • 模型進化與駕馭演進:每當新模型發佈,應重新審視駕馭系統,剝離不再關鍵嘅組件,添加新能力以追求之前不可能嘅任務。駕馭設計空間唔會縮小,而係會轉移。
整理重點

侷限性與未來展望:未解問題同新技能

Anthropic坦誠評估器喺音樂品味等主觀領域效果有限(Claude無法「聽」音樂),評估器調優需要多輪迭代,存在邊際收益遞減。OpenAI則指出架構連貫性長期演化、人類判斷力最優編碼位置、模型能力增長後系統演化等未解挑戰。共同風險包括模式複製(智能體複製代碼庫中不理想模式)同過度工程(生成器因評估反饋不斷增加複雜度)。

最終目標係讓智能體能夠端到端驅動功能開發:從驗證狀態、復現Bug、實施修復、驗證解決到合併代碼——僅喺需要人類判斷時才請求介入。呢種轉變要求工程師具備新能力:系統架構設計、評估標準制定、多智能體編排、情境工程——呢啲正成為AI時代軟件工程嘅核心技能。

圖片

Claude Code、Codex 呢啲 AI 寫程式嘅 agent 進步得好快,搞到軟件工程進入咗一個新範式。最近 OpenAI 同 Anthropic 都出咗技術博客,不約而同提出 "Harness Engineering"  呢個核心概念——前者探索緊幾個鐘頭自主編碼入面嘅連貫性同設計質素,後者就用「零人工寫 code」嘅方式,喺三個月內整咗個有成百萬行 code 嘅可用產品。兩篇文章一齊指向一個關鍵轉變:工程師嘅角色由自己寫 code,變成設計一個令到 agent 可以可靠執行嘅「駕馭系統」。今日我哋睇曬呢兩篇 blog,睇下 OpenAI 同 Anthropic 有咩共通觀點,同埋各自側重啲咩。可以預見,2026 年 Harness Engineering 會係 AI Engineering 入面一個好關鍵嘅領域。


Anthropic:Harness design for long-running application developmenthttps://www.anthropic.com/engineering/harness-design-long-running-apps[1]

OpenAI:Harness engineering: leveraging Codex in an agent-first worldhttps://openai.com/index/harness-engineering/[2]


一、核心思想:由「寫 code」變「設計環境」

兩篇 blog 一齊指向一個範式轉變:人類工程師嘅角色正由直接寫 code,變成設計一個令 agent 有效運作嘅「駕馭系統」(Harness)。

Anthropic 嘅角度 :

  • 強調透過 多智能體架構(生成器 + 評估器)解決複雜任務
  • 特別關注 主觀質量評估(例如前端設計)同 長週期任務嘅連貫性
  • 核心諗法:將任務拆細、引入外部評估、透過反饋循環迭代改進

OpenAI 嘅角度 :

  • 基於 完全由 Codex 生成 code(零人工寫 code)嘅實戰經驗
  • 強調 環境規範、工具鏈設計同反饋迴路 嘅重要性
  • 核心諗法:人類掌舵(設定方向、設計系統),agent 執行(寫 code、測試、部署)

共同點:兩者都認為,隨住模型能力提升,工程工作嘅價值越來越體現喺「點樣設計令 agent 成功嘅環境」,而唔係「自己寫每一行 code」


二、關鍵挑戰與解決方案對比

2.1 長週期任務嘅連貫性問題

Anthropic 嘅發現

  • 「上下文焦慮」(Context Anxiety):模型喺就嚟到上下文限制嗰陣會提早結束任務
  • 解決方案上下文重置(Context Reset) —— 定期清空上下文,透過結構化製品(Artifacts)傳遞狀態,而唔係簡單壓縮歷史記錄
  • 早期用 Sonnet 4.5 嗰陣一定要強制重置;Opus 4.6 改進咗之後,可以喺單一會話入面連續運行幾個鐘頭

OpenAI 嘅發現

  • 單次 Codex 運行可以持續 超過6個鐘(通常喺人類瞓覺嘅時候發生)
  • 通過 漸進式情境披露 管理上下文:提供「地圖」而唔係「1000頁說明書」
  • AGENTS.md 作為內容目錄,指向結構化嘅 docs/ 知識庫,而唔係單一大 file

2.2 自我評估嘅偏差問題

Anthropic 嘅解法

  • 生成對抗網絡(GAN)啟發:分開「生成器」同「評估器」agent
  • 評估器用 Playwright MCP 直接操作頁面,做動態測試
  • 通過 少量示例(Few-shot)校準 評估標準,解決模型「自己寬容自己」嘅傾向

評估標準示例(前端設計):

  • 設計質素(整體性、氛圍)
  • 原創性(避免「AI 套路」例如紫白漸變)
  • 工藝(技術執行)
  • 功能性(可用性)

OpenAI 嘅解法

  • agent 互相審查:Codex 喺本地審查自己嘅改動,叫其他 agent 審查,形成「Ralph Wiggum 循環」
  • 將人類品味編碼做規則:透過自定義 Linter、結構測試同「黃金原則」強制執行
  • 工具鏈整合:Chrome DevTools 協議、可觀測性堆疊(LogQL/PromQL)令到 agent 可以直接「睇到」系統狀態

2.3 架構與約束設計

Anthropic 嘅三 agent 架構

  1. 規劃器(Planner):將簡短提示擴展成完整產品規格
  2. 生成器(Generator):按 Sprint 逐個實現功能,用 React/Vite/FastAPI/SQLite 技術棧
  3. 評估器(Evaluator):透過 Playwright 測試運行緊嘅應用,按合同標準評分

關鍵機制Sprint 合同 —— 生成前雙方傾好「完成定義」,避免過度工程或遺漏

OpenAI 嘅嚴格分層架構

  • 六層依賴規則:Types → Config → Repo → Service → Runtime → UI,只可以向前依賴
  • Providers 作為唯一橫切入口:認證、遙測等透過顯式接口進入
  • 機械強制執行:自定義 Linter 同結構測試確保架構唔走樣

核心洞察:agent 喺嚴格邊界同可預測結構嘅環境入面表現最好。約束唔係限制,而係速度嘅倍增器


三、實踐成果與成本對比

Anthropic 實驗規模:單一應用(遊戲製作器、DAW),個人/小團隊實驗OpenAI 實驗規模:完整產品(百萬行 code,1500+ PRs),3人→7人工程師團隊

開發速度對比

  • Anthropic:完整駕馭系統需要 6個鐘/$200,單 agent 只需要 20分鐘/$9
  • OpenAI:大約係人工寫 code 嘅 1/10 時間完成百萬行 code 項目

關鍵差異

  • Anthropic 嘅完整駕馭版本成本係單 agent 嘅 20 倍以上,但產出質素差距好大——單 agent 版本核心功能壞咗(遊戲玩唔到),而駕馭版本功能完整仲有 AI 整合
  • OpenAI 隨住團隊由 3 人擴大到 7 人,人均吞吐量反而增加(平均每人每日 3.5 個 PRs)

評估器嘅價值邊界

  • 當任務超出模型原生能力邊界嗰陣,評估器帶嚟顯著增益
  • 當任務喺模型能力範圍內嗰陣,評估器變咗唔必要嘅開銷

成本邏輯轉變

  • 喺 agent 吞吐量遠超人類注意力嘅系統入面,糾錯成本 < 等緊嘅成本
  • 快速迭代好過完美關卡,測試偶爾失敗靠後續重跑解決,而唔係無限期阻住進展

四、關鍵洞察與最佳實踐

4.1 上下文管理:地圖 vs 說明書

Anthropic 透過結構化製品(Artifacts)喺上下文重置之間傳遞狀態;OpenAI 就將 AGENTS.md 作為內容目錄,知識庫喺 docs/ 入面結構化儲存,做到漸進式披露。

共同原則:上下文係稀缺資源,太多指導會失效,而且會快速腐爛。

4.2 評估與反饋迴路

分開生成同評估係解決自我評估偏差嘅關鍵。評估器需要具體、可操作嘅評分標準,而唔係抽象判斷。動態測試(操作真實應用)好過靜態檢查。

4.3 架構約束作為倍增器

agent 需要嚴格邊界嚟保持長週期嘅連貫性。透過 Linter、結構測試將「品味」編碼做機械規則。喺中央強制執行邊界,喺本地容許自主權。

4.4 持續維護:對抗漂移

OpenAI 嘅「黃金原則」:定期運行背景 Codex 任務掃描偏差,發起重構 PR(類似垃圾回收)。技術債嘅小額償還:不斷用小額貸款方式償還,避免累積成大問題。將審查意見、Bug 報告轉化做文檔更新或者直接編碼做工具。

4.5 模型進化與駕馭演進

Anthropic 觀察到 Opus 4.6 減少咗對 Sprint 結構同上下文重置嘅依賴,但評估器喺複雜邊界度仲有價值。

核心原則:每次有新模型發佈,就應該重新審視駕馭系統,剝離唔再關鍵嘅組件,加入新能力去做到之前做唔到嘅任務。駕馭嘅設計空間唔會縮細,而係會轉移


五、侷限與未解決問題

Anthropic 坦白嘅侷限

  • 評估器喺音樂品味呢啲主觀領域效果有限(Claude 冇得「聽」音樂)
  • 複雜邊界情況仲要改進(例如遊戲關卡設計入面嘅常識問題)
  • 評估器調校需要多輪迭代,有邊際收益遞減

OpenAI 嘅未解決挑戰

  • 架構連貫性嘅長期演化:完全由 agent 生成嘅系統,佢嘅架構會點樣隨時間演變?
  • 人類判斷力嘅最佳編碼位置:邊啲判斷應該留畀人類,點樣最大化佢嘅槓桿效應?
  • 模型能力增長之後嘅系統演化:隨住模型變強,駕馭系統應該點樣調整?

共同風險

  • 模式複製:agent 會複製 code base 入面已經存在嘅唔理想模式,導致漂移
  • 過度工程:生成器可能因為評估反饋而不斷加多實現複雜度
  • 評估器自身嘅侷限:就算分開咗生成同評估,評估器都係 LLM,可能太過寬容或者測試唔夠

六、總結:Harness Engineering 嘅核心要義

兩篇 blog 一齊勾勒出 AI 原生軟件開發 嘅新範式:

「人類掌舵,agent 執行」(Humans steer, agents execute)

呢個唔係簡單嘅「用 AI 寫 code」,而係重新設計軟件工程嘅整個生產環境

由 code 到系統:工程師設計工具、約束、反饋迴路,令 agent 可以可靠工作。

由連續到分段:透過上下文重置、Sprint 合同等機制管理長週期任務。

由自我評估到對抗性評估:分開生成同評估,引入多 agent 反饋循環。

由靈活到約束:透過嚴格架構同機械規則,將人類品味編碼做環境約束。

由一次性到持續維護:建立垃圾回收機制,對抗模式漂移同技術債。

最終目標係令 agent 可以端到端噉驅動功能開發:由驗證狀態、重現 Bug、實施修復、驗證解決,到合併 code——淨係喺需要人類判斷嗰陣先要求介入。

呢種轉變要求工程師有新嘅能力:系統架構設計、評估標準制定、多 agent 編排、情境工程——呢啲正正係 AI 時代軟件工程嘅核心技能。

References

  1. https://www.anthropic.com/engineering/harness-design-long-running-apps: https://www.anthropic.com/engineering/harness-design-long-running-apps
  2. https://openai.com/index/harness-engineering/: https://openai.com/index/harness-engineering/
圖片

Claude Code、Codex 等 AI 編程智能體的快速進化,正推動軟件工程進入新範式。近期 OpenAI 和 Anthropic 發佈技術博文,不約而同提出 "Harness Engineering"  這一核心概念——前者探索數小時自主編碼中的連貫性與設計質量,後者則以"零人工編碼"方式在三個月內構建出百萬行代碼的可用產品。兩篇文章共同指向一個關鍵轉變:工程師角色從親自編寫代碼,轉向設計讓智能體可靠執行的"駕馭系統"。今天咱們通讀這兩篇博客,看看 OpenAI 和 Anthropic 有哪些共同觀點,又分別有哪些側重點。可以預見,2026 年 Harness Engineering 會是 AI Engineering 裏一個極其關鍵的領域。


Anthropic:Harness design for long-running application developmenthttps://www.anthropic.com/engineering/harness-design-long-running-apps[1]

OpenAI:Harness engineering: leveraging Codex in an agent-first worldhttps://openai.com/index/harness-engineering/[2]


一、核心思想:從"寫代碼"到"設計環境"

兩篇博文共同指向一個範式轉變:人類工程師的角色正從直接編寫代碼,轉向設計讓智能體有效工作的"駕馭系統"(Harness)。

Anthropic 的視角 :

  • 強調通過 多智能體架構(生成器+評估器)解決複雜任務
  • 特別關注 主觀質量評估(如前端設計)和 長週期任務連貫性
  • 核心理念:將任務分解、引入外部評估、通過反饋循環迭代改進

OpenAI 的視角 :

  • 基於 完全由 Codex 生成代碼(零人工編碼)的實踐經驗
  • 強調 環境規範、工具鏈設計和反饋迴路 的重要性
  • 核心理念:人類掌舵(設定方向、設計系統),智能體執行(編寫、測試、部署)

共同點:兩者都認為,隨着模型能力提升,工程工作的價值越來越體現在"如何設計讓智能體成功的環境",而非"親自編寫每一行代碼"


二、關鍵挑戰與解決方案對比

2.1 長週期任務的連貫性問題

Anthropic 的發現

  • "上下文焦慮"(Context Anxiety):模型在接近上下文限制時會提前結束任務
  • 解決方案上下文重置(Context Reset) —— 定期清空上下文,通過結構化製品(Artifacts)傳遞狀態,而非簡單壓縮歷史記錄
  • 早期使用 Sonnet 4.5 時必須強制重置;Opus 4.6 改進後,可在單一會話中持續運行數小時

OpenAI 的發現

  • 單次 Codex 運行可持續 超過6小時(通常發生在人類睡眠時間)
  • 通過 漸進式情境披露 管理上下文:提供"地圖"而非"1000頁說明書"
  • AGENTS.md 作為內容目錄,指向結構化的 docs/ 知識庫,而非單一大文件

2.2 自我評估的偏差問題

Anthropic 的解法

  • 生成對抗網絡(GAN)啓發:分離"生成器"與"評估器"智能體
  • 評估器使用 Playwright MCP 直接操作頁面,進行動態測試
  • 通過 少量示例(Few-shot)校準 評估標準,解決模型"自我寬容"傾向

評估標準示例(前端設計):

  • 設計質量(整體性、氛圍)
  • 原創性(避免"AI 套路"如紫白漸變)
  • 工藝(技術執行)
  • 功能性(可用性)

OpenAI 的解法

  • 智能體互審:Codex 在本地審核自身更改,請求其他智能體審查,形成"Ralph Wiggum 循環"
  • 將人類品味編碼為規則:通過自定義 Linter、結構測試和"黃金原則"強制執行
  • 工具鏈集成:Chrome DevTools 協議、可觀測性堆棧(LogQL/PromQL)讓智能體能直接"看到"系統狀態

2.3 架構與約束設計

Anthropic 的三智能體架構

  1. 規劃器(Planner):將簡短提示擴展為完整產品規格
  2. 生成器(Generator):按 Sprint 逐個實現功能,使用 React/Vite/FastAPI/SQLite 技術棧
  3. 評估器(Evaluator):通過 Playwright 測試運行中的應用,按合同標準評分

關鍵機制Sprint 合同 —— 生成前雙方協商"完成定義",避免過度工程或遺漏

OpenAI 的嚴格分層架構

  • 六層依賴規則:Types → Config → Repo → Service → Runtime → UI,只能向前依賴
  • Providers 作為唯一橫切入口:認證、遙測等通過顯式接口進入
  • 機械強制執行:自定義 Linter 和結構測試確保架構不漂移

核心洞見:智能體在嚴格邊界和可預測結構的環境中表現最佳。約束不是限制,而是速度的倍增器


三、實踐成果與成本對比

Anthropic 實驗規模:單應用(遊戲製作器、DAW),個人/小團隊實驗OpenAI 實驗規模:完整產品(百萬行代碼,1500+ PRs),3人→7人工程師團隊

開發速度對比

  • Anthropic:完整駕馭系統需 6小時/$200,單智能體僅需 20分鐘/$9
  • OpenAI:約人工編碼 1/10 的時間完成百萬行代碼項目

關鍵差異

  • Anthropic 的完整駕馭版本成本是單智能體的 20 倍以上,但產出質量差距顯著——單智能體版本核心功能損壞(遊戲無法運行),而駕馭版本功能完整且有 AI 集成
  • OpenAI 隨着團隊從 3 人擴大到 7 人,人均吞吐量反而增加(平均每人每天 3.5 個 PRs)

評估器價值邊界

  • 當任務超出模型原生能力邊界時,評估器提供顯著增益
  • 當任務在模型能力範圍內時,評估器成為不必要的開銷

成本邏輯轉變

  • 在智能體吞吐量遠超人類注意力的系統中,糾錯成本 < 等待成本
  • 快速迭代優於完美門控,測試偶發失敗通過後續重跑解決,而非無限期阻礙進展

四、關鍵洞見與最佳實踐

4.1 上下文管理:地圖 vs 說明書

Anthropic 通過結構化製品(Artifacts)在上下文重置間傳遞狀態;OpenAI 則將 AGENTS.md 作為內容目錄,知識庫在 docs/ 中結構化存儲,實現漸進式披露。

共同原則:上下文是稀缺資源,過多的指導會失效,且會迅速腐爛。

4.2 評估與反饋迴路

分離生成與評估是解決自我評估偏差的關鍵。評估器需要具體、可操作的評分標準,而非抽象判斷。動態測試(操作真實應用)優於靜態檢查。

4.3 架構約束作為倍增器

智能體需要嚴格邊界來維持長週期 coherence。通過 Linter、結構測試將"品味"編碼為機械規則。在中央強制執行邊界,在本地允許自主權。

4.4 持續維護:對抗漂移

OpenAI 的"黃金原則":定期運行後台 Codex 任務掃描偏差,發起重構 PR(類似垃圾回收)。技術債務的小額償還:不斷以小額貸款方式償還,避免累積成大問題。將審查評論、Bug 報告轉化為文檔更新或直接編碼為工具。

4.5 模型進化與駕馭演進

Anthropic 觀察到 Opus 4.6 減少了對 Sprint 結構和上下文重置的依賴,但評估器在複雜邊界處仍有價值。

核心原則:每當新模型發佈,應重新審視駕馭系統,剝離不再關鍵的組件,添加新能力以追求之前不可能的任務。駕馭設計空間不會縮小,而是會轉移


五、侷限性與未解問題

Anthropic 坦誠的侷限

  • 評估器在音樂品味等主觀領域效果有限(Claude 無法"聽"音樂)
  • 複雜邊界情況仍需改進(如遊戲關卡設計中的常識性問題)
  • 評估器調優需要多輪迭代,存在邊際收益遞減

OpenAI 的未解挑戰

  • 架構連貫性的長期演化:完全由智能體生成的系統,其架構會如何隨時間演變?
  • 人類判斷力的最優編碼位置:哪些判斷應保留給人類,如何最大化其槓桿效應?
  • 模型能力增長後的系統演化:隨着模型變強,駕馭系統應如何調整?

共同風險

  • 模式複製:智能體會複製代碼庫中已存在的不理想模式,導致漂移
  • 過度工程:生成器可能因評估反饋而不斷增加實現複雜度
  • 評估器自身的侷限:即使分離了生成與評估,評估器仍是 LLM,可能過度寬容或測試不充分

六、總結:Harness Engineering 的核心要義

兩篇博文共同勾勒出 AI 原生軟件開發 的新範式:

"人類掌舵,智能體執行"(Humans steer, agents execute)

這不是簡單的"用 AI 寫代碼",而是重新設計軟件工程的整個生產環境

從代碼到系統:工程師設計工具、約束、反饋迴路,讓智能體能可靠工作。

從連續到分段:通過上下文重置、Sprint 合同等機制管理長週期任務。

從自我評估到對抗性評估:分離生成與評估,引入多智能體反饋循環。

從靈活到約束:通過嚴格架構和機械規則,將人類品味編碼為環境約束。

從一次性到持續維護:建立垃圾回收機制,對抗模式漂移和技術債務。

最終目標是讓智能體能夠端到端地驅動功能開發:從驗證狀態、復現 Bug、實施修復、驗證解決,到合併代碼——僅在需要人類判斷時才請求介入。

這種轉變要求工程師具備新的能力:系統架構設計、評估標準制定、多智能體編排、情境工程——這些正成為 AI 時代軟件工程的核心技能。

References

  1. https://www.anthropic.com/engineering/harness-design-long-running-apps: https://www.anthropic.com/engineering/harness-design-long-running-apps
  2. https://openai.com/index/harness-engineering/: https://openai.com/index/harness-engineering/