Cursor團隊揭秘:模型只是發動機,Harness才是底盤和方向盤
整理版優先睇
Cursor團隊揭示,Agent Harness先係決定AI編程表現嘅關鍵,模型只係基礎,Harness嘅設計直接影響速度、智能同成本。
呢篇文章係由一位AI編程愛好者整理自Cursor團隊嘅官方博客,講述佢哋點樣打磨自家嘅Agent Harness。作者本人都係做AI應用嘅,覺得呢啲一線工程經驗好稀缺,所以睇完之後做咗筆記分享。文章背景係Cursor團隊要解決一個核心問題:點樣令大模型喺編程場景入面發揮得最好?佢哋發現,模型只係會吐token嘅引擎,真正控制佢點樣讀代碼、調工具、改檔案嘅,係外面嗰層Harness。所以Harness嘅設計直接影響產品嘅體驗。
Harness嘅目標好簡單:更快、更聰明、更省token。但呢三個目標係互相拉扯嘅。為咗令模型變聰明,要畀多啲上下文,但咁會慢啲同貴啲;縮短提示詞又會令模型犯傻。所以Harness嘅本質係喺呢個三角入面揾平衡。為咗知道改好定改壞,Cursor用咗兩條腿行路:離線評測集加線上指標。離線嗰邊用真實任務回放,每次改完都跑一次,睇通過率、token用量、輪數;線上就盯用戶接受diff嘅比例、對話中斷率等指標。最關鍵嘅係要按模型、語言、任務類型切片去睇,因為總體平均數會掩蓋局部退化。
另一個重要發現係,唔同模型要配唔同Harness。Claude鍾意長上下文慢慢諗,GPT傾向快啲調工具,開源模型對協議格式好敏感。所以Cursor每個主力模型都單獨配提示詞同工具描述。作者總結話呢個時代工程能力被重新定義,Agent產品要靠評測基礎設施,而唔係得把口講優化。Harness永遠做唔完,因為模型一代代升級,Har…
- 結論:Harness係套喺模型外面嘅馬具,決定模型實際表現,係產品嘅真正護城河。
- 方法:用離線評測集加線上指標雙線評估,並按模型、語言、任務類型切片監控退化。
- 差異:冇一套Harness通吃所有模型,每個模型需要獨立配置提示詞同工具描述。
- 啟發:Agent時代嘅工程能力被重新定義,評測基礎設施先係優化嘅科學依據。
- 可行動點:做AI應用時要建立可回放評測集、按切片睇指標、為每個模型單獨調校、將退化當做一等公民嚟處理。
Cursor官方博客:Continually Improving Our Agent Harness
原文詳細講述Cursor團隊點樣打磨Agent Harness,包括評估方法、切片監控、模型差異配置等。
Harness係乜?解決咩問題?
Harness本身係「馬具」,套喺馬身上先可以拉車聽指揮。喺Cursor入面,Agent Harness就係套喺大模型外面嗰層控制層。模型只係識得吐token,但要佢讀代碼、調工具、跑命令、改檔案、自動重試,全部由Harness負責。
模型係發動機,Harness先係底盤同方向盤。
- 更快:反應要快,唔可以等太耐
- 更聰明:理解得準,減少錯誤
- 更省token:用最少嘅成本完成任務
呢三個目標成日互相矛盾:塞多啲上下文會令模型變聰明,但同時變慢變貴;縮短提示詞就慳錢,但模型又容易出錯。Harness嘅工作就係喺呢個三角入面揾當下最優嘅平衡點。
點樣評估改好定改壞?
改UI可以A/B測試,但改Agent能力就好難直接量度,因為任務開放、輸出唔確定,而且每次測試成本高。Cursor用咗兩條腿行路:離線評測集同線上指標。
- 離線:攢一批真實編程任務嘅回放,每次改Harness都跑一次,比較通過率、token用量、輪數。
- 線上:監控用戶接受diff嘅比例、對話被中斷嘅比例、單任務平均輪數。
但最恐怖嘅係「悄悄變爛」:優化咗Python,可能令Rust掉5%;壓縮系統提示詞,模型可能開始亂call grep。總體指標睇唔出,因為東邊亮西邊暗。所以Cursor會按模型、語言、任務類型切片去睇。
任何一個切片異常,就要立即報警、回滾、定位。呢種做法確保Harness唔會喺不知不覺間變差。
點樣應對模型差異?
好多人以為Harness係模型無關,套邊個模型都一樣。但Cursor嘅經驗係:根本唔得。Claude鍾意喺長上下文慢慢諗,GPT傾向快速調工具,開源模型對工具協議格式敏感到一個標點錯都唔得。
所以佢哋為每個主力模型單獨配一套提示詞同工具描述。同一個「讀檔案」嘅工具,餵畀Claude同GPT嘅描述可以完全唔同,目的係令每個模型用得最順手。呢個好似編譯器,前端IR統一,但生成x86同ARM嘅指令要分開優化,冇銀彈。
作者嘅總結啟發
- 1 Agent時代嘅工程能力被重新定義。以前寫業務靠測試兜底,而家做Agent要靠評測集同指標兜底,冇呢套基礎設施,優化就係玄學。
- 2 模型能打一回事,發揮得出嚟先係重點。
- 3 扎心嘅係:Harness永遠做唔完。
模型每隔幾個月就升一代,Harness就要跟住重調。呢個唔係上線就完結嘅項目,而係養細路。如果你都做AI應用,呢套方法論值得抄:評測集要可回放、指標要按切片睇、每個模型單獨調、將退化當做一等公民。
模型遲早變成水電煤,真正拉開差距嘅,係套喺外面嗰層馬具,有幾懂自己騎嘅馬。
🌟星標 + 👆關注,第一時間知道最新、最有用的AI編程姿勢
《賈傑的AI編程秘籍》付費合集,共10篇,現已完結。30元交個朋友,學不到真東西找我退錢;)
以及我最新的付費合集《又100個思維碎片》墨問,把我上一天班,AI自己在家寫一天代碼的焚訣,分享給你
寫在前面
最近刷到 Cursor 團隊的一篇博客,講他們怎麼打磨自家的 Agent Harness。
這種來自一線 AI 編輯器團隊的工程經驗很稀缺,我啃完之後順手整理成筆記,分享一下。
P.S. 原文站點恰好返回 500(很真實的工程現場),所以下面是我結合公開信息整理的理解,可能有偏差,歡迎拍磚。
Harness 是個啥?
先解決名詞。Harness 本意是“馬具”。
套在馬身上,馬才能拉車、才能聽指揮。光有一匹烈馬,沒用。
放到 Cursor 這裏,Agent Harness 就是套在大模型外面的那層馬具。
模型本身只會吐 token,但要讓它讀代碼、調工具、跑命令、改文件、自動重試,這些活全是 Harness 在幹。
所以同一個 Claude,在不同 Harness 裏的表現可能天差地別。模型是發動機,Harness 才是底盤和方向盤。
它要解決什麼?
Cursor 給 Harness 定的目標只有三個詞:更快、更聰明、更省 token。
聽起來很美,但這三個目標其實在打架。
塞更多上下文,模型變聰明瞭,也變慢變貴了。砍掉提示詞,省錢了,模型又開始犯傻。
所以 Harness 的工作,本質上是在三角里反覆橫跳,找當下最優的那個點。
怎麼知道改好了,還是改壞了?
這是我覺得最值錢的一段。
UI 改個按鈕顏色,A/B 測一下就知道。但改一個 Agent 的能力,怎麼測?
任務是開放的,輸出是不確定的,跑一次還很貴。
Cursor 的思路是兩條腿走路:離線評測集 + 線上指標。
離線那邊,攢一批真實編程任務的回放,每次改 Harness 都跑一遍,比通過率、比 token、比輪數。
線上這邊,盯幾個代理指標:用戶接受 diff 的比例、對話被掐斷的比例、單任務平均輪數。
這些指標不會直接告訴你“模型變聰明瞭”,但只要它們一起往下掉,你就知道壞事了。
真正可怕的是“悄悄變爛”
一個反直覺的事實:Harness 改着改着,某些場景會偷偷退化。
你優化了 Python,Rust 掉了 5%。你壓縮了系統提示詞,模型開始亂調 grep。
總指標看不出來,因為東邊亮西邊暗,平均下來歲月靜好。
Cursor 的做法是按模型、語言、任務類型切片看。哪個切片異常,立刻報警、回滾、定位。
這套路前端同學應該很眼熟。盯性能光看 P50 沒用,得看 P99,得按機型、按地區拆開看。平均數是用來騙自己的。
一套 Harness 通吃所有模型?做夢
很多人以為 Harness 是“模型無關”的,套誰都能跑。
但 Cursor 的經驗是:根本不行。
Claude 喜歡在長上下文裏慢慢想,GPT 傾向於快速調工具,開源模型對工具協議格式敏感得要命,一個標點不對就罷工。
所以他們給每個主力模型單獨配一套提示詞和工具描述。同一個“讀文件”的工具,餵給不同模型看到的描述可能完全不同。
目的只有一個:讓這個模型用得最順手。
這有點像編譯器。前端 IR 統一,但生成 x86 和 ARM 的指令必須分開優化,沒有銀彈。
幾個我自己的小總結
第一,Agent 時代的工程能力被重新定義了。
以前寫業務靠測試兜底,現在做 Agent 靠評測集和指標兜底。沒有這套基礎設施,所謂優化全是玄學。
第二,模型能不能打是一回事,發揮得出來是另一回事。
同樣是 Claude,套在 Cursor 裏和套在一個粗糙開源框架裏,體驗差幾個身位。這就是為什麼模型越卷,做產品的護城河反而越深。
第三,挺扎心的:Harness 永遠做不完。
模型每幾個月升一代,Harness 就得跟着重調。這不是“上線即結束”的項目,是養孩子。
總結
如果你也在做 AI 應用,不管是不是 Coding Agent,這套方法論都值得抄:評測集要可回放、指標要按切片看、每個模型單獨調、把退化當一等公民。
模型遲早變成水電煤,真正拉開差距的,是套在外面的那層馬具,有多懂自己騎的那匹馬。
參考資料
Cursor 官方博客:Continually Improving Our Agent Harness(https://cursor.com/blog/continually-improving-agent-harness)
Cursor 官推:https://x.com/cursor_ai/status/2049901436918436249
堅持創作不易,求個一鍵三連,謝謝你~❤️
以及「AI Coding技術交流羣」,聯繫 ayqywx 我拉你進羣,共同交流學習~