AI 翻車 90% 不是模型的鍋,是外面那層東西
整理版優先睇
速讀
5 個重點
高亮
AI 產品的成敗關鍵不在於模型本身,而在於包裹模型的「Harness(腳手架)」層,這層工程設計決定了 AI 能否在多步驟任務中保持穩定性。
- 模型只是 CPU,Harness 才是讓它能幹活的機器,包含上下文管理、工具調用及錯誤修正。
- 「成功率陷阱」揭示了多步任務的殘酷:即使每步 99% 成功率,10 步後的整體成功率僅剩約 90%。
- Harness 的核心價值在於透過驗證、重試與兜底機制,將模型無法自行跨越的 99% 成功率拉昇至生產級別。
- 優秀的腳手架設計應具備「未來友好度」,即模型變強時,外層邏輯應變得更薄甚至可被拆除。
- 個人成長亦需 Harness:筆記系統、覆盤機制與工具篩選,本質上是為大腦這顆 LLM 搭建的支撐架構。
值得記低
The Anatomy of an Agent Harness
由 Akshay Pachaar 撰寫,深入探討 Agent 框架如何影響 AI 性能的原創文章。
TerminalBench 2.0
文中提到的 AI 評測榜單,證明瞭優化 Harness 能顯著提升排名。
整理重點
模型是腦袋,Harness 是身體
很多人以為 AI 體驗差是模型不夠聰明,但現實是:同一個模型換了框架,排名可以從 30 名外衝到前 5。裸模型(Bare LLM)就像一顆沒有硬碟、沒有輸入輸出設備的 CPU,它只會預測下一個詞。
整理重點
點解 Demo 驚豔,落地就拉胯?
這是一個簡單的初中數學題:錯誤會「利滾利」。當任務步驟增加,微小的誤差會被無限放大。
Step Success Rate (99%) ^ 10 steps = 90.4% Total Success
Step Success Rate (95%) ^ 10 steps = 60% Total Success
Step Success Rate (90%) ^ 10 steps = 35% Total Success
AI Agent 之所以難做,是因為模型不能靠自己把 99% 拉到 99.99%,這必須靠工程上的驗證與重試機制。
整理重點
好的腳手架,終將自己拆掉
Harness 就像建築工地的腳手架,是為了讓工人夠到更高的地方。一個反常識的規律是:模型越強,外面的 Harness 就該越薄。
這對個人管理也有啟發:好的流程應該讓你最終不再需要流程。當你變強了,那些繁瑣的清單與儀式感(腳手架)就應該被拆除,留下支撐成長的骨架。
