AI 翻車 90% 不是模型的鍋，是外面那層東西

作者：麥先生說

日期：2026年4月20日下午11:30

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

AI 產品的成敗關鍵不在於模型本身，而在於包裹模型的「Harness（腳手架）」層，這層工程設計決定了 AI 能否在多步驟任務中保持穩定性。

模型只是 CPU，Harness 才是讓它能幹活的機器，包含上下文管理、工具調用及錯誤修正。
「成功率陷阱」揭示了多步任務的殘酷：即使每步 99% 成功率，10 步後的整體成功率僅剩約 90%。
Harness 的核心價值在於透過驗證、重試與兜底機制，將模型無法自行跨越的 99% 成功率拉昇至生產級別。
優秀的腳手架設計應具備「未來友好度」，即模型變強時，外層邏輯應變得更薄甚至可被拆除。
個人成長亦需 Harness：筆記系統、覆盤機制與工具篩選，本質上是為大腦這顆 LLM 搭建的支撐架構。

值得記低

筆記

The Anatomy of an Agent Harness

由 Akshay Pachaar 撰寫，深入探討 Agent 框架如何影響 AI 性能的原創文章。

連結

TerminalBench 2.0

文中提到的 AI 評測榜單，證明瞭優化 Harness 能顯著提升排名。

整理重點

模型是腦袋，Harness 是身體

很多人以為 AI 體驗差是模型不夠聰明，但現實是：同一個模型換了框架，排名可以從 30 名外衝到前 5。裸模型（Bare LLM）就像一顆沒有硬碟、沒有輸入輸出設備的 CPU，它只會預測下一個詞。

AI 翻車 90% 不是模型的鍋-而是這個東西沒人提-20260420-203806

整理重點

點解 Demo 驚豔，落地就拉胯？

這是一個簡單的初中數學題：錯誤會「利滾利」。當任務步驟增加，微小的誤差會被無限放大。

多步驟任務成功率計算 math

Step Success Rate (99%) ^ 10 steps = 90.4% Total Success
Step Success Rate (95%) ^ 10 steps = 60% Total Success
Step Success Rate (90%) ^ 10 steps = 35% Total Success

AI Agent 之所以難做，是因為模型不能靠自己把 99% 拉到 99.99%，這必須靠工程上的驗證與重試機制。

整理重點

好的腳手架，終將自己拆掉

Harness 就像建築工地的腳手架，是為了讓工人夠到更高的地方。一個反常識的規律是：模型越強，外面的 Harness 就該越薄。

這對個人管理也有啟發：好的流程應該讓你最終不再需要流程。當你變強了，那些繁瑣的清單與儀式感（腳手架）就應該被拆除，留下支撐成長的骨架。

Deep Dive2026-04

AI 用着用着就翻車

AI 翻車 90% 不是模型的鍋，是外面那層東西

同一個模型換了框架，排名從 30 名外衝到第 5——決定 AI 體驗的是 Harness 層

Agent Harness · AI 框架 · 腳手架 · 多步驟成功率 · Claude Code

AIAgent認知

全文約 1,744 字 · 預計閲讀 5 分鐘

PART 01

不止模型

框架決定體驗

PART 02

成功率陷阱

錯誤會利滾利

PART 03

腳手架哲學

好架構終將拆除

PART 04

延伸思考

給自己搭框架

今日閲讀《The Anatomy of an Agent Harness》· Akshay Pachaar

最近 AI 圈中出現頻率最高的一個概念就是 Hardness，今天讀到的這篇來自 Akshay Pachaar 的文章很好的解釋了什麼是 Hardness。

我們使用的 ChatGPT、Claude、Deepseek，如果只是一個能聊天的對話框，那它只是"模型"；但它能幫你查資料、寫代碼、訂機票——中間那層讓它"能幹活"的機器，叫 Agent Hardness（智能體框架）。

文章裏有句話我特別喜歡，原話是 LangChain 工程師 Vivek Trivedy 說的：

"如果你不是模型，那你就是 harness。"

讀完整篇文章之後，我算是對這個包在模型外面那一圈東西有了一些瞭解。下面我挑三個讓我印象深刻的點講給你聽。

01
PART
重點一：決定 AI 產品體驗的，其實不僅僅是模型

文章開頭給了一個極具衝擊力的證據：

LangChain 在 TerminalBench 2.0 這個評測榜上，沒換模型、沒改權重，只重寫了"模型外面"的那層東西，排名就從 30 名開外衝到了第 5 名。

同樣的腦子，換了身體，結果就天差地別了。

Beren Millidge 有一個對大模型的類比：一個裸 LLM 就像一顆沒有運行內存、沒有硬盤、沒有輸入/輸出設備和 CPU。

我們可以這樣理解，模型本身只是一顆"能預測下一個詞"的 CPU——它沒有記憶、沒有手腳、不會自我檢查。決定它最終表現的，是它被如何使用：

•你問它問題的時候，它同時看到了哪些上下文？

•它調用的"工具"是一堆亂七八糟的 API，還是精心篩選的 5 個？

•它做錯了，誰來發現？誰來糾正？

•它做對了三步，到第四步時忘了前面的進度，怎麼辦？

當大模型的智能都差不多的時候，這些才是 AI 產品之間真正的差距。 市面上的應用大家都在用 GPT-5/Claude4，但有的應用讓你感覺驚豔，有的讓你用完就想卸載——這個鍋模型不該背，Hardness 才背。

02
PART
重點二："99%成功率"是個陷阱，錯誤會利滾利

我一直覺得我的數學還行，但是文章裏有個數字還是把我給看楞了：

•一個 10 步的流程，每一步的成功率是 99%，整體成功率只剩 90.4%

•如果每一步 95%，10 步之後是 60%

•如果每一步 90%，10 步之後是 35%

0.99 的十次方=0.904。就是這個簡單的初中數學題，放到 AI Agent 裏，它就變成了一天花板。

它解釋了一個常見的觀察：為什麼 AI Demo 總是驚豔，落地總是拉胯。

演示 Demo 時通常只會跑 1～2 步，99%就夠好看了。但實際應用時的真實任務呢？我們讓 AI 寫一份報告可能調用搜索 5 次、總結 3 次、潤色 2 次，即使每步 99%的優秀模型，跑玩也只有 90%的概率不翻車。

OpenClaw 剛出來的時候，我嘗試過阿里千問作為小龍蝦的大腦，直觀的感受就是這是一隻傻龍蝦，什麼都幹不明白，直到我換成了 Claude 之後，才體驗到什麼叫驚豔。可能千問的準確度只比 Claude 低 10%，在這種多步驟任務中，10 步之後的成功率就是 35% 對 90.4%了，大家字面數值覺得沒差多少，但實際使用天差地別。

AI Agent 之所以難做，是因為模型不能靠自己把 99%拉到 99.99%。但 Hardness 可以——靠驗證、靠重試、靠兜底。 可能這才是"工程"真正的價值。

03
PART
重點三：好的腳手架，終將自己拆掉

Hardness 字面意思是馬具，就是給大模型套上了一層馬具，作者更喜歡另一個比喻——腳手架。

在蓋房子的時候，腳手架是臨時基礎設施，讓工人可以夠到原本夠不到的地方。它本身不負責施工，但沒有它，工人上不了樓。而腳手架在建築完工後，一定會被拆掉。

AI 領域的一個反常識規律是：模型越強，外面包的 Hardness 就該越薄。

文章中有一個例子，Anthropic 每發步一個新版本的 Claude，都會從 Claude Code 的代碼裏刪掉一些過去精心設計的規劃步驟——因為新模型自己就會規劃了，不用再手把手教。

他們甚至給 Hardness 設計了一個未來友好度測試：

如果你不加任何複雜度、只換一個更強的模型，性能也能跟着漲——那這個 Hardness 就設計對了。反過來，如果模型一變強，你的系統就崩了、要重寫——說明你在模型的位置上做了本該留給模型的事。

模型現在是和特定 Hardness 一起後訓練的，也就是說 Claude Code 的模型學會了使用它被訓練時搭配的那個具體 Hardness，隨意替換工具或模型可能反而會掉性能，因為兩者已經強耦合。

讓我想到很多人將 ChatGPT 的 API 設置到 Claude Code 中當作平替，理論上來說效果應該不怎麼好，因為這個 Hardness 並不是給 GPT 設計的，它也許足夠聰明能駕馭其中一些工具，但終究不那麼合腳。

跑題了，說回腳手架終將被拆掉的事，從 AI 發散出去，任何好的支撐系統，最終都該把自己變得"可拆除"——好老師讓學生不再需要老師，好產品讓用戶不再需要客服，好流程讓組織不再需要流程本身。

做減法。

我們常常把"越來越複雜"當作進步，但真正高明的架構往往是反的：該做加法時敢加，該做減法時更敢減。

04
PART
我的延伸思考

我自己有沒有一套好的 Hardness？

我們的大腦就是那顆 LLM——聰明、健忘、容易被中間內容干擾。那我給它配的腳手架呢？

•我有短期記憶和長期記憶的分層嗎？（筆記系統）

•我的工具數量是 5 個還是雜亂的 30 個？（APP 數量）

•我做完事會回頭驗證嗎？（覆盤機制）

我們經常說這些是效率工具，讀完這篇文章之後我們可以換個說法：

這是給我自己這顆 LLM 搭的 Hardness。

而且越好的 Hardness，越應該在我變強之後，自己拆掉一部分——不再需要事事待辦、不再需要繁瑣的晨間儀式、不再需要強制番茄鍾。

最終留下的，才是真正支撐我的骨架。

最後我想留下一個問題：

你們讓 AI 在 Obsidian 中全自動搭建知識庫的時候，這個 Hardness 是給你這顆 LLM 搭的嗎？

@麥先生說

如果對你有用，歡迎點贊、分享、推薦

點贊

模型是腦袋，Harness 是身體

點解 Demo 驚豔，落地就拉胯？

好的腳手架，終將自己拆掉

01PART重點一：決定 AI 產品體驗的，其實不僅僅是模型

02PART重點二："99%成功率"是個陷阱，錯誤會利滾利

03PART重點三：好的腳手架，終將自己拆掉

04PART我的延伸思考

01
PART
重點一：決定 AI 產品體驗的，其實不僅僅是模型

02
PART
重點二："99%成功率"是個陷阱，錯誤會利滾利

03
PART
重點三：好的腳手架，終將自己拆掉

04
PART
我的延伸思考