AI 翻車 90% 不是模型的鍋,是外面那層東西

作者:麥先生說
日期:2026年4月20日 下午11:30
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

AI 產品的成敗關鍵不在於模型本身,而在於包裹模型的「Harness(腳手架)」層,這層工程設計決定了 AI 能否在多步驟任務中保持穩定性。

  • 模型只是 CPUHarness 才是讓它能幹活的機器,包含上下文管理、工具調用及錯誤修正。
  • 「成功率陷阱」揭示了多步任務的殘酷:即使每步 99% 成功率,10 步後的整體成功率僅剩約 90%。
  • Harness 的核心價值在於透過驗證、重試與兜底機制,將模型無法自行跨越的 99% 成功率拉昇至生產級別。
  • 優秀的腳手架設計應具備「未來友好度」,即模型變強時,外層邏輯應變得更薄甚至可被拆除。
  • 個人成長亦需 Harness:筆記系統、覆盤機制與工具篩選,本質上是為大腦這顆 LLM 搭建的支撐架構。
值得記低
筆記

The Anatomy of an Agent Harness

由 Akshay Pachaar 撰寫,深入探討 Agent 框架如何影響 AI 性能的原創文章。

連結

TerminalBench 2.0

文中提到的 AI 評測榜單,證明瞭優化 Harness 能顯著提升排名。

整理重點

模型是腦袋,Harness 是身體

很多人以為 AI 體驗差是模型不夠聰明,但現實是:同一個模型換了框架,排名可以從 30 名外衝到前 5。裸模型(Bare LLM)就像一顆沒有硬碟、沒有輸入輸出設備的 CPU,它只會預測下一個詞。

整理重點

點解 Demo 驚豔,落地就拉胯?

這是一個簡單的初中數學題:錯誤會「利滾利」。當任務步驟增加,微小的誤差會被無限放大。

多步驟任務成功率計算 math
Step Success Rate (99%) ^ 10 steps = 90.4% Total Success
Step Success Rate (95%) ^ 10 steps = 60% Total Success
Step Success Rate (90%) ^ 10 steps = 35% Total Success

AI Agent 之所以難做,是因為模型不能靠自己把 99% 拉到 99.99%,這必須靠工程上的驗證與重試機制。

整理重點

好的腳手架,終將自己拆掉

Harness 就像建築工地的腳手架,是為了讓工人夠到更高的地方。一個反常識的規律是:模型越強,外面的 Harness 就該越薄。

這對個人管理也有啟發:好的流程應該讓你最終不再需要流程。當你變強了,那些繁瑣的清單與儀式感(腳手架)就應該被拆除,留下支撐成長的骨架。

Deep Dive2026-04

AI 用着用着就翻車

AI 翻車 90% 不是模型的鍋,是外面那層東西


同一個模型換了框架,排名從 30 名外衝到第 5——決定 AI 體驗的是 Harness 層

Agent Harness · AI 框架 · 腳手架 · 多步驟成功率 · Claude Code

AIAgent認知

全文約 1,744 字 · 預計閲讀 5 分鐘

PART 01

不止模型

框架決定體驗

PART 02

成功率陷阱

錯誤會利滾利

PART 03

腳手架哲學

好架構終將拆除

PART 04

延伸思考

給自己搭框架

AI 翻車 90% 不是模型的鍋-而是這個東西沒人提-20260420-203806

今日閲讀《The Anatomy of an Agent Harness》· Akshay Pachaar

最近 AI 圈中出現頻率最高的一個概念就是 Hardness,今天讀到的這篇來自 Akshay Pachaar 的文章很好的解釋了什麼是 Hardness。

我們使用的 ChatGPT、Claude、Deepseek,如果只是一個能聊天的對話框,那它只是"模型";但它能幫你查資料、寫代碼、訂機票——中間那層讓它"能幹活"的機器,叫 Agent Hardness(智能體框架)

文章裏有句話我特別喜歡,原話是 LangChain 工程師 Vivek Trivedy 說的:

"如果你不是模型,那你就是 harness。"

讀完整篇文章之後,我算是對這個包在模型外面那一圈東西有了一些瞭解。下面我挑三個讓我印象深刻的點講給你聽。

01
PART
重點一:決定 AI 產品體驗的,其實不僅僅是模型

文章開頭給了一個極具衝擊力的證據:

LangChain 在 TerminalBench 2.0 這個評測榜上,沒換模型、沒改權重,只重寫了"模型外面"的那層東西,排名就從 30 名開外衝到了第 5 名。

同樣的腦子,換了身體,結果就天差地別了。

Beren Millidge 有一個對大模型的類比:一個裸 LLM 就像一顆沒有運行內存、沒有硬盤、沒有輸入/輸出設備和 CPU。

我們可以這樣理解,模型本身只是一顆"能預測下一個詞"的 CPU——它沒有記憶、沒有手腳、不會自我檢查。決定它最終表現的,是它被如何使用:

你問它問題的時候,它同時看到了哪些上下文?
它調用的"工具"是一堆亂七八糟的 API,還是精心篩選的 5 個?
它做錯了,誰來發現?誰來糾正?
它做對了三步,到第四步時忘了前面的進度,怎麼辦?

當大模型的智能都差不多的時候,這些才是 AI 產品之間真正的差距。 市面上的應用大家都在用 GPT-5/Claude4,但有的應用讓你感覺驚豔,有的讓你用完就想卸載——這個鍋模型不該背,Hardness 才背。

02
PART
重點二:"99%成功率"是個陷阱,錯誤會利滾利

我一直覺得我的數學還行,但是文章裏有個數字還是把我給看楞了:

一個 10 步的流程,每一步的成功率是 99%,整體成功率只剩 90.4%
如果每一步 95%,10 步之後是 60%
如果每一步 90%,10 步之後是 35%

0.99 的十次方=0.904。就是這個簡單的初中數學題,放到 AI Agent 裏,它就變成了一天花板。

它解釋了一個常見的觀察:為什麼 AI Demo 總是驚豔,落地總是拉胯。

演示 Demo 時通常只會跑 1~2 步,99%就夠好看了。但實際應用時的真實任務呢?我們讓 AI 寫一份報告可能調用搜索 5 次、總結 3 次、潤色 2 次,即使每步 99%的優秀模型,跑玩也只有 90%的概率不翻車。

OpenClaw 剛出來的時候,我嘗試過阿里千問作為小龍蝦的大腦,直觀的感受就是這是一隻傻龍蝦,什麼都幹不明白,直到我換成了 Claude 之後,才體驗到什麼叫驚豔。可能千問的準確度只比 Claude 低 10%,在這種多步驟任務中,10 步之後的成功率就是 35% 對 90.4%了,大家字面數值覺得沒差多少,但實際使用天差地別。

AI Agent 之所以難做,是因為模型不能靠自己把 99%拉到 99.99%。但 Hardness 可以——靠驗證、靠重試、靠兜底。 可能這才是"工程"真正的價值。

03
PART
重點三:好的腳手架,終將自己拆掉

Hardness 字面意思是馬具,就是給大模型套上了一層馬具,作者更喜歡另一個比喻——腳手架。

在蓋房子的時候,腳手架是臨時基礎設施,讓工人可以夠到原本夠不到的地方。它本身不負責施工,但沒有它,工人上不了樓。而腳手架在建築完工後,一定會被拆掉。

AI 領域的一個反常識規律是:模型越強,外面包的 Hardness 就該越薄。

文章中有一個例子,Anthropic 每發步一個新版本的 Claude,都會從 Claude Code 的代碼裏刪掉一些過去精心設計的規劃步驟——因為新模型自己就會規劃了,不用再手把手教。

他們甚至給 Hardness 設計了一個未來友好度測試:

如果你不加任何複雜度、只換一個更強的模型,性能也能跟着漲——那這個 Hardness 就設計對了。 反過來,如果模型一變強,你的系統就崩了、要重寫——說明你在模型的位置上做了本該留給模型的事。

模型現在是和特定 Hardness 一起後訓練的,也就是說 Claude Code 的模型學會了使用它被訓練時搭配的那個具體 Hardness,隨意替換工具或模型可能反而會掉性能,因為兩者已經強耦合。

讓我想到很多人將 ChatGPT 的 API 設置到 Claude Code 中當作平替,理論上來說效果應該不怎麼好,因為這個 Hardness 並不是給 GPT 設計的,它也許足夠聰明能駕馭其中一些工具,但終究不那麼合腳。

跑題了,說回腳手架終將被拆掉的事,從 AI 發散出去,任何好的支撐系統,最終都該把自己變得"可拆除"——好老師讓學生不再需要老師,好產品讓用戶不再需要客服,好流程讓組織不再需要流程本身。

做減法。

我們常常把"越來越複雜"當作進步,但真正高明的架構往往是反的:該做加法時敢加,該做減法時更敢減。

04
PART
我的延伸思考

我自己有沒有一套好的 Hardness?

我們的大腦就是那顆 LLM——聰明、健忘、容易被中間內容干擾。那我給它配的腳手架呢?

我有短期記憶和長期記憶的分層嗎?(筆記系統)
我的工具數量是 5 個還是雜亂的 30 個?(APP 數量)
我做完事會回頭驗證嗎?(覆盤機制)

我們經常說這些是效率工具,讀完這篇文章之後我們可以換個說法:

這是給我自己這顆 LLM 搭的 Hardness。

而且越好的 Hardness,越應該在我變強之後,自己拆掉一部分——不再需要事事待辦、不再需要繁瑣的晨間儀式、不再需要強制番茄鍾。

最終留下的,才是真正支撐我的骨架。

最後我想留下一個問題:

你們讓 AI 在 Obsidian 中全自動搭建知識庫的時候,這個 Hardness 是給你這顆 LLM 搭的嗎?


@麥先生說

如果對你有用,歡迎點贊、分享、推薦

點贊
分享
推薦

A LIFE OF GROWTH