意圖工程。Harness:讓Agent不再犯重複錯,但這還不夠
整理版優先睇
意圖工程:人機接口的新壁壘,讓機器真正聽懂「我想要」
呢篇文章由 MixLab 整理,探討 AI 應用開發範式嘅演進:由 Prompt Engineering 到 Context Engineering,再到 Harness Engineering,最後提出 Intent Engineering(意圖工程)作為下一階段嘅競爭核心。作者認為模型、工具、協議三層已經商品化,真正嘅壁壘喺人機接口處——點樣將人類模糊、帶情緒、唔完整嘅「我想要」無損傳遞畀矽基系統。
意圖工程嘅核心係降低信號失真:左端(碳基→交互層)靠多模態、示範等交互形態;右端(交互層→硅基)靠結構化指令、DSL、反射機制;中間靠雙向反饋迴路。作者用 Cursor(高保真)、v0/Bolt.new(中保真)、Humane AI Pin(低保真)同通用 Chatbot(零保真)四個案例說明意圖保真度嘅差異,並提出一個四象限框架(交互形態、工具編排、協議設計、反饋迴路)去系統性設計意圖工程。
作者強調,意圖工程唔係一個成熟解決方案,而係一個新興研究方向。佢分別畀咗工程師、創始人同投資人嘅啓示:工程師要由寫 prompt 轉向設計意圖-動作映射;創始人要問自己核心交互層嘅意圖保真度有冇比對手高;投資人要睇「意圖工程密度」作為估值指標。最終願景係界面消失,意圖直達動作,機器唔再需要你開口就已經知道你嘅需要。
- AI 應用競爭已從模型、工具、協議層轉移到人機接口嘅意圖對齊,意圖工程成為新壁壘。
- 意圖工程透過降低失真(信號、噪聲、保真度)與雙向反饋迴路,將人類模糊意圖無損傳遞。
- 駕馭工程(Harness)專注讓 Agent 唔犯重複錯,意圖工程專注讓機器聽懂人類意圖。
- 工程師應由寫 prompt 轉向設計意圖-動作映射;創始人應評估核心交互層嘅意圖保真度;投資人應睇意圖工程密度。
- 可探索 Intent Protocol / Intent DSL 等新領域,並建立人機接口保真度測試框架。
意圖工程四象限架構
高結構化:②工具編排(Function Calling)、③協議設計(MCP/A2A/Intent DSL);低結構化:①交互形態(多模態/示範)、④反饋迴路(Reflection/主動澄清)。
人機協作系統4層架構圖
[人的意圖] ──意圖工程──▶ [駕馭+上下文] ──▶ [模型+工具];模糊 -> 管道腳手架 -> 精確商品;反饋迴路從右到左。
進化樹:由調詞到翻譯人機接口
呢篇文章提出一個 3+1 疊加結構:Prompt Engineering(2022-2023)係調詞,Context Engineering(2025-06)係布信息,Harness Engineering(2026-02)係調環境,而最新嘅 Intent Engineering(2026+)係翻譯人機接口。前三段喺硅基世界內部打轉,意圖工程第一次將 碳基直覺 提到最高優先級。
模型、工具、協議已經商品化,壁壘喺接口
模型層(GPT-5、Claude、DeepSeek 等)能力差距半年內縮小;工具層(LangChain、ReAct、Function Calling)標準化太快;協議層(MCP、A2A)令集成門檻降到極低。作者總結:模型係水電煤,工具係貨架,協議係 HTTP,呢三層已經冇新機會。
有人話 Context Engineering 係壁壘,但作者指出 Context 係管道,Harness 係腳手架,佢哋都唔係產品。真正決定用戶體驗嘅係管道兩端嘅接口層——將人嘅意圖翻譯成機器嘅動作,呢個翻譯層先係產品,亦都係壁壘。
意圖工程:信號、噪聲與保真度
作者將意圖傳輸視為通信問題:失真 A 發生喺碳基→交互層(例如「想要一個唔無聊嘅 demo」變成「寫 Python 腳本生成柱狀圖」);失真 B 發生喺交互層→硅基(Prompt 被 Token 化、系統提示覆蓋、上下文擠壓)。每一次失真,意圖嘅 保真度 都會衰減。
降低左端失真靠更懂你嘅交互方式(多模態、所見即所得、自然對話);降低右端失真靠結構化指令設計(中間表示、DSL、規劃、反思);降低中間失真靠 雙向反饋迴路(你睇結果後精煉意圖,機器反問澄清)。
案例與四象限:由高保真到零保真
- 🟢 高保真(Cursor):你唔需要講點實現,只要講「加個 chat 接口」,佢睇曬成個項目結構、依賴、命名習慣。意圖高保真體現喺 harness 之上嘅人機接口。
- 🟡 中保真(v0 / Bolt.new):描述產品想法,生成 UI 草圖,但你要自己微調顏色、佈局。佢估到你嘅形,冇估到你嘅意,反問/澄清機制弱。
- 🟠 低保真(Humane AI Pin / Rabbit R1):語音輸入冇問題,但翻譯爛咗——「幫我點杯咖啡」會點錯咖啡、錯地址。純粹係人機接口嘅意圖翻譯層失敗。
- 🔴 零保真(通用 Chatbot 如豆包):你問「我想做個產品」,佢答「哇好棒!你可以先做用戶研究!」——佢幫你迴避意圖,而唔係幫你做意圖工程。
作者仲提出一個 四象限框架:高結構化嘅工具編排(Function Calling)同協議設計(MCP/A2A)屬於駕馭工程範圍;低結構化嘅交互形態(多模態、示範)同反饋迴路(Reflection、主動澄清)主要喺意圖工程範疇。一個真正優秀嘅產品,必須將 四個象限同時做對。
啓發與終局:界面消失,意圖顯形
- 1 畀工程師:沉迷寫 Prompt 係 5 年前嘅特長,今日係基本功。真正嘅槓桿係設計 意圖-動作映射——一個動作能唔能夠拆解?意圖能唔能夠並行?失敗能唔能夠優雅反悔?成功能否記住遷移?識得設計意向映射嘅工程師價值 100 倍。
- 2 畀創始人:你嘅核心交互層(意圖工程層)係發明定係模仿?你嘅意圖保真度比對手高 5% 嗎?你嘅反饋迴路能讓用戶更懂自己嗎?如果答案係「用 GPT-5.5 + RAG + Agentic Loop」,咁你做嘅係商品,冇壁壘。
- 3 畀投資人:未來 AI 公司估值要睇兩個指標——駕馭工程密度(Harness Density)同 意圖工程密度(Intent Density)。兩個都高就係下一個 Notion、Figma。低密度就係套殼。
══════════════════════════════════════
完整人機協作系統(4 層架構)
═══════════════════════════════════════
[人的意圖] ──意圖工程──▶ [駕馭+上下文] ──▶ [模型+工具]
模糊 · 完整 管道 · 腳手架 精確 · 商品
▲ │
│ │
└──── 反饋迴路 ──────┘
══════════════════════════════════════
業界 3 段共識 + 新第 4 段
═════════════════════════════════════
Prompt (2022-2023) — 調詞
Context (2025-06) — 布信息
Harness (2026-02) — 調環境
Intent (2026+) — 翻譯人機接口
這篇文章想講清楚一件事:模型、工具、協議三層商品化之後,下一階段的競爭在人機接口處。
這一層我想給它起個名字,叫意圖工程(Intent Engineering)。
駕馭工程關注"修機"(讓 Agent 不犯重複錯),意圖工程關注"修人機接口"(讓人腦模糊意圖無損送達硅基系統)。
一、進化樹(3+1 疊加結構)
AI 應用開發的範式正在遷移。前三段是業界共識,第四段是趨勢
提示工程 Prompt Engineering ← 2022-2023
│ 調詞;讓模型"聽懂話"
↓
上下文工程 Context Engineering ← 2025-06 (Karpathy 推文)
│ 布信息;讓模型"夠得着用得上"
↓
駕馭工程 Harness Engineering ← 2026-02-05 (Hashimoto 命名)
│ 調環境;讓 Agent 不犯重複錯
↓ 2026-02-11 (OpenAI 百萬行代碼實驗跟進)
意圖工程 Intent Engineering
│ 翻譯人機接口;讓"我想要"無損送達
│ 與駕馭工程的邊界:駕馭工程修"機",
│ 意圖工程修"人機接口"
↓
- 提示工程
(2022-2023):你在調詞。目標是讓模型"聽懂話"。Karpathy 在 2025 年終總結中回顧,這是早期大語言模型(LLM)應用的標配。 - 上下文工程
(2025-):你在布信息。目標是讓模型"夠得着用得上"。Karpathy 發推文引爆,Shopify CEO 公開背書。 - 駕馭工程
(2026-02-):你在調環境。工具、記憶、計劃、反思、驗證,被你編排成"Agent 不再犯重複錯"的系統。 Hashimoto命名,OpenAI百萬行代碼實驗驗證。 - 意圖工程
(2026+):你在翻譯。把人類腦子裏那個模糊、矛盾、帶情緒、帶上下文的"我想要",無損地送進硅基系統。
四個階段,關注點逐步遷移:
- Prompt(提示工程,2022-2023)
:關注單次輸入的措辭。在模型接口修詞。 - Context(上下文工程,2025-)
:關注信息集合的密度。在模型輸入布信息。 - Harness(駕馭工程,2026-02-)
:關注 Agent(智能體)運行環境的可靠性。在模型外圍修環境。 - Intent(意圖工程,2026+)
:關注人機接口處的意圖對齊。在碳基 ↔ 硅基邊界修翻譯。
前三段在"硅基世界"內部打轉。意圖工程第一次把"碳基直覺"提到最優先級
和駕馭工程的關鍵差異:
駕馭工程讓機器不犯錯,
意圖工程讓機器聽懂人。
二、模型、工具、協議的商品化
模型層:GPT-4 到 GPT-4o 到 GPT-5,能力提升的曲線逐步平緩。基準分數的天花板正在被所有頭部玩家共同觸及。Claude、Gemini、DeepSeek、Qwen、Llama,閉源開源、歐美中國,能力差距在半年內被縮小差距。
工具層:LangChain 教會了大家"鏈式調用",然後被大家拋棄。ReAct、AutoGPT、Function Calling(函數調用)、Tools API,標準化得太快了。今天寫一套,明天就有平替。
協議層(2024-11 → 2025-04):
- MCP(模型上下文協議,Anthropic 2024-11 開源)
:智能體 ↔ 工具(client-server)。模型上下文MCP - A2A(智能體間協議,Google在 Cloud Next 25 推出,50+ 合作伙伴)
:智能體 ↔ 智能體(peer-to-peer)。 - 兩者是分層互補
:MCP 修工具調用,A2A 修智能體協作
一旦有協議,就意味着接口被抽象,集成門檻降到極低。
塵埃落定。
模型是水電煤,工具是貨架,協議是 HTTP。
這三層已經沒有新機會了。
剩下的壁壘在哪裏?
三、上下文是管道,不是產品。但駕馭工程也只是腳手架
很多人會說:上下文工程才是壁壘。
錯了一半。
Context 是管道,Harness 是腳手架。但它們都不是產品。
你把公司的所有文檔、聊天客訴歷史、會議記錄、客戶工單,整理成一個檢索增強生成(RAG)的上下文包 —— 這事,任何一個 SaaS 都能做,甚至普通用戶vibe幾下也可以做。
Notion AI 能做,Slack AI 能做,Microsoft Copilot 能做。
差別是接入成本、計費方式、UI 風格。但這些差異,會被時間和產品迭代磨平。
你搭一個 harness,讓 Agent 不再犯重複錯誤:OpenAI 在今年2月發佈的百萬行代碼實驗報告已經把最佳實踐開源。也就意味着,任何一個工程團隊都能復刻。
真正決定用戶體驗的,是管道+腳手架兩端的接口:
左端是人的意圖——模糊、不完整、帶情緒、隨時變化。 右端是模型與工具——精確、結構化、遵循協議。 中間這個交互層,把人類的"想要"翻譯成機器的"去做",把機器的"做完"翻譯成人類的"看到了"。
這個翻譯層,恰恰是用戶每天摸到、看到、感受到的東西。
它是產品,也是壁壘。
更是人機交互(HCI)的創新之處。
四、意圖工程:信號、噪聲、保真度
把意圖傳輸當成一個通信問題看:
[人的意圖]──信號──▶[交互層]──信號──▶ [模型與工具]
(碳基) ↑ ↑ (硅基)
│ │
失真 A 失真 B
失真 A:發生在碳基→交互層。人的"我想要一個不無聊的 demo"在腦子裏是一團感受,到了鍵盤上變成了"寫一個 Python 腳本生成柱狀圖"。
失真 B:發生在交互層→硅基。Prompt 進了大語言模型,被Token化、被系統提示覆蓋、被上下文窗口擠壓。一句"剛才那個"在 128k 上下文裏可能被淹沒 — 上下文腐爛
每一次失真,意圖的保真度都在衰減。
意圖工程的目標,就是讓這條鏈路上的總失真率,逼近零。
這是一個工程問題:
左端的失真怎麼降?靠更懂你的交互方式(多模態、所見即所得、自然對話、示範)。 右端的失真怎麼降?靠更結構化的指令設計(中間表示、領域專用語言 DSL、規劃、Reflection 反思)。 中間的失真怎麼降?靠雙向反饋迴路(你看到結果後能精煉意圖,機器能反問澄清)。
最高保真度的交互是什麼樣的?
界面消失。
你不再"使用"產品,你就在產品裏。
像寫作時用筆,像畫家用筆刷,像 DJ 用唱機。
意圖在指尖流出去,動作在指尖落下來,中間沒有翻譯損失。
這就是"最好的界面,是意圖對齊"
認知科學家 Clark 和 Chalmers 1998 年提過"延伸心智":人腦、筆記本、筆共同構成一個認知系統。
AI Agent 正在讓"筆記本"變成"第二大腦",延伸出去的心智,保真度反而成了新問題:還算不算"你的"?

意圖從人到機器的信號失真:碳基直覺如何衰減
五、案例:意圖保真度
下面四個案例是定性比較,不是量化 benchmark —— 業界目前沒有衡量標尺。
🟢 高保真:Cursor
你不需要告訴它"用 Python 寫一個 FastAPI 接口,調用 OpenAI,要流式輸出"。
你只需要說"加個 chat 接口",它看懂了整個項目的結構、依賴、命名習慣、測試約定。
意圖工程視角:在 harness 治理之上,Cursor 在人機接口處已經做到了"你不需要告訴它怎麼實現,只需要告訴它你想要什麼" —— 這就是意圖高保真的體現。
Karpathy 2025 年終總結裏把 Cursor 稱為"new layer of LLM apps",核心是上下文工程 + 多調用編排 + 自主度滑塊(autonomy slider)+ 用戶反饋式人機協同(human-in-the-loop GUI)
🟡 中保真:v0 / Bolt.new
你描述一個產品想法,它生成 UI 草圖。但你必須自己微調:顏色不對、佈局不對、文案不對。
它猜到了你的形,沒猜到你的意。
意圖工程視角:人機接口處的反問/澄清機制弱:意圖層的反饋迴路不閉環。
🟠 低保真:Humane AI Pin / Rabbit R1
意圖輸入沒有問題(語音、攝像頭),但意圖翻譯爛掉了。用戶說"幫我點杯咖啡",它要麼不會,要麼點了錯誤的咖啡、錯誤的地址、錯誤的支付方式。
意圖工程視角:這是人機接口的意圖翻譯層失敗,這和駕馭工程無關(它不是 harness 治理問題),純粹是"聽不懂人話"。再酷的硬件也救不回來。
ps:Pin 的工業設計得過 IF 設計獎,但工業設計救不回意圖工程的失敗
🔴 零保真:通用 Chatbot
典型代表豆包
你問"我想做個產品",它回答"哇好棒!你可以先做用戶研究!"
它沒有幫你做意圖工程,它在幫你迴避意圖。
模型能力只是入場券,意圖對齊才是壁壘。
駕馭工程是可量化的(來自 Life-Harness 論文,2026):126 套模型-環境組合中 116 套因 harness 優化而提升,平均 +88.5%(18 個 backbone)。
意圖工程暫時還沒有測量方法和相關研究。
最近,還有個趨勢 Agentic UI(智能體界面):
一次性界面(Disposable UI)
生成式界面(Generative UI)(如Google搜索的生成式界面)
是意圖工程的早期形態在產品上的表現。
從"界面長什麼樣",到"界面背後的意圖怎麼對齊"。
六、意圖工程的四象限
如果把意圖工程當成一門學科,它至少有四個維度:
高結構化
│
② 工具編排 │ ③ 協議設計
(Function │ (MCP / A2A /
Calling) │ Intent DSL)
│
低自由度 ─────────┼────────── 高自由度
│
① 交互形態 │ ④ 反饋迴路
(多模態/ │ (Reflection /
示範) │ 主動澄清)
│
低結構化
- ① 交互形態
:鼠標鍵盤、語音手勢、所見即所得、示範學習。 - ② 工具編排
:函數調用(Function Calling)、工具使用(Tool Use)、智能體循環(Agent Loop)。 - ③ 協議設計
:MCP(Anthropic 2024-11)+ A2A(Google 2025-04)。目前業界沒有"Intent Protocol"或"Intent DSL" —— 我認為非常值得探索。 - ④ 反饋迴路
:讓模型反問、讓人類精煉、讓循環收斂。
一個真正優秀的意圖工程產品,必須把這四象限同時做對。
缺一個,都不“完美”
與駕馭工程的邊界:四象限中的"② 工具編排"和"③ 協議設計"和駕馭工程有關;"① 交互形態"和"④ 反饋迴路"主要在意圖工程範疇。
重疊區是"用 harness 治理 agent 行為 + 用交互層收集意圖反饋"的協同。
七、啓發
給工程師
不要再沉迷於我會寫 prompt。
Prompt 是 5 年前的特長,今天是基本功。
你真正的槓桿是設計意圖-動作的映射:
一個動作能不能拆? 一個意圖能不能並行? 一個失敗能不能被優雅地反悔? 一個成功能不能被記住、被遷移?
會寫 prompt 的工程師有 2000 萬(不止)。
會設計意圖-動作映射的工程師,價值 100 倍。
給創始人
你在做 AI 應用?好。
問問自己:
你的核心交互層-意圖工程層是什麼?它是發明還是模仿? 你的意圖保真度比對手高 5% 嗎?高在哪? 你的反饋迴路能讓用戶更懂自己嗎?還是隻是更懂你?
如果答案都是"我們用 GPT-5.5 加 RAG 加 Agentic Loop" ——
那你做的是商品。
商品沒有壁壘。
商品會輸給下一個用新模型重做一遍的團隊。
給投資人
未來的 AI 應用公司估值,應該看兩個並列指標:
- 駕馭工程密度
(Harness Density):單位用戶行為裏,有多少比例是產品主動用 harness 幫你"管住 Agent"了。Life-Harness 論文顯示 126 套組合中 116 套因 harness 優化提升,平均 +88.5%。 - 意圖工程密度
(Intent Density):單位用戶行為裏,有多少比例是產品主動幫你"對齊人機意圖"了。
低密度的,就是套殼。
兩個都高 = 下一個 Notion、下一個 Figma、下一個 Excel。
也許意圖工程只是新瓶裝舊酒?
如果你拆開看:
多模態交互早就在做這件事 反思機制(Reflection)/主動澄清(active clarification)已經寫在 Anthropic 的系統設計裏 Cursor 的"聽懂"也不是 2026 才冒出來的能力
那"意圖工程"到底新在哪?
新在系統性整合優秀思想和經驗成果。把零散在多模態界面、交互設計、對話式設計裏的實踐,集中到"人機接口處意圖對齊"這一層,作為單獨學科來對待。
但學科和工程化產品之間,還有相當距離。
今天能宣稱"Intent Engineering 已經工程化"的團隊,幾乎沒有。
我們更應該把意圖工程當成一個正在浮現的研究方向,而不是一個已經成型的解決方案。
- 作為視角
:意圖工程非常有用,讓產品經理重新審視"我到底在做什麼層" - 作為命名
:可以接受,但不必神化 - 作為產品宣稱
:還早。別信任何"我們實現了意圖工程"的市場話術,除非他們有具體的人機接口保真度測試
八、終局:界面消失,意圖顯形
30 年前,PC 軟件是命令式的。
20 年前,圖形用戶界面(GUI)讓"點"代替了"打"。
10 年前,手機讓"滑"代替了"點"。
今天,AI 讓"說"代替了"滑"。
每一次媒介進化,意圖的輸入帶寬都在增加,操作的認知負擔都在降低。
人離"我想要"越來越近,離"怎麼做"越來越遠。
下一個十年,意圖工程 + 駕馭工程的極致是什麼?
駕馭工程解決"機":讓 Agent 永遠在你電腦上跑着。
意圖工程解決"人機接口":
你不再需要告訴它你想要什麼。它已經知道。它知道你今早沒睡好,知道你今天 deadline 在三點,知道你去年被這個方案坑過,知道你老闆喜歡看圖表不喜歡看錶格。
它在你開口之前,已經把答案准備好了。
不是讀心。
是長期、低損耗的意圖建模,讓機器的理解逼近你的表達。
那時候,界面就消失了。
你不會說"我用 XX 產品",你會說"我做了 XX 事"。
意圖直達動作,中間沒有"使用"這一環。
這是人機協作的終極形態:
不是機器更聰明,是機器更懂你。
總結
══════════════════════════════════════
完整人機協作系統(4 層架構)
═══════════════════════════════════════
[人的意圖] ──意圖工程──▶ [駕馭+上下文] ──▶ [模型+工具]
模糊 · 完整 管道 · 腳手架 精確 · 商品
▲ │
│ │
└──── 反饋迴路 ──────┘
══════════════════════════════════════
業界 3 段共識 + 新第 4 段
═════════════════════════════════════
Prompt (2022-2023, 業界共識) — 調詞
Context (2025-06, Karpathy) — 布信息
Harness (2026-02, Hashimoto+OpenAI) — 調環境
Intent (2026+, MixLab) — 翻譯人機接口
模型是地基,工具是磚頭,協議是水泥。
駕馭工程是腳手架。
意圖工程則是設計圖紙。
而意圖對齊 —— 才是建築的靈魂。
當所有人都跑去挖地基、搬磚頭的時候,
真正的建築師在畫圖紙。
而圖紙畫得好不好 ——
不取決於你會用什麼軟件,
不取決於你蓋過多少樓,
只取決於你能不能聽懂甲方的"我想要一個家"。
意圖工程,就是聽懂"我想要"這門學科。
最好的界面,是意圖對齊。
交流可加v:litnmnm

參考
[1] Mitchell Hashimoto, My AI Adoption Journey— mitchellh.com
[2] OpenAI,Harness Engineering: Leveraging Codex in an Agent-First World— OpenAI Blog
[3] Andrej Karpathy,2025 LLM Year in Review— karpathy.bearblog.dev
[4] Anthropic,Model Context Protocol— modelcontextprotocol.io
[5] Google,Agent2Agent Protocol— Google Cloud Next 25
[6]The Life-Harness Paper— via @rohit4verse Twitter
[7] Karpathy 2025-06-25 推文 — Twitter
[8] mixlab 知識卡,人機協作界面重定義— mixlab無界社區/knowledge
[9] mixlab 知識卡,Agentic UI:可丟棄界面 / 生成式 UI / 持久化基底 — mixlab無界社區/knowledge
