意圖工程。Harness：讓Agent不再犯重複錯，但這還不夠

作者：無界社區mixlab

日期：2026年6月6日上午7:41

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

意圖工程：人機接口的新壁壘，讓機器真正聽懂「我想要」

整理版摘要

呢篇文章由 MixLab 整理，探討 AI 應用開發範式嘅演進：由 Prompt Engineering 到 Context Engineering，再到 Harness Engineering，最後提出 Intent Engineering（意圖工程）作為下一階段嘅競爭核心。作者認為模型、工具、協議三層已經商品化，真正嘅壁壘喺人機接口處——點樣將人類模糊、帶情緒、唔完整嘅「我想要」無損傳遞畀矽基系統。

意圖工程嘅核心係降低信號失真：左端（碳基→交互層）靠多模態、示範等交互形態；右端（交互層→硅基）靠結構化指令、DSL、反射機制；中間靠雙向反饋迴路。作者用 Cursor（高保真）、v0/Bolt.new（中保真）、Humane AI Pin（低保真）同通用 Chatbot（零保真）四個案例說明意圖保真度嘅差異，並提出一個四象限框架（交互形態、工具編排、協議設計、反饋迴路）去系統性設計意圖工程。

作者強調，意圖工程唔係一個成熟解決方案，而係一個新興研究方向。佢分別畀咗工程師、創始人同投資人嘅啓示：工程師要由寫 prompt 轉向設計意圖-動作映射；創始人要問自己核心交互層嘅意圖保真度有冇比對手高；投資人要睇「意圖工程密度」作為估值指標。最終願景係界面消失，意圖直達動作，機器唔再需要你開口就已經知道你嘅需要。

AI 應用競爭已從模型、工具、協議層轉移到人機接口嘅意圖對齊，意圖工程成為新壁壘。
意圖工程透過降低失真（信號、噪聲、保真度）與雙向反饋迴路，將人類模糊意圖無損傳遞。
駕馭工程（Harness）專注讓 Agent 唔犯重複錯，意圖工程專注讓機器聽懂人類意圖。
工程師應由寫 prompt 轉向設計意圖-動作映射；創始人應評估核心交互層嘅意圖保真度；投資人應睇意圖工程密度。
可探索 Intent Protocol / Intent DSL 等新領域，並建立人機接口保真度測試框架。

值得記低

筆記

意圖工程四象限架構

高結構化：②工具編排（Function Calling）、③協議設計（MCP/A2A/Intent DSL）；低結構化：①交互形態（多模態/示範）、④反饋迴路（Reflection/主動澄清）。

筆記

人機協作系統4層架構圖

[人的意圖] ──意圖工程──▶ [駕馭+上下文] ──▶ [模型+工具]；模糊 -> 管道腳手架 -> 精確商品；反饋迴路從右到左。

整理重點

進化樹：由調詞到翻譯人機接口

呢篇文章提出一個 3+1 疊加結構：Prompt Engineering（2022-2023）係調詞，Context Engineering（2025-06）係布信息，Harness Engineering（2026-02）係調環境，而最新嘅 Intent Engineering（2026+）係翻譯人機接口。前三段喺硅基世界內部打轉，意圖工程第一次將碳基直覺提到最高優先級。

整理重點

模型、工具、協議已經商品化，壁壘喺接口

模型層（GPT-5、Claude、DeepSeek 等）能力差距半年內縮小；工具層（LangChain、ReAct、Function Calling）標準化太快；協議層（MCP、A2A）令集成門檻降到極低。作者總結：模型係水電煤，工具係貨架，協議係 HTTP，呢三層已經冇新機會。

有人話 Context Engineering 係壁壘，但作者指出 Context 係管道，Harness 係腳手架，佢哋都唔係產品。真正決定用戶體驗嘅係管道兩端嘅接口層——將人嘅意圖翻譯成機器嘅動作，呢個翻譯層先係產品，亦都係壁壘。

整理重點

意圖工程：信號、噪聲與保真度

作者將意圖傳輸視為通信問題：失真 A 發生喺碳基→交互層（例如「想要一個唔無聊嘅 demo」變成「寫 Python 腳本生成柱狀圖」）；失真 B 發生喺交互層→硅基（Prompt 被 Token 化、系統提示覆蓋、上下文擠壓）。每一次失真，意圖嘅保真度都會衰減。

降低左端失真靠更懂你嘅交互方式（多模態、所見即所得、自然對話）；降低右端失真靠結構化指令設計（中間表示、DSL、規劃、反思）；降低中間失真靠雙向反饋迴路（你睇結果後精煉意圖，機器反問澄清）。

整理重點

案例與四象限：由高保真到零保真

🟢 高保真（Cursor）：你唔需要講點實現，只要講「加個 chat 接口」，佢睇曬成個項目結構、依賴、命名習慣。意圖高保真體現喺 harness 之上嘅人機接口。
🟡 中保真（v0 / Bolt.new）：描述產品想法，生成 UI 草圖，但你要自己微調顏色、佈局。佢估到你嘅形，冇估到你嘅意，反問/澄清機制弱。
🟠 低保真（Humane AI Pin / Rabbit R1）：語音輸入冇問題，但翻譯爛咗——「幫我點杯咖啡」會點錯咖啡、錯地址。純粹係人機接口嘅意圖翻譯層失敗。
🔴 零保真（通用 Chatbot 如豆包）：你問「我想做個產品」，佢答「哇好棒！你可以先做用戶研究！」——佢幫你迴避意圖，而唔係幫你做意圖工程。

作者仲提出一個四象限框架：高結構化嘅工具編排（Function Calling）同協議設計（MCP/A2A）屬於駕馭工程範圍；低結構化嘅交互形態（多模態、示範）同反饋迴路（Reflection、主動澄清）主要喺意圖工程範疇。一個真正優秀嘅產品，必須將四個象限同時做對。

整理重點

啓發與終局：界面消失，意圖顯形

1 畀工程師：沉迷寫 Prompt 係 5 年前嘅特長，今日係基本功。真正嘅槓桿係設計意圖-動作映射——一個動作能唔能夠拆解？意圖能唔能夠並行？失敗能唔能夠優雅反悔？成功能否記住遷移？識得設計意向映射嘅工程師價值 100 倍。
2 畀創始人：你嘅核心交互層（意圖工程層）係發明定係模仿？你嘅意圖保真度比對手高 5% 嗎？你嘅反饋迴路能讓用戶更懂自己嗎？如果答案係「用 GPT-5.5 + RAG + Agentic Loop」，咁你做嘅係商品，冇壁壘。
3 畀投資人：未來 AI 公司估值要睇兩個指標——駕馭工程密度（Harness Density）同意圖工程密度（Intent Density）。兩個都高就係下一個 Notion、Figma。低密度就係套殼。

完整人機協作系統（4 層架構） text

══════════════════════════════════════
 完整人機協作系統（4 層架構）
═══════════════════════════════════════
[人的意圖] ──意圖工程──▶ [駕馭+上下文] ──▶ [模型+工具]
模糊 · 完整 管道 · 腳手架 精確 · 商品
 ▲ │
 │ │
 └──── 反饋迴路 ──────┘
══════════════════════════════════════
 業界 3 段共識 + 新第 4 段
═════════════════════════════════════
 Prompt (2022-2023) — 調詞
 Context (2025-06) — 布信息
 Harness (2026-02) — 調環境
 Intent (2026+) — 翻譯人機接口

這篇文章想講清楚一件事：模型、工具、協議三層商品化之後，下一階段的競爭在人機接口處。

這一層我想給它起個名字，叫意圖工程（Intent Engineering）。

駕馭工程關注"修機"（讓 Agent 不犯重複錯），意圖工程關注"修人機接口"（讓人腦模糊意圖無損送達硅基系統）。

一、進化樹（3+1 疊加結構）

AI 應用開發的範式正在遷移。前三段是業界共識，第四段是趨勢

提示工程 Prompt Engineering   ← 2022-2023
   │  調詞；讓模型"聽懂話"
   ↓
上下文工程 Context Engineering   ← 2025-06 (Karpathy 推文)
   │  布信息；讓模型"夠得着用得上"
   ↓
駕馭工程 Harness Engineering   ← 2026-02-05 (Hashimoto 命名)
   │  調環境；讓 Agent 不犯重複錯
   ↓    2026-02-11 (OpenAI 百萬行代碼實驗跟進)

意圖工程 Intent Engineering
   │  翻譯人機接口；讓"我想要"無損送達
   │  與駕馭工程的邊界：駕馭工程修"機"，
   │  意圖工程修"人機接口"
   ↓

提示工程
（2022-2023）：你在調詞。目標是讓模型"聽懂話"。Karpathy 在 2025 年終總結中回顧，這是早期大語言模型（LLM）應用的標配。
上下文工程
（2025-）：你在布信息。目標是讓模型"夠得着用得上"。Karpathy 發推文引爆，Shopify CEO 公開背書。
駕馭工程
（2026-02-）：你在調環境。工具、記憶、計劃、反思、驗證，被你編排成"Agent 不再犯重複錯"的系統。
Hashimoto命名，OpenAI百萬行代碼實驗驗證。
意圖工程
（2026+）：你在翻譯。把人類腦子裏那個模糊、矛盾、帶情緒、帶上下文的"我想要"，無損地送進硅基系統。

四個階段，關注點逐步遷移：

Prompt（提示工程，2022-2023）
：關注單次輸入的措辭。在模型接口修詞。
Context（上下文工程，2025-）
：關注信息集合的密度。在模型輸入布信息。
Harness（駕馭工程，2026-02-）
：關注 Agent（智能體）運行環境的可靠性。在模型外圍修環境。
Intent（意圖工程，2026+）
：關注人機接口處的意圖對齊。在碳基 ↔ 硅基邊界修翻譯。

前三段在"硅基世界"內部打轉。意圖工程第一次把"碳基直覺"提到最優先級

和駕馭工程的關鍵差異：

駕馭工程讓機器不犯錯，

意圖工程讓機器聽懂人。

二、模型、工具、協議的商品化

模型層：GPT-4 到 GPT-4o 到 GPT-5，能力提升的曲線逐步平緩。基準分數的天花板正在被所有頭部玩家共同觸及。Claude、Gemini、DeepSeek、Qwen、Llama，閉源開源、歐美中國，能力差距在半年內被縮小差距。

工具層：LangChain 教會了大家"鏈式調用"，然後被大家拋棄。ReAct、AutoGPT、Function Calling（函數調用）、Tools API，標準化得太快了。今天寫一套，明天就有平替。

協議層（2024-11 → 2025-04）：

MCP（模型上下文協議，Anthropic 2024-11 開源）
：智能體 ↔ 工具（client-server）。模型上下文MCP
A2A（智能體間協議，Google在 Cloud Next 25 推出，50+ 合作伙伴）
：智能體 ↔ 智能體（peer-to-peer）。
兩者是分層互補
：MCP 修工具調用，A2A 修智能體協作

一旦有協議，就意味着接口被抽象，集成門檻降到極低。

塵埃落定。

模型是水電煤，工具是貨架，協議是 HTTP。

這三層已經沒有新機會了。

剩下的壁壘在哪裏？

三、上下文是管道，不是產品。但駕馭工程也只是腳手架

很多人會說：上下文工程才是壁壘。

錯了一半。

Context 是管道，Harness 是腳手架。但它們都不是產品。

你把公司的所有文檔、聊天客訴歷史、會議記錄、客戶工單，整理成一個檢索增強生成（RAG）的上下文包 —— 這事，任何一個 SaaS 都能做，甚至普通用戶vibe幾下也可以做。

Notion AI 能做，Slack AI 能做，Microsoft Copilot 能做。

差別是接入成本、計費方式、UI 風格。但這些差異，會被時間和產品迭代磨平。

你搭一個 harness，讓 Agent 不再犯重複錯誤：OpenAI 在今年2月發佈的百萬行代碼實驗報告已經把最佳實踐開源。也就意味着，任何一個工程團隊都能復刻。

真正決定用戶體驗的，是管道+腳手架兩端的接口：

左端是人的意圖——模糊、不完整、帶情緒、隨時變化。
右端是模型與工具——精確、結構化、遵循協議。
中間這個交互層，把人類的"想要"翻譯成機器的"去做"，把機器的"做完"翻譯成人類的"看到了"。

這個翻譯層，恰恰是用戶每天摸到、看到、感受到的東西。

它是產品，也是壁壘。

更是人機交互（HCI）的創新之處。

四、意圖工程：信號、噪聲、保真度

把意圖傳輸當成一個通信問題看：

[人的意圖]──信號──▶[交互層]──信號──▶ [模型與工具]
  (碳基)    ↑             ↑      (硅基)
           │             │
          失真 A        失真 B

失真 A：發生在碳基→交互層。人的"我想要一個不無聊的 demo"在腦子裏是一團感受，到了鍵盤上變成了"寫一個 Python 腳本生成柱狀圖"。

失真 B：發生在交互層→硅基。Prompt 進了大語言模型，被Token化、被系統提示覆蓋、被上下文窗口擠壓。一句"剛才那個"在 128k 上下文裏可能被淹沒 — 上下文腐爛

每一次失真，意圖的保真度都在衰減。

意圖工程的目標，就是讓這條鏈路上的總失真率，逼近零。

這是一個工程問題：

左端的失真怎麼降？靠更懂你的交互方式（多模態、所見即所得、自然對話、示範）。
右端的失真怎麼降？靠更結構化的指令設計（中間表示、領域專用語言 DSL、規劃、Reflection 反思）。
中間的失真怎麼降？靠雙向反饋迴路（你看到結果後能精煉意圖，機器能反問澄清）。

最高保真度的交互是什麼樣的？

界面消失。

你不再"使用"產品，你就在產品裏。

像寫作時用筆，像畫家用筆刷，像 DJ 用唱機。

意圖在指尖流出去，動作在指尖落下來，中間沒有翻譯損失。

這就是"最好的界面，是意圖對齊"

認知科學家 Clark 和 Chalmers 1998 年提過"延伸心智"：人腦、筆記本、筆共同構成一個認知系統。

AI Agent 正在讓"筆記本"變成"第二大腦"，延伸出去的心智，保真度反而成了新問題：還算不算"你的"？

意圖從人到機器的信號失真：碳基直覺如何衰減

五、案例：意圖保真度

下面四個案例是定性比較，不是量化 benchmark —— 業界目前沒有衡量標尺。

🟢 高保真：Cursor

你不需要告訴它"用 Python 寫一個 FastAPI 接口，調用 OpenAI，要流式輸出"。

你只需要說"加個 chat 接口"，它看懂了整個項目的結構、依賴、命名習慣、測試約定。

意圖工程視角：在 harness 治理之上，Cursor 在人機接口處已經做到了"你不需要告訴它怎麼實現，只需要告訴它你想要什麼" —— 這就是意圖高保真的體現。

Karpathy 2025 年終總結裏把 Cursor 稱為"new layer of LLM apps"，核心是上下文工程 + 多調用編排 + 自主度滑塊（autonomy slider）+ 用戶反饋式人機協同（human-in-the-loop GUI）

🟡 中保真：v0 / Bolt.new

你描述一個產品想法，它生成 UI 草圖。但你必須自己微調：顏色不對、佈局不對、文案不對。

它猜到了你的形，沒猜到你的意。

意圖工程視角：人機接口處的反問/澄清機制弱：意圖層的反饋迴路不閉環。

🟠 低保真：Humane AI Pin / Rabbit R1

意圖輸入沒有問題（語音、攝像頭），但意圖翻譯爛掉了。用戶說"幫我點杯咖啡"，它要麼不會，要麼點了錯誤的咖啡、錯誤的地址、錯誤的支付方式。

意圖工程視角：這是人機接口的意圖翻譯層失敗，這和駕馭工程無關（它不是 harness 治理問題），純粹是"聽不懂人話"。再酷的硬件也救不回來。

ps：Pin 的工業設計得過 IF 設計獎，但工業設計救不回意圖工程的失敗

🔴 零保真：通用 Chatbot

典型代表豆包

你問"我想做個產品"，它回答"哇好棒！你可以先做用戶研究！"

它沒有幫你做意圖工程，它在幫你迴避意圖。

模型能力只是入場券，意圖對齊才是壁壘。

駕馭工程是可量化的（來自 Life-Harness 論文，2026）：126 套模型-環境組合中 116 套因 harness 優化而提升，平均 +88.5%（18 個 backbone）。

意圖工程暫時還沒有測量方法和相關研究。

最近，還有個趨勢 Agentic UI（智能體界面）：

一次性界面（Disposable UI）

生成式界面（Generative UI）（如Google搜索的生成式界面）

是意圖工程的早期形態在產品上的表現。

從"界面長什麼樣"，到"界面背後的意圖怎麼對齊"。

六、意圖工程的四象限

如果把意圖工程當成一門學科，它至少有四個維度：

               高結構化
                  │
      ② 工具編排    │   ③ 協議設計
     (Function    │   (MCP / A2A /
      Calling)    │    Intent DSL)
                  │
  低自由度 ─────────┼────────── 高自由度
                  │
       ① 交互形態   │   ④ 反饋迴路
      (多模態/     │   (Reflection /
       示範)       │    主動澄清)
                  │
               低結構化

① 交互形態
：鼠標鍵盤、語音手勢、所見即所得、示範學習。
② 工具編排
：函數調用（Function Calling）、工具使用（Tool Use）、智能體循環（Agent Loop）。
③ 協議設計
：MCP（Anthropic 2024-11）+ A2A（Google 2025-04）。目前業界沒有"Intent Protocol"或"Intent DSL" —— 我認為非常值得探索。
④ 反饋迴路
：讓模型反問、讓人類精煉、讓循環收斂。

一個真正優秀的意圖工程產品，必須把這四象限同時做對。

缺一個，都不“完美”

與駕馭工程的邊界：四象限中的"② 工具編排"和"③ 協議設計"和駕馭工程有關；"① 交互形態"和"④ 反饋迴路"主要在意圖工程範疇。

重疊區是"用 harness 治理 agent 行為 + 用交互層收集意圖反饋"的協同。

七、啓發

給工程師

不要再沉迷於我會寫 prompt。
Prompt 是 5 年前的特長，今天是基本功。
你真正的槓桿是設計意圖-動作的映射：

一個動作能不能拆？
一個意圖能不能並行？
一個失敗能不能被優雅地反悔？
一個成功能不能被記住、被遷移？

會寫 prompt 的工程師有 2000 萬（不止）。

會設計意圖-動作映射的工程師，價值 100 倍。

給創始人

你在做 AI 應用？好。
問問自己：

你的核心交互層-意圖工程層是什麼？它是發明還是模仿？
你的意圖保真度比對手高 5% 嗎？高在哪？
你的反饋迴路能讓用戶更懂自己嗎？還是隻是更懂你？

如果答案都是"我們用 GPT-5.5 加 RAG 加 Agentic Loop" ——

那你做的是商品。
商品沒有壁壘。

商品會輸給下一個用新模型重做一遍的團隊。

給投資人

未來的 AI 應用公司估值，應該看兩個並列指標：

駕馭工程密度
（Harness Density）：單位用戶行為裏，有多少比例是產品主動用 harness 幫你"管住 Agent"了。Life-Harness 論文顯示 126 套組合中 116 套因 harness 優化提升，平均 +88.5%。
意圖工程密度
（Intent Density）：單位用戶行為裏，有多少比例是產品主動幫你"對齊人機意圖"了。

低密度的，就是套殼。

兩個都高 = 下一個 Notion、下一個 Figma、下一個 Excel。

也許意圖工程只是新瓶裝舊酒？

如果你拆開看：

多模態交互早就在做這件事
反思機制（Reflection）/主動澄清（active clarification）已經寫在 Anthropic 的系統設計裏
Cursor 的"聽懂"也不是 2026 才冒出來的能力

那"意圖工程"到底新在哪？

新在系統性整合優秀思想和經驗成果。把零散在多模態界面、交互設計、對話式設計裏的實踐，集中到"人機接口處意圖對齊"這一層，作為單獨學科來對待。

但學科和工程化產品之間，還有相當距離。

今天能宣稱"Intent Engineering 已經工程化"的團隊，幾乎沒有。

我們更應該把意圖工程當成一個正在浮現的研究方向，而不是一個已經成型的解決方案。

作為視角
：意圖工程非常有用，讓產品經理重新審視"我到底在做什麼層"
作為命名
：可以接受，但不必神化
作為產品宣稱
：還早。別信任何"我們實現了意圖工程"的市場話術，除非他們有具體的人機接口保真度測試

八、終局：界面消失，意圖顯形

30 年前，PC 軟件是命令式的。
20 年前，圖形用戶界面（GUI）讓"點"代替了"打"。
10 年前，手機讓"滑"代替了"點"。
今天，AI 讓"說"代替了"滑"。

每一次媒介進化，意圖的輸入帶寬都在增加，操作的認知負擔都在降低。
人離"我想要"越來越近，離"怎麼做"越來越遠。

下一個十年，意圖工程 + 駕馭工程的極致是什麼？

駕馭工程解決"機"：讓 Agent 永遠在你電腦上跑着。

意圖工程解決"人機接口"：

你不再需要告訴它你想要什麼。它已經知道。它知道你今早沒睡好，知道你今天 deadline 在三點，知道你去年被這個方案坑過，知道你老闆喜歡看圖表不喜歡看錶格。

它在你開口之前，已經把答案准備好了。

不是讀心。
是長期、低損耗的意圖建模，讓機器的理解逼近你的表達。

那時候，界面就消失了。
你不會說"我用 XX 產品"，你會說"我做了 XX 事"。
意圖直達動作，中間沒有"使用"這一環。

這是人機協作的終極形態：
不是機器更聰明，是機器更懂你。

總結

══════════════════════════════════════
  完整人機協作系統（4 層架構）
═══════════════════════════════════════

[人的意圖] ──意圖工程──▶ [駕馭+上下文] ──▶ [模型+工具]
 模糊 · 完整          管道 · 腳手架     精確 · 商品
       ▲                  │
       │                  │
       └──── 反饋迴路 ──────┘

══════════════════════════════════════
  業界 3 段共識 + 新第 4 段
═════════════════════════════════════

  Prompt   (2022-2023, 業界共識) — 調詞
  Context  (2025-06, Karpathy) — 布信息
  Harness  (2026-02, Hashimoto+OpenAI) — 調環境
  Intent   (2026+, MixLab)  — 翻譯人機接口

模型是地基，工具是磚頭，協議是水泥。
駕馭工程是腳手架。
意圖工程則是設計圖紙。
而意圖對齊 —— 才是建築的靈魂。

當所有人都跑去挖地基、搬磚頭的時候，
真正的建築師在畫圖紙。

而圖紙畫得好不好 ——
不取決於你會用什麼軟件，
不取決於你蓋過多少樓，
只取決於你能不能聽懂甲方的"我想要一個家"。

意圖工程，就是聽懂"我想要"這門學科。

最好的界面，是意圖對齊。

交流可加v：litnmnm

參考

[1] Mitchell Hashimoto, My AI Adoption Journey— mitchellh.com
[2] OpenAI,Harness Engineering: Leveraging Codex in an Agent-First World— OpenAI Blog
[3] Andrej Karpathy,2025 LLM Year in Review— karpathy.bearblog.dev
[4] Anthropic,Model Context Protocol— modelcontextprotocol.io
[5] Google,Agent2Agent Protocol— Google Cloud Next 25
[6]The Life-Harness Paper— via @rohit4verse Twitter
[7] Karpathy 2025-06-25 推文 — Twitter
[8] mixlab 知識卡,人機協作界面重定義— mixlab無界社區/knowledge
[9] mixlab 知識卡,Agentic UI：可丟棄界面 / 生成式 UI / 持久化基底 — mixlab無界社區/knowledge