意圖工程。Harness:讓Agent不再犯重複錯,但這還不夠

作者:無界社區mixlab
日期:2026年6月6日 上午7:41
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

意圖工程:人機接口的新壁壘,讓機器真正聽懂「我想要

整理版摘要

呢篇文章由 MixLab 整理,探討 AI 應用開發範式嘅演進:由 Prompt EngineeringContext Engineering,再到 Harness Engineering,最後提出 Intent Engineering(意圖工程)作為下一階段嘅競爭核心。作者認為模型、工具、協議三層已經商品化,真正嘅壁壘喺人機接口處——點樣將人類模糊、帶情緒、唔完整嘅「我想要」無損傳遞畀矽基系統。

意圖工程嘅核心係降低信號失真:左端(碳基→交互層)靠多模態、示範等交互形態;右端(交互層→硅基)靠結構化指令、DSL、反射機制;中間靠雙向反饋迴路。作者用 Cursor(高保真)、v0/Bolt.new(中保真)、Humane AI Pin(低保真)同通用 Chatbot(零保真)四個案例說明意圖保真度嘅差異,並提出一個四象限框架(交互形態、工具編排、協議設計、反饋迴路)去系統性設計意圖工程。

作者強調,意圖工程唔係一個成熟解決方案,而係一個新興研究方向。佢分別畀咗工程師、創始人同投資人嘅啓示:工程師要由寫 prompt 轉向設計意圖-動作映射;創始人要問自己核心交互層嘅意圖保真度有冇比對手高;投資人要睇「意圖工程密度」作為估值指標。最終願景係界面消失,意圖直達動作,機器唔再需要你開口就已經知道你嘅需要。

  • AI 應用競爭已從模型、工具、協議層轉移到人機接口嘅意圖對齊,意圖工程成為新壁壘。
  • 意圖工程透過降低失真(信號、噪聲、保真度)與雙向反饋迴路,將人類模糊意圖無損傳遞。
  • 駕馭工程(Harness)專注讓 Agent 唔犯重複錯,意圖工程專注讓機器聽懂人類意圖。
  • 工程師應由寫 prompt 轉向設計意圖-動作映射;創始人應評估核心交互層嘅意圖保真度;投資人應睇意圖工程密度。
  • 可探索 Intent Protocol / Intent DSL 等新領域,並建立人機接口保真度測試框架。
值得記低
筆記

意圖工程四象限架構

高結構化:②工具編排(Function Calling)、③協議設計(MCP/A2A/Intent DSL);低結構化:①交互形態(多模態/示範)、④反饋迴路(Reflection/主動澄清)。

筆記

人機協作系統4層架構圖

[人的意圖] ──意圖工程──▶ [駕馭+上下文] ──▶ [模型+工具];模糊 -> 管道腳手架 -> 精確商品;反饋迴路從右到左。

整理重點

進化樹:由調詞到翻譯人機接口

呢篇文章提出一個 3+1 疊加結構Prompt Engineering(2022-2023)係調詞,Context Engineering(2025-06)係布信息,Harness Engineering(2026-02)係調環境,而最新嘅 Intent Engineering(2026+)係翻譯人機接口。前三段喺硅基世界內部打轉,意圖工程第一次將 碳基直覺 提到最高優先級。

整理重點

模型、工具、協議已經商品化,壁壘喺接口

模型層(GPT-5ClaudeDeepSeek 等)能力差距半年內縮小;工具層(LangChain、ReAct、Function Calling)標準化太快;協議層(MCP、A2A)令集成門檻降到極低。作者總結:模型係水電煤,工具係貨架,協議係 HTTP,呢三層已經冇新機會。

有人話 Context Engineering 係壁壘,但作者指出 Context 係管道,Harness 係腳手架,佢哋都唔係產品。真正決定用戶體驗嘅係管道兩端嘅接口層——將人嘅意圖翻譯成機器嘅動作,呢個翻譯層先係產品,亦都係壁壘。

整理重點

意圖工程:信號、噪聲與保真度

作者將意圖傳輸視為通信問題:失真 A 發生喺碳基→交互層(例如「想要一個唔無聊嘅 demo」變成「寫 Python 腳本生成柱狀圖」);失真 B 發生喺交互層→硅基(Prompt 被 Token 化、系統提示覆蓋、上下文擠壓)。每一次失真,意圖嘅 保真度 都會衰減。

降低左端失真靠更懂你嘅交互方式(多模態、所見即所得、自然對話);降低右端失真靠結構化指令設計(中間表示、DSL、規劃、反思);降低中間失真靠 雙向反饋迴路(你睇結果後精煉意圖,機器反問澄清)。

整理重點

案例與四象限:由高保真到零保真

  • 🟢 高保真(Cursor):你唔需要講點實現,只要講「加個 chat 接口」,佢睇曬成個項目結構、依賴、命名習慣。意圖高保真體現喺 harness 之上嘅人機接口。
  • 🟡 中保真(v0 / Bolt.new):描述產品想法,生成 UI 草圖,但你要自己微調顏色、佈局。佢估到你嘅形,冇估到你嘅意,反問/澄清機制弱。
  • 🟠 低保真(Humane AI Pin / Rabbit R1):語音輸入冇問題,但翻譯爛咗——「幫我點杯咖啡」會點錯咖啡、錯地址。純粹係人機接口嘅意圖翻譯層失敗。
  • 🔴 零保真(通用 Chatbot 如豆包):你問「我想做個產品」,佢答「哇好棒!你可以先做用戶研究!」——佢幫你迴避意圖,而唔係幫你做意圖工程。

作者仲提出一個 四象限框架:高結構化嘅工具編排(Function Calling)同協議設計(MCP/A2A)屬於駕馭工程範圍;低結構化嘅交互形態(多模態、示範)同反饋迴路(Reflection、主動澄清)主要喺意圖工程範疇。一個真正優秀嘅產品,必須將 四個象限同時做對。

整理重點

啓發與終局:界面消失,意圖顯形

  1. 1 畀工程師:沉迷寫 Prompt 係 5 年前嘅特長,今日係基本功。真正嘅槓桿係設計 意圖-動作映射——一個動作能唔能夠拆解?意圖能唔能夠並行?失敗能唔能夠優雅反悔?成功能否記住遷移?識得設計意向映射嘅工程師價值 100 倍。
  2. 2 畀創始人:你嘅核心交互層(意圖工程層)係發明定係模仿?你嘅意圖保真度比對手高 5% 嗎?你嘅反饋迴路能讓用戶更懂自己嗎?如果答案係「用 GPT-5.5 + RAG + Agentic Loop」,咁你做嘅係商品,冇壁壘。
  3. 3 畀投資人:未來 AI 公司估值要睇兩個指標——駕馭工程密度(Harness Density)同 意圖工程密度(Intent Density)。兩個都高就係下一個 Notion、Figma。低密度就係套殼。
完整人機協作系統(4 層架構) text
══════════════════════════════════════
 完整人機協作系統(4 層架構)
═══════════════════════════════════════
[人的意圖] ──意圖工程──▶ [駕馭+上下文] ──▶ [模型+工具]
模糊 · 完整 管道 · 腳手架 精確 · 商品
 ▲ │
 │ │
 └──── 反饋迴路 ──────┘
══════════════════════════════════════
 業界 3 段共識 + 新第 4 段
═════════════════════════════════════
 Prompt (2022-2023) — 調詞
 Context (2025-06) — 布信息
 Harness (2026-02) — 調環境
 Intent (2026+) — 翻譯人機接口

這篇文章想講清楚一件事:模型、工具、協議三層商品化之後,下一階段的競爭在人機接口處

這一層我想給它起個名字,叫意圖工程(Intent Engineering)。

駕馭工程關注"修機"(讓 Agent 不犯重複錯),意圖工程關注"修人機接口"(讓人腦模糊意圖無損送達硅基系統)。


一、進化樹(3+1 疊加結構)

AI 應用開發的範式正在遷移。前三段是業界共識,第四段是趨勢

提示工程 Prompt Engineering   ← 2022-2023
   │  調詞;讓模型"聽懂話"
   ↓
上下文工程 Context Engineering   ← 2025-06 (Karpathy 推文)
   │  布信息;讓模型"夠得着用得上"
   ↓
駕馭工程 Harness Engineering   ← 2026-02-05 (Hashimoto 命名)
   │  調環境;讓 Agent 不犯重複錯
   ↓    2026-02-11 (OpenAI 百萬行代碼實驗跟進)

意圖工程 Intent Engineering
   │  翻譯人機接口;讓"我想要"無損送達
   │  與駕馭工程的邊界:駕馭工程修"機",
   │  意圖工程修"人機接口"
   ↓

四個階段,關注點逐步遷移

  • Prompt(提示工程,2022-2023)
    :關注單次輸入的措辭。在模型接口修詞。
  • Context(上下文工程,2025-)
    :關注信息集合的密度。在模型輸入布信息。
  • Harness(駕馭工程,2026-02-)
    :關注 Agent(智能體)運行環境的可靠性。在模型外圍修環境。
  • Intent(意圖工程,2026+)
    :關注人機接口處的意圖對齊。在碳基 ↔ 硅基邊界修翻譯。


前三段在"硅基世界"內部打轉。意圖工程第一次把"碳基直覺"提到最優先級

和駕馭工程的關鍵差異:

駕馭工程讓機器不犯錯,

意圖工程讓機器聽懂人。


二、模型、工具、協議的商品化

模型層:GPT-4 到 GPT-4o 到 GPT-5,能力提升的曲線逐步平緩。基準分數的天花板正在被所有頭部玩家共同觸及。Claude、Gemini、DeepSeek、Qwen、Llama,閉源開源、歐美中國,能力差距在半年內被縮小差距。

工具層:LangChain 教會了大家"鏈式調用",然後被大家拋棄。ReAct、AutoGPT、Function Calling(函數調用)、Tools API,標準化得太快了。今天寫一套,明天就有平替。

協議層(2024-11 → 2025-04):

  • MCP(模型上下文協議,Anthropic 2024-11 開源)
    :智能體 ↔ 工具(client-server)。模型上下文MCP
  • A2A(智能體間協議,Google在 Cloud Next 25 推出,50+ 合作伙伴)
    :智能體 ↔ 智能體(peer-to-peer)。
  • 兩者是分層互補
    :MCP 修工具調用,A2A 修智能體協作

一旦有協議,就意味着接口被抽象,集成門檻降到極低

塵埃落定。

模型是水電煤,工具是貨架,協議是 HTTP。

這三層已經沒有新機會了。

剩下的壁壘在哪裏?


三、上下文是管道,不是產品。但駕馭工程也只是腳手架

很多人會說:上下文工程才是壁壘。

錯了一半。

Context 是管道,Harness 是腳手架。但它們都不是產品。

你把公司的所有文檔、聊天客訴歷史、會議記錄、客戶工單,整理成一個檢索增強生成(RAG)的上下文包 —— 這事,任何一個 SaaS 都能做,甚至普通用戶vibe幾下也可以做。

Notion AI 能做,Slack AI 能做,Microsoft Copilot 能做。

差別是接入成本、計費方式、UI 風格。但這些差異,會被時間和產品迭代磨平。

你搭一個 harness,讓 Agent 不再犯重複錯誤:OpenAI 在今年2月發佈的百萬行代碼實驗報告已經把最佳實踐開源。也就意味着,任何一個工程團隊都能復刻。

真正決定用戶體驗的,是管道+腳手架兩端的接口

  • 左端是人的意圖——模糊、不完整、帶情緒、隨時變化。
  • 右端是模型與工具——精確、結構化、遵循協議。
  • 中間這個交互層,把人類的"想要"翻譯成機器的"去做",把機器的"做完"翻譯成人類的"看到了"。

這個翻譯層,恰恰是用戶每天摸到、看到、感受到的東西。

它是產品,也是壁壘。

更是人機交互(HCI)的創新之處。


四、意圖工程:信號、噪聲、保真度

把意圖傳輸當成一個通信問題看:

[人的意圖]──信號──▶[交互層]──信號──▶ [模型與工具]
 (碳基)    ↑             ↑      (硅基)
          │            │
          失真 A        失真 B

失真 A:發生在碳基→交互層。人的"我想要一個不無聊的 demo"在腦子裏是一團感受,到了鍵盤上變成了"寫一個 Python 腳本生成柱狀圖"。

失真 B:發生在交互層→硅基。Prompt 進了大語言模型,被Token化、被系統提示覆蓋、被上下文窗口擠壓。一句"剛才那個"在 128k 上下文裏可能被淹沒 — 上下文腐爛

每一次失真,意圖的保真度都在衰減

意圖工程的目標,就是讓這條鏈路上的總失真率,逼近零

這是一個工程問題:

  • 左端的失真怎麼降?靠更懂你的交互方式(多模態、所見即所得、自然對話、示範)。
  • 右端的失真怎麼降?靠更結構化的指令設計(中間表示、領域專用語言 DSL、規劃、Reflection 反思)。
  • 中間的失真怎麼降?靠雙向反饋迴路(你看到結果後能精煉意圖,機器能反問澄清)。

最高保真度的交互是什麼樣的?

界面消失

你不再"使用"產品,你就在產品裏

像寫作時用筆,像畫家用筆刷,像 DJ 用唱機。

意圖在指尖流出去,動作在指尖落下來,中間沒有翻譯損失。

這就是"最好的界面,是意圖對齊"

認知科學家 Clark 和 Chalmers 1998 年提過"延伸心智":人腦、筆記本、筆共同構成一個認知系統。

AI Agent 正在讓"筆記本"變成"第二大腦",延伸出去的心智,保真度反而成了新問題:還算不算"你的"?


意圖從人到機器的信號失真:碳基直覺如何衰減

意圖從人到機器的信號失真:碳基直覺如何衰減



五、案例:意圖保真度

下面四個案例是定性比較,不是量化 benchmark —— 業界目前沒有衡量標尺。

🟢 高保真:Cursor

你不需要告訴它"用 Python 寫一個 FastAPI 接口,調用 OpenAI,要流式輸出"。

你只需要說"加個 chat 接口",它看懂了整個項目的結構、依賴、命名習慣、測試約定。


意圖工程視角:在 harness 治理之上,Cursor 在人機接口處已經做到了"你不需要告訴它怎麼實現,只需要告訴它你想要什麼" —— 這就是意圖高保真的體現。

Karpathy 2025 年終總結裏把 Cursor 稱為"new layer of LLM apps",核心是上下文工程 + 多調用編排 + 自主度滑塊(autonomy slider)+ 用戶反饋式人機協同(human-in-the-loop GUI)


🟡 中保真:v0 / Bolt.new

你描述一個產品想法,它生成 UI 草圖。但你必須自己微調:顏色不對、佈局不對、文案不對。

它猜到了你的,沒猜到你的

意圖工程視角:人機接口處的反問/澄清機制弱:意圖層的反饋迴路不閉環。


🟠 低保真:Humane AI Pin / Rabbit R1

意圖輸入沒有問題(語音、攝像頭),但意圖翻譯爛掉了。用戶說"幫我點杯咖啡",它要麼不會,要麼點了錯誤的咖啡、錯誤的地址、錯誤的支付方式。

意圖工程視角:這是人機接口的意圖翻譯層失敗,這和駕馭工程無關(它不是 harness 治理問題),純粹是"聽不懂人話"。再酷的硬件也救不回來。

ps:Pin 的工業設計得過 IF 設計獎,但工業設計救不回意圖工程的失敗


🔴 零保真:通用 Chatbot

典型代表豆包

你問"我想做個產品",它回答"哇好棒!你可以先做用戶研究!"

它沒有幫你做意圖工程,它在幫你迴避意圖。

模型能力只是入場券,意圖對齊才是壁壘。


駕馭工程是可量化的(來自 Life-Harness 論文,2026):126 套模型-環境組合中 116 套因 harness 優化而提升,平均 +88.5%(18 個 backbone)。

意圖工程暫時還沒有測量方法和相關研究。

最近,還有個趨勢 Agentic UI(智能體界面):

一次性界面(Disposable UI)

生成式界面(Generative UI)(如Google搜索的生成式界面

是意圖工程的早期形態在產品上的表現。

從"界面長什麼樣",到"界面背後的意圖怎麼對齊"。


六、意圖工程的四象限

如果把意圖工程當成一門學科,它至少有四個維度:

               高結構化
                 │
      ② 工具編排    │   ③ 協議設計
     (Function    │   (MCP / A2A /
     Calling)    │    Intent DSL)
                  │
  低自由度 ─────────┼────────── 高自由度
                  │
       ① 交互形態   │   ④ 反饋迴路
     (多模態/     │   (Reflection /
      示範)       │    主動澄清)
                 │
               低結構化
  • ① 交互形態
    :鼠標鍵盤、語音手勢、所見即所得、示範學習。
  • ② 工具編排
    :函數調用(Function Calling)、工具使用(Tool Use)、智能體循環(Agent Loop)。
  • ③ 協議設計
    MCP(Anthropic 2024-11)+ A2A(Google 2025-04)。目前業界沒有"Intent Protocol"或"Intent DSL" —— 我認為非常值得探索。
  • ④ 反饋迴路
    :讓模型反問、讓人類精煉、讓循環收斂。

一個真正優秀的意圖工程產品,必須把這四象限同時做對。

缺一個,都不“完美”

與駕馭工程的邊界:四象限中的"② 工具編排"和"③ 協議設計"和駕馭工程有關;"① 交互形態"和"④ 反饋迴路"主要在意圖工程範疇。

重疊區是"用 harness 治理 agent 行為 + 用交互層收集意圖反饋"的協同。


七、啓發

給工程師

不要再沉迷於我會寫 prompt
Prompt 是 5 年前的特長,今天是基本功
你真正的槓桿是設計意圖-動作的映射

  • 一個動作能不能拆?
  • 一個意圖能不能並行?
  • 一個失敗能不能被優雅地反悔?
  • 一個成功能不能被記住、被遷移?

會寫 prompt 的工程師有 2000 萬(不止)。

設計意圖-動作映射的工程師,價值 100 倍

給創始人

你在做 AI 應用?好。
問問自己:

  • 你的核心交互層-意圖工程層是什麼?它是發明還是模仿?
  • 你的意圖保真度比對手高 5% 嗎?高在哪?
  • 你的反饋迴路能讓用戶更懂自己嗎?還是隻是更懂你?

如果答案都是"我們用 GPT-5.5 加 RAG 加 Agentic Loop" ——

那你做的是商品。
商品沒有壁壘。

商品會輸給下一個用新模型重做一遍的團隊。

給投資人

未來的 AI 應用公司估值,應該看兩個並列指標:

  • 駕馭工程密度
    (Harness Density):單位用戶行為裏,有多少比例是產品主動用 harness 幫你"管住 Agent"了。Life-Harness 論文顯示 126 套組合中 116 套因 harness 優化提升,平均 +88.5%
  • 意圖工程密度
    (Intent Density):單位用戶行為裏,有多少比例是產品主動幫你"對齊人機意圖"了。

低密度的,就是套殼。

兩個都高 = 下一個 Notion、下一個 Figma、下一個 Excel。


也許意圖工程只是新瓶裝舊酒?

如果你拆開看:

  •  多模態交互早就在做這件事
  • 反思機制(Reflection)/主動澄清(active clarification)已經寫在 Anthropic 的系統設計裏
  • Cursor 的"聽懂"也不是 2026 才冒出來的能力

那"意圖工程"到底新在哪?

新在系統性整合優秀思想和經驗成果。把零散在多模態界面、交互設計、對話式設計裏的實踐,集中到"人機接口處意圖對齊"這一層,作為單獨學科來對待。

學科工程化產品之間,還有相當距離。

今天能宣稱"Intent Engineering 已經工程化"的團隊,幾乎沒有。

我們更應該把意圖工程當成一個正在浮現的研究方向,而不是一個已經成型的解決方案。

  • 作為視角
    :意圖工程非常有用,讓產品經理重新審視"我到底在做什麼層"
  • 作為命名
    :可以接受,但不必神化
  • 作為產品宣稱
    :還早。別信任何"我們實現了意圖工程"的市場話術,除非他們有具體的人機接口保真度測試

八、終局:界面消失,意圖顯形

30 年前,PC 軟件是命令式的。
20 年前,圖形用戶界面(GUI)讓"點"代替了"打"。
10 年前,手機讓"滑"代替了"點"。
今天,AI 讓"說"代替了"滑"。

每一次媒介進化,意圖的輸入帶寬都在增加,操作的認知負擔都在降低
人離"我想要"越來越近,離"怎麼做"越來越遠。

下一個十年,意圖工程 + 駕馭工程的極致是什麼?

駕馭工程解決"機":讓 Agent 永遠在你電腦上跑着。

意圖工程解決"人機接口":

你不再需要告訴它你想要什麼。它已經知道。它知道你今早沒睡好,知道你今天 deadline 在三點,知道你去年被這個方案坑過,知道你老闆喜歡看圖表不喜歡看錶格。

它在你開口之前,已經把答案准備好了。

不是讀心。
長期、低損耗的意圖建模,讓機器的理解逼近你的表達

那時候,界面就消失了
你不會說"我用 XX 產品",你會說"我做了 XX 事"。
意圖直達動作,中間沒有"使用"這一環。

這是人機協作的終極形態:
不是機器更聰明,是機器更懂你。


總結

══════════════════════════════════════
  完整人機協作系統(4 層架構)
═══════════════════════════════════════

[人的意圖] ──意圖工程──▶ [駕馭+上下文] ──▶ [模型+工具]
 模糊 · 完整          管道 · 腳手架     精確 · 商品
       ▲                 │
       │                  │
       └──── 反饋迴路 ──────┘

══════════════════════════════════════
  業界 3 段共識 + 新第 4 段
═════════════════════════════════════

  Prompt   (2022-2023, 業界共識) — 調詞
  Context  (2025-06, Karpathy) — 布信息
  Harness  (2026-02, Hashimoto+OpenAI) — 調環境
  Intent   (2026+, MixLab) — 翻譯人機接口

模型是地基,工具是磚頭,協議是水泥。
駕馭工程是腳手架。
意圖工程則是設計圖紙。
而意圖對齊 —— 才是建築的靈魂。

當所有人都跑去挖地基、搬磚頭的時候,
真正的建築師在畫圖紙。

而圖紙畫得好不好 ——
不取決於你會用什麼軟件,
不取決於你蓋過多少樓,
只取決於你能不能聽懂甲方的"我想要一個家"。

意圖工程,就是聽懂"我想要"這門學科

最好的界面,是意圖對齊。

交流可加v:litnmnm


圖片

參考

[1] Mitchell Hashimoto, My AI Adoption Journey— mitchellh.com
[2] OpenAI,Harness Engineering: Leveraging Codex in an Agent-First World— OpenAI Blog
[3] Andrej Karpathy,2025 LLM Year in Review— karpathy.bearblog.dev
[4] Anthropic,Model Context Protocol— modelcontextprotocol.io
[5] Google,Agent2Agent Protocol— Google Cloud Next 25
[6]The Life-Harness Paper— via @rohit4verse Twitter
[7] Karpathy 2025-06-25 推文 — Twitter
[8] mixlab 知識卡,人機協作界面重定義— mixlab無界社區/knowledge
[9] mixlab 知識卡,Agentic UI:可丟棄界面 / 生成式 UI / 持久化基底 — mixlab無界社區/knowledge

交流社羣