YouTube 高贊視頻分享:到底什麼是Harness Engineering?一次講清楚

作者:子昕AI編程
日期:2026年4月15日 上午4:45
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

Harness Engineering:AI 工程重心從模型轉向系統穩定

整理版摘要

呢篇文章係子昕基於一條YouTube高讚視頻嘅再理解,講嘅係最近爆紅嘅 Harness Engineering 概念。作者指出,好多開發者用同一個模型,Agent 成功率卻差好遠,問題唔喺模型本身,而係模型之外嘅系統結構。

文章回顧咗 AI 工程嘅三次重心轉移:先係 Prompt Engineering,靠語言設計侷限概率空間;然後係 Context Engineering,要喺啱嘅時機俾啱嘅資訊,連埋檢索、對話歷史、系統規則等;最新就係 Harness Engineering,即係用調度、約束、糾偏機制嚟「駕馭」模型,確保穩定可控。

核心結論係Demo 成功靠模型,產品成功靠 Harness。當你嘅系統開始跑流程、出現成功率唔穩定、難 Debug 或者改一處全局崩,就要諗 Harness 層嘅結構補強。一線公司好似 Anthropic 同 OpenAI 都已經咁樣做,將唔確定嘅模型行為包裝喺確定嘅系統結構入面。

  • AI 工程重心由 Prompt 轉向 Context,再轉向 Harness,模型以外嘅系統結構先係成敗關鍵。
  • Harness 本質係「調度 + 約束 + 糾偏」,目標係令 Agent 穩定、可控、可複用。
  • Context Engineering 嘅難點係「俾得啱」而唔係「俾得多」,需要動態注入、分層提供。
  • 工業級 Harness 可以拆成六層:從調度到糾偏,每層負責唔同嘅穩定性需求。
  • 判斷標準:成功率唔穩定、偶爾抽風、難 Debug、改一處全局崩,就應該補 Harness
整理重點

三次中心遷移:由 Prompt 到 Harness

過去兩年,AI 工程經歷咗三次明顯嘅重心轉移,表面係新名詞,實質對應唔同階段嘅系統問題。呢三次轉移係:Prompt EngineeringContext EngineeringHarness Engineering

第一階段係 Prompt Engineering,重點係「把話說明白」。大模型係對上下文高度敏感嘅概率生成系統,你俾乜身份佢就跟嗰個身份答。Prompt 嘅本質係 塑造局部概率空間,核心能力係語言設計而唔係系統設計。

第二階段係 Context Engineering,當 Agent 開始執行真實任務,模型未必知道所有事實,系統必須喺正確時機送入正確資訊。Context 包括用戶輸入、歷史對話、檢索結果、工具返回、任務狀態同系統規則——Prompt 只係 Context 嘅子集。難點係「俾得啱」而唔係「俾得多」:文檔點切塊、結果點排序、長文點壓縮、歷史對話點保留或摘要,呢啲都係 Context Engineering 嘅範疇。

  1. 1 Prompt Engineering:語言設計,限制定義域。
  2. 2 Context Engineering:資訊注入,動態提供。
  3. 3 Harness Engineering:系統結構,確保穩定可控。

第三階段 Harness Engineering 解決更難問題:模型連續執行時,誰嚟監督、約束、糾偏?Harness 原意係繮繩,強調模型唔係放養,而係需要駕馭。關鍵理解公式:Agent = Model + Harness,Harness = Agent − Model。

整理重點

一個更直觀嘅比喻:新員工見客

作者用派新員工見客嚟比喻三層:Prompt 係叫佢表現專業,Context 係俾客戶資料,Harness 係安排流程、設檢查點、出錯兜底</highlight>。真正決定結果嘅,往往係公司有冇機制保證佢唔會搞砸。

整理重點

成熟 Harness 嘅六個層次

一個工業級 Harness 系統可以拆成六層,但更工程化嘅理解係:Harness = 調度 + 約束 + 糾偏。佢解決嘅唔係「聰唔聰明」,而係穩定、可控、可複用。

  1. 1 任務調度:決定邊個 Agent 做咩、點樣排隊。
  2. 2 狀態管理:追蹤執行進度同中間產物。
  3. 3 資訊路由:確保正確 Context 送達正確 Agent。
  4. 4 約束規則:限制模型行為範圍(例如輸出格式、動作白名單)。
  5. 5 錯誤處理:偵測異常並執行補救策略(如重試、降級、人類介入)。
  6. 6 監控記錄:完整 Logging 同可觀測性,方便 Debug 同改進。
整理重點

一線公司嘅真實實踐

Harness 最近突然火,因為 Anthropic 嘅 Agent 設計 同 OpenAI 嘅工具調用體系 都係做同一件事:將唔確定嘅模型行為包裹喺確定嘅系統結構入面。關鍵工程原則係:當 Agent 出問題時,解決方案幾乎從來唔係「令模型更努力」,而係喺 Harness 層補結構。

整理重點

幾時必須考慮 Harness?

三種範式對應三個階段:簡單單輪生成 用 Prompt;依賴外部知識、多步推理 要 Context;長鏈路、低容錯真實執行 就 Harness 不可避免。一旦系統開始跑流程,Harness 就係必選項。

最後總結:決定 Demo 嘅係模型,決定產品嘅係 Harness

大家好,我係子昕。

同樣嘅模型,人哋嘅 Agent 跑到 95% 成功率,自己嗰個就成日喺 70% 上下浮動——問題出喺邊度?

最近睇到 YouTube 一個講解《最近爆紅嘅 Harness Engineering 到底係乜嘢?》嘅影片。

睇完之後,我更加肯定一件事:

AI 工程嘅瓶頸,已經唔係喺模型本身,而係喺模型之外。

呢篇文章,係我喺原片基礎上嘅一次「再理解」。

如果你最近喺度做 Agent,或者關注 AI 應用落地,呢件事,可能會直接影響你接下來半年嘅方向。

一、三次重心遷移:由 Prompt 到 Harness

過去兩年,AI 工程經歷咗三次明顯嘅重心轉移。

表面上係換咗幾個新名詞,實質上對應咗 AI 系統發展嘅三個階段性問題:

圖片

階段一:Prompt Engineering——將說話講清楚

大模型本質上係一個對上下文高度敏感嘅概率生成系統。

你俾佢咩身份,佢就沿住嗰個身份回答;你俾佢咩範例,佢就沿住嗰個範式補全。

所以 Prompt Engineering 嘅本質,唔係「馴服」模型,而係:

塑造一個局部嘅概率空間。

呢個階段嘅核心能力係語言嘅設計,唔係系統嘅設計。

階段二:Context Engineering——將資訊俾啱

當 Agent 開始流行,模型唔再係淨係回答問題,而係進入真實環境執行任務。

呢個時候,一個關鍵變化出現咗:

模型未必知道所有事實,系統必須喺正確時機將正確資訊送過去。

工程意義上嘅 Context,其實係:

  • 用戶輸入
  • 歷史對話
  • 檢索結果(RAG)
  • 工具返回
  • 當前任務狀態
  • 中間產物
  • 系統規則

👉 Prompt 只係 Context 嘅一個子集。

成熟嘅上下文工程關注嘅遠遠唔止檢索本身,仲包括:文件點樣切塊、結果點樣排序、長文點樣壓縮、歷史對話幾時保留幾時摘要、多個 Agent 之間傳原文定係結構化字段……

真正嘅難點在於:

唔係「俾得多啲」,而係「俾得啱啱好(按需俾、分層俾、喺正確時機俾)」。

呢個都係近年來「Agent Skills」(漸進式披露)概念爆紅嘅底層邏輯:先只俾最少嘅索引資訊,當 Agent 真正觸發某項能力時,再將詳細嘅 SOP 同參考資料動態注入。

呢個都係點解:

  • 長上下文唔一定更好
  • RAG(Context Engineering 嘅典型實踐之一)成日都「越做越亂」

階段三:Harness Engineering——令系統運行穩定

前兩步解決嘅係:

  • Prompt:表達意圖
  • Context:提供資訊

但複雜任務入面仲有一個更難嘅問題:

模型一旦開始連續執行,邊個嚟監督佢、約束佢、糾正佢?

Harness 呢個詞,原本意思係「韁繩、馬具、約束裝置」。

放到 AI 入面,佢其實喺度強調一件好樸素嘅事:

模型唔係用嚟「放養」嘅,而係需要被「駕馭」嘅。

一個非常關鍵嘅理解係:

Agent = Model + Harness
Harness = Agent − Model

👉 換句話講:

除咗模型本身之外,所有決定佢係咪穩定嘅嘢,都屬於 Harness。

圖片

二、一個更直觀嘅比喻

可以將呢三層理解做:

👉 派一個新員工去見客

圖片
  • Prompt:你同佢講「表現專業啲」
  • Context:你俾佢客戶資料、背景資訊
  • Harness:你安排流程、設檢查點、出錯有得兜底

👉 真正決定結果嘅,往往唔係佢講咩,而係:

公司有冇一套機制,保證佢唔會搞砸。

三、成熟 Harness 嘅六個層次

一個工業級嘅 Harness 系統,通常可以拆解成六層:

圖片

但呢度我俾你一個更「工程化」嘅理解方式:

Harness 本質上 = 調度 + 約束 + 糾正

佢解決嘅,唔係「聰唔聰明」,而係:

  • 穩唔穩定
  • 可唔可控
  • 能唔能夠複用

四、一線公司嘅真實實踐

Harness 之所以最近突然爆紅,唔係因為概念,而係因為:

👉 一線公司已經係咁樣做緊。

比如:

  • Anthropic 嘅 Agent 設計
  • OpenAI 嘅工具調用體系

本質都係做緊一件事:

將「唔確定嘅模型行為」,包裹喺「確定嘅系統結構」入面。

圖片

呢度有一個非常關鍵嘅工程原則:

當 Agent 出問題時,解決方案幾乎從來都唔係「令模型更努力」,
而是:而係喺 Harness 層補結構。

五、總結:幾時你一定要考慮 Harness?

呢三種範式,其實對應三個階段:

  • 任務係簡單嘅單輪生成 → Prompt 係關鍵
  • 任務開始依賴外部知識、需要多步推理 → Context 變得關鍵
  • 模型進入長鏈路、低容錯嘅真實執行場景 → Harness 幾乎不可避免

👉 即係話:

只要你嘅系統開始「行流程」,Harness 就已經不可避免㗎喇。

最後俾你一個判斷標準:

如果你而家嘅系統出現:

  • 成功率唔穩定
  • 間中「抽風」
  • 好難 debug
  • 改一個地方,全局冧

👉 咁基本可以肯定:

問題唔係喺模型,而係喺 Harness。

寫喺最後

AI 落地嘅核心挑戰,正在發生一個變化:

由「令模型更聰明」→ 到「令模型穩定工作」

呢個都係點解:

同樣嘅模型,唔同產品表現差距好大。

最後一句話總結:

決定你能唔能夠做出 Demo 嘅,係模型;
決定你能唔能夠做成產品嘅,係 Harness。




畀個關注啦,我會繼續用我呢啲半桶水水平為大家帶嚟更多 AI 編程工具嘅第一手體驗~


點讚、轉發、睇緊
同大家一齊睇


大家好,我是子昕。

同樣的模型,別人的 Agent 能跑到 95% 成功率,自己的總在 70% 上下搖擺——問題出在哪裏?

最近看到 Youtube 一個講解《最近爆火的 Harness Engineering 到底是個啥?》視頻。

看完之後,我更加確定了一件事:

AI 工程的瓶頸,已經不在模型本身,而在模型之外。

這篇文章,是我在原視頻基礎上的一次“再理解”。

如果你最近在做 Agent,或者關注 AI 應用落地,這件事,可能會直接影響你接下來半年的方向。

一、三次中心遷移:從 Prompt 到 Harness

過去兩年,AI 工程經歷了三次明顯的重心轉移。

表面上是換了幾個新名詞,實質上對應了 AI 系統發展的三個階段性問題:

圖片

階段一:Prompt Engineering——把話說明白

大模型本質上是一個對上下文高度敏感的概率生成系統。

你給它什麼身份,它就沿着那個身份回答;你給它什麼樣例,它就沿着那個範式補全。

所以 Prompt Engineering 的本質,不是“馴服”模型,而是:

塑造一個局部的概率空間。

這個階段的核心能力是語言的設計,不是系統的設計。

階段二:Context Engineering——把信息給對

當 Agent 開始流行,模型不再只是回答問題,而是進入真實環境執行任務。

這時候,一個關鍵變化出現了:

模型未必知道所有事實,系統必須在正確時機把正確信息送進去。

工程意義上的 Context,其實是:

  • 用戶輸入
  • 歷史對話
  • 檢索結果(RAG)
  • 工具返回
  • 當前任務狀態
  • 中間產物
  • 系統規則

👉 Prompt 只是 Context 的一個子集。

成熟的上下文工程關注的遠不止檢索本身,還包括:文檔怎麼切塊、結果怎麼排序、長文怎麼壓縮、歷史對話何時保留何時摘要、多個 Agent 之間傳原文還是結構化字段……

真正的難點在於:

不是“給得更多”,而是“給得剛剛好(按需給、分層給、在正確時機給)”。

這也是近年來“Agent Skills”(漸進式披露)概念走紅的底層邏輯:先只給最少量的索引信息,當 Agent 真正觸發某項能力時,再把詳細的 SOP 和參考資料動態注入。

這也是為什麼:

  • 長上下文不一定更好
  • RAG(Context Engineering 的典型實踐之一) 也經常“越做越亂”

階段三:Harness Engineering——讓系統跑穩

前兩步解決的是:

  • Prompt:表達意圖
  • Context:提供信息

但複雜任務裏還有一個更難的問題:

模型一旦開始連續執行,誰來監督它、約束它、糾偏它?

Harness 這個詞,原意是“繮繩、馬具、約束裝置”。

放到 AI 裏,它其實在強調一件很樸素的事情:

模型不是用來“放養”的,而是需要被“駕馭”的。

一個非常關鍵的理解是:

Agent = Model + Harness
Harness = Agent − Model\

👉 換句話說:

除了模型本身以外,所有決定它是否穩定的東西,都屬於 Harness。

圖片

二、一個更直觀的比喻

可以把這三層理解成:

👉 派一個新員工去見客戶

圖片
  • Prompt:你跟他說“表現專業一點”
  • Context:你給他客戶資料、背景信息
  • Harness:你安排流程、設檢查點、出錯能兜底

👉 真正決定結果的,往往不是他說什麼,而是:

公司有沒有一套機制,保證他不會搞砸。

三、成熟 Harness 的六個層次

一個工業級的 Harness 系統,通常可以拆解成六層:

圖片

但這裏我給你一個更“工程化”的理解方式:

Harness 本質上 = 調度 + 約束 + 糾偏

它解決的,不是“聰不聰明”,而是:

  • 穩不穩定
  • 可不可控
  • 能不能複用

四、一線公司的真實實踐

Harness 之所以最近突然火,不是因為概念,而是因為:

👉 一線公司已經在這麼幹了。

比如:

  • Anthropic 的 Agent 設計
  • OpenAI 的工具調用體系

本質都在做一件事:

把“不確定的模型行為”,包裹在“確定的系統結構”裏。

圖片

這裏有一個非常關鍵的工程原則:

當 Agent 出問題時,解決方案几乎從來不是“讓模型更努力”,
而是:在 Harness 層補結構。

五、總結:什麼時候你必須考慮 Harness?

這三種範式,其實對應三個階段:

  • 任務是簡單的單輪生成 → Prompt 是關鍵
  • 任務開始依賴外部知識、需要多步推理 → Context 變得關鍵
  • 模型進入長鏈路、低容錯的真實執行場景 → Harness 幾乎不可避免

👉 也就是說:

只要你的系統開始“跑流程”,Harness 就已經不可避免了。

最後給你一個判斷標準:

如果你現在的系統出現:

  • 成功率不穩定
  • 偶爾“抽風”
  • 很難 debug
  • 改一個地方,全局崩

👉 那基本可以確定:

問題不在模型,而在 Harness。

寫在最後

AI 落地的核心挑戰,正在發生一個變化:

從“讓模型更聰明”→ 到“讓模型穩定工作”

這也是為什麼:

同樣的模型,不同產品表現差距巨大。

最後一句話總結:

決定你能不能做出 Demo 的,是模型;
決定你能不能做成產品的,是 Harness。




點個關注唄,我會繼續用我這半吊子水平為大家帶來更多AI編程工具的第一手體驗~


點贊、轉發、在看
和大家一起看