怎麼給組織做AI Agent?真正的組織級 AI Agent關鍵在於harness engineering,要足夠透明。

作者:彭俊旗的AI工具箱
日期:2026年5月18日 上午8:31
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

組織級 AI Agent 嘅關鍵唔係模型有幾強,而係外面套「駕馭系統」夠唔夠成熟

整理版摘要

呢篇文章係作者彭俊旗(Resona)嘅深度反思,佢不斷調研AI Agent產品同技術架構之後,發現組織級AI Agent嘅核心問題唔係模型本身有幾聰明,而係點樣將模型放入一個可控、可追蹤、可授權、可審計嘅組織系統裏面。作者認為,個人用AI同組織用AI有好大分別:個人AI係能力外掛,而組織AI係基礎設施,要考慮角色、權限、流程、數據邊界、審批制度同責任歸屬。整體結論係:Harness Engineering(駕馭系統)先至係組織級AI Agent嘅成敗關鍵,佢負責身份、權限、上下文、工具治理、任務、審批、記憶同審計,令AI由黑盒變成白盒,由聰明變成可信。

作者指出,好多早期AI系統只係將安全規則寫喺Prompt入面,但呢啲做法唔可靠,因為Prompt本質係行為建議,唔係組織制度邊界。真正嘅權限控制必須發生喺模型外部,由系統強制執行。文章仲強調工具治理嘅重要性,因為工具係風險入口,冇治理嘅AI Agent只係玩具。最後,作者提出未來競爭點係組織點樣用好AI,而唔係邊個模型更勁,組織要由「聰明」走向「可信」。

  • 組織級AI Agent嘅關鍵係Harness Engineering,即係模型外面嘅駕馭系統,確保可控、可審計、可授權。
  • 個人AI係能力外掛,追求回答得好唔好;組織AI係基礎設施,追求權限、流程同責任歸屬。
  • 權限控制必須喺系統層面強制執行,唔可以淨係靠Prompt提示模型「唔好洩露」。
  • 工具係最大風險入口,需要統一工具治理,包括註冊、權限、風險分級同審批。
  • 組織級記憶唔係越多越好,要有治理機制:沉澱、審核、驗證、範圍控制,避免污染。
值得記低
流程

組織級 Agent OS 七層架構

第一層身份權限、第二層上下文控制、第三層工具治理、第四層任務狀態、第五層產物管理、第六層記憶經驗、第七層審計覆盤。

整理重點

組織級 AI Agent 唔係聊天機器人咁簡單

個人用AI,你問佢問題,佢回答,唔啱就重來,風險好細。但組織裏面嘅AI Agent要查客戶資料、分析經營情況、生成方案、調用工具、發送消息、觸發審批,已經變咗「業務執行者」。呢個係普通AI助手同組織級AI Agent最大嘅分別:前者追求答得靚,後者追求喺正確權限下用正確數據同工具完成正確任務,仲要留低完整過程記錄。

一個錯誤嘅工具調用,可能會導致數據泄露、流程混亂、客戶誤觸達、財務錯誤,甚至組織信任崩塌

整理重點

組織最怕嘅唔係AI唔夠強,而係AI唔可控

企業唔大規模用AI Agent,唔係因為模型唔夠勁,而係組織唔敢俾一個睇唔清過程、分唔清權限、追唔返責任嘅AI去執行真實業務。組織會關心:呢個Agent係邊個觸發?代表邊個執行?睇到啲咩數據?點解用咗呢啲資料?調用咗咩工具?有冇審批?錯咗可唔可以回放?越權可唔可以追責?呢啲問題答唔清,AI Agent就好難進入核心流程。所以第一性問題唔係「模型識唔識推理」,而係「呢個AI嘅工作過程,組織睇唔睇到、控制到、審計到同改進到」。

整理重點

Prompt 解決唔到組織權限問題,要由系統強制執行

好多系統將規則寫入Prompt,例如「唔好泄露敏感數據」、「你只能答用戶有權限睇嘅內容」。但Prompt只係行為建議,唔係制度邊界。如果一個員工冇權限睇某個項目,系統就唔應該將嗰個項目嘅數據放進上下文;如果Agent冇權限調用工具,系統就唔應該俾模型見到呢個工具;如果動作需要審批,系統就唔應該直接執行。真正可靠嘅權限控制,必須發生喺模型外部。

模型可以提出意圖,系統負責判斷做唔做得,工具負責喺授權範圍內執行,審計負責記錄全過程

整理重點

Harness Engineering 係將模型能力裝入可控嘅組織工作環境

Harness Engineering 包括身份系統、權限系統、上下文系統、工具註冊中心、任務系統、審批系統、記憶系統同審計系統。佢唔係限制AI,而係令AI可以真正進入組織。冇Harness,AI只係喺邊緣俾建議;有咗Harness,AI先可以進入真實業務流程。

  • 身份系統:知道邊個用AI
  • 權限系統:知道呢個人同Agent睇得啲咩、做得啲咩
  • 上下文系統:模型只拎到當前任務需要而且被授權嘅數據
  • 工具註冊中心:所有工具統一登記、權限校驗、風險分級、審計
  • 任務系統:AI工作係有狀態、有進度、有失敗處理嘅執行過程
  • 審批系統:高風險動作要經人確認
  • 記憶系統:經驗沉澱,但唔可以污染上下文、唔可以越權召回
  • 審計系統:每次讀取、調用、生成、導出、扣費都要追蹤

Harness Engineering 把大模型嘅能力,裝入一個可控嘅組織工作環境裏面

整理重點

工具唔係能力,而係風險入口;記憶唔係越多越好,而係要治理

AI Agent 強大之處係可以調用工具,但呢個都係最大風險入口。讀數據庫、發郵件、導出名單、修改商品、調財務接口、訪問網頁、操作文件,全部係工具。組織必須有統一工具治理:判斷工具係咪註冊、Agent有冇權限、動作係咪高風險、參數會唔會越權、需唔需要審批、會唔會產生費用。工具越強,治理越重要。

至於記憶,組織級記憶唔係將所有歷史塞俾模型,而係要有一套控制機制:成功項目沉澱成方法、失敗調用沉澱成反模式、人工修正沉澱成經驗、審核意見沉澱成規則。但呢啲都要先做候選,再審核、驗證、控制範圍,先可以入上下文,否則記憶會變成污染源。

組織級AI Agent真正需要嘅,係可治理的記憶,而唔係「記住更多

圖片

「組織級 AI Agent 嘅關鍵,已經唔止係大模型本身有幾勁,而係模型外面嗰一整套駕馭系統係咪足夠成熟。」

最近我不斷諗緊一個問題:一個會推理、會調用工具、仲可以持續執行嘅 AI Agent,點樣先至可以喺真實組織裏面安全咁工作?

呢個問題表面係問 AI Agent 點樣做,實際上係問一個更深嘅問題:當 AI 唔再淨係答問題,而係開始進入組織流程、調用工具、讀取資料、生成結果、影響決策嘅時候,組織應該點樣管理佢?

以前我哋討論 AI,多數係討論模型能力。模型明唔明?生唔生成到?推唔推理到?寫唔寫到 code?用唔用到工具?

但係當我不斷調研各種 AI Agent 產品、開源項目同技術架構之後,我越嚟越清楚意識到:組織級 AI Agent 嘅關鍵,已經唔止係大模型本身有幾勁,而係模型外面嗰一整套「駕馭系統」係咪足夠成熟。

亦即係所謂嘅 Harness Engineering。佢真正關心嘅唔係「點樣寫一個更神嘅 Prompt」,而係:點樣令一個唔確定嘅大模型,放入一個可管理、可追蹤、可授權、可審計、可覆盤嘅組織系統裏面。

一、AI Agent 一旦進入組織,就唔再只係聊天機械人

個人用 AI 嘅時候,風險相對簡單。你問佢問題,佢答。你叫佢寫文案,佢生成。你叫佢總結資料,佢整理。結果唔滿意,你再嚟一次。

但組織裏面嘅 AI Agent 唔同。佢面對嘅唔係一個人嘅問題,而係組織裏面嘅真實業務:

 查客戶資料,睇訂單數據

 分析經營情況,讀取內部文檔

 生成商品方案,創建任務

 調用外部工具,導出文件

 發送消息,修改系統狀態

 觸發審批流程

呢個時候,AI Agent 已經由「助手」變咗做「業務執行者」。呢個亦都係組織級 AI Agent 同普通 AI 助手最大嘅分別。

普通 AI 助手追求嘅係答得好唔好。
組織級 AI Agent 追求嘅係:佢係咪可以喺正確嘅權限下,使用正確嘅數據,調用正確嘅工具,完成正確嘅任務,仲要留低完整嘅過程記錄。

呢件事比「模型聰唔聰明」更加重要。因為喺組織裏面,一個錯誤嘅回答可能只係返工;但一個錯誤嘅工具調用,可能會導致數據洩漏、流程混亂、客戶錯誤接觸、財務錯誤,甚至組織信任崩塌。

二、組織真正擔心嘅,唔係 AI 唔夠勁,而係 AI 唔可控

好多人以為企業唔大規模用 AI Agent,係因為模型仲未夠勁。但我而家嘅判斷係:呢個只係一部分原因。更核心嘅問題係:組織唔敢俾一個睇唔清過程、分唔清權限、追唔返責任嘅 AI 去執行真實業務。

一個組織會自然關心呢啲問題:
呢個 Agent 係邊個觸發嘅?佢代表邊個執行?
佢睇到邊啲數據?佢點解會用呢啲資料?
佢調用咗啲乜嘢工具?工具調用有冇經過審批?
結果係點樣生成嘅?如果錯咗,可唔可以回放?
如果越權咗,可唔可以追究責任?如果成本太高,邊個負責?

呢啲問題如果答唔清楚,AI Agent 就好難真正進入組織核心流程。所以組織級 AI Agent 嘅第一性問題唔係:「呢個模型會唔會推理?」而係:「呢個 AI 嘅工作過程,組織睇唔睇到、控制唔控制到、審計得到同改進到?」

呢個就係我理解嘅組織級 AI Agent 嘅核心分水嶺。

三、個人 AI Agent 係能力外掛,組織 AI Agent 係基礎設施

個人 AI Agent 更加似一個人嘅能力外掛。佢增強嘅係個人效率。例如你自己用 AI 寫文章、寫 code、整理資料、做方案,只要你自己可以判斷結果係咪用得,呢件事就成立到。

但組織 AI Agent 唔同。組織裏面有角色、權限、部門、流程、數據邊界、審批制度、成本中心、責任歸屬。

 一個營運睇到嘅數據,唔一定可以俾另一個營運睇到

 一個審核人可以睇內容風險,但唔一定可以睇財務流水

 一個財務人員可以睇扣費記錄,但唔一定可以睇業務私密產物

 一個管理者可以睇匯總數據,但唔一定可以睇所有原始明細

 一個外部客戶可以睇交付結果,但唔可以睇內部生產過程

所以組織 AI Agent 要解決嘅唔係「讓每個人都有個聊天助手」。佢要解決嘅係:點樣令唔同崗位、唔同職責、唔同權限嘅人,喺同一個 AI 系統裏面安全咁協同。

呢個就要求 AI Agent 唔係孤立存在。佢必須被放入組織結構裏面。佢要有身份、崗位、權限、預算、工具邊界、數據邊界、審批規則、審計記錄。換句話說:個人 AI Agent 係一個人嘅外掛;組織 AI Agent 係組織能力嘅基礎設施。

四、點解 Prompt 解決唔到組織權限問題

好多早期 AI 系統會將規則寫入 Prompt 裏面。例如:「你唔可以洩漏敏感數據。」「你只可以回答用戶有權限睇到嘅內容。」「你唔可以執行危險操作。」「如果遇到高風險行為,請提醒用戶。」

呢啲規則有用,但遠遠唔夠。因為 Prompt 本質上係對模型嘅行為建議,而唔係組織嘅制度邊界。真實組織系統唔可以將安全建立喺「希望模型聽話」之上。

如果一個員工冇權限睇某個項目,系統就唔應該將呢個項目嘅數據放入模型上下文裏面。
如果一個 Agent 冇權限調用某個工具,系統就唔應該俾模型睇到呢個工具。
如果一個動作需要審批,系統就唔應該俾 Agent 直接執行。
如果一個文檔唔屬於當前用戶可以訪問嘅範圍,系統就唔應該先檢索出嚟,再話俾模型聽「唔好洩漏」。

真正可靠嘅權限控制,必須發生喺模型外部。呢個亦都係 Harness Engineering 嘅關鍵:權限唔係寫俾模型睇嘅,而係由系統強制執行嘅。

模型可以提出意圖
系統負責判斷可唔可以做
工具負責喺授權範圍內執行
審計負責記錄全過程

呢個先係組織級 AI Agent 可以成立嘅基礎。

五、Harness Engineering 到底喺解決啲乜?

我越嚟越覺得,Harness Engineering 可以用一句話理解:將大模型嘅能力,裝入一個可控嘅組織工作環境裏面。

佢包括身份系統,令系統知道邊個在用 AI。
佢包括權限系統,令系統知道呢個人同呢個 Agent 睇到啲乜、做到啲乜。
佢包括上下文系統,令模型只可以攞到當前任務需要、而且被授權嘅數據。
佢包括工具註冊中心,令所有工具都經過統一登記、權限校驗、風險分級同審計。
佢包括任務系統,令 AI 嘅工作唔係一段聊天,而係一個有狀態、有進度、有失敗處理嘅執行過程。
佢包括審批系統,令高風險動作必須經過人確認。
佢包括記憶系統,令經驗可以沉澱,但唔可以污染上下文、唔可以越權召回。
佢包括審計系統,令每一次讀取、調用、生成、導出、扣費都可以被追蹤。

所以,Harness Engineering 唔係限制 AI,而係令 AI 真正進入組織。冇 Harness,AI 只可以喺邊緣俾建議。有咗 Harness,AI 先至可能進入真實業務流程。

六、組織級 AI Agent 要將黑盒過程變成白盒過程

大模型天然係黑盒嘅。佢點解咁樣答?點解調用呢個工具?點解選擇呢啲資料?點解生成呢個結果?如果組織睇唔到呢啲過程,就好難放心使用。

所以組織級 AI Agent 必須將生成過程白盒化。佢至少要答呢啲問題:

 第一,呢次任務係邊個發起嘅?

 第二,Agent 用咗邊啲上下文?

 第三,呢啲上下文係點樣被揀入嚟嘅?

 第四,Agent 見到咗邊啲工具?

 第五,點解佢有權限調用呢啲工具?

 第六,工具調用嘅輸入同輸出係咩?

 第七,邊啲動作被自動執行,邊啲動作進入審批?

 第八,最終產物嚟自邊啲步驟?

 第九,消耗咗幾多模型同工具成本?

 第十,如果結果錯咗,可唔可以回放同修正?

呢個就係組織 AI Agent 同普通聊天機械人嘅根本差異。普通聊天機械人重視「最後回答」。組織 AI Agent 必須重視「全過程」。因為組織管理嘅係流程,唔只係答案。

七、工具唔係能力,而係風險入口

AI Agent 真正強大嘅地方,係佢可以調用工具。但喺組織裏面,工具調用都係最大嘅風險入口。讀取數據庫,係工具。發送電郵,係工具。導出客戶名單,係工具。修改商品信息,係工具。調用財務接口,係工具。訪問外部網頁,係工具。操作本地文件,都係工具。

只要工具可以連接真實系統,佢就唔係一個簡單函數,而係一個生產資源嘅授權點。所以組織級 AI Agent 必須有統一嘅工具治理。

一個工具可唔可以被調用,唔應該由模型決定,而應該由系統判斷:

 呢個工具係咪註冊咗?

 當前 Agent 係咪睇到?

 當前用戶係咪有權限?

 呢個動作係咪高風險?

 參數裏面有冇越權數據?

 係咪需要審批?

 係咪會產生費用?

 執行後係咪需要審計?

 結果可唔可以回填俾模型?

KEY INSIGHT

唔係因為工具越多越好,而係因為:工具越強,治理越重要。冇工具治理,AI Agent 只係玩具。冇安全治理,AI Agent 可能會變成事故入口。

八、組織 AI Agent 嘅記憶,都唔可以只係「記住更多」

好多人講 AI Agent 嘅記憶,會諗到向量數據庫、聊天歷史、長期記憶。但組織裏面嘅記憶唔係越多越好。組織記憶真正要解決嘅係:邊啲經驗值得沉澱?呢啲經驗嚟自邊度?有冇證據?適用於邊個團隊?邊個有權用?係咪過期?係咪被驗證?係咪可能被污染?會唔會令 Agent 做出錯誤判斷?

所以組織級記憶唔係「將所有歷史塞俾模型」。而係要有一套記憶控制機制。

 一次成功嘅項目,可以沉澱成方法

 一次失敗嘅工具調用,可以沉澱成反模式

 一次人工修正,可以沉澱成經驗

 一個審核意見,可以沉澱成規則

 一個長期流程,可以沉澱成操作指南

但呢啲都唔可以自動變成組織級知識。佢哋應該先成為候選,再經過審核、驗證、範圍控制,最後先可以進入下一次 Agent 嘅上下文。否則,記憶就會由資產變成污染源。組織級 AI Agent 真正需要嘅,唔係「記憶更多」,而係:可治理嘅記憶。

九、真正可行嘅方案:令 AI 喺制度化工作台裏面運行

如果要令一個會推理、會調工具、可以持續執行嘅模型喺組織中安全工作,我認為可行嘅方向唔係做一個更大嘅聊天框,而係做一套組織級 Agent OS。

第一層,係身份同權限。系統要知道用戶係邊個、屬於邊個組織、邊個團隊、邊個業務單元,有咩角色同權限。
第二層,係上下文控制。系統要決定邊啲資料可以入模型,邊啲資料必須被過濾、脱敏、隔離。
第三層,係工具治理。所有工具都必須註冊、聲明權限、風險分級、審批規則同審計要求。
第四層,係任務同狀態。Agent 嘅工作要由「聊天記錄」變成「任務流程」,可以暫停、恢復、失敗、重試、審批同回放。
第五層,係產物管理。Agent 生成嘅內容唔可以直接進入正式業務系統,應該先成為產物,再經過檢查、審核、導出。
第六層,係記憶同經驗。成功經驗、失敗模式、人工修正、流程方法要沉澱落嚟,但必須有來源、有範圍、有狀態、有驗證。
第七層,係審計同覆盤。每一次 AgentRun、工具調用、上下文召回、產物生成、成本扣費,都要可以被追蹤。

呢個就係我而家對組織級 AI Agent 嘅理解:佢唔係一個模型產品,而係一個組織運行系統。

十、未來嘅競爭點,唔係模型有幾識講,而係組織有幾識用

模型能力會越嚟越強。推理會更強。工具調用會更強。多模態會更強。長上下文會更強。執行能力都會更強。但越係咁,組織越需要一套成熟嘅駕馭系統。因為能力越強,風險都越大。

未來真正重要嘅,唔係邊間公司接入咗邊個模型,而係邊間公司可以將 AI 放入自己嘅組織流程裏面,而且令佢可控咁創造結果。

 邊個可以將 AI 嘅過程透明化,邊個就更容易獲得組織信任

 邊個可以將權限邊界劃清楚,邊個就更容易令 AI 進入真實業務

 邊個可以將工具調用治理好,邊個就可以令 AI 由建議走向執行

 邊個可以將經驗沉澱成組織記憶,邊個就可以令 AI 越用越識業務

 邊個可以將審計、覆盤、評估做好,邊個就可以令 AI 由個人效率工具變成組織能力系統

所以,組織級 AI Agent 真正要解決嘅問題,唔係「令 AI 更加似人」,而係:令 AI 喺組織裏面好似一個可管理、可授權、可審計、可持續改進嘅數字員工咁樣工作。

以前我哋關注 AI 係咪聰明。而家我哋要開始關注 AI 係咪可信。
       聰明解決嘅係能力問題,可信解決嘅係組織問題。

AI 嘅下一步,係由聰明走向可信。

Resona · 鳴 · 令每一次對話,都有迴響

2026-05-18 · 彭俊旗


圖片

「組織級 AI Agent 的關鍵,已經不只是大模型本身有多強,而是模型外面那一整套駕馭系統是否足夠成熟。」

最近我一直在思考一個問題:一個會推理、會調工具、還能持續執行的 AI Agent,怎麼才能在真實組織裏安全地工作?

這個問題表面上是在問 AI Agent 怎麼做,實際上是在問一個更深的問題:當 AI 不再只是回答問題,而是開始進入組織流程、調用工具、讀取資料、生成結果、影響決策時,組織該如何管理它?

過去我們討論 AI,更多是在討論模型能力。模型能不能理解?能不能生成?能不能推理?能不能寫代碼?能不能調用工具?

但當我不斷調研各種 AI Agent 產品、開源項目和技術架構之後,我越來越明確地意識到:組織級 AI Agent 的關鍵,已經不只是大模型本身有多強,而是模型外面那一整套“駕馭系統”是否足夠成熟。

也就是所謂的 Harness Engineering。它真正關心的不是“怎麼寫一個更神的 Prompt”,而是:怎麼讓一個不確定的大模型,被放進一個可管理、可追蹤、可授權、可審計、可覆盤的組織系統裏。

一、AI Agent 一旦進入組織,就不再只是聊天機器人

個人使用 AI 的時候,風險相對簡單。你問它問題,它回答。你讓它寫文案,它生成。你讓它總結資料,它整理。結果不滿意,你重來一次。

但組織裏的 AI Agent 不一樣。它面對的不是一個人的問題,而是組織裏的真實業務:

 查客戶資料,看訂單數據

 分析經營情況,讀取內部文檔

 生成商品方案,創建任務

 調用外部工具,導出文件

 發送消息,修改系統狀態

 觸發審批流程

這時,AI Agent 已經從“助手”變成了“業務執行者”。這也是組織級 AI Agent 和普通 AI 助手最大的區別。

普通 AI 助手追求的是回答得好不好。
組織級 AI Agent 追求的是:它能不能在正確的權限下,使用正確的數據,調用正確的工具,完成正確的任務,並留下完整的過程記錄。

這件事比“模型聰不聰明”更重要。因為在組織裏,一個錯誤的回答可能只是返工;但一個錯誤的工具調用,可能會導致數據泄露、流程混亂、客戶誤觸達、財務錯誤,甚至組織信任崩塌。

二、組織真正擔心的,不是 AI 不夠強,而是 AI 不可控

很多人以為企業不大規模使用 AI Agent,是因為模型還不夠強。但我現在的判斷是:這只是一部分原因。更核心的問題是:組織不敢讓一個看不清過程、分不清權限、追不回責任的 AI 去執行真實業務。

一個組織會天然關心這些問題:
這個 Agent 是誰觸發的?它代表誰在執行?
它能看到哪些數據?它為什麼使用了這些資料?
它調用了什麼工具?工具調用有沒有經過審批?
結果是怎麼生成的?如果錯了,能不能回放?
如果越權了,能不能追責?如果成本過高,誰來承擔?

這些問題如果回答不清楚,AI Agent 就很難真正進入組織核心流程。所以組織級 AI Agent 的第一性問題不是:“這個模型會不會推理?”而是:“這個 AI 的工作過程,組織能不能看見、控制、審計和改進?”

這就是我理解的組織級 AI Agent 的核心分水嶺。

三、個人 AI Agent 是能力外掛,組織 AI Agent 是基礎設施

個人 AI Agent 更像一個人的能力外掛。它增強的是個人效率。比如你自己用 AI 寫文章、寫代碼、整理資料、做方案,只要你自己能判斷結果是否可用,這件事就能成立。

但組織 AI Agent 不一樣。組織裏有角色、權限、部門、流程、數據邊界、審批制度、成本中心、責任歸屬。

 一個運營看到的數據,不一定能被另一個運營看到

 一個審核人能看內容風險,但不一定能看財務流水

 一個財務人員能看扣費記錄,但不一定能看業務私密產物

 一個管理者能看彙總數據,但不一定能看所有原始明細

 一個外部客戶能看交付結果,但不能看內部生產過程

所以組織 AI Agent 要解決的不是“讓每個人都有一個聊天助手”。它要解決的是:如何讓不同崗位、不同職責、不同權限的人,在同一個 AI 系統裏安全地協同。

這就要求 AI Agent 不是孤立存在的。它必須被放進組織結構裏。它要有身份、崗位、權限、預算、工具邊界、數據邊界、審批規則、審計記錄。換句話說:個人 AI Agent 是一個人的外掛;組織 AI Agent 是組織能力的基礎設施。

四、為什麼 Prompt 解決不了組織權限問題

很多早期 AI 系統會把規則寫進 Prompt 裏。比如:“你不能泄露敏感數據。”“你只能回答用戶有權限看到的內容。”“你不能執行危險操作。”“如果遇到高風險行為,請提醒用戶。”

這些規則有用,但遠遠不夠。因為 Prompt 本質上是對模型的行為建議,而不是組織的制度邊界。真實組織系統不能把安全建立在“希望模型聽話”上。

如果一個員工沒有權限查看某個項目,系統就不應該把這個項目的數據放進模型上下文裏。
如果一個 Agent 沒有權限調用某個工具,系統就不應該讓模型看到這個工具。
如果一個動作需要審批,系統就不應該讓 Agent 直接執行。
如果一個文檔不屬於當前用戶可訪問範圍,系統就不應該先檢索出來,再告訴模型“不要泄露”。

真正可靠的權限控制,必須發生在模型外部。這也是 Harness Engineering 的關鍵:權限不是寫給模型看的,而是由系統強制執行的。

模型可以提出意圖
系統負責判斷能不能做
工具負責在授權範圍內執行
審計負責記錄全過程

這才是組織級 AI Agent 能夠成立的基礎。

五、Harness Engineering 到底在解決什麼?

我越來越覺得,Harness Engineering 可以用一句話理解:把大模型的能力,裝進一個可控的組織工作環境裏。

它包括身份系統,讓系統知道誰在使用 AI。
它包括權限系統,讓系統知道這個人和這個 Agent 能看什麼、能做什麼。
它包括上下文系統,讓模型只能拿到當前任務需要、並且被授權的數據。
它包括工具註冊中心,讓所有工具都經過統一登記、權限校驗、風險分級和審計。
它包括任務系統,讓 AI 的工作不是一段聊天,而是一個有狀態、有進度、有失敗處理的執行過程。
它包括審批系統,讓高風險動作必須經過人確認。
它包括記憶系統,讓經驗可以沉澱,但不能污染上下文、不能越權召回。
它包括審計系統,讓每一次讀取、調用、生成、導出、扣費都能被追蹤。

所以,Harness Engineering 不是限制 AI,而是讓 AI 真正進入組織。沒有 Harness,AI 只能在邊緣做建議。有了 Harness,AI 才可能進入真實業務流程。

六、組織級 AI Agent 要把黑盒過程變成白盒過程

大模型天然是黑盒的。它為什麼這樣回答?為什麼調用這個工具?為什麼選擇這個資料?為什麼生成這個結果?如果組織看不見這些過程,就很難放心使用。

所以組織級 AI Agent 必須把生成過程白盒化。它至少要回答這些問題:

 第一,這次任務是誰發起的?

 第二,Agent 使用了哪些上下文?

 第三,這些上下文是怎麼被選進來的?

 第四,Agent 看到了哪些工具?

 第五,為什麼它有權限調用這些工具?

 第六,工具調用的輸入和輸出是什麼?

 第七,哪些動作被自動執行,哪些動作進入審批?

 第八,最終產物來自哪些步驟?

 第九,消耗了多少模型和工具成本?

 第十,如果結果錯了,能不能回放和修正?

這就是組織 AI Agent 和普通聊天機器人的根本差異。普通聊天機器人重視“最後回答”。組織 AI Agent 必須重視“全過程”。因為組織管理的是流程,不只是答案。

七、工具不是能力,而是風險入口

AI Agent 真正強大的地方,是它能調用工具。但在組織裏,工具調用也是最大的風險入口。讀取數據庫,是工具。發送郵件,是工具。導出客戶名單,是工具。修改商品信息,是工具。調用財務接口,是工具。訪問外部網頁,是工具。操作本地文件,也是工具。

只要工具能連接真實系統,它就不是一個簡單函數,而是一個生產資源的授權點。所以組織級 AI Agent 必須有統一的工具治理。

一個工具能不能被調用,不應該由模型決定。而應該由系統判斷:

 這個工具是否註冊?

 當前 Agent 是否能看到?

 當前用戶是否有權限?

 這個動作是不是高風險?

 參數裏有沒有越權數據?

 是否需要審批?

 是否會產生費用?

 執行後是否需要審計?

 結果能不能回填給模型?

KEY INSIGHT

不是因為工具越多越好,而是因為:工具越強,治理越重要。沒有工具治理,AI Agent 只是玩具。沒有安全治理,AI Agent 可能變成事故入口。

八、組織 AI Agent 的記憶,也不能只是“記住更多”

很多人談 AI Agent 的記憶,會想到向量數據庫、聊天曆史、長期記憶。但組織裏的記憶不是越多越好。組織記憶真正要解決的是:哪些經驗值得沉澱?這些經驗來自哪裏?有沒有證據?適用於哪個團隊?誰有權使用?是否過期?是否被驗證?是否可能被污染?是否會讓 Agent 做出錯誤判斷?

所以組織級記憶不是“把所有歷史塞給模型”。而是要有一套記憶控制機制。

 一次成功的項目,可以沉澱成方法

 一次失敗的工具調用,可以沉澱成反模式

 一次人工修正,可以沉澱成經驗

 一個審核意見,可以沉澱成規則

 一個長期流程,可以沉澱成操作指南

但這些都不能自動變成組織級知識。它們應該先成為候選,再經過審核、驗證、範圍控制,最後才能進入下一次 Agent 的上下文。否則,記憶就會從資產變成污染源。組織級 AI Agent 真正需要的,不是“記憶更多”,而是:可治理的記憶。

九、真正可行的方案:讓 AI 在制度化工作台裏運行

如果要讓一個會推理、會調工具、能持續執行的模型在組織中安全工作,我認為可行的方向不是做一個更大的聊天框,而是做一套組織級 Agent OS。

第一層,是身份和權限。系統要知道用戶是誰、屬於哪個組織、哪個團隊、哪個業務單元,有什麼角色和權限。
第二層,是上下文控制。系統要決定哪些資料可以進入模型,哪些資料必須被過濾、脱敏、隔離。
第三層,是工具治理。所有工具都必須註冊、聲明權限、風險分級、審批規則和審計要求。
第四層,是任務和狀態。Agent 的工作要從“聊天記錄”變成“任務流程”,能暫停、恢復、失敗、重試、審批和回放。
第五層,是產物管理。Agent 生成的內容不能直接進入正式業務系統,應該先成為產物,再經過檢查、審核、導出。
第六層,是記憶和經驗。成功經驗、失敗模式、人工修正、流程方法要沉澱下來,但必須有來源、有範圍、有狀態、有驗證。
第七層,是審計和覆盤。每一次 AgentRun、工具調用、上下文召回、產物生成、成本扣費,都要能被追蹤。

這就是我現在對組織級 AI Agent 的理解:它不是一個模型產品,而是一個組織運行系統。

十、未來的競爭點,不是模型有多會說,而是組織有多會用

模型能力會越來越強。推理會更強。工具調用會更強。多模態會更強。長上下文會更強。執行能力也會更強。但越是這樣,組織越需要一套成熟的駕馭系統。因為能力越強,風險也越大。

未來真正重要的,不是哪個公司接入了哪個模型,而是哪個公司能把 AI 放進自己的組織流程裏,並且讓它可控地創造結果。

 誰能把 AI 的過程透明化,誰就更容易獲得組織信任

 誰能把權限邊界劃清楚,誰就更容易讓 AI 進入真實業務

 誰能把工具調用治理好,誰就能讓 AI 從建議走向執行

 誰能把經驗沉澱成組織記憶,誰就能讓 AI 越用越懂業務

 誰能把審計、覆盤、評估做好,誰就能讓 AI 從個人效率工具變成組織能力系統

所以,組織級 AI Agent 真正要解決的問題,不是“讓 AI 更像人”。而是:讓 AI 在組織裏像一個可管理、可授權、可審計、可持續改進的數字員工一樣工作。

過去我們關注 AI 是否聰明。現在我們要開始關注 AI 是否可信。
       聰明解決的是能力問題,可信解決的是組織問題。

AI 的下一步,是從聰明走向可信。

Resona · 鳴 · 讓每一次對話,都有迴響

2026-05-18 · 彭俊旗