怎麼給組織做AI Agent?真正的組織級 AI Agent關鍵在於harness engineering,要足夠透明。
整理版優先睇
組織級 AI Agent 嘅關鍵唔係模型有幾強,而係外面套「駕馭系統」夠唔夠成熟
呢篇文章係作者彭俊旗(Resona)嘅深度反思,佢不斷調研AI Agent產品同技術架構之後,發現組織級AI Agent嘅核心問題唔係模型本身有幾聰明,而係點樣將模型放入一個可控、可追蹤、可授權、可審計嘅組織系統裏面。作者認為,個人用AI同組織用AI有好大分別:個人AI係能力外掛,而組織AI係基礎設施,要考慮角色、權限、流程、數據邊界、審批制度同責任歸屬。整體結論係:Harness Engineering(駕馭系統)先至係組織級AI Agent嘅成敗關鍵,佢負責身份、權限、上下文、工具治理、任務、審批、記憶同審計,令AI由黑盒變成白盒,由聰明變成可信。
作者指出,好多早期AI系統只係將安全規則寫喺Prompt入面,但呢啲做法唔可靠,因為Prompt本質係行為建議,唔係組織制度邊界。真正嘅權限控制必須發生喺模型外部,由系統強制執行。文章仲強調工具治理嘅重要性,因為工具係風險入口,冇治理嘅AI Agent只係玩具。最後,作者提出未來競爭點係組織點樣用好AI,而唔係邊個模型更勁,組織要由「聰明」走向「可信」。
- 組織級AI Agent嘅關鍵係Harness Engineering,即係模型外面嘅駕馭系統,確保可控、可審計、可授權。
- 個人AI係能力外掛,追求回答得好唔好;組織AI係基礎設施,追求權限、流程同責任歸屬。
- 權限控制必須喺系統層面強制執行,唔可以淨係靠Prompt提示模型「唔好洩露」。
- 工具係最大風險入口,需要統一工具治理,包括註冊、權限、風險分級同審批。
- 組織級記憶唔係越多越好,要有治理機制:沉澱、審核、驗證、範圍控制,避免污染。
組織級 Agent OS 七層架構
第一層身份權限、第二層上下文控制、第三層工具治理、第四層任務狀態、第五層產物管理、第六層記憶經驗、第七層審計覆盤。
組織級 AI Agent 唔係聊天機器人咁簡單
個人用AI,你問佢問題,佢回答,唔啱就重來,風險好細。但組織裏面嘅AI Agent要查客戶資料、分析經營情況、生成方案、調用工具、發送消息、觸發審批,已經變咗「業務執行者」。呢個係普通AI助手同組織級AI Agent最大嘅分別:前者追求答得靚,後者追求喺正確權限下用正確數據同工具完成正確任務,仲要留低完整過程記錄。
一個錯誤嘅工具調用,可能會導致數據泄露、流程混亂、客戶誤觸達、財務錯誤,甚至組織信任崩塌
組織最怕嘅唔係AI唔夠強,而係AI唔可控
企業唔大規模用AI Agent,唔係因為模型唔夠勁,而係組織唔敢俾一個睇唔清過程、分唔清權限、追唔返責任嘅AI去執行真實業務。組織會關心:呢個Agent係邊個觸發?代表邊個執行?睇到啲咩數據?點解用咗呢啲資料?調用咗咩工具?有冇審批?錯咗可唔可以回放?越權可唔可以追責?呢啲問題答唔清,AI Agent就好難進入核心流程。所以第一性問題唔係「模型識唔識推理」,而係「呢個AI嘅工作過程,組織睇唔睇到、控制到、審計到同改進到」。
Prompt 解決唔到組織權限問題,要由系統強制執行
好多系統將規則寫入Prompt,例如「唔好泄露敏感數據」、「你只能答用戶有權限睇嘅內容」。但Prompt只係行為建議,唔係制度邊界。如果一個員工冇權限睇某個項目,系統就唔應該將嗰個項目嘅數據放進上下文;如果Agent冇權限調用工具,系統就唔應該俾模型見到呢個工具;如果動作需要審批,系統就唔應該直接執行。真正可靠嘅權限控制,必須發生喺模型外部。
模型可以提出意圖,系統負責判斷做唔做得,工具負責喺授權範圍內執行,審計負責記錄全過程
Harness Engineering 係將模型能力裝入可控嘅組織工作環境
Harness Engineering 包括身份系統、權限系統、上下文系統、工具註冊中心、任務系統、審批系統、記憶系統同審計系統。佢唔係限制AI,而係令AI可以真正進入組織。冇Harness,AI只係喺邊緣俾建議;有咗Harness,AI先可以進入真實業務流程。
- 身份系統:知道邊個用AI
- 權限系統:知道呢個人同Agent睇得啲咩、做得啲咩
- 上下文系統:模型只拎到當前任務需要而且被授權嘅數據
- 工具註冊中心:所有工具統一登記、權限校驗、風險分級、審計
- 任務系統:AI工作係有狀態、有進度、有失敗處理嘅執行過程
- 審批系統:高風險動作要經人確認
- 記憶系統:經驗沉澱,但唔可以污染上下文、唔可以越權召回
- 審計系統:每次讀取、調用、生成、導出、扣費都要追蹤
Harness Engineering 把大模型嘅能力,裝入一個可控嘅組織工作環境裏面
工具唔係能力,而係風險入口;記憶唔係越多越好,而係要治理
AI Agent 強大之處係可以調用工具,但呢個都係最大風險入口。讀數據庫、發郵件、導出名單、修改商品、調財務接口、訪問網頁、操作文件,全部係工具。組織必須有統一工具治理:判斷工具係咪註冊、Agent有冇權限、動作係咪高風險、參數會唔會越權、需唔需要審批、會唔會產生費用。工具越強,治理越重要。
至於記憶,組織級記憶唔係將所有歷史塞俾模型,而係要有一套控制機制:成功項目沉澱成方法、失敗調用沉澱成反模式、人工修正沉澱成經驗、審核意見沉澱成規則。但呢啲都要先做候選,再審核、驗證、控制範圍,先可以入上下文,否則記憶會變成污染源。
組織級AI Agent真正需要嘅,係可治理的記憶,而唔係「記住更多」

「組織級 AI Agent 嘅關鍵,已經唔止係大模型本身有幾勁,而係模型外面嗰一整套駕馭系統係咪足夠成熟。」 |
最近我不斷諗緊一個問題:一個會推理、會調用工具、仲可以持續執行嘅 AI Agent,點樣先至可以喺真實組織裏面安全咁工作?
呢個問題表面係問 AI Agent 點樣做,實際上係問一個更深嘅問題:當 AI 唔再淨係答問題,而係開始進入組織流程、調用工具、讀取資料、生成結果、影響決策嘅時候,組織應該點樣管理佢?
以前我哋討論 AI,多數係討論模型能力。模型明唔明?生唔生成到?推唔推理到?寫唔寫到 code?用唔用到工具?
但係當我不斷調研各種 AI Agent 產品、開源項目同技術架構之後,我越嚟越清楚意識到:組織級 AI Agent 嘅關鍵,已經唔止係大模型本身有幾勁,而係模型外面嗰一整套「駕馭系統」係咪足夠成熟。
亦即係所謂嘅 Harness Engineering。佢真正關心嘅唔係「點樣寫一個更神嘅 Prompt」,而係:點樣令一個唔確定嘅大模型,放入一個可管理、可追蹤、可授權、可審計、可覆盤嘅組織系統裏面。
一、AI Agent 一旦進入組織,就唔再只係聊天機械人
個人用 AI 嘅時候,風險相對簡單。你問佢問題,佢答。你叫佢寫文案,佢生成。你叫佢總結資料,佢整理。結果唔滿意,你再嚟一次。
但組織裏面嘅 AI Agent 唔同。佢面對嘅唔係一個人嘅問題,而係組織裏面嘅真實業務:
▎ 查客戶資料,睇訂單數據
▎ 分析經營情況,讀取內部文檔
▎ 生成商品方案,創建任務
▎ 調用外部工具,導出文件
▎ 發送消息,修改系統狀態
▎ 觸發審批流程
呢個時候,AI Agent 已經由「助手」變咗做「業務執行者」。呢個亦都係組織級 AI Agent 同普通 AI 助手最大嘅分別。
普通 AI 助手追求嘅係答得好唔好。
組織級 AI Agent 追求嘅係:佢係咪可以喺正確嘅權限下,使用正確嘅數據,調用正確嘅工具,完成正確嘅任務,仲要留低完整嘅過程記錄。
呢件事比「模型聰唔聰明」更加重要。因為喺組織裏面,一個錯誤嘅回答可能只係返工;但一個錯誤嘅工具調用,可能會導致數據洩漏、流程混亂、客戶錯誤接觸、財務錯誤,甚至組織信任崩塌。
二、組織真正擔心嘅,唔係 AI 唔夠勁,而係 AI 唔可控
好多人以為企業唔大規模用 AI Agent,係因為模型仲未夠勁。但我而家嘅判斷係:呢個只係一部分原因。更核心嘅問題係:組織唔敢俾一個睇唔清過程、分唔清權限、追唔返責任嘅 AI 去執行真實業務。
一個組織會自然關心呢啲問題:
呢個 Agent 係邊個觸發嘅?佢代表邊個執行?
佢睇到邊啲數據?佢點解會用呢啲資料?
佢調用咗啲乜嘢工具?工具調用有冇經過審批?
結果係點樣生成嘅?如果錯咗,可唔可以回放?
如果越權咗,可唔可以追究責任?如果成本太高,邊個負責?
呢啲問題如果答唔清楚,AI Agent 就好難真正進入組織核心流程。所以組織級 AI Agent 嘅第一性問題唔係:「呢個模型會唔會推理?」而係:「呢個 AI 嘅工作過程,組織睇唔睇到、控制唔控制到、審計得到同改進到?」
呢個就係我理解嘅組織級 AI Agent 嘅核心分水嶺。 |
三、個人 AI Agent 係能力外掛,組織 AI Agent 係基礎設施
個人 AI Agent 更加似一個人嘅能力外掛。佢增強嘅係個人效率。例如你自己用 AI 寫文章、寫 code、整理資料、做方案,只要你自己可以判斷結果係咪用得,呢件事就成立到。
但組織 AI Agent 唔同。組織裏面有角色、權限、部門、流程、數據邊界、審批制度、成本中心、責任歸屬。
▎ 一個營運睇到嘅數據,唔一定可以俾另一個營運睇到
▎ 一個審核人可以睇內容風險,但唔一定可以睇財務流水
▎ 一個財務人員可以睇扣費記錄,但唔一定可以睇業務私密產物
▎ 一個管理者可以睇匯總數據,但唔一定可以睇所有原始明細
▎ 一個外部客戶可以睇交付結果,但唔可以睇內部生產過程
所以組織 AI Agent 要解決嘅唔係「讓每個人都有個聊天助手」。佢要解決嘅係:點樣令唔同崗位、唔同職責、唔同權限嘅人,喺同一個 AI 系統裏面安全咁協同。
呢個就要求 AI Agent 唔係孤立存在。佢必須被放入組織結構裏面。佢要有身份、崗位、權限、預算、工具邊界、數據邊界、審批規則、審計記錄。換句話說:個人 AI Agent 係一個人嘅外掛;組織 AI Agent 係組織能力嘅基礎設施。
四、點解 Prompt 解決唔到組織權限問題
好多早期 AI 系統會將規則寫入 Prompt 裏面。例如:「你唔可以洩漏敏感數據。」「你只可以回答用戶有權限睇到嘅內容。」「你唔可以執行危險操作。」「如果遇到高風險行為,請提醒用戶。」
呢啲規則有用,但遠遠唔夠。因為 Prompt 本質上係對模型嘅行為建議,而唔係組織嘅制度邊界。真實組織系統唔可以將安全建立喺「希望模型聽話」之上。
如果一個員工冇權限睇某個項目,系統就唔應該將呢個項目嘅數據放入模型上下文裏面。
如果一個 Agent 冇權限調用某個工具,系統就唔應該俾模型睇到呢個工具。
如果一個動作需要審批,系統就唔應該俾 Agent 直接執行。
如果一個文檔唔屬於當前用戶可以訪問嘅範圍,系統就唔應該先檢索出嚟,再話俾模型聽「唔好洩漏」。
真正可靠嘅權限控制,必須發生喺模型外部。呢個亦都係 Harness Engineering 嘅關鍵:權限唔係寫俾模型睇嘅,而係由系統強制執行嘅。
模型可以提出意圖 |
呢個先係組織級 AI Agent 可以成立嘅基礎。
五、Harness Engineering 到底喺解決啲乜?
我越嚟越覺得,Harness Engineering 可以用一句話理解:將大模型嘅能力,裝入一個可控嘅組織工作環境裏面。
佢包括身份系統,令系統知道邊個在用 AI。
佢包括權限系統,令系統知道呢個人同呢個 Agent 睇到啲乜、做到啲乜。
佢包括上下文系統,令模型只可以攞到當前任務需要、而且被授權嘅數據。
佢包括工具註冊中心,令所有工具都經過統一登記、權限校驗、風險分級同審計。
佢包括任務系統,令 AI 嘅工作唔係一段聊天,而係一個有狀態、有進度、有失敗處理嘅執行過程。
佢包括審批系統,令高風險動作必須經過人確認。
佢包括記憶系統,令經驗可以沉澱,但唔可以污染上下文、唔可以越權召回。
佢包括審計系統,令每一次讀取、調用、生成、導出、扣費都可以被追蹤。
所以,Harness Engineering 唔係限制 AI,而係令 AI 真正進入組織。冇 Harness,AI 只可以喺邊緣俾建議。有咗 Harness,AI 先至可能進入真實業務流程。
六、組織級 AI Agent 要將黑盒過程變成白盒過程
大模型天然係黑盒嘅。佢點解咁樣答?點解調用呢個工具?點解選擇呢啲資料?點解生成呢個結果?如果組織睇唔到呢啲過程,就好難放心使用。
所以組織級 AI Agent 必須將生成過程白盒化。佢至少要答呢啲問題:
▎ 第一,呢次任務係邊個發起嘅?
▎ 第二,Agent 用咗邊啲上下文?
▎ 第三,呢啲上下文係點樣被揀入嚟嘅?
▎ 第四,Agent 見到咗邊啲工具?
▎ 第五,點解佢有權限調用呢啲工具?
▎ 第六,工具調用嘅輸入同輸出係咩?
▎ 第七,邊啲動作被自動執行,邊啲動作進入審批?
▎ 第八,最終產物嚟自邊啲步驟?
▎ 第九,消耗咗幾多模型同工具成本?
▎ 第十,如果結果錯咗,可唔可以回放同修正?
呢個就係組織 AI Agent 同普通聊天機械人嘅根本差異。普通聊天機械人重視「最後回答」。組織 AI Agent 必須重視「全過程」。因為組織管理嘅係流程,唔只係答案。
七、工具唔係能力,而係風險入口
AI Agent 真正強大嘅地方,係佢可以調用工具。但喺組織裏面,工具調用都係最大嘅風險入口。讀取數據庫,係工具。發送電郵,係工具。導出客戶名單,係工具。修改商品信息,係工具。調用財務接口,係工具。訪問外部網頁,係工具。操作本地文件,都係工具。
只要工具可以連接真實系統,佢就唔係一個簡單函數,而係一個生產資源嘅授權點。所以組織級 AI Agent 必須有統一嘅工具治理。
一個工具可唔可以被調用,唔應該由模型決定,而應該由系統判斷:
▎ 呢個工具係咪註冊咗?
▎ 當前 Agent 係咪睇到?
▎ 當前用戶係咪有權限?
▎ 呢個動作係咪高風險?
▎ 參數裏面有冇越權數據?
▎ 係咪需要審批?
▎ 係咪會產生費用?
▎ 執行後係咪需要審計?
▎ 結果可唔可以回填俾模型?
KEY INSIGHT 唔係因為工具越多越好,而係因為:工具越強,治理越重要。冇工具治理,AI Agent 只係玩具。冇安全治理,AI Agent 可能會變成事故入口。 |
八、組織 AI Agent 嘅記憶,都唔可以只係「記住更多」
好多人講 AI Agent 嘅記憶,會諗到向量數據庫、聊天歷史、長期記憶。但組織裏面嘅記憶唔係越多越好。組織記憶真正要解決嘅係:邊啲經驗值得沉澱?呢啲經驗嚟自邊度?有冇證據?適用於邊個團隊?邊個有權用?係咪過期?係咪被驗證?係咪可能被污染?會唔會令 Agent 做出錯誤判斷?
所以組織級記憶唔係「將所有歷史塞俾模型」。而係要有一套記憶控制機制。
▎ 一次成功嘅項目,可以沉澱成方法
▎ 一次失敗嘅工具調用,可以沉澱成反模式
▎ 一次人工修正,可以沉澱成經驗
▎ 一個審核意見,可以沉澱成規則
▎ 一個長期流程,可以沉澱成操作指南
但呢啲都唔可以自動變成組織級知識。佢哋應該先成為候選,再經過審核、驗證、範圍控制,最後先可以進入下一次 Agent 嘅上下文。否則,記憶就會由資產變成污染源。組織級 AI Agent 真正需要嘅,唔係「記憶更多」,而係:可治理嘅記憶。
九、真正可行嘅方案:令 AI 喺制度化工作台裏面運行
如果要令一個會推理、會調工具、可以持續執行嘅模型喺組織中安全工作,我認為可行嘅方向唔係做一個更大嘅聊天框,而係做一套組織級 Agent OS。
第一層,係身份同權限。系統要知道用戶係邊個、屬於邊個組織、邊個團隊、邊個業務單元,有咩角色同權限。
第二層,係上下文控制。系統要決定邊啲資料可以入模型,邊啲資料必須被過濾、脱敏、隔離。
第三層,係工具治理。所有工具都必須註冊、聲明權限、風險分級、審批規則同審計要求。
第四層,係任務同狀態。Agent 嘅工作要由「聊天記錄」變成「任務流程」,可以暫停、恢復、失敗、重試、審批同回放。
第五層,係產物管理。Agent 生成嘅內容唔可以直接進入正式業務系統,應該先成為產物,再經過檢查、審核、導出。
第六層,係記憶同經驗。成功經驗、失敗模式、人工修正、流程方法要沉澱落嚟,但必須有來源、有範圍、有狀態、有驗證。
第七層,係審計同覆盤。每一次 AgentRun、工具調用、上下文召回、產物生成、成本扣費,都要可以被追蹤。
呢個就係我而家對組織級 AI Agent 嘅理解:佢唔係一個模型產品,而係一個組織運行系統。
十、未來嘅競爭點,唔係模型有幾識講,而係組織有幾識用
模型能力會越嚟越強。推理會更強。工具調用會更強。多模態會更強。長上下文會更強。執行能力都會更強。但越係咁,組織越需要一套成熟嘅駕馭系統。因為能力越強,風險都越大。
未來真正重要嘅,唔係邊間公司接入咗邊個模型,而係邊間公司可以將 AI 放入自己嘅組織流程裏面,而且令佢可控咁創造結果。
▎ 邊個可以將 AI 嘅過程透明化,邊個就更容易獲得組織信任
▎ 邊個可以將權限邊界劃清楚,邊個就更容易令 AI 進入真實業務
▎ 邊個可以將工具調用治理好,邊個就可以令 AI 由建議走向執行
▎ 邊個可以將經驗沉澱成組織記憶,邊個就可以令 AI 越用越識業務
▎ 邊個可以將審計、覆盤、評估做好,邊個就可以令 AI 由個人效率工具變成組織能力系統
所以,組織級 AI Agent 真正要解決嘅問題,唔係「令 AI 更加似人」,而係:令 AI 喺組織裏面好似一個可管理、可授權、可審計、可持續改進嘅數字員工咁樣工作。
以前我哋關注 AI 係咪聰明。而家我哋要開始關注 AI 係咪可信。 AI 嘅下一步,係由聰明走向可信。 |
Resona · 鳴 · 令每一次對話,都有迴響 2026-05-18 · 彭俊旗 |

「組織級 AI Agent 的關鍵,已經不只是大模型本身有多強,而是模型外面那一整套駕馭系統是否足夠成熟。」 |
最近我一直在思考一個問題:一個會推理、會調工具、還能持續執行的 AI Agent,怎麼才能在真實組織裏安全地工作?
這個問題表面上是在問 AI Agent 怎麼做,實際上是在問一個更深的問題:當 AI 不再只是回答問題,而是開始進入組織流程、調用工具、讀取資料、生成結果、影響決策時,組織該如何管理它?
過去我們討論 AI,更多是在討論模型能力。模型能不能理解?能不能生成?能不能推理?能不能寫代碼?能不能調用工具?
但當我不斷調研各種 AI Agent 產品、開源項目和技術架構之後,我越來越明確地意識到:組織級 AI Agent 的關鍵,已經不只是大模型本身有多強,而是模型外面那一整套“駕馭系統”是否足夠成熟。
也就是所謂的 Harness Engineering。它真正關心的不是“怎麼寫一個更神的 Prompt”,而是:怎麼讓一個不確定的大模型,被放進一個可管理、可追蹤、可授權、可審計、可覆盤的組織系統裏。
一、AI Agent 一旦進入組織,就不再只是聊天機器人
個人使用 AI 的時候,風險相對簡單。你問它問題,它回答。你讓它寫文案,它生成。你讓它總結資料,它整理。結果不滿意,你重來一次。
但組織裏的 AI Agent 不一樣。它面對的不是一個人的問題,而是組織裏的真實業務:
▎ 查客戶資料,看訂單數據
▎ 分析經營情況,讀取內部文檔
▎ 生成商品方案,創建任務
▎ 調用外部工具,導出文件
▎ 發送消息,修改系統狀態
▎ 觸發審批流程
這時,AI Agent 已經從“助手”變成了“業務執行者”。這也是組織級 AI Agent 和普通 AI 助手最大的區別。
普通 AI 助手追求的是回答得好不好。
組織級 AI Agent 追求的是:它能不能在正確的權限下,使用正確的數據,調用正確的工具,完成正確的任務,並留下完整的過程記錄。
這件事比“模型聰不聰明”更重要。因為在組織裏,一個錯誤的回答可能只是返工;但一個錯誤的工具調用,可能會導致數據泄露、流程混亂、客戶誤觸達、財務錯誤,甚至組織信任崩塌。
二、組織真正擔心的,不是 AI 不夠強,而是 AI 不可控
很多人以為企業不大規模使用 AI Agent,是因為模型還不夠強。但我現在的判斷是:這只是一部分原因。更核心的問題是:組織不敢讓一個看不清過程、分不清權限、追不回責任的 AI 去執行真實業務。
一個組織會天然關心這些問題:
這個 Agent 是誰觸發的?它代表誰在執行?
它能看到哪些數據?它為什麼使用了這些資料?
它調用了什麼工具?工具調用有沒有經過審批?
結果是怎麼生成的?如果錯了,能不能回放?
如果越權了,能不能追責?如果成本過高,誰來承擔?
這些問題如果回答不清楚,AI Agent 就很難真正進入組織核心流程。所以組織級 AI Agent 的第一性問題不是:“這個模型會不會推理?”而是:“這個 AI 的工作過程,組織能不能看見、控制、審計和改進?”
這就是我理解的組織級 AI Agent 的核心分水嶺。 |
三、個人 AI Agent 是能力外掛,組織 AI Agent 是基礎設施
個人 AI Agent 更像一個人的能力外掛。它增強的是個人效率。比如你自己用 AI 寫文章、寫代碼、整理資料、做方案,只要你自己能判斷結果是否可用,這件事就能成立。
但組織 AI Agent 不一樣。組織裏有角色、權限、部門、流程、數據邊界、審批制度、成本中心、責任歸屬。
▎ 一個運營看到的數據,不一定能被另一個運營看到
▎ 一個審核人能看內容風險,但不一定能看財務流水
▎ 一個財務人員能看扣費記錄,但不一定能看業務私密產物
▎ 一個管理者能看彙總數據,但不一定能看所有原始明細
▎ 一個外部客戶能看交付結果,但不能看內部生產過程
所以組織 AI Agent 要解決的不是“讓每個人都有一個聊天助手”。它要解決的是:如何讓不同崗位、不同職責、不同權限的人,在同一個 AI 系統裏安全地協同。
這就要求 AI Agent 不是孤立存在的。它必須被放進組織結構裏。它要有身份、崗位、權限、預算、工具邊界、數據邊界、審批規則、審計記錄。換句話說:個人 AI Agent 是一個人的外掛;組織 AI Agent 是組織能力的基礎設施。
四、為什麼 Prompt 解決不了組織權限問題
很多早期 AI 系統會把規則寫進 Prompt 裏。比如:“你不能泄露敏感數據。”“你只能回答用戶有權限看到的內容。”“你不能執行危險操作。”“如果遇到高風險行為,請提醒用戶。”
這些規則有用,但遠遠不夠。因為 Prompt 本質上是對模型的行為建議,而不是組織的制度邊界。真實組織系統不能把安全建立在“希望模型聽話”上。
如果一個員工沒有權限查看某個項目,系統就不應該把這個項目的數據放進模型上下文裏。
如果一個 Agent 沒有權限調用某個工具,系統就不應該讓模型看到這個工具。
如果一個動作需要審批,系統就不應該讓 Agent 直接執行。
如果一個文檔不屬於當前用戶可訪問範圍,系統就不應該先檢索出來,再告訴模型“不要泄露”。
真正可靠的權限控制,必須發生在模型外部。這也是 Harness Engineering 的關鍵:權限不是寫給模型看的,而是由系統強制執行的。
模型可以提出意圖 |
這才是組織級 AI Agent 能夠成立的基礎。
五、Harness Engineering 到底在解決什麼?
我越來越覺得,Harness Engineering 可以用一句話理解:把大模型的能力,裝進一個可控的組織工作環境裏。
它包括身份系統,讓系統知道誰在使用 AI。
它包括權限系統,讓系統知道這個人和這個 Agent 能看什麼、能做什麼。
它包括上下文系統,讓模型只能拿到當前任務需要、並且被授權的數據。
它包括工具註冊中心,讓所有工具都經過統一登記、權限校驗、風險分級和審計。
它包括任務系統,讓 AI 的工作不是一段聊天,而是一個有狀態、有進度、有失敗處理的執行過程。
它包括審批系統,讓高風險動作必須經過人確認。
它包括記憶系統,讓經驗可以沉澱,但不能污染上下文、不能越權召回。
它包括審計系統,讓每一次讀取、調用、生成、導出、扣費都能被追蹤。
所以,Harness Engineering 不是限制 AI,而是讓 AI 真正進入組織。沒有 Harness,AI 只能在邊緣做建議。有了 Harness,AI 才可能進入真實業務流程。
六、組織級 AI Agent 要把黑盒過程變成白盒過程
大模型天然是黑盒的。它為什麼這樣回答?為什麼調用這個工具?為什麼選擇這個資料?為什麼生成這個結果?如果組織看不見這些過程,就很難放心使用。
所以組織級 AI Agent 必須把生成過程白盒化。它至少要回答這些問題:
▎ 第一,這次任務是誰發起的?
▎ 第二,Agent 使用了哪些上下文?
▎ 第三,這些上下文是怎麼被選進來的?
▎ 第四,Agent 看到了哪些工具?
▎ 第五,為什麼它有權限調用這些工具?
▎ 第六,工具調用的輸入和輸出是什麼?
▎ 第七,哪些動作被自動執行,哪些動作進入審批?
▎ 第八,最終產物來自哪些步驟?
▎ 第九,消耗了多少模型和工具成本?
▎ 第十,如果結果錯了,能不能回放和修正?
這就是組織 AI Agent 和普通聊天機器人的根本差異。普通聊天機器人重視“最後回答”。組織 AI Agent 必須重視“全過程”。因為組織管理的是流程,不只是答案。
七、工具不是能力,而是風險入口
AI Agent 真正強大的地方,是它能調用工具。但在組織裏,工具調用也是最大的風險入口。讀取數據庫,是工具。發送郵件,是工具。導出客戶名單,是工具。修改商品信息,是工具。調用財務接口,是工具。訪問外部網頁,是工具。操作本地文件,也是工具。
只要工具能連接真實系統,它就不是一個簡單函數,而是一個生產資源的授權點。所以組織級 AI Agent 必須有統一的工具治理。
一個工具能不能被調用,不應該由模型決定。而應該由系統判斷:
▎ 這個工具是否註冊?
▎ 當前 Agent 是否能看到?
▎ 當前用戶是否有權限?
▎ 這個動作是不是高風險?
▎ 參數裏有沒有越權數據?
▎ 是否需要審批?
▎ 是否會產生費用?
▎ 執行後是否需要審計?
▎ 結果能不能回填給模型?
KEY INSIGHT 不是因為工具越多越好,而是因為:工具越強,治理越重要。沒有工具治理,AI Agent 只是玩具。沒有安全治理,AI Agent 可能變成事故入口。 |
八、組織 AI Agent 的記憶,也不能只是“記住更多”
很多人談 AI Agent 的記憶,會想到向量數據庫、聊天曆史、長期記憶。但組織裏的記憶不是越多越好。組織記憶真正要解決的是:哪些經驗值得沉澱?這些經驗來自哪裏?有沒有證據?適用於哪個團隊?誰有權使用?是否過期?是否被驗證?是否可能被污染?是否會讓 Agent 做出錯誤判斷?
所以組織級記憶不是“把所有歷史塞給模型”。而是要有一套記憶控制機制。
▎ 一次成功的項目,可以沉澱成方法
▎ 一次失敗的工具調用,可以沉澱成反模式
▎ 一次人工修正,可以沉澱成經驗
▎ 一個審核意見,可以沉澱成規則
▎ 一個長期流程,可以沉澱成操作指南
但這些都不能自動變成組織級知識。它們應該先成為候選,再經過審核、驗證、範圍控制,最後才能進入下一次 Agent 的上下文。否則,記憶就會從資產變成污染源。組織級 AI Agent 真正需要的,不是“記憶更多”,而是:可治理的記憶。
九、真正可行的方案:讓 AI 在制度化工作台裏運行
如果要讓一個會推理、會調工具、能持續執行的模型在組織中安全工作,我認為可行的方向不是做一個更大的聊天框,而是做一套組織級 Agent OS。
第一層,是身份和權限。系統要知道用戶是誰、屬於哪個組織、哪個團隊、哪個業務單元,有什麼角色和權限。
第二層,是上下文控制。系統要決定哪些資料可以進入模型,哪些資料必須被過濾、脱敏、隔離。
第三層,是工具治理。所有工具都必須註冊、聲明權限、風險分級、審批規則和審計要求。
第四層,是任務和狀態。Agent 的工作要從“聊天記錄”變成“任務流程”,能暫停、恢復、失敗、重試、審批和回放。
第五層,是產物管理。Agent 生成的內容不能直接進入正式業務系統,應該先成為產物,再經過檢查、審核、導出。
第六層,是記憶和經驗。成功經驗、失敗模式、人工修正、流程方法要沉澱下來,但必須有來源、有範圍、有狀態、有驗證。
第七層,是審計和覆盤。每一次 AgentRun、工具調用、上下文召回、產物生成、成本扣費,都要能被追蹤。
這就是我現在對組織級 AI Agent 的理解:它不是一個模型產品,而是一個組織運行系統。
十、未來的競爭點,不是模型有多會說,而是組織有多會用
模型能力會越來越強。推理會更強。工具調用會更強。多模態會更強。長上下文會更強。執行能力也會更強。但越是這樣,組織越需要一套成熟的駕馭系統。因為能力越強,風險也越大。
未來真正重要的,不是哪個公司接入了哪個模型,而是哪個公司能把 AI 放進自己的組織流程裏,並且讓它可控地創造結果。
▎ 誰能把 AI 的過程透明化,誰就更容易獲得組織信任
▎ 誰能把權限邊界劃清楚,誰就更容易讓 AI 進入真實業務
▎ 誰能把工具調用治理好,誰就能讓 AI 從建議走向執行
▎ 誰能把經驗沉澱成組織記憶,誰就能讓 AI 越用越懂業務
▎ 誰能把審計、覆盤、評估做好,誰就能讓 AI 從個人效率工具變成組織能力系統
所以,組織級 AI Agent 真正要解決的問題,不是“讓 AI 更像人”。而是:讓 AI 在組織裏像一個可管理、可授權、可審計、可持續改進的數字員工一樣工作。
過去我們關注 AI 是否聰明。現在我們要開始關注 AI 是否可信。 AI 的下一步,是從聰明走向可信。 |
Resona · 鳴 · 讓每一次對話,都有迴響 2026-05-18 · 彭俊旗 |