這個 Agent Team,終於不是"角色扮演"了

作者:AI產品黃叔
日期:2026年5月14日 下午6:29
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

MiniMax Agent Team 真正令多 Agent 做到「分工驗收」,唔再係角色扮演

整理版摘要

呢篇文章係黃叔測試 MiniMax 新出嘅 Agent Team 功能後嘅親身分享。佢一直研究 Skill 同 Agent Team,發現以前用 Cloud Agent Skill 嘅 Agent Team 只係靠 prompt 控制,上限好明顯。今次 MiniMax 嘅方案唔同,佢哋嘅 Agent Team 唔係幾個 AI 各自做嘢再夾埋,而係一個有明確分工、有制衡機制、有驗收流程嘅工作系統。黃叔想解決嘅問題係:點解 AI 做長任務成日做到一半停低,或者做完但錯漏百出?整體結論係:Agent Team 嘅核心唔係「多」,而係「不同角色之間有制衡關係」,尤其係需要有 verifier 做質量門禁,先可以確保交付質素。

黃叔用咗三個真實測試去說明呢個觀點:深度研究一間公司、整理 4.1 萬字會議錄音、分析直播數據 CSV。每個測試都顯示 Agent Team 嘅分工同制衡點樣提升結果質量。例如深度研究任務入面,Source Hunter 負責揾資料,Fact Checker 負責驗證,Gap Analyst 判斷資訊缺口,Knowledge Compiler 沉澱知識,最後由總控整合。會議整理任務更加明顯,佢哋嘅結構師、決策提取員、隱藏價值挖掘員各自用唔同標準去處理同一份內容,避免流水帳或者過度總結。數據分析任務就更進一步,唔係俾一堆圖表,而係俾出業務層面嘅具體判斷同建議。

最後黃叔提醒,Agent Team 唔係魔法…

  • 多 Agent 嘅重點係「不同角色之間有制衡關係」,而唔係同時開幾個 AI 各自做嘢最後拼埋一齊。
  • Agent Team 將任務拆成多個專責角色:例如深度研究有 Source HunterFact CheckerGap Analyst、Knowledge Compiler,每個角色負責唔同質量標準。
  • Verifier Agent 做質量門禁,可以自動校驗並修正錯漏,例如人名錯誤、推斷寫成事實、漏掉關鍵講者等。
  • 會議整理任務顯示 Agent Team 能同時識別講者、提煉主題、抽取結論、區分討論同共識,仲發掘隱藏價值點,最後生成 10 頁 PDF
  • 數據分析任務唔止總結表格,而係俾出業務層面嘅判斷,例如建議停掉低轉化直播場次,提醒單一內容類型嘅收入風險。
整理重點

Agent Team 嘅真正價值:制衡同驗收

黃叔一直研究 Skill 同 Agent Team,佢發現以前用 Cloud Agent Skill 嘅 Agent Team 只係靠 prompt 控制,上限好明顯。而家 MiniMax 出咗個新嘅 Agent Team,佢測完之後決定喺直播課教人用。佢想解決嘅問題好實際:點解 AI 做長任務成日做到一半停低,或者做完但錯漏百出?

Agent Team 嘅核心唔係流水線,而係對抗式質量門禁

整理重點

測試一:深度研究公司,先拆維度再分工

黃叔第一個測試係叫 Agent Team 深度研究 MiniMax 呢間公司。佢冇直接開始寫報告,而係將任務交俾「深度研究總控」,然後拆成幾個維度:公司基本盤、產品矩陣、技術能力、商業模式、競爭優勢同風險、創辦人背景。

  1. 1 Source Hunter:揾資料
  2. 2 Fact Checker:驗資料
  3. 3 Gap Analyst:判斷資訊缺口
  4. 4 Knowledge Compiler:沉澱知識

呢個分工令到研究唔會「查偏咗都唔知」。單個 Agent 好容易順住第一個搜尋結果一路滑落去,但呢度有唔同角色互相制衡,結果更可靠。

多 Agent 嘅重點唔係「多」,而係「不同角色之間有冇制衡關係

整理重點

測試二:整理四萬字會議,識別隱藏價值

第二個任務係整理一場少兒 AI 辯論賽嘅逐字稿,成 41000 字。單 Agent 搞呢類任務好易變流水帳或者過度總結。MiniMax Agent Team 嘅分工包括結構師、決策提取員、隱藏價值挖掘員等。

  • 結構師:確保聽清楚每個發言
  • 決策提取員:提煉最終形成嘅結論
  • 隱藏價值挖掘員:發掘其他人會漏掉嘅資訊

最後生成一份 10 頁 PDF,有核心結論、操作指南、關鍵資源、隱藏價值點、講者地圖同金句。黃叔仲將相同內容俾 Hermes Agent 做比較,結果 MiniMax 嘅輸出明顯更清晰、可讀性更高。

Agent Team 完成任務後會自動用 verifier Agent 校驗,修正人名錯誤、遺漏講者、推斷總結寫成原話等問題

整理重點

測試三:數據分析,從總結去到業務判斷

第三個任務係分析一份視頻號直播歷史數據 CSV。黃叔要求唔係簡單摘要,而係要俾出下一步優化建議,同埋生成可複用嘅分析腳本。Agent Team 嘅分工包括數據分析師、策略顧問、腳本工程師等。

數據分析真正值錢嘅地方唔係「總結表格」,而係「發現動作

報告入面有兩個判斷好深刻:Skill 系列貢獻大部分帶貨收入,但內容類型單一,一旦吸引力下降整體收入會下滑;閒聊歡迎類直播場均觀看唔高亦冇帶貨,建議停掉。呢啲已經進入業務取捨層面。

佢開始進入業務取捨了,而唔係「你本月觀看人數上漲 23%」嘅漂亮廢話

整理重點

Agent Team 唔係魔法:有代價,但方向正確

黃叔冷靜指出,Agent Team 會更慢、更貴,因為有多個 Agent 協作嘅交接成本、共享成本、聚合成本。所以唔係所有任務都應該開 Team,改錯別字、查小問題、生成普通文案,單 Agent 就夠。但如果任務好長、鏈路好多、結果需要驗收、經驗值得複用,咁 Team 就開始有價值。

當單個 Agent 已經足夠聰明,下一個問題係「佢能不能被組織起來

人類社會嘅效率來自分工、協作、驗收、記憶同覆盤。Agent 都一樣。一個 Agent 能做好多嘢,但一個有結構嘅 Agent Team 先可以承接真正長、真正亂、真正需要交付質量嘅任務。呢個方向可能比又一個新模型發佈更值得普通人關注。

大家都知道黃叔對Skill嘅研究好多,2月喺個社羣入面已經教咗Agent Team呢個能力。

Image

但係今日我發現咗一個更加勁嘅Agent Team邏輯。  


係啊,呢兩日黃叔喺度試MiniMax新出嘅Agent Team。試完之後,已經決定咗要喺呢個星期五嘅直播課上教大家安裝同用!得真係好嘅黃叔先會喺課程入面教㗎!


佢真正想解決嘅,係一個好多人已經受折磨過嘅問題:

你叫AI做一個稍微長少少嘅嘢,點解佢成日做做嚇就停咗喺度?呢個問題就算係我用Opus,叫Agent Team做都會間唔中發生㗎!


Skill嘅Agent Team都係靠提示詞嚟控制,而且仲係一個實驗性質嘅能力咋。


我試咗幾個case之後,發現MiniMax嘅Agent Team模式真係有啲唔同。


Image


我第一個測試,係叫佢做一次深度研究

我畀MiniMax Agent Team嘅第一個任務好簡單:

幫我深度研究下MiniMax呢間公司嘅情況。


Image
Image

如果係普通AI,好大機會會畀你一篇結構都算完整嘅公司介紹。公司背景、產品、融資、競爭對手、機會風險,幾個模塊拼一拼,就可以睇起嚟似一份報告。


但係Agent Team嘅處理方式就有啲唔同。

佢冇直接開始寫。

佢首先將任務交咗畀一個叫'深度研究總控'嘅角色,然後將研究維度拆出嚟:公司基本盤、核心產品矩陣、技術能力、商業模式、競爭優勢同風險、創始人背景。

Image


呢一步好關鍵。

因為研究呢樣嘢,最大嘅問題係'查錯咗方向都唔知'。


一個Agent好易跟住第一個搜索結果一路碌落去。開頭判斷錯咗,後面嘅內容睇起嚟越完整,問題反而越大。


Agent Team嘅價值就喺呢度出現:佢唔係叫一個AI做曬所有嘢,而係將研究拆做多個通道,再由總控將結果收翻嚟。


我見到佢嘅分工入面有幾個角色:


深度研究總控

├── Source Hunter:揾資料

├── Fact Checker:核實資料

├── Gap Analyst:判斷資訊差距

├── Knowledge Compiler:沉澱知識


呢個就唔似一個'AI助手'喇。

更加似一個好細嘅研究小組。


呢度我最有感受嘅一點係:多個Agent嘅重點唔係'多',而係'唔同角色之間有冇制衡關係'。

如果只係五個AI同時寫五段內容,最後夾埋一齊,咁只係拼稿。

但如果有人揾資料,有人核實資料,有人判斷資訊差距,有人負責最後嘅表達,呢個系統先開始似一個真正嘅團隊。


第二個測試,係整理一場四萬一千字嘅會議

第二個任務更加真實。

我將之前參加過嘅一場少兒AI辯論賽嘅逐字稿導出嚟,差唔多四萬一千字,掟畀MiniMax Agent Team,叫佢幫我整理。

Image


呢類任務好適合暴露單一Agent嘅問題。

因為會議整理唔係簡單摘要。

佢至少要同時完成幾件事:辨認講者,提煉主題,抽取結論,區分討論過程同已經確認嘅共識,整理資源清單,仲要發現啲被埋喺長對話入面嘅隱藏價值點。


如果一個Agent由頭到尾自己做,好易發生兩種情況。

一係變成流水帳。

一係過度總結,將原本有張力嘅爭論撈成幾句正確但冇用嘅廢話。


MiniMax Agent Team畀我嘅分工係咁樣:

Image

你睇,呢啲先係Agent Team應該有嘅樣。每個角色面對嘅係唔同嘅質量標準。


結構師關心'有冇聽清楚'。

決策提取員關心'到底形成咗啲咩結論'。

隱藏價值挖掘員關心'邊啲資訊人哋會漏咗'。

呢幾種目標函數係唔同嘅。

所以佢哋擺埋一齊,先有價值。


最後佢畀我生成咗一份十頁嘅PDF。唔係嗰種大段文字黐埋一齊嘅總結,而係有核心結論、操作指南、關鍵資源、隱藏價值點、講者地圖同高密度金句。

Image

相同嘅會議內容同提示詞,我都畀咗我用Codex接入嘅Hermes Agent。

Image

仔細睇你就會發現,Minimax嘅Agent Team畀出嘅結論同洞察,都明顯更加清晰,更唔好講佢嘅可讀性。呢點好勁!


更加有意思嘅係後面。

佢唔係一次生成就完咗。

我見到MiniMax嘅Agent Team完成任務之後,佢仲會自動用verifier Agent嚟校驗,並指出咗幾個需要修正嘅點:


例如轉寫入面將'老五'誤寫成'吳弗',有啲貢獻講者被漏咗,仲有啲表達係推斷性總結,唔應該寫到似原話。

然後佢真係將呢啲問題修正咗,再合成最終嘅PDF。


Image
Image


呢件事畀我最大嘅感受係:Agent Team真正重要嘅唔係產出更快,而係佢開始有咗'驗收'。


以前我哋用AI,通常係睇佢畀嘅答案似唔似。

似,就先用咗先。

但係喺正式工作入面,'睇起嚟似'係唔夠嘅。

會議紀要入麪人名錯咗,就係錯。

將討論過程寫成確定結論,就係錯。

漏咗關鍵貢獻者,都係錯。


單一Agent自己檢查當然都可以做,但佢檢查嘅係自己啱啱構造出嚟嘅現場。你叫一個人幫自己份試卷打分,佢都可能好認真,但結構上就唔可靠。


所以我越來越認同一個判斷:

Agent Team嘅核心唔係流水線,而係對抗式質量門禁。

Worker負責將事情做出嚟。

Verifier負責話'唔得,呢度有問題'。

Leader再判斷要唔要返工、點樣返工、幾時可以交貨。

呢啲先似一個可以交貨嘅系統。


第三個測試,係做直播數據分析


第三個任務,我拎咗一份視頻號直播歷史數據CSV畀佢。

我嘅要求係:睇嚇內容表現點樣,下一步點樣優化,再順手生成一個第時可以重用嘅分析腳本。

呢類任務更加貼近普通人嘅日常。


你手上面有一張表,入面有觀看、成交、主題、時長、內容類型。

你唔係真係想要一個'數據摘要'。

你想要嘅係:我下一場到底應該點做?


圖6:數據分析團隊

Image

呢個分工好有意思。

因為大多數人用AI分析數據嘅時候,只會問:'幫我分析嚇呢張表。'

AI都會好配合咁生成一堆睇起嚟幾專業嘅嘢:趨勢、分類、建議、結論。


但問題係,數據分析真正值錢嘅地方唔係喺'總結表格',而係喺'發現動作”。


邊啲內容類型帶貨貢獻最高?

邊啲直播睇起嚟好熱鬧,但係冇轉化?

邊啲場次應該停咗佢?

下一場直播應該幾點開,講幾耐,帶啲咩產品?

呢啲先係業務問題。


最後佢畀到嘅報告入面,有一個判斷令我印象好深:

Image

Skill系列貢獻咗大部分帶貨收入,但內容類型太過單一,一旦呢類內容吸引力下降,整體收入就會下滑。


仲有一個判斷係:閒聊歡迎類直播場均觀看唔高,亦都冇帶貨,建議停咗佢。

呢個就唔係'你今個月觀看人數上漲咗23%'呢種靚靚嘅廢話。

佢開始進入業務取捨喇。


當然,呢度都要冷靜啲。

Agent Team唔係魔法。

佢會更慢,亦會更貴。


因為多個Agent協作一定有成本:交接成本、共享成本、聚合成本。

一個人揾資料,另一個人寫報告,中間就需要交接。

所有人都要知道背景,就會消耗共享上下文。

最後將多個結果合成一個統一嘅交付物,都需要額外成本。

所以唔係所有任務都應該開Team。


改錯別字,查一個小問題,生成一段普通文案,單一Agent就夠。

但如果任務好長、鏈路好多、結果需要驗收、經驗仲值得重用,咁Team就開始有價值。


呢個都係我對MiniMax Agent Team嘅一個核心判斷:

佢唔係畀簡單任務提速嘅工具。

佢係畀複雜任務兜底嘅系統。


多個Agent唔係寫幾段prompt


以前好多人理解多個Agent,會將佢諗成'寫幾段prompt,叫AI分別扮演老闆、員工、專家'。

呢個思路做demo可以。

但真實工作唔夠。


我都係用咗Cloud Agent Skill入面嘅Agent Team能力多咗之後,意識到佢嘅上限仍然好明顯。


因為真實團隊協作需要一堆prompt以外嘅嘢:


任務做到邊一步?

邊個卡住咗?

邊個有權限改文件?

邊個負責驗收?

失敗後要唔要重試?

中間產物擺喺邊?

下次遇到同類任務,可唔可以記住今次踩過嘅坑?

呢啲嘢唔係靠'你而家扮演一個嚴謹嘅專家'就可以解決㗎。


MiniMax技術報告入面有個講法我好認同:多個Agent系統係runtime,唔係prompt編排。


翻成人話就係:真正嘅Agent Team,唔係幾個AI喺度傾偈,而係一套可以管理狀態、任務、記憶、驗收同恢復嘅工作系統。


呢個都係點解我今次更加關注佢嘅幾個細節:


佢可唔可以喺微信入面快速回應,同時後台慢慢做嘢。

佢可唔可以將一個長任務拆成唔同職責。

佢可唔可以令verifier真係揾錯,而唔係禮貌咁誇幾句。

佢可唔可以將今次任務入面嘅經驗寫入memory,下次少啲踩坑。

呢啲都比'同時啟動咗幾個Agent'重要。


寫喺最後


過去兩年,我哋成日喺度追一個更加聰明嘅AI。

更大嘅模型,更長嘅上下文,更強嘅推理,更平嘅價錢。


但係今次試完MiniMax Agent Team,我有一個新嘅感覺:

當單一個Agent已經夠聰明,下一個問題就唔係'佢仲可唔可以更聰明',而係'佢可唔可以被組織起嚟'。


人類社會嘅效率從來唔只嚟自一個天才。

更大嘅效率嚟自分工、協作、驗收、記憶同覆盤。

Agent都一樣。

一個Agent可以做好多嘢,但係一個有結構嘅Agent Team,先可以開始承接嗰啲真正長、真正亂、真正需要交付質量嘅任務。


我唔會話而家佢已經完美。

佢仲有成本,簡單任務冇必要開Team,複雜任務都好考驗拆解同驗收標準。


但方向我覺得係啱嘅。

AI唔係淨係會回答問題嘅聊天框。

佢正在變成一個可以被你管理嘅小團隊。

呢件事,可能比又多一個新模型發布更加值得普通人關注。


大家都知道黃叔對Skill的研究很多,2月份在社羣裏就已經教了Agent Team這個能力:

Image

但今天我發現了一個更牛的Agent Team邏輯。  


是的,這兩天黃叔在測MiniMax 新出的 Agent Team。測完後,已經決定要在這週五的直播課上教大家去安裝和使用!只有真的好的黃叔才會去在課程裏面教!


它真正想解決的,是一個很多人已經被折磨過的問題:

你讓 AI 幹一個稍微長一點的活,它為什麼總是幹一半就停下來?這個問題即使是我用Opus,調用Agent Team也會偶發!


Skill的Agent Team也更多是通過提示詞來進行控制,而且也仍然只是一個實驗性質的能力。


我測了幾個case之後發現MiniMax的Agent Team模式還真有點不一樣。


Image


我第一個測試,是讓它做一次深度研究

我給 MiniMax Agent Team 下的第一個任務很簡單:

幫我深度研究 MiniMax 這個公司的情況。


Image
Image

如果是普通 AI,大概率會給你一篇結構還算完整的公司介紹。公司背景、產品、融資、競品、機會風險,幾個模塊拼一拼,就能看起來像一份報告。


但 Agent Team 的處理方式不太一樣。

它沒有直接開始寫。

它先把任務發給了一個“深度研究總控”,然後把研究維度拆出來:公司基本盤、核心產品矩陣、技術能力、商業模式、競爭優勢和風險、創始人背景。

Image


這一步很關鍵。

因為研究這件事,最大的問題是“查偏了還不知道”。


單個 Agent 很容易沿着第一個搜索結果一路滑下去。開頭的判斷錯了,後面的內容看起來越完整,問題反而越大。


Agent Team 的價值在這裏就出現了:它不是讓一個 AI 把所有事都幹掉,而是把研究拆成多個通道,再由總控把結果收回來。


我看到它的分工裏有幾個角色:


深度研究總控

├── Source Hunter:找資料

├── Fact Checker:驗資料

├── Gap Analyst:判斷信息差

├── Knowledge Compiler:沉澱知識


這就不像一個“AI 助手”了。

更像一個很小的研究小組。


這裏我最有感的一點是:多 Agent 的重點不是“多”,而是“不同角色之間有沒有制衡關係”。

如果只是 5 個 AI 同時寫 5 段內容,最後合在一起,那只是拼稿。

但如果有人找資料,有人驗資料,有人判斷信息差,有人負責最後表達,這個系統才開始像一個真正的團隊。


第二個測試,是整理一場 4.1 萬字的會議

第二個任務更真實。

我把之前參加的一場少兒 AI 辯論賽逐字稿導出來,差不多 41000 字,扔給 MiniMax Agent Team,讓它幫我整理。

Image


這種任務非常適合暴露單 Agent 的問題。

因為會議整理不是簡單摘要。

它至少要同時完成幾件事:識別講者,提煉主題,抽取結論,區分討論過程和已經確認的共識,整理資源清單,還要發現那些被埋在長對話裏的隱藏價值點。


如果一個 Agent 從頭到尾自己做,很容易發生兩種情況。

要麼變成流水賬。

要麼過度總結,把原本有張力的爭論揉成幾句正確廢話。


MiniMax Agent Team 給我的分工是這樣的:

Image

你看,這才是 Agent Team 應該有的樣子。每個角色面對的是不同的質量標準。


結構師關心“有沒有聽清楚”。

決策提取員關心“到底形成了什麼結論”。

隱藏價值挖掘員關心“哪些信息別人會漏掉”。

這幾種目標函數是不一樣的。

所以它們放在一起,才有價值。


最後它給我生成了一份 10 頁 PDF。不是那種大段文字糊在一起的總結,而是有核心結論、操作指南、關鍵資源、隱藏價值點、講者地圖和高密度金句。

Image

相同的會議內容和提示詞,我都給到了我用Codex接入的Hermes Agent。

Image

仔細閲讀你會發現, Minimax的Agent Team給出的結論以及洞察,都明顯更加清晰,我們更別提它的可讀性了。這點很牛!


更有意思的是後面。

它不是一次生成就完了。

我看到 MiniMax的Agent Team完成任務後,它還會自動的用verifier Agent進行校驗,並指出了幾個需要修正的點:


比如轉寫裏把“老五”誤寫成了“吳弗”,有些貢獻講者被遺漏,還有一些表達屬於推斷性總結,不應該寫得像原話。

然後它真的把這些問題修正了,再合成最終 PDF。


Image
Image


這件事給我最大的感受是:Agent Team 真正重要的不是產出更快,而是它開始有了“驗收”。


過去我們用 AI,經常是看它給的答案像不像。

像,就先用了。

但在正式工作裏,“看起來像”是不夠的。

會議紀要里人名錯了,就是錯。

把討論過程寫成確定結論,就是錯。

漏掉關鍵貢獻者,也是錯。


單 Agent 自檢當然也可以做,但它檢查的是自己剛剛構造出來的現場。你讓一個人給自己的試卷打分,他也可能很認真,但結構上就不可靠。


所以我越來越認同一個判斷:

Agent Team 的核心不是流水線,而是對抗式質量門禁。

Worker 負責把事情做出來。

Verifier 負責說“不行,這裏有問題”。

Leader 再判斷要不要返工、怎麼返工、什麼時候可以交付。

這才像一個能交付的系統。


第三個測試,是做直播數據分析


第三個任務,我拿了一份視頻號直播歷史數據 CSV 給它。

我的要求是:看看內容表現怎麼樣,下一步怎麼優化,再順手生成一個以後能複用的分析腳本。

這類任務更貼近普通人的日常。


你手裏有一張表,裏面有觀看、成交、主題、時長、內容類型。

你不是真的想要一個“數據摘要”。

你想要的是:我下一場到底該怎麼做?


圖6:數據分析團隊

Image

這個分工很有意思。

因為大多數人用 AI 分析數據時,只會問:“幫我分析一下這張表。”

AI 也會很配合地生成一堆看起來挺專業的東西:趨勢、分類、建議、結論。


但問題是,數據分析真正值錢的地方不在“總結表格”,而在“發現動作”。


哪些內容類型帶貨貢獻最高?

哪些直播看起來熱鬧,但沒有轉化?

哪些場次應該停掉?

下一場直播應該幾點開,講多久,帶什麼產品?

這些才是業務問題。


最後它給到的報告裏,有一個判斷讓我印象很深:

Image

Skill 系列貢獻了大部分帶貨收入,但內容類型過於單一,一旦這類內容吸引力下降,整體收入會下滑。


還有一個判斷是:閒聊歡迎類直播場均觀看不高,也沒有帶貨,建議停掉。

這就不是“你本月觀看人數上漲了 23%”這種漂亮廢話。

它開始進入業務取捨了。


當然,這裏也要冷靜一點。

Agent Team 不是魔法。

它會更慢,也會更貴。


因為多個 Agent 協作一定有成本:交接成本、共享成本、聚合成本。

一個人查資料,另一個人寫報告,中間就需要交接。

所有人都要知道背景,就會消耗共享上下文。

最後把多個結果合成一個統一交付物,也需要額外成本。

所以不是所有任務都應該開 Team。


改錯別字,查一個小問題,生成一段普通文案,單 Agent 就夠了。

但如果任務很長、鏈路很多、結果需要驗收、經驗還值得複用,那 Team 就開始有價值。


這也是我對 MiniMax Agent Team 的一個核心判斷:

它不是給簡單任務提速的工具。

它是給複雜任務兜底的系統。


多 Agent 不是寫幾段 prompt


以前很多人理解多 Agent,會把它想成“寫幾段 prompt,讓 AI 分別扮演老闆、員工、專家”。

這個思路做 demo 可以。

但真實工作不夠。


我也是使用Cloud Agent Skill裏面的Agent Team能力多了之後,意識到它的上限還是很明顯的。


因為真實團隊協作需要一堆 prompt 之外的東西:


任務做到哪一步了?

誰卡住了?

誰有權限改文件?

誰負責驗收?

失敗後要不要重試?

中間產物放在哪裏?

下次遇到同類任務,能不能記住這次踩過的坑?

這些東西不是靠“你現在扮演一個嚴謹的專家”就能解決的。


MiniMax 技術報告裏有個說法我挺認同:多 Agent 系統是 runtime,不是 prompt 編排。


翻譯成人話就是:真正的 Agent Team,不是幾個 AI 在聊天,而是一套能管理狀態、任務、記憶、驗收和恢復的工作系統。


這也是為什麼我這次更關注它的幾個細節:


它能不能在微信裏快速響應,同時後台慢慢幹活。

它能不能把一個長任務拆成不同職責。

它能不能讓 verifier 真的挑錯,而不是禮貌性誇幾句。

它能不能把這次任務裏的經驗寫進 memory,下次少踩坑。

這些都比“同時啓動了幾個 Agent”重要。


寫在最後


過去兩年,我們總在追一個更聰明的 AI。

更大的模型,更長的上下文,更強的推理,更便宜的價格。


但這次試完 MiniMax Agent Team,我有一個新的感覺:

當單個 Agent 已經足夠聰明,下一個問題就不是“它還能不能更聰明”,而是“它能不能被組織起來”。


人類社會的效率從來不只來自單個天才。

更大的效率來自分工、協作、驗收、記憶和覆盤。

Agent 也一樣。

一個 Agent 能做很多事,但一個有結構的 Agent Team,才能開始承接那些真正長、真正亂、真正需要交付質量的任務。


我不會說現在它已經完美。

它還有成本,簡單任務沒必要開 Team,複雜任務也很考驗拆解和驗收標準。


但方向我覺得是對的。

AI 不是隻會回答問題的聊天框。

它正在變成一個可以被你管理的小團隊。

這件事,可能比又一個新模型發佈更值得普通人關注。