對話羅福莉:智能體框架與後訓練的新機遇

作者:黑衣執事
日期:2026年5月14日 上午2:24
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

Agent框架彌補模型短板,後訓練算力將與預訓練持平,AI範式正經歷鉅變

整理版摘要

呢篇文章係張小珺同羅福莉嘅深度訪談整理。羅福莉係小米大模型負責人,之前主導DeepSeek V2架構,2026年初帶隊出咗MiMo V2系列。佢哋傾咗三個半鐘,由OpenClaw講到Agent框架嘅本質,再講到後訓練範式點樣劇變,仲有佢點樣管理一隊冇組、冇職級嘅研究團隊。

整體結論係:Agent框架唔係產品,而係人同模型之間嘅中間層,可以好厚重。OpenClaw呢類框架能夠彌補模型嘅短板,令到中層模型加好框架就可以接近頂尖模型體驗。後訓練嘅算力投入將會同預訓練持平,呢個係Chat時代想象唔到嘅。羅福莉仲認為,中美差距大概係兩三個月,2026年嘅關鍵係Agent框架同模型互相自迭代,同埋同生態資源深度耦合。佢對AGI嘅判斷由兩年以上縮短到兩年內,主要係因為「AI訓AI」呢個變量。

呢篇整理會分幾個部分詳細講解範式轉折點、框架本質、後訓練革命、MiMo V2技術押注、RL Infra新挑戰、組織管理同競爭格局,俾讀者全面理解呢次對話嘅精華。

  • Agent框架(如OpenClaw)可以彌補模型短板,中層模型加上好框架就能接近頂尖體驗。
  • 後訓練算力比例將大幅提升至與預訓練持平,Agent範式下長程多輪任務係關鍵。
  • MiMo V2採用Hybrid AttentionMTP,實現高推理速度(Flash 100-150 TPS),而且唔引入幻覺。
  • 團隊管理靠熱愛驅動,冇層級劃分,重視好奇心同基礎能力,甚至傾向招本科生。
  • 2026年勝負手在於Agent框架與生態耦合,同埋提前做好架構決策;AGI可能兩年內發生。
整理重點

範式轉折點:一個春節,三天覺醒

羅福莉最初排斥OpenClaw,認為佢只係Claude Code加個靚UI。直到春節凌晨裝咗,一路傾到天光,連續三日都畀驚喜佢。

第三天,佢將研究任務交畀OpenClaw,一兩個小時內完成咗佢覺得冇可能嘅事

佢用OpenClaw整咗個User Agent做多輪對話模擬,成個過程唔使兩粒鐘。呢個體驗令佢徹底改觀:OpenClaw唔係編程助手,而係一套能放大集體智慧嘅新框架範式。

  • 第一日:覺得產品設計超乎想象,有靈魂
  • 第二日:開始將生活工作中真實嘅問題交畀佢,全部做到
  • 第三日:用佢做研究任務,做到以為冇可能嘅事
整理重點

框架的本質:人與模型之間最厚嘅中間層

羅福莉認為Agent框架常被誤當做產品,但其實佢係人同模型之間嘅中間層,可以做得非常厚重。

框架定義咗點樣編排上下文、調度多模型、持久化記憶、感知時間環境,而UI反而係最薄嗰層

OpenClawClaude Code最大差異唔係介面,而係設計哲學。OpenClaw為端到端完成所有任務而設計,開源可改,有持久化分層記憶,仲會自主補模型短板。

將一個3B嘅端側模型接入OpenClaw後,佢做到咗佢認為冇可能嘅事

結論係:中層模型加好框架可以接近頂尖模型體驗;反過來,頂尖模型(Claude Opus 4.6)嘅價值在於幫你改好框架本身,之後切返平價模型依然好用。模型與框架係雙向進化關係。

  1. 1 Claude Code:為軟件工程設計,黑盒,記憶for軟件工程,你要主動補模型短板
  2. 2 OpenClaw:為端到端所有任務設計,開源可改,持久化分層記憶for日常任務,框架自主補模型短板
整理重點

後訓練範式革命:Post-train算力將與Pre-train持平

Chat時代後訓練只係收尾,Pre-trainPost-train算力比例可能係3:5:1(研究:預訓練:後訓練)。但Agent範式下,呢個比例急劇變化。

羅福莉判斷研究:預訓練:後訓練應該係3:1:1,即Pre-trainPost-train算力相當,而研究卡數量要超過實際訓練卡

原因係Agent範式係長程多輪、需要同真實環境交互嘅任務,模型潛力遠超Chat。後訓練週期拉長,長上下文能力成為核心變量。

佢認為將軟件開發做好,模型通用特質就已經好好,Agent框架本身都會迭代得非常好。

整理重點

MiMo V2系列:悄無聲息伏擊背後的技術押注

MiMo V2系列(FlashPro、Omni、TTS)發佈時冇大張旗鼓,但羅福莉話係「悄無聲息嘅伏擊」。團隊喺Agent範式未明朗時已做咗多項前置押注。

Hybrid Attention架構取代主流MLA,計算上有富餘,為MTP創造條件

  • Hybrid Attention:混合全局注意力同滑動窗口注意力,Pro將稀疏比提升至7:1,維持long context效率
  • MTP(多詞元預測):利用計算富餘做推理加速,Flash 100-150 TPSPro 60-100 TPS,唔引入幻覺,仲提升基座能力
  • 1T總參數量:Agent時代入場券,認為要接近Claude Opus 4.6水平至少1T以上
  • Omni+TTS:唔係多模態敍事,而係Agent行動嘅感官;TTS將音頻離散化統一入LLM架構,音頻已跑通,圖像離散化進行中

MTP唔引入幻覺,因為預測準咗先採納,而且預訓練階段加一層MTP仲能提升基座能力,係意外之財

整理重點

組織與人:冇組、冇職級,靠熱愛驅動嘅100人團隊

MiMo團隊約100人,涵蓋全鏈路,但內部冇組劃分,冇職級。羅福莉認為層級會壓制創造力,因為層級高唔代表智能更強。

預訓練嘅人做後訓練有天然優勢,因為佢哋重視多樣性,而多樣性係Agent後訓練時代最缺嘅視野

佢唔睇重經驗,只在意好奇心、熱愛同基礎能力,甚至傾向招大二大三本科生,因為佢哋思想未被禁錮,對Agent範式嘅想象力更高。

她反覆提到「羣體智能」OpenClaw讓萬計嘅人參與框架改進,團隊管理都係創造一個令每人智慧互相蒸餾嘅環境。模型如此,團隊亦如此。

張小珺商業訪談錄 × 羅福莉 · 3.5 小時深度對話

AI 範式已然鉅變

OpenClaw、智能體框架、後訓練的新戰場,以及鉅變下的組織


羅福莉,現任小米大模型負責人。此前主導了 DeepSeek V2 的架構設計,2026 年初帶領團隊發佈 MiMo V2 系列(Flash、Pro、Omni、TTS)。外界稱她「AI 天才少女」,但她自己並不在意這個標籤 —— 她更在意的,是每一次實驗背後那條能不能 scaling 的曲線。

這次對話發生在 MiMo V2 系列發佈之後。暢聊了三個半小時,從 OpenClaw 聊到 Agent 框架的本質,從後訓練範式的劇變聊到她如何管理一支沒有組、沒有職級的研究團隊。

01 / 範式轉折點

一個春節,三天覺醒

羅福莉最初排斥 OpenClaw。在她看來,這不過是 Claude Code 套了一個更好看的 IM 界面,加上幾個「玄幻」的運營動作。直到春節,她才真正坐下來安裝它。凌晨兩點裝好,一直聊到天亮六點。

第一天,我覺得它只是產品設計上超乎想象 —— 有靈魂;第二天,我開始把生活和工作裏真實的問題交給它,發現全部做出來了;第三天,我把研究任務交給它,一兩個小時內,我覺得不可能完成的事情完成了。三天,每天都給我新的驚喜。

她用 OpenClaw 構建了一個 User Agent 用於多輪對話模擬 —— 這是後訓練 Agent 場景的核心數據來源之一。整個過程不到兩小時。她的判斷由此產生了根本性轉變:這不是一個更好的編程助手,這是一套能彌補模型短板、放大集體智慧的新框架範式。

春節假期結束,她給團隊下了一道命令:如果第二天與 OpenClaw 的對話不超過 100 輪,可以直接辭職。她笑着說,其實她從未打算考核 —— 她只是想讓大家體驗,因為「體驗本身就是最好的管理方式」。

02 / 框架的本質

Agent 框架不是產品,是人與模型之間最厚的那一層

在羅福莉看來,Agent 框架常被誤解為「產品」。但它其實是人與模型之間的一箇中間層,可以做得非常厚重:它定義瞭如何編排上下文、如何調度多模型、如何持久化記憶、如何感知時間和環境 —— 而前端 UI,反而是最薄的那層,不那麼關鍵。

OpenClaw 與 Claude Code 最大的差異,不在於界面,而在於設計哲學:

Claude Code
OpenClaw
為軟件工程而設計
為端到端完成所有任務而設計
黑盒,無法改動
開源,可自由改造
記憶系統 for 軟件工程
持久化分層記憶,面向日常任務
你要主動給模型補短板
框架自主補模型短板

她發現,把一個小到 3B 的端側模型接入 OpenClaw 後,它能完成她認為不可能是小模型能做到的事。這讓她第一次真實感受到:一套精細設計的 Agent 框架,可以彌補非常多的模型能力短板。中層模型 × 好框架 = 接近頂尖模型的體驗。

而反過來,頂尖模型(Claude Opus 4.6)在這套框架裏的價值,則是幫你把框架本身改得更好 —— 用 Opus 把 Agent 架構調優之後,再切回更便宜的 Sonnet 或國內模型,依然非常好用。模型與框架,是雙向進化的關係。

03 / 後訓練的範式革命

Post-train 的算力投入將與 Pre-train 持平

Chat 時代,後訓練只是收尾工作,Pre-train 與 Post-train 的算力比例可能是 3:5:1(研究 : 預訓練 : 後訓練)。而在 Agent 範式下,這一比例正在急劇變化。

羅福莉的算力分配判斷

研究 : 預訓練 : 後訓練

3 : 1 : 1

Pre-train 與 Post-train 應當投入相當的算力;研究卡的數量應超過實際訓練卡的總量。這在 Chat 時代是不可想象的。

原因在於:Agent 範式是一個長程、多輪、需要與真實環境交互的任務場景,模型在這個範式下能被激發出來的潛力遠超 Chat。後訓練的週期因此大幅拉長,模型在長上下文中建立的能力越來越成為核心變量。

她用一個比喻解釋 Code 能力為什麼如此關鍵:真正能達到 128K 乃至 1M 上下文長度的訓練數據,基本只有兩類 —— 代碼和書籍。書籍的信號太發散,代碼文件之間的長程依賴更密集,因此在代碼上訓練的模型,天然對長上下文建模更好。

Code 是在拉模型能力的上限;訓其他領域是在保下限。把軟件開發做好,基本上模型通用的特質就已經很好了 —— 不僅是模型本身,Agent 框架本身也會迭代得非常好。

04 / MiMo V2 系列

一次「悄無聲息的伏擊」背後的技術押注

MiMo V2 系列(Flash、Pro、Omni、TTS)在發佈時並未大張旗鼓,卻被羅福莉稱為「悄無聲息的伏擊」。在 Agent 範式還不明朗時,團隊已做出了若干前置押注:

① Hybrid Attention 架構,而非主流的 MLA

MLA(多頭潛在注意力機制)在 Chat 時代是優秀的選擇,但它將計算效率壓到極致,沒有給推理加速留下空間。MiMo 選擇了 Hybrid Attention(混合全局注意力與滑動窗口注意力),計算上有富餘 —— 這正好為 MTP 創造了條件。Pro 將稀疏比提升至 7:1,在更大參數量下維持了 long context 效率。

② MTP(多詞元預測),推理加速的關鍵

在模型訓到中後期、開始設計推理方案時,團隊發現 Hybrid 結構在計算上有大量富餘,MTP 完美填補了這個空缺。結果是 Flash 能跑到 100–150 TPS、Pro 也能達到 60–100 TPS —— 用戶普遍的第一感受是「好快」。MTP 不引入幻覺(預測準了才採納),且通過預訓練階段加一層 MTP 還能提升基座能力,中途是一筆意外之財。

③ 1T 參數量,Agent 時代的入場券

她認為,在 Agent 範式下,如果要做到接近 Claude Opus 4.6 的水平,1T 以上的總參數量是入場券。參數量加上 context 質量,共同決定智能的上限。

④ Omni + TTS:不是多模態敍事,是 Agent 行動的感官

多模態的意義不是讓模型看圖,而是讓 Agent 在執行長程任務時能夠感知更多模態的輸入。TTS 選擇了將音頻離散化、統一進 LLM 架構 —— 這是「NLP 執念」,也是一條更優雅但更難的路。目前音頻已經跑通,圖像離散化還在進行中。

05 / RL Infra 的新挑戰

Agent RL:必須容錯,必須兼容異構

訓練 Reasoning 模型(R1 範式)時,RL Infra 的核心是推理引擎本身 —— 模型思考很長、給出答案,整個流程相對可控。但在 Agent 範式下,RL Infra 要面對的是一個黑盒或白盒的 Agent 框架:Rollout 可能中途斷掉,原因五花八門 —— 超時邏輯、驗證流程過長、異構集羣的訓推不一致……

Pre-train Infra 不能容錯,出了 loss spike 就要停下來解決;但做 RL Infra,你必須允許它容錯。這對人的要求截然不同 —— 需要算法和工程之間大量的妥協,中間那個模糊地帶非常多。

她認為,真正把 Agent RL 做到 Pre-train 量級的團隊,全球範圍內非常少。Anthropic 大概率做了,其他團隊從模型效果來看,還沒有 scaling 到相同量級。這是接下來最重要的差異化戰場。

06 / 組織與人

沒有組、沒有職級,靠熱愛驅動的 100 人團隊

MiMo 團隊目前約 100 人,涵蓋數據、預訓練、後訓練、Infra、產品等全鏈路。但內部沒有組的劃分,沒有職級。她的邏輯是:

層級會壓制創造力。有了層級,就默認層級高的人智能更強 —— 這個界定在研究場景裏非常奇怪。

預訓練的人做後訓練有天然優勢。他們天然重視多樣性 —— 而多樣性正是 Agent 後訓練時代最缺的視野。

環境比經驗更重要。她不在意候選人歷史經驗的已訓練狀態,只在意他們的初始化上限 —— 好奇心、熱愛、基礎能力。具體技能,放到好的環境裏,最多三四個月就能習得。

她甚至開始傾向於招大二大三的本科生,因為他們思想沒有被禁錮,對 Agent 範式的想象力往往高於有經驗的博士。

訓 1T 模型的核心團隊,真正在這一代模型上迭代的人,其實只有二三十個。"小團隊、極致、以身示範地解決問題" —— 她認為這才是做研究最行之有效的方式。

07 / 競爭格局與未來

兩三個月追上當代 Claude,兩年內 AGI

她對中美差距的判斷:國內已有好幾傢俱備 1T 以上基座的公司(Kimi、MiMo 等),與 Claude Opus 4.6 的代差大約是兩三個月 —— 不是兩三個月後能追上當下的 Claude,而是能追上當代的 Claude。

在這個基礎上,2026 年的勝負手是:

1

讓 Agent 框架與模型互相自迭代提升,而非僅僅是模型接框架

2

將 Agent 架構與自身已有的生態資源(硬件、操作系統、流量、社交)深度耦合

3

願意徹底重新審視原來的生產方式 —— 哪些人不再需要、哪些壁壘已經失效

4

提前半年到一年做好架構和 Infra 的決策 —— 預訓練太前置,容不得後悔

關於 AGI:兩個月前她認為至少兩年以上。現在她的判斷是兩年以內。關鍵變量是「AI 訓 AI」 —— 當模型能夠自己訓練自己,到達最頂尖那羣人的智能水平,它就能創造新的研究。

它先吸收所有人的智能,然後再靠自己產生更強的智能 —— 這件事大概率在這一兩年發生。

編輯後記

在這次對話裏,羅福莉反覆提到一個詞:羣體智能。她認為 OpenClaw 的意義不僅在於它是個好框架,而在於它讓數以萬計的人蔘與到了框架的改進中 —— 這是一種類似「社會性自學習」的機制。而她管理團隊的方式,其實也在做同一件事:創造一個環境,讓每個人的智慧都能相互蒸餾。模型如此,團隊亦如此。


本文內容整理自張小珺商業訪談錄播客節目
原訪談時長約 3.5 小時,內容有刪減和重組