對話羅福莉：智能體框架與後訓練的新機遇

作者：黑衣執事

日期：2026年5月14日上午2:24

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

Agent框架彌補模型短板，後訓練算力將與預訓練持平，AI範式正經歷鉅變

整理版摘要

呢篇文章係張小珺同羅福莉嘅深度訪談整理。羅福莉係小米大模型負責人，之前主導DeepSeek V2架構，2026年初帶隊出咗MiMo V2系列。佢哋傾咗三個半鐘，由OpenClaw講到Agent框架嘅本質，再講到後訓練範式點樣劇變，仲有佢點樣管理一隊冇組、冇職級嘅研究團隊。

整體結論係：Agent框架唔係產品，而係人同模型之間嘅中間層，可以好厚重。OpenClaw呢類框架能夠彌補模型嘅短板，令到中層模型加好框架就可以接近頂尖模型體驗。後訓練嘅算力投入將會同預訓練持平，呢個係Chat時代想象唔到嘅。羅福莉仲認為，中美差距大概係兩三個月，2026年嘅關鍵係Agent框架同模型互相自迭代，同埋同生態資源深度耦合。佢對AGI嘅判斷由兩年以上縮短到兩年內，主要係因為「AI訓AI」呢個變量。

呢篇整理會分幾個部分詳細講解範式轉折點、框架本質、後訓練革命、MiMo V2技術押注、RL Infra新挑戰、組織管理同競爭格局，俾讀者全面理解呢次對話嘅精華。

Agent框架（如OpenClaw）可以彌補模型短板，中層模型加上好框架就能接近頂尖體驗。
後訓練算力比例將大幅提升至與預訓練持平，Agent範式下長程多輪任務係關鍵。
MiMo V2採用Hybrid Attention加MTP，實現高推理速度（Flash 100-150 TPS），而且唔引入幻覺。
團隊管理靠熱愛驅動，冇層級劃分，重視好奇心同基礎能力，甚至傾向招本科生。
2026年勝負手在於Agent框架與生態耦合，同埋提前做好架構決策；AGI可能兩年內發生。

整理重點

範式轉折點：一個春節，三天覺醒

羅福莉最初排斥OpenClaw，認為佢只係Claude Code加個靚UI。直到春節凌晨裝咗，一路傾到天光，連續三日都畀驚喜佢。

第三天，佢將研究任務交畀OpenClaw，一兩個小時內完成咗佢覺得冇可能嘅事

佢用OpenClaw整咗個User Agent做多輪對話模擬，成個過程唔使兩粒鐘。呢個體驗令佢徹底改觀：OpenClaw唔係編程助手，而係一套能放大集體智慧嘅新框架範式。

第一日：覺得產品設計超乎想象，有靈魂
第二日：開始將生活工作中真實嘅問題交畀佢，全部做到
第三日：用佢做研究任務，做到以為冇可能嘅事

整理重點

框架的本質：人與模型之間最厚嘅中間層

羅福莉認為Agent框架常被誤當做產品，但其實佢係人同模型之間嘅中間層，可以做得非常厚重。

框架定義咗點樣編排上下文、調度多模型、持久化記憶、感知時間環境，而UI反而係最薄嗰層

OpenClaw同Claude Code最大差異唔係介面，而係設計哲學。OpenClaw為端到端完成所有任務而設計，開源可改，有持久化分層記憶，仲會自主補模型短板。

將一個3B嘅端側模型接入OpenClaw後，佢做到咗佢認為冇可能嘅事

結論係：中層模型加好框架可以接近頂尖模型體驗；反過來，頂尖模型（Claude Opus 4.6）嘅價值在於幫你改好框架本身，之後切返平價模型依然好用。模型與框架係雙向進化關係。

1 Claude Code：為軟件工程設計，黑盒，記憶for軟件工程，你要主動補模型短板
2 OpenClaw：為端到端所有任務設計，開源可改，持久化分層記憶for日常任務，框架自主補模型短板

整理重點

後訓練範式革命：Post-train算力將與Pre-train持平

Chat時代後訓練只係收尾，Pre-train同Post-train算力比例可能係3:5:1（研究:預訓練:後訓練）。但Agent範式下，呢個比例急劇變化。

羅福莉判斷研究:預訓練:後訓練應該係3:1:1，即Pre-train同Post-train算力相當，而研究卡數量要超過實際訓練卡

原因係Agent範式係長程多輪、需要同真實環境交互嘅任務，模型潛力遠超Chat。後訓練週期拉長，長上下文能力成為核心變量。

佢認為將軟件開發做好，模型通用特質就已經好好，Agent框架本身都會迭代得非常好。

整理重點

MiMo V2系列：悄無聲息伏擊背後的技術押注

MiMo V2系列（Flash、Pro、Omni、TTS）發佈時冇大張旗鼓，但羅福莉話係「悄無聲息嘅伏擊」。團隊喺Agent範式未明朗時已做咗多項前置押注。

Hybrid Attention架構取代主流MLA，計算上有富餘，為MTP創造條件

Hybrid Attention：混合全局注意力同滑動窗口注意力，Pro將稀疏比提升至7:1，維持long context效率
MTP（多詞元預測）：利用計算富餘做推理加速，Flash 100-150 TPS，Pro 60-100 TPS，唔引入幻覺，仲提升基座能力
1T總參數量：Agent時代入場券，認為要接近Claude Opus 4.6水平至少1T以上
Omni+TTS：唔係多模態敍事，而係Agent行動嘅感官；TTS將音頻離散化統一入LLM架構，音頻已跑通，圖像離散化進行中

MTP唔引入幻覺，因為預測準咗先採納，而且預訓練階段加一層MTP仲能提升基座能力，係意外之財

整理重點

組織與人：冇組、冇職級，靠熱愛驅動嘅100人團隊

MiMo團隊約100人，涵蓋全鏈路，但內部冇組劃分，冇職級。羅福莉認為層級會壓制創造力，因為層級高唔代表智能更強。

預訓練嘅人做後訓練有天然優勢，因為佢哋重視多樣性，而多樣性係Agent後訓練時代最缺嘅視野

佢唔睇重經驗，只在意好奇心、熱愛同基礎能力，甚至傾向招大二大三本科生，因為佢哋思想未被禁錮，對Agent範式嘅想象力更高。

她反覆提到「羣體智能」：OpenClaw讓萬計嘅人參與框架改進，團隊管理都係創造一個令每人智慧互相蒸餾嘅環境。模型如此，團隊亦如此。

張小珺商業訪談錄 × 羅福莉 · 3.5 小時深度對話

AI 範式已然鉅變

OpenClaw、智能體框架、後訓練的新戰場，以及鉅變下的組織

羅福莉，現任小米大模型負責人。此前主導了 DeepSeek V2 的架構設計，2026 年初帶領團隊發佈 MiMo V2 系列（Flash、Pro、Omni、TTS）。外界稱她「AI 天才少女」，但她自己並不在意這個標籤 —— 她更在意的，是每一次實驗背後那條能不能 scaling 的曲線。

這次對話發生在 MiMo V2 系列發佈之後。暢聊了三個半小時，從 OpenClaw 聊到 Agent 框架的本質，從後訓練範式的劇變聊到她如何管理一支沒有組、沒有職級的研究團隊。

01 / 範式轉折點

一個春節，三天覺醒

羅福莉最初排斥 OpenClaw。在她看來，這不過是 Claude Code 套了一個更好看的 IM 界面，加上幾個「玄幻」的運營動作。直到春節，她才真正坐下來安裝它。凌晨兩點裝好，一直聊到天亮六點。

第一天，我覺得它只是產品設計上超乎想象 —— 有靈魂；第二天，我開始把生活和工作裏真實的問題交給它，發現全部做出來了；第三天，我把研究任務交給它，一兩個小時內，我覺得不可能完成的事情完成了。三天，每天都給我新的驚喜。

她用 OpenClaw 構建了一個 User Agent 用於多輪對話模擬 —— 這是後訓練 Agent 場景的核心數據來源之一。整個過程不到兩小時。她的判斷由此產生了根本性轉變：這不是一個更好的編程助手，這是一套能彌補模型短板、放大集體智慧的新框架範式。

春節假期結束，她給團隊下了一道命令：如果第二天與 OpenClaw 的對話不超過 100 輪，可以直接辭職。她笑着說，其實她從未打算考核 —— 她只是想讓大家體驗，因為「體驗本身就是最好的管理方式」。

02 / 框架的本質

Agent 框架不是產品，是人與模型之間最厚的那一層

在羅福莉看來，Agent 框架常被誤解為「產品」。但它其實是人與模型之間的一箇中間層，可以做得非常厚重：它定義瞭如何編排上下文、如何調度多模型、如何持久化記憶、如何感知時間和環境 —— 而前端 UI，反而是最薄的那層，不那麼關鍵。

OpenClaw 與 Claude Code 最大的差異，不在於界面，而在於設計哲學：

Claude Code

OpenClaw

為軟件工程而設計

為端到端完成所有任務而設計

黑盒，無法改動

開源，可自由改造

記憶系統 for 軟件工程

持久化分層記憶，面向日常任務

你要主動給模型補短板

框架自主補模型短板

她發現，把一個小到 3B 的端側模型接入 OpenClaw 後，它能完成她認為不可能是小模型能做到的事。這讓她第一次真實感受到：一套精細設計的 Agent 框架，可以彌補非常多的模型能力短板。中層模型 × 好框架 = 接近頂尖模型的體驗。

而反過來，頂尖模型（Claude Opus 4.6）在這套框架裏的價值，則是幫你把框架本身改得更好 —— 用 Opus 把 Agent 架構調優之後，再切回更便宜的 Sonnet 或國內模型，依然非常好用。模型與框架，是雙向進化的關係。

03 / 後訓練的範式革命

Post-train 的算力投入將與 Pre-train 持平

Chat 時代，後訓練只是收尾工作，Pre-train 與 Post-train 的算力比例可能是 3:5:1（研究 : 預訓練 : 後訓練）。而在 Agent 範式下，這一比例正在急劇變化。

羅福莉的算力分配判斷

研究 : 預訓練 : 後訓練

3 : 1 : 1

Pre-train 與 Post-train 應當投入相當的算力；研究卡的數量應超過實際訓練卡的總量。這在 Chat 時代是不可想象的。

原因在於：Agent 範式是一個長程、多輪、需要與真實環境交互的任務場景，模型在這個範式下能被激發出來的潛力遠超 Chat。後訓練的週期因此大幅拉長，模型在長上下文中建立的能力越來越成為核心變量。

她用一個比喻解釋 Code 能力為什麼如此關鍵：真正能達到 128K 乃至 1M 上下文長度的訓練數據，基本只有兩類 —— 代碼和書籍。書籍的信號太發散，代碼文件之間的長程依賴更密集，因此在代碼上訓練的模型，天然對長上下文建模更好。

Code 是在拉模型能力的上限；訓其他領域是在保下限。把軟件開發做好，基本上模型通用的特質就已經很好了 —— 不僅是模型本身，Agent 框架本身也會迭代得非常好。

04 / MiMo V2 系列

一次「悄無聲息的伏擊」背後的技術押注

MiMo V2 系列（Flash、Pro、Omni、TTS）在發佈時並未大張旗鼓，卻被羅福莉稱為「悄無聲息的伏擊」。在 Agent 範式還不明朗時，團隊已做出了若干前置押注：

① Hybrid Attention 架構，而非主流的 MLA

MLA（多頭潛在注意力機制）在 Chat 時代是優秀的選擇，但它將計算效率壓到極致，沒有給推理加速留下空間。MiMo 選擇了 Hybrid Attention（混合全局注意力與滑動窗口注意力），計算上有富餘 —— 這正好為 MTP 創造了條件。Pro 將稀疏比提升至 7:1，在更大參數量下維持了 long context 效率。

② MTP（多詞元預測），推理加速的關鍵

在模型訓到中後期、開始設計推理方案時，團隊發現 Hybrid 結構在計算上有大量富餘，MTP 完美填補了這個空缺。結果是 Flash 能跑到 100–150 TPS、Pro 也能達到 60–100 TPS —— 用戶普遍的第一感受是「好快」。MTP 不引入幻覺（預測準了才採納），且通過預訓練階段加一層 MTP 還能提升基座能力，中途是一筆意外之財。

③ 1T 參數量，Agent 時代的入場券

她認為，在 Agent 範式下，如果要做到接近 Claude Opus 4.6 的水平，1T 以上的總參數量是入場券。參數量加上 context 質量，共同決定智能的上限。

④ Omni + TTS：不是多模態敍事，是 Agent 行動的感官

多模態的意義不是讓模型看圖，而是讓 Agent 在執行長程任務時能夠感知更多模態的輸入。TTS 選擇了將音頻離散化、統一進 LLM 架構 —— 這是「NLP 執念」，也是一條更優雅但更難的路。目前音頻已經跑通，圖像離散化還在進行中。

05 / RL Infra 的新挑戰

Agent RL：必須容錯，必須兼容異構

訓練 Reasoning 模型（R1 範式）時，RL Infra 的核心是推理引擎本身 —— 模型思考很長、給出答案，整個流程相對可控。但在 Agent 範式下，RL Infra 要面對的是一個黑盒或白盒的 Agent 框架：Rollout 可能中途斷掉，原因五花八門 —— 超時邏輯、驗證流程過長、異構集羣的訓推不一致……

Pre-train Infra 不能容錯，出了 loss spike 就要停下來解決；但做 RL Infra，你必須允許它容錯。這對人的要求截然不同 —— 需要算法和工程之間大量的妥協，中間那個模糊地帶非常多。

她認為，真正把 Agent RL 做到 Pre-train 量級的團隊，全球範圍內非常少。Anthropic 大概率做了，其他團隊從模型效果來看，還沒有 scaling 到相同量級。這是接下來最重要的差異化戰場。

06 / 組織與人

沒有組、沒有職級，靠熱愛驅動的 100 人團隊

MiMo 團隊目前約 100 人，涵蓋數據、預訓練、後訓練、Infra、產品等全鏈路。但內部沒有組的劃分，沒有職級。她的邏輯是：

層級會壓制創造力。有了層級，就默認層級高的人智能更強 —— 這個界定在研究場景裏非常奇怪。

預訓練的人做後訓練有天然優勢。他們天然重視多樣性 —— 而多樣性正是 Agent 後訓練時代最缺的視野。

環境比經驗更重要。她不在意候選人歷史經驗的已訓練狀態，只在意他們的初始化上限 —— 好奇心、熱愛、基礎能力。具體技能，放到好的環境裏，最多三四個月就能習得。

她甚至開始傾向於招大二大三的本科生，因為他們思想沒有被禁錮，對 Agent 範式的想象力往往高於有經驗的博士。

訓 1T 模型的核心團隊，真正在這一代模型上迭代的人，其實只有二三十個。"小團隊、極致、以身示範地解決問題" —— 她認為這才是做研究最行之有效的方式。

07 / 競爭格局與未來

兩三個月追上當代 Claude，兩年內 AGI

她對中美差距的判斷：國內已有好幾傢俱備 1T 以上基座的公司（Kimi、MiMo 等），與 Claude Opus 4.6 的代差大約是兩三個月 —— 不是兩三個月後能追上當下的 Claude，而是能追上當代的 Claude。

在這個基礎上，2026 年的勝負手是：

讓 Agent 框架與模型互相自迭代提升，而非僅僅是模型接框架

將 Agent 架構與自身已有的生態資源（硬件、操作系統、流量、社交）深度耦合

願意徹底重新審視原來的生產方式 —— 哪些人不再需要、哪些壁壘已經失效

提前半年到一年做好架構和 Infra 的決策 —— 預訓練太前置，容不得後悔

關於 AGI：兩個月前她認為至少兩年以上。現在她的判斷是兩年以內。關鍵變量是「AI 訓 AI」 —— 當模型能夠自己訓練自己，到達最頂尖那羣人的智能水平，它就能創造新的研究。

它先吸收所有人的智能，然後再靠自己產生更強的智能 —— 這件事大概率在這一兩年發生。

編輯後記

在這次對話裏，羅福莉反覆提到一個詞：羣體智能。她認為 OpenClaw 的意義不僅在於它是個好框架，而在於它讓數以萬計的人蔘與到了框架的改進中 —— 這是一種類似「社會性自學習」的機制。而她管理團隊的方式，其實也在做同一件事：創造一個環境，讓每個人的智慧都能相互蒸餾。模型如此，團隊亦如此。

本文內容整理自張小珺商業訪談錄播客節目
原訪談時長約 3.5 小時，內容有刪減和重組