實測MiniMax M3：多模態跑長程，比 M2.7 強太多

作者：夕小瑤科技說

日期：2026年6月2日下午10:13

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

MiniMax M3 實測：原生多模態加 1M 上下文，長程任務完成度超出預期

整理版摘要

呢篇文章係作者對 MiniMax 最新模型 M3 嘅實測分享。M3 今次主打原生多模態（由訓練開始就一齊學文字、圖像同影片）同埋 1M 嘅超長上下文，仲有強勁嘅 Agent 能力。作者一直等緊呢個模型，因為之前官方預告咗一種新注意力機制——MiniMax Sparse Attention，令佢好期待。M3 上線之後，作者用幾個真實嘅工作任務去測試，由簡單到複雜，逐步驗證 M3 嘅能力。整體結論係：M3 唔單止做得耐，仲可以「帶住眼」做任務，即係同時理解圖片、影片，然後長時間執行複雜指令，呢個係之前 Agent 賽道未見過嘅方向。

作者先用一個簡單需求：畀一堆素材（影片、圖片、文檔），叫 M3 做一個企業官網。佢用一句話講清楚，M3 嘅 Agent（Claude Code 接入 M3）自己讀素材、寫代碼、部署，仲自動修復錯誤，16 分鐘就交貨，完全唔使中間溝通。第二個測試係跟住一個 PPT 影片教程做效果，作者直接將影片畀 M3 叫佢睇完教人，M3 唔單止將影片步驟變成文字 SOP，仲自己跟住步驟做咗一個 PPT 出嚟，最後仲將呢個流程整成一個 Skill 方便重用。

第三個測試係最勁嘅：叫 M3 由零開始復現一篇 ICLR 2025 獲獎論文嘅核心實驗，成個過程長達 12 小時，M3 自己產出 18 次代碼提交、23 張實驗圖，仲成功觀察到論文講嘅「擠壓效應」同驗證緩解方法。呢個任務需要同時理解論文嘅圖表公式、處理超…

M3 原生多模態加上 1M 上下文，Agent 可以長時間執行需要「睇」嘅任務，係 Agent 賽道新方向。
用一句話指令，M3 可以自動從影片、圖片、文檔等多種素材生成完整網站或 PPT，中間唔使反覆溝通。
M3 能夠自主連續工作 12 小時復現 ICLR 論文，證明多模態長程任務嘅完成度好高。
背後嘅 MiniMax Sparse Attention 用「少睇」策略大幅降低計算成本，長上下文先變得實用。
官方 Token Plan 中檔套餐性價比凸出，比 Claude 同 GLM 嘅類似計劃更抵用。

值得記低

Skill

PPT 影片教程轉化 Skill

M3 自動將一個 PPT 文字遮罩效果嘅影片教程，理解成圖文 SOP，再根據素材生成 PPT，最後將成個流程封裝成 Skill，方便日後重用。

整理重點

M3 發佈：原生多模態加長上下文，上手即見真章

MiniMax 尋日發佈咗 M3，支援原生多模態、1M 上下文，而且 Agent 能力好強。作者之前已經留意到官方預告嘅新注意力機制，一直等緊模型上線，今次終於可以親自實測。

整理重點

一句話需求，從影片素材直接出官網

第一個測試係幫朋友做一個企業門户網站。素材包入面有影片、圖片、文檔、代碼等，作者用一句話指令叫 M3 嘅 Agent 參考呢啲素材做一個展示頁。

1 M3 嘅 Agent（Claude Code 接入 M3）自己讀素材包，理解圖片、影片同文案，然後寫代碼、本地測試、部署。
2 中間因為服務器環境問題出咗 404 錯誤，Agent 自動查錯改路徑再上傳，完全唔使用戶插手。
3 由發出需求到收到網址，淨係用咗 16 分鐘，係一條完整嘅交付鏈，唔使反覆溝通。

整理重點

Agent 影片理解：由教程到 PPT 一氣呵成

作者之前收藏咗一個 PPT 教學影片，想學入面嘅文字遮罩效果。佢直接將影片傳畀 M3，話「睇下呢個影片，教我」。

M3 將影片嘅動作步驟逐個抽出，變成文字版 SOP，連合併形狀要先揀矩形再按 Shift 揀文字呢類細節都還原到。
作者叫 M3 直接跟住步驟做 PPT，M3 自己安裝依賴、揾素材、一步步點擊，半個鐘後就交咗一個動效好完整嘅 PPT。
作者叫 M3 將呢個流程整成 Skill，方便下次重用。呢個係原生多模態嘅自然落點：快速將無文檔、節奏快嘅影片變成可執行嘅生產資料。

整理重點

連軸 12 小時復現 ICLR 獲獎論文

最令作者驚訝嘅係 M3 嘅長程能力。官方展示咗一個極端測試：將 ICLR 2025 Outstanding Paper Award 論文《Learning Dynamics of LLM Finetuning》畀 M3，叫佢由零復現核心實驗。

M3 自己跑咗接近 12 小時，中途產出 18 次代碼提交、23 張實驗圖，成功將核心實驗跑通。
佢對上咗 SFT 階段嘅概率變化趨勢，觀察到 DPO 入面嘅擠壓效應（squeezing），仲驗證咗原論文提出嘅緩解方法。
呢個任務需要同時理解論文嘅圖表公式、處理十幾個鐘嘅上下文，持續 Coding 同除錯，係多模態＋長上下文＋Coding 疊加嘅結果。

整理重點

背後機制：MiniMax Sparse Attention 與 Token Plan 套餐

M3 做到 1M 上下文嘅關鍵係 MiniMax Sparse Attention。傳統注意力每讀一個字都要同前面所有字比較，字數翻倍計算量翻四倍。業界解決方法有兩條路：少睇或者壓縮。

1 Kimi 嘅 MoBA：將上下文切成一塊塊，每讀一句先判斷要睇邊幾塊，按塊揀。
2 DeepSeek 嘅 DSA：用輕量索引器直接揀相關 token，更精細但索引器未必準。
3 M3 嘅 MSA 都係行少睇路線，但官方話佢嘅塊分得更精準，對相關內容覆蓋更全面。

實際效果上，100 萬字上下文入面，M3 每個字嘅計算量只有上一代嘅 1/20，prefilling 快 9 倍，decoding 快 15 倍。只有成本壓低，先敢將 1M 上下文當做默認能力。

琴日，MiniMax M3推出咗，支援原生多模態、1M上下文，仲有Agent能力好強。

老實講我已經等咗佢幾日，之前MiniMax嘅工程負責人Skyler Miao喺X上面放咗一張預告圖，非常技術核心，提早預告咗一種新嘅注意力機制——MiniMax Sparse Attention，好明顯就係M3嘅預告。

技術係模型嘅基礎，但係體感唔夠直接。

直到琴日模型上線，我哋親手實測咗一輪，我先對今次M3嘅升級有咗真實體感。

今次升級，最直接嘅得兩點：原生多模態，同埋頂得順長程任務嘅能力。

啱啱好，我手頭壓住幾件一直冇時間做嘅嘢，都卡喺呢個位。由簡單到難，我哋一齊睇下M3嘅完成度。

◈一句話需求，由視頻素材直接出一個官網

第一個任務，係有個朋友想幫業務做個入口網站。

聽起嚟唔複雜，但麻煩嘅係素材有好多種格式，視頻、圖片、文件、程式碼等等。

我將幾乎原樣嘅需求send咗畀接咗M3嘅Claude Code，就一句話：

請參考呢啲素材，做一個企業官網嘅展示頁。素材包裏面嘅文字、圖片、視頻都要放喺合適嘅位置，唔好漏咗，整體風格一致要可用，靚啲。你可以喺伺服器上面揾個合適嘅位置部署展示。

佢自己讀素材包，圖片、視頻、文案都睇咗一次，然後寫程式碼、本地測試、部署。中間伺服器環境亂，部署完一直404，佢都自己查到係路徑錯咗，改完重新上傳，冇要我插手。

發完需求16分鐘，佢掉咗個網址畀我：做好咗，你睇下。

將素材準備好，需求講清楚，M3接嘅就係一條交付鏈。中間唔使反覆拗啦。

◈Agent嘅視頻理解都有得救，到PPT生成一氣呵成

之前收藏過一個PPT教學——整成同電影開場一樣嘅文字遮罩效果。

視頻得一分鐘，節奏都幾快。如果跟住做嘅話，要重複睇，一步步跟住操作步驟做，先學得識。

（視頻來源：抖音：阿欣說個P（PPT定製）2022年10月視頻）

今次我將視頻直接send咗畀MiniMax Code（M3嘅專屬Agent），只講咗一句：睇下呢個視頻，教我。

M3直接將視頻裏面嘅動作扒咗做文字版SOP，細節佢都摳咗出嚟，例如合併形狀，要揀咗矩形先、再按住Shift揀文字，順序相反效果就唔啱。

我基本上都用緊Claude Code，做到，但細節唔及呢個。

再進一步，既然教學可以直接睇得明。我心諗，如果繼續叫佢做落去呢？M3自己有寫程式碼、叫工具、操作檔案嘅能力㗎！

於是，我繼續落指令：用呢個素材包直接幫我整好PPT。

接着就係一連串猛虎操作——安裝依賴、揾素材、跟住視頻教學一步步㩒....

半個鐘之後，M3交貨啦——

睇得出，對最初嘅動態效果復刻得好完美，只係我嘅素材拖累咗佢。。

為咗累積呢種整優質PPT嘅能力，我索性就畀M3將佢整成skill，下次繼續用。

我想，呢個都係佢原生多模態比較自然嘅落點，快速將一個冇文件、節奏又快嘅視頻，變成可以繼續執行嘅生產資料。

到呢一步，我基本上有咗實感，M3可以直接理解圖片、視頻，吞落好長嘅資料同程式碼去跑任務。

◈連續12個鐘重現一篇ICLR獲獎論文

前面兩件事其實都係小嘢，真正厲害嘅係連續做十幾個鐘、中途冇人接手嘅長任務。

呢件事最近國產模型其實都在鬥。通義嘅Qwen3.7-Max、智譜GLM、Kimi，成日一口氣叫兩三百次工具唔使人管。

但係呢啲長任務幾乎大同小異，就係死磕程式碼+工具，係文字處理。

M3今次令我出乎意料嘅係，多模態+長程，即係帶住對眼跑長任務。

官方自己做咗個更狠嘅測試：將一篇ICLR 2025 Outstanding Paper Award論文 _Learning Dynamics of LLM Finetuning_掉畀M3，叫佢從頭重現。

M3自己跑咗接近12個鐘，中途產出18次提交、23張實驗圖，將核心實驗跑通咗。佢對應到SFT階段嘅概率變化趨勢，觀察到DPO裏面嘅擠壓效應（squeezing），仲驗證咗原論文畀嘅緩解方法。

呢個任務淨係識寫程式碼唔夠。論文裏面嘅曲線、公式要睇得明，十幾個鐘嘅論文、程式碼、日誌要一直裝喺上下文記憶入面。

呢啱啱就係M3嘅多模態、長上下文、coding能力疊加嘅地方。

多模態負責睇得明圖表、公式同視頻；百萬上下文負責將論文、程式碼、日誌同中間判斷一齊裝入腦；Coding/Agentic 負責持續推進任務，不斷改錯、提交、驗證。

◈M3背後係一種新嘅注意力機制

M3做到1M嘅上下文，開頭嗰張預告圖，就係核心。

一種新嘅注意力機制——MiniMax Sparse Attention。

先講清楚，長點解貴？

傳統注意力入面，模型每讀一個字，都要回頭同前面所有字逐個比較一次。讀到第100萬個字，就要比較100萬次。字數翻倍，計算量翻四倍。

如果處理到超長上下文，業界其實得兩條路：少睇，或者壓縮。

少看：唔同所有字硬比，先篩一次，只揀相關嘅計。點睇點揀，各家唔同。例如

Kimi嘅MoBA：將上下文切成一塊塊，每讀一句先判斷應該揭邊幾塊，只揭嗰幾塊，按塊揀。
DeepSeek嘅DSA：更細，唔按塊。用一個輕量級索引器喺全文直接揀相關嘅token，按token揀，但索引器估嘅未必準。

壓縮係另一條：唔揀，先將內容壓成摘要再讀。DeepSeek嘅MLA行呢條路。

M3嘅MSA都係行少睇呢條路徑。但官方話佢嘅塊分得更精準，對真正相關嘅內容覆蓋得更全面。

落到實際差別，100萬字嘅上下文入面，M3每個字嘅計算量得上一代嘅1/20，prefilling（預填充）階段加速超過9倍，decoding（解碼）階段超過15倍。

只有將「長」嘅成本壓低，先敢用100萬上下文做默認能力。

另一半係原生多模態，關鍵在於原生。

M3唔係先訓練好一個文字模型再外加睇圖模組，而係由訓練第一步開始，文字、圖文、視頻就溝埋一齊餵。

佢嘅預訓練規模做到100T量級。

當然，但原生多模態係有代價嘅。從頭就用圖文、視頻一齊訓練，成本一定比只餵文字嘅純文字模型高一截，跑起嚟食嘅記憶體同運算力都更多。

用咗可以直接睇圖睇視頻，1M上下文嘅模型，照道理推理成本係要翻幾倍。但係今次一齊更新嘅仲有Token Plan——MiniMax直接賣畀個人用戶嘅套餐。

官方畀出三款套餐，我大概計咗計，裏面第二檔MAX套餐競爭力好強，唔使120蚊嘅價錢，用量大概相當於Claude MAX 100美金套餐嘅兩倍。同GLM Coding Plan呢類國產訂閲相比，雖然計費角度唔同，M3畀出嘅中檔價格依然係最抵嘅。。

同GLM Coding Plan呢類國產訂閲相比，雖然計費角度唔同，但社區反饋喺中高強度Agent使用場景裏面，M3畀出嘅中檔價格更低、額度更闊。

綜合計落，最推薦嘅就係中檔套餐，好抵。

當然，講到尾平只係前提，M3今次真正令我意外嘅地方，係多模態長程任務嘅完成度。

Agent賽道喺長程鬥咗大半年，一直以嚟嘅指標係睇邊個唔間斷做得耐。

M3反而開咗另一個方向，唔止做得耐，係可以邊睇邊做。

昨天，MiniMax M3發佈了，支持原生多模態、1M上下文，而且Agent能力很強。

說實話我已經等它好幾天了，之前MiniMax 的工程負責人 Skyler Miao 在 X 上放了一張預告圖，非常技術內核，提前預告了一種新的注意力機制——MiniMax Sparse Attention，很明顯就是M3的預告。

技術是模型的底子，但是體感不夠直接。

直到昨天模型上線，我們上手實測了一輪，我才對這次M3的升級有了真實體感。

這次升級，最直接的就兩點：原生多模態，和扛長程任務的能力。

正好，我手頭壓着幾件一直沒空乾的活，都卡在這個點上。由簡到難，我們一起看下M3的完成度。

◈一句話需求，從視頻素材直接出一個官網

第一個活兒，是個朋友想給業務做個門户網站。

聽起來不復雜，但麻煩就在於素材有多種格式，視頻、圖片、文檔、代碼等等。

我把幾乎原樣的需求發給接了 M3 的 Claude Code，就一句話：

請參考這些素材，做一個企業官網的展示頁。素材包裏的文字、圖片、視頻都要放在合適的位置，不要遺漏，整體風格一致可用，好看點。你可以在服務器上找個合適的位置部署展示。

它自己讀素材包，圖片、視頻、文案都過了一遍，然後寫代碼、本地測試、部署。中間服務器環境髒，部署完一直404，它也自己查到是路徑錯了，改完重新傳上去，沒用我插手。

發完需求 16 分鐘，它丟給我一個網址：做好了，你看看。

把素材準備好，需求講清楚，M3接的就是一條交付鏈。中間不用反覆掰扯了。

◈Agent的視頻理解也有救了，到PPT生成一氣呵成

之前收藏過一個 PPT 教程——做成和電影開場一樣的文字遮罩效果。

視頻就一分鐘，節奏挺快。如果照着做的話，得反覆觀看，一步步照着操作步驟走，才能學會。

（視頻源：抖音：阿欣說個P（PPT定製）2022年10月視頻）

這次我把視頻直接發給 MiniMax Code（M3 的專屬 Agent），只說了一句：看下這個視頻，教我。

M3直接把視頻裏的動作扒成了文字版SOP，細節它也摳出來了，比如合併形狀，得先選矩形、再按住 Shift選文字，順序反了效果就不對。

我基本都在用Claude Code，能做，但是細節不如這個。

更進一步，既然教程都能直接看懂了。我心想，如果繼續讓它往下做呢？M3自己有寫代碼、調工具、操作文件的能力誒！

於是，我接着下達指令：用這個素材包直接幫我做好ppt。

接着就是一連串猛虎操作——安裝依賴、尋找素材、按照視頻教程一步步點擊....

半小時後，M3交付了——

看得出來，對最初的動效復刻得非常完美，只是我的素材耽誤了孩子。。

為了積累這種做優質PPT的能力，我索性就讓M3把它做成skill，下次接着用。

我想，這也是它原生多模態比較自然的落點，快速把一個沒有文檔、節奏又快的視頻，變成可以繼續執行的生產資料。

到這一步，我基本有了實感，M3可以直接理解圖片、視頻，吃下很長的資料和代碼去跑任務。

◈連軸 12 小時復現一篇 ICLR 獲獎論文

前面兩件事其實都是小活兒，真正的厲害的是連軸幹十幾個小時、中途沒人接手的長活。

這事最近國產模型其實都在拼。通義的 Qwen3.7-Max 、智譜 GLM、Kimi，動輒一口氣調兩三百次工具不用人管。

但是這些長活幾乎大同小異，就是死磕代碼+工具，是文本的處理。

M3這次讓我出乎意料的是，多模態+長程，也就是帶着眼睛跑長任務。

官方自己做了個更狠的測試：把一篇ICLR 2025 Outstanding Paper Award 論文 _Learning Dynamics of LLM Finetuning_丟給M3，讓它從零復現。

M3 自己跑了接近 12 小時，中途產出 18 次提交、23 張實驗圖，把核心實驗跑通了。它對上了 SFT階段的概率變化趨勢，觀測到了 DPO 裏的擠壓效應（squeezing），還驗證了原論文給的緩解辦法。

這活兒光會寫代碼不夠。論文裏的曲線、公式得看懂，十幾個小時的論文、代碼、日誌得一直裝在上下文記憶裏。

這恰好就是M3的多模態、長上下文、coding能力疊起來的地方。

多模態負責看懂圖表、公式和視頻；百萬上下文負責把論文、代碼、日誌和中間判斷一起裝進腦子；Coding/Agentic 負責持續推進任務，不斷修錯、提交、驗證。

◈M3背後是一種新的注意力機制

M3能做到1M的上下文，開頭那張預告圖，就是核心。

一種新的注意力機制——MiniMax Sparse Attention。

先說清楚，長為什麼貴？

傳統注意力裏，模型每讀一個字，都要回頭跟前面所有字挨個比一遍。讀到第 100萬個字，就要比 100 萬次。字數翻倍，計算量翻四倍。

如果能處理地起超長上下文，業界其實就兩條路：少看，或者壓縮。

少看：不跟所有字硬比，先篩一遍，只挑相關的算。怎麼看怎麼挑，各家不同。比如

Kimi 的 MoBA：把上下文切成一塊塊，每讀一句先判斷該翻哪幾塊，只翻那幾塊，按塊挑。
DeepSeek 的 DSA：更細，不按塊。用一個輕量索引器在全文裏直接挑相關的 token，按token挑，但是索引器估的不一定準。

壓縮是另一條：不挑，先把內容壓成摘要再讀。DeepSeek 的 MLA 走這條路。

M3 的 MSA也是走少看這個路徑。但官方說它的塊分得更精準，對真正相關的內容覆蓋得更全。

落到實際差別上，100萬字的上下文裏，M3每個字的計算量只有上一代的 1/20，prefilling（預填充）階段加速超過9倍，decoding（解碼）階段超過15倍。

只有把“長”的成本壓下來，才敢拿100萬上下文當默認能力用。

另一半是原生多模態，關鍵在原生。

M3不是先訓好一個文字模型再外掛看圖模塊，而是從訓練第一步起，文字、圖文、視頻就混在一起喂。

它的預訓練規模做到了100T量級。

當然，但原生多模態是有代價的。從頭就拿圖文、視頻一起訓，成本必然比只喂文字的純文本模型高一截，跑起來吃的內存和算力也更多。

用上能直接看圖看視頻，1M上下文的模型，按道理推理成本是要翻好幾倍。但是這次一同更新的還有Token Plan——MiniMax直接賣給個人用戶的套餐。

官方給出了三檔套餐，我大概算了算，裏面第二檔MAX套餐競爭力非常強，不到120元的價格，用量大致相當於Claude MAX 100刀套餐的兩倍。和GLM Coding Plan這類國產訂閲相比，雖然計費口徑不同，M3給出的中檔價格依舊是最划算的。

和GLM Coding Plan這類國產訂閲相比，雖然計費口徑不同，但社區反饋在中高強度 Agent 使用場景裏，M3給出的中檔價格更低、額度更寬。

綜合算下來，最推薦的就是中檔套餐，非常划算。

當然，說到底便宜只是前提，M3這次真正讓我意外的地方，是多模態長程任務的完成度。

Agent賽道卷長程捲了大半年，一直以來的指標是看誰不間斷乾的久。

M3反倒開啓了另一個方向，不只是幹得久，是能邊看邊幹。