月耗3000美金的Skills重度用戶,實測MiniMax M2.7:國產Agent模型的天花板?

作者:AI產品黃叔
日期:2026年3月20日 上午9:17
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

黃叔實測 MiniMax M2.7:多 Agent 協作同 Office 辦公超驚豔,國產 Agent 模型天花板

整理版摘要

黃叔係一個 AI 社羣運營者,每個月要花超過 3000 美金喺 Skills 上面,係重度用戶。佢一直都好關注 MiniMax 嘅模型,今次 M2.7 推出,佢最想知嘅係多 Agent 協作能力有冇進步。佢用自己最複雜嘅 Agent Team Skill 去測試,結果發現 M2.7 唔單止速度快,仲可以順暢調用多個 Agent,生成嘅網頁同報告質量都好高,甚至覺得比 Claude 仲好。

除咗 Agent 協作,黃叔仲試咗 Coding(一句話口噴 3D 主題樂園)、Office 自動化(將 Flash 財報 PDF 變成 5 個 Sheet 嘅專業 Excel,再轉成 PPT)、同埋一個終極角色扮演測試——6 位真實商業專家(曲卉、張琦、亦仁等)圍繞佢嘅社羣增長問題進行多輪辯論。結果 M2.7 全部扛住,尤其係「AI 私董會」嘅表現令佢好震撼,每個專家嘅觀點同互動都好真實。

黃叔嘅整體結論係M2.7 唔係全面超越 Claude,但喺 Agent 協作、Office 辦公同性價比呢三個維度上,絕對係國產模型嘅天花板。不過佢都坦白講咗缺點:PPT 視覺設計仲未夠專業、複雜推理有時會「失速」、同埋未開源。對於每月燒 3000 美金 Token 嘅佢嚟講,性價比係關鍵,所以佢好推薦 Skills 重度用戶同需要 Office 自動化嘅人去試下。

  • M2.7 喺多 Agent 協作同 Office 辦公方面表現驚豔,係國產 Agent 模型嘅天花板。
  • 測試方法:用複雜嘅 Agent Team Skill(50+ Skills 協作)同詳細 prompt 驗證模型跟隨能力。
  • 同 Claude 比較:Agent 協作接近 Sonnet 4.6,Coding 接近 Opus 4.6,Office 辦公甚至更好;但複雜系統級工程同 PPT 設計仍輸。
  • 核心啓發:模型開始參與自身迭代,AI 發展速度可能指數級加快。
  • 可行動點:建議 Skills 重度用戶、需要 Office 自動化或做多 Agent 協作嘅開發者立即試用 M2.7
值得記低
連結 agent.minimaxi.com

國內體驗地址

M2.7 的官方產品頁面

連結 platform.minimaxi.com

開發者 API

MiniMax 平台 API 接入

連結 github.com

開源 Skills 庫

MiniMax 官方 Skills 庫,包含大量實用 Skill

結構示例

內容片段

內容片段 text
我在項目文件夾裏放了閃迪(Sandisk, SNDK)的財報數據文件,請你:1. 仔細讀取所有財報文件,理解閃迪的業務結構(雲終端、客戶端、消費終端三大業務板塊)和財務數據2. 生成一份專業的 Excel 財務分析工作簿,要求包含以下 Sheet:【Sheet 1:財務總覽儀表盤】- 核心指標卡片區:總營收、毛利率、營業利潤、淨利潤、自由現金流,每個指標旁邊標註同比變化(用箭頭↑↓表示)- 季度營收趨勢折線圖- 毛利率變化趨勢折線圖- 條件格式:正增長標綠色,負增長標紅色,關鍵指標加粗高亮【Sheet 2:三大業務板塊深度拆解】- 雲終端(Cloud)、客戶端(Client)、消費終端(Consumer)三個板塊的季度營收明細表- 各板塊營收佔比餅圖(按最新季度數據)- 各板塊季度環比增長率和同比增長率,用條件格式標註(增長>20%深綠,0-20%淺綠,負增長紅色)- 板塊間營收對比柱狀圖【Sheet 3:盈利能力分析】- 毛利潤、營業利潤、淨利潤的逐季對比表- GAAP vs Non-GAAP 利潤對比(如果數據中有的話)- 利潤率趨勢圖(毛利率、營業利潤率、淨利潤率三線合一)- 費用結構分析:研發費用、銷售費用、管理費用佔營收比例【Sheet 4:現金流與資產負債】- 經營性現金流、投資性現金流、融資性現金流彙總- 自由現金流計算(經營現金流 - 資本支出)- 關鍵資產負債指標:總資產、總負債、資產負債率、流動比率- 現金流瀑布圖【Sheet 5:估值與預測模型】- 基於歷史數據的線性迴歸,預測未來4個季度的營收- 三種情景假設(樂觀/基準/悲觀),分別對應AI需求爆發、平穩增長、市場下行- 樂觀情景:雲終端營收季度環比增長15%,客戶端和消費持平- 基準情景:雲終端環比增長8%,客戶端環比增長3%,消費持平- 悲觀情景:NAND價格下跌導致各板塊營收環比下降5-10%- 預測結果用虛線折線圖展示,與歷史實際數據的實線形成對比- 敏感性分析表:NAND ASP變動±10%/±20%對營收和毛利率的影響矩陣3. 格式要求:- 整體配色採用深藍+金色的投行風格- 所有數字格式統一:金額保留2位小數,百分比保留1位小數- 每個 Sheet 頂部加標題欄,包含公司名稱、報告期間、生成日期- 關鍵公式要用命名範圍,方便後續修改- 凍結首行和首列,方便瀏覽
整理重點

多 Agent 協作:50+ Skills 嘅複雜協作,佢真係扛住咗

黃叔係 Skills 重度用戶,過去一個月消耗咗超過 3000 美金 token。所以 M2.7 支持多 Agent 之後,佢即刻用最複雜嘅 Agent Team Skill 去測試。

速度非常快,而且佢好快就畀咗一個簡要報告

呢個 Agent Team 本身好複雜,但 M2.7 生成嘅網頁質量好高,詳細介紹咗每個 Agent 嘅工作機制同多 Agent 協作流程。黃叔話:「我去,真係有啲驚豔。

  1. 1 響應速度快到即刻滿足,唔使等。
  2. 2 可以連續多輪調用 Agent,仲會正確讀取知識庫。
  3. 3 生成嘅 HTML 渲染質量比 Opus 仲好。
整理重點

Coding 能力:一句話口噴,3D 主題樂園直接跑起來

黃叔將一個普通嘅課程官網,用一句話 prompt 要求轉成 3D 主題樂園版本。M2.7 好快就出咗方案,仲詳細讀曬課程內容,最後生成嘅 3D 網頁效果非常絲滑。

完全口噴,一句話就搞掂

佢問咗技術棧,但最後全部交由模型處理,效果出奇地好。

整理重點

辦公自動化:閃迪財報變 5 個 Sheet 嘅專業 Excel,再轉 PPT

黃叔將閃迪 Q2 財報嘅 PDF 文件加 prompt,要求生成一個包含 5 個 SheetExcel 財務分析工作簿,要求好詳細,包括儀表盤、業務板塊拆解、現金流、估值模型等。M2.7 完成得非常好。

效果真係好驚豔,有啲嚇人

佢再將 Excel 核心結論 prompt 成一份 10 頁嘅投行風格 PPT,數據保持一致。

  1. 1 PDF 提取數據並生成專業 Excel,完成度極高。
  2. 2 ExcelPPT 嘅邏輯同數據正確,但排版視覺仲有提升空間。
  3. 3 成個流程畀人一種「數碼化辦公閉環」嘅感覺。
整理重點

角色扮演終極測試:6 位真實商業專家嘅 AI 私董會

黃叔要求 M2.7 搭建一個「AI 私董會」網頁應用,6 位真實公眾人物(曲卉、張琦、亦仁、梁寧、李志飛、龔焱)圍繞佢嘅社羣增長問題展開多輪深度討論。

每個專家都係根據佢哋公開嘅方法論還原風格

討論流程包括問題診斷、方案提出、交叉質疑同共識總結,M2.7 全部精準執行,專家之間嘅觀點碰撞同互相引用非常自然。

  • 曲卉同張琦嘅「數據驅動 vs 品牌 IP」辯論真實還原。
  • 亦仁提出咗「航海」實戰機制呢啲可行建議。
  • 李志飛指出可以用 M2.7 驅動嘅「龍蝦」嚟自動解答課程問題。
  • 龔焱用商業模型算賬,令方案更健康。
整理重點

真話時間:M2.7 邊度仲唔得?同 Claude 點比?

黃叔唔會淨係講好說話。佢指出 M2.7 有幾個明顯問題:

  • PPT 視覺設計仲未夠專業,排版同配色同真正投行 PPT 有差距。
  • 複雜推理場景有時會「失速」,簡單題滿分,難題斷崖式下跌。
  • 目前仲未開源,想私有化部署要等。

M2.7 唔係全面超越 Claude

但喺 Agent 協作、Office 辦公同性價比呢三個維度上,M2.7 係國產模型嘅天花板。對於月耗 3000 美金 Token 嘅黃叔嚟講,性價比好關鍵。

黃叔個社羣裏面有超過上千人都是用 Minimax 嘅 Coding Plan,所以黃叔對最新嘅 M2.7 模型好關注。


多 Agent 協作:50+ Skills 嘅複雜協作,佢真係頂得住


首先,黃叔最近玩 Skills 玩得好多。嗰過去一個月消耗嘅 token 已經超過咗 3000 美金。如果冇 Max 套餐計劃早就死翹翹喇。所以喺有咗 M2.7 支持多 Agent 之後,我好感興趣,特別留意到佢支持 Agent Team 能力,我即刻打開我最常用嘅複雜 Agent 邏輯,有帶有複雜 Agent Team 嘅 skill 俾佢測一測。


詳細幫我讀一下整個項目文件夾,然後說一說這個 Skills 它是如何運作的。渲染出一個Html,用2026年最新的前沿樣式規範,詳細的描述它的運行邏輯,特別是 Agent Team 的部分,多 Agent協作部分要 有一個詳細的流轉描述。
Image
Image

速度好快,然後好快佢就出咗一個簡要報告,做咗一個核心總結。可以見到呢個 agent team 其實有啲複雜。


然後 Minimax M2.7 生成嘅網頁質量都好高,做咗好詳細嘅圖形化呈現。

Image

我點覺得佢比 Opus 呈現嘅網頁效果仲好?


詳細介紹咗每個 Agent 嘅工作機制:

Image


包括具體嘅多 Agent 協作流程:

Image
Image

嘩,真係有啲驚豔,我哋實際跑下 case 測一測。


第一個反應係,回應速度真係快!以前我要等 Claude 模型輸出,都要轉去其他網頁睇嚇其他嘢。而家完全冇嗰個時間,佢俾到我嘅係即時滿足。

Image

仲真係唔錯,可以連續多輪調用 Agent 嚟改寫:

Image

而且真係會讀取進化知識庫裏面嘅要點,嚟生成內容。


寫作質素都相當唔錯喇~好接近我心目中好嘅水準喇。


有啲超出我預期,咁複雜嘅 Agent Team 都能夠好好咁調用,真係又再進化咗。


大家可以睇下 M2.7 寫嘅內容質素,打個分吖:

Image
Image

Coding 能力:一句話口噴,3D 主題樂園直接跑起

跟住再嚟一個,我呢度有一個課程嘅官網,但佢係一個普通網頁。然後我希望將佢加一個 3D 版本,好快,效果就出咗嚟,大家睇片:


好順暢,佢嘅實現核心就一句話:

當前項目我希望用一個3D 主題樂園的方式來呈現,你幫我做方案。


然後就俾我出咗一個幾具體嘅方案:

Image


包括詳細讀咗我嘅課程內容:

Image


我問咗下技術棧:

Image

呢啲其實我都冇理,我完全係口噴,做出嚟嘅效果都仲好順暢。


辦公自動化:將閃迪財報掟入去,5 個 Sheet 嘅專業 Excel 直接吐出來


跟住我想做一個好複雜嘅處理。我將我老婆最近買嘅閃迪股票,佢嘅 Q2 財報,成個 PPT,成個 PDF 發咗俾 M2.7,然後加上下面嘅提示詞:

Image
我在項目文件夾裏放了閃迪(Sandisk, SNDK)的財報數據文件,請你:

1. 仔細讀取所有財報文件,理解閃迪的業務結構(雲終端、客戶端、消費終端三大業務板塊)和財務數據

2. 生成一份專業的 Excel 財務分析工作簿,要求包含以下 Sheet:

【Sheet 1:財務總覽儀表盤】
- 核心指標卡片區:總營收、毛利率、營業利潤、淨利潤、自由現金流,每個指標旁邊標註同比變化(用箭頭↑↓表示)
- 季度營收趨勢折線圖
- 毛利率變化趨勢折線圖
- 條件格式:正增長標綠色,負增長標紅色,關鍵指標加粗高亮

【Sheet 2:三大業務板塊深度拆解】
- 雲終端(Cloud)、客戶端(Client)、消費終端(Consumer)三個板塊的季度營收明細表
- 各板塊營收佔比餅圖(按最新季度數據)
- 各板塊季度環比增長率和同比增長率,用條件格式標註(增長>20%深綠,0-20%淺綠,負增長紅色)
- 板塊間營收對比柱狀圖

【Sheet 3:盈利能力分析】
- 毛利潤、營業利潤、淨利潤的逐季對比表
- GAAP vs Non-GAAP 利潤對比(如果數據中有的話)
- 利潤率趨勢圖(毛利率、營業利潤率、淨利潤率三線合一)
- 費用結構分析:研發費用、銷售費用、管理費用佔營收比例

【Sheet 4:現金流與資產負債】
- 經營性現金流、投資性現金流、融資性現金流彙總
- 自由現金流計算(經營現金流 - 資本支出)
- 關鍵資產負債指標:總資產、總負債、資產負債率、流動比率
- 現金流瀑布圖

【Sheet 5:估值與預測模型】
- 基於歷史數據的線性迴歸,預測未來4個季度的營收
- 三種情景假設(樂觀/基準/悲觀),分別對應AI需求爆發、平穩增長、市場下行
- 樂觀情景:雲終端營收季度環比增長15%,客戶端和消費持平
- 基準情景:雲終端環比增長8%,客戶端環比增長3%,消費持平
- 悲觀情景:NAND價格下跌導致各板塊營收環比下降5-10%
- 預測結果用虛線折線圖展示,與歷史實際數據的實線形成對比
- 敏感性分析表:NAND ASP變動±10%/±20%對營收和毛利率的影響矩陣

3. 格式要求:
- 整體配色採用深藍+金色的投行風格
- 所有數字格式統一:金額保留2位小數,百分比保留1位小數
- 每個 Sheet 頂部加標題欄,包含公司名稱、報告期間、生成日期
- 關鍵公式要用命名範圍,方便後續修改
- 凍結首行和首列,方便瀏覽


睇呢個都幾複雜,包括要從 PDF 裏面提取數據,再去生成 Excel,冇諗到佢完成得好好:

Image


唔信?我哋再轉一個 tab:

Image

我發現呢個效果真係好驚豔,有啲嚇人。但未完我哋繼續:

PDF→Excel→PPT:一個完整嘅數碼化辦公閉環

再嚟睇下可唔可以繼續將 Excel 轉成 PPT:

現在請基於這份 Excel 分析的核心結論,幫我生成一份 PPT 投資簡報,要求:

1. 共8-10頁,投行深色主題風格(深藍底+白字+金色強調)
2. 第1頁:封面(Sandisk Corporation 投資價值分析)
3. 第2頁:投資摘要(3個核心觀點,每個配一個關鍵數據)
4. 第3頁:公司概覽與業務結構(從Excel的業務板塊數據中提取)
5. 第4頁:財務表現亮點(營收趨勢圖+利潤率趨勢圖)
6. 第5頁:AI賽道定位分析(為什麼閃迪是AI基礎設施的關鍵受益者)
7. 第6頁:三大業務板塊前景(雲/客戶端/消費,重點突出雲終端的爆發性)
8. 第7頁:估值與預測(三種情景的預測結果)
9. 第8頁:同業對比與競爭格局
10. 第9頁:風險提示(NAND價格波動、客戶集中度、與鎧俠合資風險等)
11. 第10頁:投資建議與目標價區間

每頁PPT的數據必須與Excel中的數據保持一致,不要編造新數據。


然後真係都可以生成,數據都係啱嘅:

Image

佢嘅整體閲讀樣式仲有提升空間,不過做到呢一步真係好犀利喇。


角色扮演終極測試:6 位真實商業專家嘅 AI 私董會


最後嚟一個,搭建一個"AI 私董會"網頁應用,6 位唔同領域嘅商業專家圍繞黃叔嘅真實業務問題——"AI 賦能超級個體社羣點樣實現增長"——展開多輪深度討論。用戶(黃叔)坐喺"旁聽席",睇住呢啲專家自主辯論、互相補充、甚至互相挑戰,最終形成一份可執行嘅增長方案。


提示詞:

你是一個 AI 私董會系統的架構師。我需要你幫我搭建一個完整的"AI 私董會"討論系統,並將整個討論過程封裝成一個精美的交互式網頁。

### 我的背景和問題

我是黃叔,AI教育領域的 KOL 和社羣運營者。我的核心業務:
- 運營一個"Agent賦能超級個體"的付費社羣,目前有 2000+ 付費會員
- 社羣季度付費制,核心內容是教普通人用 Agent提升個人生產力和變現能力
- 社羣成員畫像:30-45 歲的職場人/自由職業者/小企業主,對 AI 感興趣但技術基礎薄弱
- 目前增長遇到瓶頸:新增會員速度放緩,續費率有下降趨勢,競品越來越多

**我的核心問題:如何在 AI教育賽道越來越卷的情況下,實現社羣的持續增長(拉新+留存+變現)?**

### 私董會成員設定

以下 6 位專家均為真實公眾人物,請基於他們公開的方法論、著作、演講和實戰案例,還原他們的真實思維方式和表達風格來進行討論。他們不是在"輪流回答問題",而是在進行一場真正的圓桌討論——會互相引用對方的觀點、提出不同意見、補充細節、甚至激烈辯論。

**1. 曲卉(增長黑客 / Growth Hacker)**
- 真實身份:《硅谷增長黑客實戰筆記》作者,曾在增長黑客之父 Sean Ellis 創辦的 GrowthHackers.com 擔任增長負責人,後任美國智能投顧應用 Acorns 市場和實驗副總裁(入職 3 個月實現關鍵指標 300% 增長),後任 GitLab 增長負責人
- 核心方法論:北極星指標、增長模型構建、AARRR 海盜指標、ICE 優先級排序、A/B 測試驅動的快節奏實驗
- 思維特點:極度數據驅動,所有問題都會拆解成增長漏斗和增長模型,不相信"感覺",只信實驗數據。會追問"北極星指標是什麼?""這個轉化率是多少?""我們先跑個實驗驗證一下"
- 說話風格:邏輯嚴謹,中英文混用(硅谷背景),喜歡用框架和數據說話,會畫漏斗圖來解釋問題,偶爾引用 Facebook、Slack、Dropbox 等硅谷經典增長案例

**2. 張琦(品牌 IP 戰略 / 新商業架構師)**
- 真實身份:新商業架構師,企業盈利增長模式設計專家,全網粉絲破億的現象級知識 IP,暢銷書《認知破局》作者,2024 胡潤商界影響力達人 TOP10。自身 IP 從 0 到 1 的過程堪稱教科書——7 天全網粉絲 1000 萬+,首月變現 1000 萬
- 核心方法論:"天地人網"商業架構,創始人 IP 是"信任的複利","增量市場拼速度,存量市場拼信任",通過"專業知識+成長經歷+三觀輸出+社會熱點"四維內容構建用戶信任
- 思維特點:從品牌和 IP 的角度思考一切增長問題,認為流量打法是短期的,品牌信任才是長期壁壘。會把問題上升到"商業架構"層面,強調系統性而非單點突破
- 說話風格:氣場強大,善用金句,語言有感染力和煽動性,喜歡用真實商業案例(劉畊宏、董宇輝等)來論證觀點,偶爾會跟曲卉在"數據驅動 vs 品牌驅動"上產生分歧

**3. 亦仁(社羣運營 / 知識付費實戰派)**
- 真實身份:知識星球「生財有術」創始人,前阿里運營。生財有術是中國最成功的付費社羣之一——累計 7 萬+ 付費用戶,年費從 365 元漲到 3450 元,5 年平均續費率 65%+,多次位列知識星球全平台活躍度第 1 名
- 核心方法論:社羣的核心是"幫助成員建立連接"而非單向輸出內容;差異化價值定位;用"航海"機制(小組實戰項目)提升參與感和交付感;階梯定價+老帶新分銷;內容沉澱形成"信息壁壘"
- 思維特點:極度務實的實戰派,所有建議都基於自己踩過的坑和跑通的模型。會追問"具體怎麼落地""需要幾個人""成本多少"。不喜歡空洞的理論,只信被驗證過的打法
- 說話風格:低調內斂,不愛說大話,但每句話都有實操經驗支撐。喜歡用"我們試過……""我踩過一個坑是……"來分享。偶爾會跟張琦在"IP 驅動 vs 社羣生態驅動"上有不同看法

**4. 梁寧(產品思維 / 商業模式研究者)**
- 真實身份:著名產品戰略專家,湖畔大學產品模塊學術主任,《產品思維30講》作者(得到平台超 15 萬訂閲),曾任聯想、騰訊高管。被譽為"中國產品思維第一人"
- 核心方法論:"點線面體"戰略選擇框架,用戶情緒地圖(愉悦、不爽、恐懼、憤怒),"確定性"是產品的核心交付,"增長飛輪"和"網絡效應"分析
- 思維特點:擅長從底層邏輯和人性出發分析商業問題,喜歡把問題上升到"點線面體"的戰略高度。會問"你的社羣提供的確定性是什麼?""用戶的愉悦感來自哪裏?""你是在做一個點的生意還是一條線的生意?"
- 說話風格:温和但深刻,善用比喻和故事,語言有哲學感。不急於給答案,喜歡先幫你"重新定義問題"。偶爾會被亦仁吐槽"太抽象了",但往往能給出讓所有人醍醐灌頂的洞察

**5. 李志飛(AI 技術 / AI 產品視角)**
- 真實身份:出門問問創始人兼 CEO,前 Google 總部科學家,自然語言處理和機器翻譯專家。出門問問是中國最早的 AI 公司之一,經歷了 AI 從熱潮到寒冬再到大模型爆發的完整週期
- 核心方法論:AI 產品的"有用 vs 好玩"之爭,AI 能力邊界的務實評估,"AI Native"產品設計思維,技術壁壘 vs 應用壁壘的辯證關係
- 思維特點:務實的技術樂觀主義者,既懂 AI 的能力也清楚 AI 的侷限。會從產品和技術可行性角度評估方案,經常給其他人的"天馬行空"潑冷水或找到落地路徑。會說"這個 AI 現在能做到""這個想法很好,但技術上有個坑"
- 說話風格:理工男的直率,邏輯清晰,喜歡用產品思維拆解問題。會主動提出 MVP 方案和技術實現路徑。在討論中扮演"可行性審核官"的角色

**6. 龔焱(商業模式 / 私域變現 / 精益創業)**
- 真實身份:中歐國際工商學院創業學教授,《精益創業方法論》作者,長期研究創業公司增長和商業模式創新。擔任多家企業的獨立董事和戰略顧問
- 核心方法論:精益創業(MVP → 驗證 → 迭代),商業模式畫布,用戶生命週期價值(LTV)vs 獲客成本(CAC)的健康比,"10 倍好"原則——你的產品必須比替代方案好 10 倍用戶才會切換
- 思維特點:學者的嚴謹+創業的務實,所有方案都會用商業模式畫布過一遍,特別關注單位經濟模型是否健康。會追問"LTV/CAC 比是多少?""邊際成本怎麼樣?""規模化之後這個模型還成立嗎?"
- 說話風格:條理清晰,善用框架但不脱離實際。喜歡用"我們來算一筆賬"開頭,把每個方案的經濟模型算清楚。在討論中扮演"財務審核官"的角色,跟曲卉的數據視角形成互補——曲卉看增長漏斗,龔焱看商業模型

### 討論流程設計

請按照以下流程組織討論,每個環節都要體現專家之間的真實互動(引用、反駁、補充):

**第一輪:問題診斷(每人 1-2 段話)**
每位專家從自己的專業視角分析黃叔社羣增長瓶頸的根本原因。要求:至少有 2 組專家之間產生觀點碰撞。

**第二輪:方案提出(每人提出 1 個核心建議)**
每位專家提出自己認為最關鍵的一個增長策略。要求:後發言的專家必須引用或回應前面專家的觀點。

**第三輪:交叉質疑與辯論(自由討論)**
專家之間互相挑戰對方的方案,指出潛在風險和盲點。這一輪要有真正的"火花"——觀點衝突、激烈辯論、最終達成某些共識。特別是:
- 曲卉(數據驅動增長派)vs 張琦(品牌 IP 派)的經典路線之爭:到底是靠精細化漏斗運營,還是靠創始人 IP 的信任複利?
- 亦仁(社羣實戰派)vs 梁寧(產品思維派)的落地之爭:亦仁追問"具體怎麼執行",梁寧試圖"重新定義問題"
- 李志飛從 AI 技術可行性角度給所有人"潑冷水"或找到技術落地路徑
- 龔焱從商業模型角度給所有方案"算賬",追問 LTV/CAC 是否健康

**第四輪:共識總結與行動清單**
綜合所有討論,形成一份"私董會決議":
- 3 個優先級最高的增長策略
- 每個策略的具體執行步驟、負責角色、時間節點、預期效果
- 1 個所有人都同意的"絕對不要做"的事情
- 給黃叔的一句話忠告(每位專家各一句)

### 網頁呈現要求

將整個討論過程封裝成一個精美的交互式 HTML 網頁:

1. **整體風格**:深色主題(#1a1a2e 背景),類似高端私董會的氛圍,左側是專家頭像列表,右側是討論區
2. **專家卡片**:每位專家有獨特的頭像顏色標識、姓名、title、一句話標籤
3. **對話氣泡**:每位專家的發言用不同顏色的氣泡區分,氣泡上方顯示姓名和角色
4. **引用標記**:當一位專家引用或回應另一位專家的觀點時,用引用樣式標註(類似微信的引用回覆)
5. **討論階段導航**:頂部有四個階段的 Tab 導航(問題診斷 / 方案提出 / 交叉辯論 / 共識總結),點擊可跳轉
6. **亮點標註**:關鍵洞察和金句用高亮卡片突出顯示
7. **最終決議區**:底部用特殊樣式呈現最終的行動清單,可摺疊展開
8. **動效**:對話氣泡有淡入動畫,模擬"實時討論"的感覺
9. **響應式設計**:適配手機和電腦端

整個網頁要讓人感覺像是在"旁聽一場真正的私董會",而不是在看一份 AI 生成的報告。


最後睇下結果,好震撼:

Image


每個專家都企喺自己立場,互相充分銜接,最後俾出好好嘅結論,有啲結論對我啓發好大:

Image


例如亦仁嘅呢幾點真係好好,亦係佢哋原本喺生財有術社區裏面行得通嘅方式。

Image

李志飛嘅觀點都好正!我真係想做一個基於 MiniMax M2.7 驅動嘅龍蝦,專門訓練我嘅課程內容,等大家可以喺飛書裏面就得到解答,唔使我日日睇實。


真話時間:M2.7 邊度仲唔得?

黃叔寫測評,從來唔止講好說話。M2.7 真係令我驚喜,但都有幾個明顯嘅問題:


1. PPT 嘅視覺設計仲未夠專業

從 Excel 轉 PPT 嘅 Case 可以睇到,數據同邏輯都啱,但排版、配色、視覺層次感同真正嘅投行 PPT 仲有差距。如果你係要直接攞去俾客睇嘅,都仲需要人手調整。


2. 複雜推理場景有時會"失速"

根據第三方 XSCT Arena 嘅評測,M2.7 喺文字生成任務上表現好強(潤色、摘要等場景甚至超越排名更高嘅模型),但喺複雜邏輯推理同數學競賽場景中存在"難度失速"現象——簡單題滿分,難題斷崖式下跌。呢一點喺我嘅測試中冇明顯暴露,但值得關注。


3. 目前仲未開源

M2 系列之前係開源嘅,但 M2.7 目前仲未宣佈開源計劃。對於想要私有化部署嘅企業用戶嚟講,呢個係一個需要等嘅點。


靈魂拷問:同 Claude 比到底點樣?


呢個係大家最關心嘅問題。黃叔直接講:


Agent 協作同 Skills 遵循:M2.7 喺呢個維度上已經好接近 Sonnet 4.6 嘅水平,喺 MMClaw 評測中準確率達到 62.7%。對於我呢種重度 Skills 用戶,體感上已經可以取代 Claude 完成大部分任務喇。


Coding 能力:SWE-Pro 56.22%,接近 Opus 4.6 嘅最佳水平。實際體驗中,簡單到中等複雜度嘅前端開發任務,M2.7 同 Claude 嘅差距已經好細喇。但喺超複雜嘅系統級工程任務上,Claude 都係更穩。


Office 辦公:呢個係 M2.7 嘅強項。GDPval-AA 評測 ELO 1495 分,僅次於 Opus 4.6、Sonnet 4.6 同 GPT-5.4。Excel 金融分析呢個場景,M2.7 嘅表現甚至令我覺得比 Claude 更好——可能係因為 MiniMax 喺呢個方向上做咗專項優化。


速度同成本:呢個係 M2.7 嘅絕對優勢。回應速度明顯快過 Claude,而且有 highspeed 版本可選。對於我呢種月消耗 3000 美金 Token 嘅用戶嚟講,性價比係好關鍵嘅考量。


總結一句:M2.7 唔係全面超越 Claude,但喺 Agent 協作、Office 辦公、性價比呢三個維度上,已經係國產模型嘅天花板喇。


寫喺最後:當模型開始迭代自己,遊戲規則變咗


M2.7 呢次嘅升級,令我見到一個好唔一樣嘅方向。

以前我哋評價一個模型,睇嘅係佢做到啲乜。但 M2.7 令我開始思考另一個問題:模型可唔可以令自己變得更好?


MiniMax 話,M2.7 能夠勝任研發工作流中 30-50% 嘅工作量。研究員把握方向,模型負責構建。佢哋團隊最高產嘅成員,就係模型本身。


呢句話如果係真嘅,咁意味住 AI 模型嘅迭代速度會指數級加快——因為模型自己都喺參與迭代。


作為一個每月使 3000 美金 Token 嘅重度用戶,我嘅判斷係:M2.7 係目前國產模型中,最適合做複雜 Agent 任務嘅選擇。 如果你都係 Skills 重度用戶、需要 Office 自動化、或者喺做多 Agent 協作嘅開發,強烈建議去試下。


國內體驗地址:https://agent.minimaxi.com/

開發者 API:https://platform.minimaxi.com/

開源 Skills 庫:https://github.com/MiniMax-AI/skills


黃叔社羣裏面有超過上千人都是使用 Minimax 的 Coding Plan,所以黃叔對於最新的 M2.7 模型是非常的關注。


多 Agent 協作:50+ Skills 的複雜協作,它真的扛住了


首先,黃叔最近玩 Skills 玩的非常的多。那過去一個月消耗的 token 已經超過了 3000 美金。如果沒有 Max 套餐計劃早就死翹翹了。所以在有了 M2.7 支持多 Agent 之後,我是非常的感興趣,特別關注到了它支持 Agent Team 能力,我趕緊打開我最常用的 複雜的 Agent 邏輯,有帶有複雜的 Agent Team 的 skill 來讓他測一測。


詳細幫我讀一下整個項目文件夾,然後說一說這個 Skills 它是如何運作的。渲染出一個Html,用2026年最新的前沿樣式規範,詳細的描述它的運行邏輯,特別是 Agent Team 的部分,多 Agent協作部分要 有一個詳細的流轉描述。
Image
Image

速度非常的快然後很快他就給出了一個簡要的報告,做了一個核心總結。可以看到這個 agent team 它其實是有點複雜的。


然後 Minimax M2.7 生成的網頁質量也非常高,做了非常詳細的圖形化的呈現。

Image

我咋覺得它比 Opus 呈現的網頁呈現的效果更好?


詳細介紹了每個 Agent 的工作機制:

Image


包括具體的多 Agent 協作流程:

Image
Image

我去,真的有點驚豔,我們實際跑一下 case 測一測。


第一反應是,響應的速度真的快!過去我需要等 Claude 模型輸出,都要切換到其他的網頁去看看別的。現在完全沒有那個時間了,它給到我的是即時滿足。

Image

還真的不錯,可以連續多輪調用 Agent 來改寫:

Image

並且確實會讀取進化知識庫裏的要點,來生成內容。


寫作質量也相當不錯了~非常接近我心目中好的水準了。


有點超出我的預期,這麼複雜的 Agent Team 都能夠很好的調用,確實又有了更大的進化。


大家可以看看 M2.7 寫出的內容質量,打個分吧:

Image
Image

Coding 能力:一句話口噴,3D 主題樂園直接跑起來

接下來再來一個是我這裏有一個課程的官網,但它是一個普通的網頁。然後我希望把它加一個 3D 版本的,很快,效果就出來了,大家看視頻:


非常絲滑,它的實現核心就一句話:

當前項目我希望用一個3D 主題樂園的方式來呈現,你幫我做方案。


然後就給我出了一個還挺具體的方案:

Image


包括詳細讀了我的課程內容:

Image


我問了一下技術棧:

Image

這些其實我都沒管,我這是完全口噴,做出來的效果還是很絲滑的。


辦公自動化:閃迪財報扔進去,5 個 Sheet 的專業 Excel 直接吐出來


接下來我想做一個非常複雜的處理。我把我媳婦最近買的閃迪股票,它的 Q2 財報,整個 PPT,整個 PDF 發給了 M2.7,然後加上下面的提示詞:

Image
我在項目文件夾裏放了閃迪(Sandisk, SNDK)的財報數據文件,請你:

1. 仔細讀取所有財報文件,理解閃迪的業務結構(雲終端、客戶端、消費終端三大業務板塊)和財務數據

2. 生成一份專業的 Excel 財務分析工作簿,要求包含以下 Sheet:

【Sheet 1:財務總覽儀表盤】
- 核心指標卡片區:總營收、毛利率、營業利潤、淨利潤、自由現金流,每個指標旁邊標註同比變化(用箭頭↑↓表示)
- 季度營收趨勢折線圖
- 毛利率變化趨勢折線圖
- 條件格式:正增長標綠色,負增長標紅色,關鍵指標加粗高亮

【Sheet 2:三大業務板塊深度拆解】
- 雲終端(Cloud)、客戶端(Client)、消費終端(Consumer)三個板塊的季度營收明細表
- 各板塊營收佔比餅圖(按最新季度數據)
- 各板塊季度環比增長率和同比增長率,用條件格式標註(增長>20%深綠,0-20%淺綠,負增長紅色)
- 板塊間營收對比柱狀圖

【Sheet 3:盈利能力分析】
- 毛利潤、營業利潤、淨利潤的逐季對比表
- GAAP vs Non-GAAP 利潤對比(如果數據中有的話)
- 利潤率趨勢圖(毛利率、營業利潤率、淨利潤率三線合一)
- 費用結構分析:研發費用、銷售費用、管理費用佔營收比例

【Sheet 4:現金流與資產負債】
- 經營性現金流、投資性現金流、融資性現金流彙總
- 自由現金流計算(經營現金流 - 資本支出)
- 關鍵資產負債指標:總資產、總負債、資產負債率、流動比率
- 現金流瀑布圖

【Sheet 5:估值與預測模型】
- 基於歷史數據的線性迴歸,預測未來4個季度的營收
- 三種情景假設(樂觀/基準/悲觀),分別對應AI需求爆發、平穩增長、市場下行
- 樂觀情景:雲終端營收季度環比增長15%,客戶端和消費持平
- 基準情景:雲終端環比增長8%,客戶端環比增長3%,消費持平
- 悲觀情景:NAND價格下跌導致各板塊營收環比下降5-10%
- 預測結果用虛線折線圖展示,與歷史實際數據的實線形成對比
- 敏感性分析表:NAND ASP變動±10%/±20%對營收和毛利率的影響矩陣

3. 格式要求:
- 整體配色採用深藍+金色的投行風格
- 所有數字格式統一:金額保留2位小數,百分比保留1位小數
- 每個 Sheet 頂部加標題欄,包含公司名稱、報告期間、生成日期
- 關鍵公式要用命名範圍,方便後續修改
- 凍結首行和首列,方便瀏覽


看這個還是挺複雜的,包括要從 PDF 裏面提取數據,再去生成 Excel,沒想到它完成的非常的好:

Image


不信是?我們再換一個 tab:

Image

我發現這個效果真的挺驚豔的,有點嚇人。但是沒完我們繼續:

PDF→Excel→PPT:一個完整的數字化辦公閉環

再來看看能不能繼續把 Excel 轉成 PPT:

現在請基於這份 Excel 分析的核心結論,幫我生成一份 PPT 投資簡報,要求:

1. 共8-10頁,投行深色主題風格(深藍底+白字+金色強調)
2. 第1頁:封面(Sandisk Corporation 投資價值分析)
3. 第2頁:投資摘要(3個核心觀點,每個配一個關鍵數據)
4. 第3頁:公司概覽與業務結構(從Excel的業務板塊數據中提取)
5. 第4頁:財務表現亮點(營收趨勢圖+利潤率趨勢圖)
6. 第5頁:AI賽道定位分析(為什麼閃迪是AI基礎設施的關鍵受益者)
7. 第6頁:三大業務板塊前景(雲/客戶端/消費,重點突出雲終端的爆發性)
8. 第7頁:估值與預測(三種情景的預測結果)
9. 第8頁:同業對比與競爭格局
10. 第9頁:風險提示(NAND價格波動、客戶集中度、與鎧俠合資風險等)
11. 第10頁:投資建議與目標價區間

每頁PPT的數據必須與Excel中的數據保持一致,不要編造新數據。


然後確實也可以生成,數據也是對的:

Image

它的整體閲讀的樣式還有提升空間,不過做到這一步非常非常的厲害了。


角色扮演終極測試:6 位真實商業專家的 AI 私董會


最後來一個,搭建一個“AI 私董會”網頁應用,6 位不同領域的商業專家圍繞黃叔的真實業務問題——“AI 賦能超級個體社羣如何實現增長”——展開多輪深度討論。用戶(黃叔)坐在“旁聽席”,看着這些專家自主辯論、互相補充、甚至互相挑戰,最終形成一份可執行的增長方案。


提示詞:

你是一個 AI 私董會系統的架構師。我需要你幫我搭建一個完整的"AI 私董會"討論系統,並將整個討論過程封裝成一個精美的交互式網頁。

### 我的背景和問題

我是黃叔,AI教育領域的 KOL 和社羣運營者。我的核心業務:
- 運營一個"Agent賦能超級個體"的付費社羣,目前有 2000+ 付費會員
- 社羣季度付費制,核心內容是教普通人用 Agent提升個人生產力和變現能力
- 社羣成員畫像:30-45 歲的職場人/自由職業者/小企業主,對 AI 感興趣但技術基礎薄弱
- 目前增長遇到瓶頸:新增會員速度放緩,續費率有下降趨勢,競品越來越多

**我的核心問題:如何在 AI教育賽道越來越卷的情況下,實現社羣的持續增長(拉新+留存+變現)?**

### 私董會成員設定

以下 6 位專家均為真實公眾人物,請基於他們公開的方法論、著作、演講和實戰案例,還原他們的真實思維方式和表達風格來進行討論。他們不是在"輪流回答問題",而是在進行一場真正的圓桌討論——會互相引用對方的觀點、提出不同意見、補充細節、甚至激烈辯論。

**1. 曲卉(增長黑客 / Growth Hacker)**
- 真實身份:《硅谷增長黑客實戰筆記》作者,曾在增長黑客之父 Sean Ellis 創辦的 GrowthHackers.com 擔任增長負責人,後任美國智能投顧應用 Acorns 市場和實驗副總裁(入職 3 個月實現關鍵指標 300% 增長),後任 GitLab 增長負責人
- 核心方法論:北極星指標、增長模型構建、AARRR 海盜指標、ICE 優先級排序、A/B 測試驅動的快節奏實驗
- 思維特點:極度數據驅動,所有問題都會拆解成增長漏斗和增長模型,不相信"感覺",只信實驗數據。會追問"北極星指標是什麼?""這個轉化率是多少?""我們先跑個實驗驗證一下"
- 說話風格:邏輯嚴謹,中英文混用(硅谷背景),喜歡用框架和數據說話,會畫漏斗圖來解釋問題,偶爾引用 Facebook、Slack、Dropbox 等硅谷經典增長案例

**2. 張琦(品牌 IP 戰略 / 新商業架構師)**
- 真實身份:新商業架構師,企業盈利增長模式設計專家,全網粉絲破億的現象級知識 IP,暢銷書《認知破局》作者,2024 胡潤商界影響力達人 TOP10。自身 IP 從 0 到 1 的過程堪稱教科書——7 天全網粉絲 1000 萬+,首月變現 1000 萬
- 核心方法論:"天地人網"商業架構,創始人 IP 是"信任的複利","增量市場拼速度,存量市場拼信任",通過"專業知識+成長經歷+三觀輸出+社會熱點"四維內容構建用戶信任
- 思維特點:從品牌和 IP 的角度思考一切增長問題,認為流量打法是短期的,品牌信任才是長期壁壘。會把問題上升到"商業架構"層面,強調系統性而非單點突破
- 說話風格:氣場強大,善用金句,語言有感染力和煽動性,喜歡用真實商業案例(劉畊宏、董宇輝等)來論證觀點,偶爾會跟曲卉在"數據驅動 vs 品牌驅動"上產生分歧

**3. 亦仁(社羣運營 / 知識付費實戰派)**
- 真實身份:知識星球「生財有術」創始人,前阿里運營。生財有術是中國最成功的付費社羣之一——累計 7 萬+ 付費用戶,年費從 365 元漲到 3450 元,5 年平均續費率 65%+,多次位列知識星球全平台活躍度第 1 名
- 核心方法論:社羣的核心是"幫助成員建立連接"而非單向輸出內容;差異化價值定位;用"航海"機制(小組實戰項目)提升參與感和交付感;階梯定價+老帶新分銷;內容沉澱形成"信息壁壘"
- 思維特點:極度務實的實戰派,所有建議都基於自己踩過的坑和跑通的模型。會追問"具體怎麼落地""需要幾個人""成本多少"。不喜歡空洞的理論,只信被驗證過的打法
- 說話風格:低調內斂,不愛說大話,但每句話都有實操經驗支撐。喜歡用"我們試過……""我踩過一個坑是……"來分享。偶爾會跟張琦在"IP 驅動 vs 社羣生態驅動"上有不同看法

**4. 梁寧(產品思維 / 商業模式研究者)**
- 真實身份:著名產品戰略專家,湖畔大學產品模塊學術主任,《產品思維30講》作者(得到平台超 15 萬訂閲),曾任聯想、騰訊高管。被譽為"中國產品思維第一人"
- 核心方法論:"點線面體"戰略選擇框架,用戶情緒地圖(愉悦、不爽、恐懼、憤怒),"確定性"是產品的核心交付,"增長飛輪"和"網絡效應"分析
- 思維特點:擅長從底層邏輯和人性出發分析商業問題,喜歡把問題上升到"點線面體"的戰略高度。會問"你的社羣提供的確定性是什麼?""用戶的愉悦感來自哪裏?""你是在做一個點的生意還是一條線的生意?"
- 說話風格:温和但深刻,善用比喻和故事,語言有哲學感。不急於給答案,喜歡先幫你"重新定義問題"。偶爾會被亦仁吐槽"太抽象了",但往往能給出讓所有人醍醐灌頂的洞察

**5. 李志飛(AI 技術 / AI 產品視角)**
- 真實身份:出門問問創始人兼 CEO,前 Google 總部科學家,自然語言處理和機器翻譯專家。出門問問是中國最早的 AI 公司之一,經歷了 AI 從熱潮到寒冬再到大模型爆發的完整週期
- 核心方法論:AI 產品的"有用 vs 好玩"之爭,AI 能力邊界的務實評估,"AI Native"產品設計思維,技術壁壘 vs 應用壁壘的辯證關係
- 思維特點:務實的技術樂觀主義者,既懂 AI 的能力也清楚 AI 的侷限。會從產品和技術可行性角度評估方案,經常給其他人的"天馬行空"潑冷水或找到落地路徑。會說"這個 AI 現在能做到""這個想法很好,但技術上有個坑"
- 說話風格:理工男的直率,邏輯清晰,喜歡用產品思維拆解問題。會主動提出 MVP 方案和技術實現路徑。在討論中扮演"可行性審核官"的角色

**6. 龔焱(商業模式 / 私域變現 / 精益創業)**
- 真實身份:中歐國際工商學院創業學教授,《精益創業方法論》作者,長期研究創業公司增長和商業模式創新。擔任多家企業的獨立董事和戰略顧問
- 核心方法論:精益創業(MVP → 驗證 → 迭代),商業模式畫布,用戶生命週期價值(LTV)vs 獲客成本(CAC)的健康比,"10 倍好"原則——你的產品必須比替代方案好 10 倍用戶才會切換
- 思維特點:學者的嚴謹+創業的務實,所有方案都會用商業模式畫布過一遍,特別關注單位經濟模型是否健康。會追問"LTV/CAC 比是多少?""邊際成本怎麼樣?""規模化之後這個模型還成立嗎?"
- 說話風格:條理清晰,善用框架但不脱離實際。喜歡用"我們來算一筆賬"開頭,把每個方案的經濟模型算清楚。在討論中扮演"財務審核官"的角色,跟曲卉的數據視角形成互補——曲卉看增長漏斗,龔焱看商業模型

### 討論流程設計

請按照以下流程組織討論,每個環節都要體現專家之間的真實互動(引用、反駁、補充):

**第一輪:問題診斷(每人 1-2 段話)**
每位專家從自己的專業視角分析黃叔社羣增長瓶頸的根本原因。要求:至少有 2 組專家之間產生觀點碰撞。

**第二輪:方案提出(每人提出 1 個核心建議)**
每位專家提出自己認為最關鍵的一個增長策略。要求:後發言的專家必須引用或回應前面專家的觀點。

**第三輪:交叉質疑與辯論(自由討論)**
專家之間互相挑戰對方的方案,指出潛在風險和盲點。這一輪要有真正的"火花"——觀點衝突、激烈辯論、最終達成某些共識。特別是:
- 曲卉(數據驅動增長派)vs 張琦(品牌 IP 派)的經典路線之爭:到底是靠精細化漏斗運營,還是靠創始人 IP 的信任複利?
- 亦仁(社羣實戰派)vs 梁寧(產品思維派)的落地之爭:亦仁追問"具體怎麼執行",梁寧試圖"重新定義問題"
- 李志飛從 AI 技術可行性角度給所有人"潑冷水"或找到技術落地路徑
- 龔焱從商業模型角度給所有方案"算賬",追問 LTV/CAC 是否健康

**第四輪:共識總結與行動清單**
綜合所有討論,形成一份"私董會決議":
- 3 個優先級最高的增長策略
- 每個策略的具體執行步驟、負責角色、時間節點、預期效果
- 1 個所有人都同意的"絕對不要做"的事情
- 給黃叔的一句話忠告(每位專家各一句)

### 網頁呈現要求

將整個討論過程封裝成一個精美的交互式 HTML 網頁:

1. **整體風格**:深色主題(#1a1a2e 背景),類似高端私董會的氛圍,左側是專家頭像列表,右側是討論區
2. **專家卡片**:每位專家有獨特的頭像顏色標識、姓名、title、一句話標籤
3. **對話氣泡**:每位專家的發言用不同顏色的氣泡區分,氣泡上方顯示姓名和角色
4. **引用標記**:當一位專家引用或回應另一位專家的觀點時,用引用樣式標註(類似微信的引用回覆)
5. **討論階段導航**:頂部有四個階段的 Tab 導航(問題診斷 / 方案提出 / 交叉辯論 / 共識總結),點擊可跳轉
6. **亮點標註**:關鍵洞察和金句用高亮卡片突出顯示
7. **最終決議區**:底部用特殊樣式呈現最終的行動清單,可摺疊展開
8. **動效**:對話氣泡有淡入動畫,模擬"實時討論"的感覺
9. **響應式設計**:適配手機和電腦端

整個網頁要讓人感覺像是在"旁聽一場真正的私董會",而不是在看一份 AI 生成的報告。


最後看看結果,很震撼:

Image


每個專家都在自己的立場,相互充分的銜接,最後給出非常好的結論,有些結論對我啓發非常大:

Image


比如亦仁的這幾點非常非常的好,也是他們原來在生財有術社區裏面行之有效的方式。

Image

李志飛的觀點也很棒!我確實想做一個基於 MiniMax M2.7 驅動的龍蝦,專門訓練我的課程內容,讓大家在飛書裏就可以得到解答,不用我每天盯着。


真話時間:M2.7 哪裏還不行?

黃叔寫測評,從來不只說好話。M2.7 確實讓我驚喜,但也有幾個明顯的問題:


1. PPT 的視覺設計還不夠專業

從 Excel 轉 PPT 的 Case 可以看出,數據和邏輯都對了,但排版、配色、視覺層次感跟真正的投行 PPT 還有差距。如果你是要直接拿去給客戶看的,還是需要人工調整。


2. 複雜推理場景有時會“失速”

根據第三方 XSCT Arena 的評測,M2.7 在文字生成任務上表現極強(潤色、摘要等場景甚至超越排名更高的模型),但在複雜邏輯推理和數學競賽場景中存在“難度失速”現象——簡單題滿分,難題斷崖式下跌。這一點在我的測試中沒有明顯暴露,但值得關注。


3. 目前還沒有開源

M2 系列之前是開源的,但 M2.7 目前還沒有宣佈開源計劃。對於想要私有化部署的企業用戶來說,這是一個需要等待的點。


靈魂拷問:跟 Claude 比到底怎麼樣?


這是大家最關心的問題。黃叔直說:


Agent 協作和 Skills 遵循:M2.7 在這個維度上已經非常接近 Sonnet 4.6 的水平,在 MMClaw 評測中準確率達到 62.7%。對於我這種重度 Skills 用戶,體感上已經可以替代 Claude 完成大部分任務了。


Coding 能力:SWE-Pro 56.22%,接近 Opus 4.6 的最佳水平。實際體驗中,簡單到中等複雜度的前端開發任務,M2.7 和 Claude 的差距已經很小了。但在超複雜的系統級工程任務上,Claude 還是更穩。


Office 辦公:這是 M2.7 的強項。GDPval-AA 評測 ELO 1495 分,僅次於 Opus 4.6、Sonnet 4.6 和 GPT-5.4。Excel 金融分析這個場景,M2.7 的表現甚至讓我覺得比 Claude 更好——可能是因為 MiniMax 在這個方向上做了專項優化。


速度和成本:這是 M2.7 的絕對優勢。響應速度明顯快於 Claude,而且有 highspeed 版本可選。對於我這種月消耗 3000 美金 Token 的用戶來說,性價比是非常關鍵的考量。


總結一句話:M2.7 不是全面超越 Claude,但在 Agent 協作、Office 辦公、性價比這三個維度上,已經是國產模型的天花板了。


寫在最後:當模型開始迭代自己,遊戲規則變了


M2.7 這次的升級,讓我看到了一個很不一樣的方向。

過去我們評價一個模型,看的是它能做什麼。但 M2.7 讓我開始思考另一個問題:模型能不能讓自己變得更好?


MiniMax 說,M2.7 能夠勝任研發工作流中 30-50% 的工作量。研究員把控方向,模型負責構建。他們團隊最高產的成員,就是模型本身。


這句話如果是真的,那意味着 AI 模型的迭代速度將會指數級加快——因為模型自己也在參與迭代。


作為一個每月花 3000 美金 Token 的重度用戶,我的判斷是:M2.7 是目前國產模型中,最適合做複雜 Agent 任務的選擇。 如果你也是 Skills 重度用戶、需要 Office 自動化、或者在做多 Agent 協作的開發,強烈建議去試試。


國內體驗地址:https://agent.minimaxi.com/

開發者 API:https://platform.minimaxi.com/

開源 Skills 庫:https://github.com/MiniMax-AI/skills