Image2 + MiniMax CLI,一句話到成片。拆解 MiniMax CLI  的Agent 設計哲學

作者:AI產品自由
日期:2026年4月25日 上午11:54
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

MiniMax CLI 透過SKILL.md同面向Agent嘅CLI設計,令Agent可以自主完成多模態生成任務。

整理版摘要

呢篇文章係作者對MiniMax CLI嘅體驗同分析,作者發現MiniMax嘅模型好強,但更值得拆解嘅係佢哋嘅Agent基建搭建。以前人用CLI嗰陣,要自己做四件事:發現(揾文檔揾啱命令)、組裝(填參數串命令)、解讀(過濾終端輸出)、應對(答問題等長任務)。但而家用工具嘅變成Agent,呢四件事冇人教佢點做。

MiniMax CLI嘅做法係加咗一層SKILL.md說明書,將人做嘅隱性工作翻譯成Agent規則,解決發現同組裝;同時改進CLI本身,用--non-interactive、--quiet、退出碼、--async等方法,解決解讀同應對。成個設計令Agent可以由一句「幫我做個視頻」開始,自動拆任務、調用Image2出圖、調MiniMax CLI配音配樂、生成視頻,中間唔使停頓報錯,直接交付成品。

SKILL.md嘅核心係提供工具簡介、命令列表、每條命令嘅固定格式(能力說明、命令句式、參數、例子、返回結果),Agent讀完就知道用咩工具、點樣調用、結果係點,仲可以將多條命令串成鏈。CLI層面就專為Agent設計:--non-interactive避免中途問問題,--quiet同--output json將輸出分離,退出碼統一失敗類型,--async將長任務變成可管理嘅task id。呢啲設計加埋,令Agent可以唔靠人,自己完成成個工作流程。作者最後總結,一個工具適唔適合Agent,就睇人做嘅隱性工作有冇被工具自己…

  • MiniMax CLI透過SKILL.md同面向Agent嘅CLI設計,令Agent可以自主完成多模態生成任務,唔需要人介入。
  • SKILL.md係一份畀Agent睇嘅說明書,包含工具簡介、命令列表同參數格式,解決Agent嘅「發現」同「組裝」問題。
  • 傳統CLI需要人做容錯,MiniMax CLI用--non-interactive、--quiet、退出碼等方法,將互動轉為狀態判斷,適合Agent執行。
  • 啟發:工具要真正適合Agent,必須將人做嘅隱性容錯工作內建到工具本身,而唔係靠Agent理解自然語言。
  • 下次評估一個工具係咪適合Agent,可以睇佢有冇Skills層(調用前)同執行層(調用後)嘅設計。
整理重點

人係工具嘅容錯層

以前人用CLI嗰陣,其實替工具做咗四件事:發現、組裝、解讀、應對。但而家用工具嘅變成Agent,呢四件事冇人教佢點做。

人係工具嘅容錯層。拿掉人,工具必須自己容錯。

MiniMax CLI嘅做法係喺CLI同Agent之間加咗一層SKILL.md說明書,將人做嘅隱性工作翻譯成Agent能理解嘅規則。

整理重點

SKILL.md:Agent嘅說明書

SKILL.md第一行嘅工具簡介寫明「當用戶想生成文本、圖片、視頻、語音、音樂時,使用mmx」,Agent讀到呢句就知嗰個工具啱用。

Agent 唔需要從零拼命令,SKILL.md 畀曬所有資訊:能力說明、命令句式、參數、例子、返回結果。

  • 工具簡介:話畀Agent知呢個工具做咩。
  • Commands能力地圖:逐項列曬每條命令嘅用途。
  • 每條命令固定格式:能力說明 → 命令句式 → 參數 → 例子 → 返回結果。
命令示例 bash
mmx speech synthesize --text "*****" --output json --quiet
# → audio file path
整理重點

CLI設計:唔中斷、低token、標準化

面向 Agent 嘅 CLI,唔係將終端變好睇,係將終端變成接口。

MiniMax CLI用咗以下設計令Agent執行唔會卡住:

  1. 1 --non-interactive:缺參數直接失敗,唔會問Agent問題,將互動變成成功或失敗狀態。
  2. 2 --quiet 同 --output json:將輸出分兩路,結果走json,進度提示走垃圾桶,Agent淨係睇結果,減少token消耗。
  3. 3 退出碼:0成功、2參數錯、3認證錯、4額度不足、5超時、10內容安全,Agent睇數字就知點處理,唔使讀英文報錯。
  4. 4 --async:將長任務(例如視頻生成)變成task id,Agent先發起,再查進度,最後下載,唔使等喺終端前面。
整理重點

總結:Agent友好工具嘅三句判別

下次用新工具,先問:佢有Skills嗎?

我講咗一句話:“幫我做個視頻”
Agent 自己拆任務
叫 Image2 出圖
叫 MiniMax CLI 配音、配樂、將啲圖變成視頻
將結果攞返嚟。

MiniMax CLI 行緊嗰段
自動化程度好高
中間冇停頓、冇報錯、冇問我問題
等佢交成品就得
基本上唔使插手。

圖片


MiniMax 嘅模型一向好強
OpenClaw 同 Hermes 都推薦用
@steipete 話"their model slays"

OpenClaw 創始人推薦 MiniMax

 

試過佢哋嘅CLI
發現佢哋嘅 Agent 基建搭建,都係國產第一梯隊
值得拆解一次。

Agent 係點樣做到㗎

MiniMax CLI 係點樣令 Agent 做到㗎?

 

喺討論呢個問題之前
先睇一個容易忽略嘅嘢

 

以前人用 CLI 嘅時候,其實幫工具做咗四件事:

  • 發現——揾文檔,揾到應該用邊個工具、邊條命令

  • 組裝——靠經驗填啱參數,將命令串起嚟

  • 解讀——由終端輸出裏面過濾噪音,睇明報錯

  • 應對——回答執行期間彈出嘅提問,等長任務行完

 

以前呢個唔係問題——用工具嘅係人,呢四件事人天然就識。

 

但而家工具嘅使用者變咗做 Agent
發現、組裝、解讀、應對
人做嘅呢四件事,冇人教佢點樣做。

 

人係工具嘅容錯層。冇咗人,工具要自己容錯。

有人無人對比圖

 

CLI 本身淨係負責執行——文字、圖片、視頻、語音、音樂、睇圖、搜索,每項一條命令
佢將調用門檻由寫代碼降到淨係填參數:

  • 網頁端:人撳

  • API:Agent 要先寫一段連接代碼

  • CLI:Agent 直接填參數

 

但淨係得 CLI 唔夠
CLI 係為人設計——人知道應該叫邊條命令、參數點樣填、結果點樣接
就咁將 CLI 掟俾 Agent,佢用唔到。

 

之後去睇佢嘅文檔
我發現 MiniMax 冇直接將 CLI 交俾 Agent
佢喺 CLI 同 Agent 之間加咗一層——一份叫 SKILL.md 嘅說明書
將人做嘅隱性工作翻譯做 Agent 識得嘅規則:

三層架構圖

Agent 點樣揾到每一步嘅命令

人做嘅四件事裏面嘅前兩件——發現組裝——全部寫喺 SKILL.md 裏面。

 

Agent 唔係直接叫 CLI
佢先讀 SKILL.md
由裏面知道應該用咩命令、參數點填、結果係點樣
然後先去叫 CLI

 

首先,Agent 點樣知道應該用呢個工具。

Agent 嘅工具箱裏面有好多工具
你話"幫我做一個短視頻"
佢點樣知道應該用 mmx-cli?

 

答案喺 SKILL.md 嘅第一行——工具簡介入面寫咗"當用戶想生成文字、圖片、視頻、語音、音樂時,用 mmx"
Agent 讀到呢句
就將 mmx-cli 由工具箱入面拎出嚟。

 

人可以搜文檔、問同事、試錯
Agent 唔得
如果工具冇喺第一屏話俾 Agent 知“我能做啲咩”
Agent 就唔知有呢個工具存在。

 

然後,佢要知道應該用邊條命令。

Agent 決定用 mmx-cli 之後
你要佢生成配音
用 speech synthesize 還是 text chat

 

SKILL.md 嘅 Commands 將能力逐項列曬出嚟:

命令地圖截圖

 

一張攤開嘅能力地圖——Agent 睇一眼就知道邊條命令做邊件事,唔使估。

 

跟住,參數點樣填。

揀好命令之後
SKILL.md 入面每條命令都用固定格式寫:能力說明 → 命令句式 → 參數 → 例子 → 返回結果。

 

例如生成配音:

mmx speech synthesize --text "*****" --output json --quiet
# → audio file path

意思係:用 mmx 生成語音,文字填喺 text 後面,結果以 JSON 格式返回

 

視頻生成、音樂生成都係同樣格式。Agent 唔需要由頭砌命令:

  • 能力說明話俾佢知"做到啲咩"

  • 命令句式話俾佢知"點樣調用"

  • 例子話俾佢知"完整調用係點樣"

  • 返回結果話俾佢知"下一步可以攞到啲咩"

 

最後,呢啲命令可以串成鏈。

每一步嘅輸出係下一步嘅輸入:

圖片

 

Agent 可以串起嚟,因為 Skills 話俾佢知每一步會返回啲咩:

  • Image2 返回圖片地址

  • speech synthesize 返回音頻文件

  • video generate 接收圖片 + 音頻,返回任務號

 

一步嘅輸出就係下一步嘅輸入。跨工具都可以串成鏈。

呢條鏈點解冇卡住

調用嘅問題 SKILL.md 解決咗
但執行之後呢?

 

人做嘅四件事入面仲有後兩件——解讀應對
過濾噪音、睇明報錯、回答提問、等長任務行完
呢啲 SKILL.md 管唔到
要靠 CLI 本身嘅設計嚟接。

 

可以串起嚟,唔代表行得通
四個會斷嘅地方。

斷點問題圖

冇參數會被問住

Agent 發出 mmx video generate 命令
如果 CLI 行到一半問"Choose aspect ratio: 1) 16:9 2) 1:1"(揀一個畫面比例)
Agent 就卡咗——佢發嘅係一次完整命令調用,中間唔答題。

 

人見到提示會輸入選項
Agent 唔會
佢只會停喺"我發出嘅命令仲未結束"。

 

mmx-cli 嘅做法:--non-interactive 冇參數就直接失敗,--yes 跳過確認。

 

將"等人補充資料"嘅交互
變成"成功或失敗"嘅狀態
Agent 唔需要回答終端問題
只需要根據狀態決定下一步。

終端噪音太多

Agent 調用 speech synthesize 之後
終端可能會輸出進度條、提示語、耗時統計、報錯信息、最終文件路徑
人可以自己跳過噪音揾結果
Agent 唔得。

 

而且 Agent 嘅上下文係有成本㗎
終端輸出越長,消耗嘅 token 越多
如果將進度、提示、耗時都塞入上下文
好快就會俾無關信息佔曬。

 

mmx-cli 嘅做法:將輸出分成兩路——結果行一路,進度同提示行另一路
就好似快遞分揀,包裹行傳送帶,廣告單行垃圾桶
--quiet 剝走裝飾
--output json 返回機器可讀結果
Agent 只睇結果嗰一路,攞到路徑,交俾下一步。

輸出分流圖

 

結果唔係俾人複製嘅,而係直接俾下一步命令用嘅:

AUDIO=$(mmx speech synthesize --text "一段旁白" --quiet)
mmx video generate --image "sunset.png" --audio "$AUDIO" --quiet

第一行生成配音,將返回嘅音頻路徑存起嚟;第二行將音頻同圖片一齊交俾視頻生成命令

失敗咗冇分類

如果 video generate 失敗咗
Agent 見到一段英文報錯:“authentication failed”(認證失敗)
人睇得明
但 Agent 唔應該靠睇一段英文嚟判斷下一步。

 

mmx-cli 嘅做法係退出碼:

0  成功      2 參數錯    3 認證錯
4  額度不足  5 超時     10 內容安全

每種失敗對應一個數字,Agent 睇數字就知道應該點處理,唔使睇英文報錯

 

失敗由"睇一段自由文本"
變成"睇一個標準狀態"
Agent 先睇數字做一級判斷:係參數錯就補參數,係認證錯就提示用戶,係額度唔夠就換策略。

唔靠自己估一段報錯文字嘅原因。

視頻未生成完

呢個係任務鏈入面最容易卡住嘅一步
視頻生成需要幾分鐘
如果 CLI 一直等到完成,成條鏈就會停咗。

 

mmx-cli 嘅做法係 --async

mmx video generate --async --quiet       → taskId
mmx video task get --task-id <id>        → Processing / Success
mmx video download --file-id <id>        → preview.mp4

三步:發起視頻生成拎到任務號 → 用任務號查進度 → 完成之後下載視頻文件

 

視頻任務唔係"等喺終端前面"
而係變成"拎到任務號,後面繼續查同攞"
task id 將長任務變成可管理對象:先發起,再查詢,最後下載。

 

面向 Agent 嘅 CLI,唔係令終端好睇。係將終端變成接口。

 

你可能會問:呢個 SKILL.md 邊個寫?
答案係 MiniMax 官方維護嘅,跟 CLI 一齊發佈
你唔需要自己寫說明書
裝好 mmx-cli,Agent 就可以讀到佢。

以後點樣睇一個工具得唔得

MiniMax CLI 係一個案例
但"人係容錯層"呢件事係通用嘅——以後睇一個工具適唔適合 Agent
就睇人做嘅嗰啲隱性工作
有冇真正俾工具自己取代咗:

調用前(Skills 層)
  發現:Agent 能不能找到該用什麼工具、什麼命令
  組裝:能不能知道參數怎麼填、命令怎麼串

執行後(CLI 層)
  解讀:結果乾不乾淨、失敗分不分類
  應對:會不會中途問人、長任務能不能繼續

 

三句說話:Agent 拆任務。Skills 教調用。CLI 唔中斷、低 token、標準化交結果。

 

工具演進路徑圖

 

MiniMax CLI 唔係取代 Agent
佢係 Agent 嘅多模態執行層。
下次俾 Agent 用一個工具,先睇一眼:佢有 Skills 嗎?


我發了一句話:“幫我做個視頻”
Agent 自己拆任務
調 Image2 出圖
調 MiniMax CLI 配音、配樂、把圖變成視頻
把結果取回來。

MiniMax CLI 跑的那段
自動化程度非常高
中間沒有停頓、沒有報錯、沒有問我問題
等它交付成品就好
基本不用介入。

圖片


MiniMax 的模型一直很強
OpenClaw 和 Hermes 都推薦使用
@steipete 說"their model slays"

OpenClaw 創始人推薦 MiniMax

 

體驗了他們的CLI
發現他們的 Agent 基建搭建,同樣是國產第一梯隊
值得拆解一遍。

Agent 是怎麼做到的

MiniMax CLI 是怎麼讓 Agent 做到的?

 

在討論這個問題之前
先看一個容易忽略的事

 

以前人用 CLI 的時候,其實替工具做了四件事:

  • 發現——搜文檔,找到該用哪個工具、哪條命令

  • 組裝——憑經驗填對參數,把命令串起來

  • 解讀——從終端輸出裏過濾噪音,讀懂報錯

  • 應對——回答執行中彈出的提問,等長任務跑完

 

以前這不是問題——用工具的是人,這四件事人天然就會。

 

但現在用工具的變成了 Agent
發現、組裝、解讀、應對
人做的這四件事,沒人教它怎麼做。

 

人是工具的容錯層。拿掉人,工具必須自己容錯。

有人無人對比圖

 

CLI 本身只管執行——文本、圖片、視頻、語音、音樂、看圖、搜索,每項一條命令
它把調用門檻從寫代碼降成了填參數:

  • 網頁端:人點

  • API:Agent 先寫一段連接代碼

  • CLI:Agent 直接填參數

 

但光有 CLI 不夠
CLI 是給人設計的——人知道該調哪條命令、參數怎麼填、結果怎麼接
直接把 CLI 扔給 Agent,它用不起來。

 

後來去看它的文檔
我發現 MiniMax 沒有直接把 CLI 交給 Agent
它在 CLI 和 Agent 之間加了一層——一份叫 SKILL.md 的說明書
把人做的那些隱性工作翻譯成 Agent 能理解的規則:

三層架構圖

Agent 怎麼找到每一步的命令

人做的四件事裏的前兩件——發現組裝——全寫在 SKILL.md 裏。

 

Agent 不是直接調 CLI
它先讀 SKILL.md
從裏面知道該用什麼命令、參數怎麼填、結果長什麼樣
然後才去調 CLI

 

首先,Agent 怎麼知道該用這個工具。

Agent 的工具箱裏有很多工具
你說"幫我做一個短視頻"
它怎麼知道該用 mmx-cli?

 

答案在 SKILL.md 的第一行——工具簡介裏寫了"當用戶想生成文本、圖片、視頻、語音、音樂時,使用 mmx"
Agent 讀到這句
就把 mmx-cli 從工具箱裏拿出來了。

 

人可以搜文檔、問同事、試錯
Agent 不行
如果工具沒有在第一屏告訴 Agent “我能做什麼”
Agent 就不知道這個工具存在。

 

然後,它要知道該用哪條命令。

Agent 決定用 mmx-cli 以後
你要它生成配音
用 speech synthesize 還是 text chat

 

SKILL.md 的 Commands 把能力逐項列出來了:

命令地圖截圖

 

一張攤開的能力地圖——Agent 看一眼就知道哪個命令做哪件事,不需要猜。

 

接下來,參數怎麼填。

選好命令以後
SKILL.md 裏每條命令都用固定格式寫:能力說明 → 命令句式 → 參數 → 例子 → 返回結果。

 

比如生成配音:

mmx speech synthesize --text "*****" --output json --quiet
# → audio file path

意思是:用 mmx 生成語音,文本填在 text 後面,結果以 JSON 格式返回

 

視頻生成、音樂生成也是同樣的格式。Agent 不需要從零拼命令:

  • 能力說明告訴它"能做什麼"

  • 命令句式告訴它"怎麼調用"

  • 例子告訴它"完整調用長什麼樣"

  • 返回結果告訴它"下一步能拿到什麼"

 

最後,這些命令能串成鏈。

每一步的輸出是下一步的輸入:

圖片

 

Agent 能串起來,因為 Skills 告訴它每一步會返回什麼:

  • Image2 返回圖片地址

  • speech synthesize 返回音頻文件

  • video generate 接收圖片 + 音頻,返回任務號

 

一步的輸出就是下一步的輸入。跨工具也能串成鏈。

這條鏈為什麼沒卡住

調用的問題 SKILL.md 解決了
但執行之後呢?

 

人做的四件事裏還有後兩件——解讀應對
過濾噪音、讀懂報錯、回答提問、等長任務跑完
這些 SKILL.md 管不了
得靠 CLI 本身的設計來接。

 

能串起來,不代表跑得通
四個會斷的地方。

斷點問題圖

缺參數會被問住

Agent 發出 mmx video generate 命令
如果 CLI 運行到一半問"Choose aspect ratio: 1) 16:9 2) 1:1"(選一個畫面比例)
Agent 就卡了——它發的是一次完整命令調用,中間不答題。

 

人看到提示會輸入選項
Agent 不會
它只會停在"我發出的命令還沒有結束"。

 

mmx-cli 的做法:--non-interactive 缺參數直接失敗,--yes 跳過確認。

 

把"等人補充信息"的交互
變成"成功或失敗"的狀態
Agent 不需要回答終端問題
只需要根據狀態決定下一步。

終端噪音太多

Agent 調用 speech synthesize 以後
終端可能輸出進度條、提示語、耗時統計、報錯信息、最終文件路徑
人能自己跳過噪音找結果
Agent 不行。

 

而且 Agent 的上下文是有成本的
終端輸出越長,消耗的 token 越多
如果把進度、提示、耗時都塞進上下文
很快就被無關信息佔掉了。

 

mmx-cli 的做法:把輸出分成兩路——結果走一路,進度和提示走另一路
就像快遞分揀,包裹走傳送帶,廣告單走垃圾桶
--quiet 去掉裝飾
--output json 返回機器可讀結果
Agent 只看結果那一路,拿到路徑,交給下一步。

輸出分流圖

 

結果不是給人複製的,而是直接給下一步命令使用的:

AUDIO=$(mmx speech synthesize --text "一段旁白" --quiet)
mmx video generate --image "sunset.png" --audio "$AUDIO" --quiet

第一行生成配音,把返回的音頻路徑存起來;第二行把音頻和圖片一起交給視頻生成命令

失敗了沒有分類

如果 video generate 失敗了
Agent 看到一段英文報錯:“authentication failed”(認證失敗)
人能讀懂
但 Agent 不應該靠理解一段英文來判斷下一步。

 

mmx-cli 的做法是退出碼:

0  成功      2 參數錯    3 認證錯
4  額度不足  5 超時     10 內容安全

每種失敗對應一個數字,Agent 看數字就知道該怎麼處理,不用讀英文報錯

 

失敗從"讀一段自由文本"
變成"看一個標準狀態"
Agent 先看數字做一級判斷:是參數錯就補參數,是認證錯就提示用戶,是額度不足就換策略。

不靠一段報錯文字自己聯想原因。

視頻沒生成完

這是任務鏈裏最容易卡住的一步
視頻生成需要幾分鐘
如果 CLI 一直等到完成,整條鏈就停了。

 

mmx-cli 的做法是 --async

mmx video generate --async --quiet       → taskId
mmx video task get --task-id <id>        → Processing / Success
mmx video download --file-id <id>        → preview.mp4

三步:發起視頻生成拿到任務號 → 用任務號查進度 → 完成後下載視頻文件

 

視頻任務不是"等在終端前"
而是變成"拿到任務號,後面繼續查和取"
task id 把長任務變成可管理對象:先發起,再查詢,最後下載。

 

面向 Agent 的 CLI,不是把終端變好看。是把終端變成接口。

 

你可能會問:這個 SKILL.md 誰來寫?
答案是 MiniMax 官方維護的,隨 CLI 一起發佈
你不需要自己寫說明書
裝好 mmx-cli,Agent 就能讀到它。

以後怎麼看一個工具行不行

MiniMax CLI 是一個案例
但"人是容錯層"這件事是通用的——以後看一個工具適不適合 Agent
就看人做的那些隱性工作
有沒有真正被工具自己替代:

調用前(Skills 層)
  發現:Agent 能不能找到該用什麼工具、什麼命令
  組裝:能不能知道參數怎麼填、命令怎麼串

執行後(CLI 層)
  解讀:結果乾不乾淨、失敗分不分類
  應對:會不會中途問人、長任務能不能繼續

 

三句話:Agent 拆任務。Skills 教調用。CLI 不中斷、低 token、標準化交結果。

 

工具演進路徑圖

 

MiniMax CLI 不是取代 Agent
它是 Agent 的多模態執行層。
下次讓 Agent 用一個工具,先看一眼:它有 Skills 嗎?