9項benchmark第一、35小時不停手，Qwen3.7-Max有點東西

作者：花叔

日期：2026年5月22日上午11:12

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

Qwen3.7-Max喺Agent能力上突破，9項benchmark第一、35小時長程任務表現驚人

整理版摘要

呢篇文章係由女媧公眾號嘅主理人寫嘅，佢一直關注AI大模型嘅發展。佢喺X上見到Artificial Analysis嘅評測，Qwen3.7-Max嘅Intelligence Index有56.6分，比上一代高咗近5分。重要嘅係，第三方話呢個模型係阿里離前沿最近嘅一次。另外Text Arena盲測榜單顯示，Qwen3.7-Max排第六，同第一名Claude Opus 4.6只差27分。作者就想深入分析呢個模型喺Agent能力上嘅真實表現。

阿里呢個月20號準時發佈咗Qwen3.7-Max，距離上個版本只係一個月。官方放出12項Agent評測，其中9項第一，包括Terminal-Bench、SWE-bench Pro呢啲。特別係IFBench指令遵循攞咗79.1分，全場第一，即係模型好少會漏咗你畀嘅約束。仲有一個35小時長程任務實驗：模型喺平頭哥芯片上自主優化SGLang嘅推理kernel，總共432次評估、1158次工具調用，達到10倍加速比。其他模型中途自己停咗，但Qwen3.7冇停，仲識得自己發現新優化點。

作者自己都實測咗。佢用claude-code-router將Qwen3.7-Max接入Claude Code，依次跑咗三個複雜任務：女媧skill蒸餾蒙台梭利專家、用huashu-design整官宣動畫、結合兩個skill分析十年讀書數據整DNA圖譜。三個任務都全程順暢，冇需要人工介入。作者認為，Qwen3.7-…

Qwen3.7-Max喺9項Agent benchmark攞第一，整體接近Anthropic等前沿模型，係國產模型最新突破。
阿里採取穩定按月迭代節奏，每次更新都推前Agent能力，今次重點係指令遵循同長程任務。
同上一代Qwen3.6-Max相比，Intelligence Index高咗近5分；同Claude Opus 4.6相比，Text Arena盲測只差27分。
長程任務35小時不中斷，仲可以自主發現新優化點，呢種能力超越咗其他模型自己停頓嘅情況。
開發者可以將Qwen3.7-Max接入Claude Code等框架，嘗試多skill協作任務，例如自動調優或數據分析。

整理重點

評測掛帥：9項第一的Agent能力

Artificial Analysis 係國外公認嘅第三方評測機構，佢哋嘅 Intelligence Index 畀 Qwen3.7-Max 評咗 56.6 分，比 Qwen3.6-Max 高咗近 5 分。原文仲話：「阿里仍然落後於 OpenAI、Anthropic 同 Google，但 Qwen3.7-Max 係佢哋離前沿最近嘅一次。」

Artificial Analysis 推文，Qwen3.7-Max 在 Intelligence Index 上拿到 56.6 分

另一個重要榜單係 Text Arena 盲測，超過 600 萬人投票，Qwen3.7-Max 排第六，離第一名 Claude Opus 4.6 只差 27 分。國產模型喺呢個榜單上算係比較前嘅站位。

其中 IFBench 指令遵循 79.1 分全場第一，意思係你畀 prompt 入面嘅多個約束，模型基本唔會丟。呢個能力喺Agent時代好重要。

整理重點

35小時不間斷：長程任務的天花板

千問團隊設計咗一個真實 AI Infra 工程師嘅任務：喺平頭哥真武 M890 芯片上自主優化 SGLang 推理 kernel。模型只有任務描述、參考實現同評估腳本，然後自己開工。

結果係：連續自主執行 35 小時，432 次 kernel 評估，1158 次工具調用，幾何平均加速比 10.0 倍。其他模型喺連續5輪冇發出工具調用後自己停咗，但 Qwen3.7-Max 冇停，仲發現咗關鍵嘅架構重設計。

呢個實驗說明長程任務執行唔單止係耐力，仲係決策質量。Qwen3.7-Max 喺呢方面交出咗好靚嘅數據。

整理重點

跨框架泛化：模型不挑工具棧

官方強調 Qwen3.7-Max 並非針對某一特定框架優化，而係喺 Claude Code、OpenClaw、Qwen Code 同各類自定義框架下都穩定發揮。呢個工程意義比單一 benchmark 大好多。

過去國產模型嘅痛點係「benchmark 仲得，換個 harness 就拉胯」。Qwen3.7-Max 嘅12項評測都係多框架下完成，意味住 tool use 能力冇綁死任何模式。

作者之前寫過嘅 Claude Code、Hermes Agent 等橙皮書，本來預設係「Claude 模型 + harness」，而家可以換成 Qwen3.7-Max + 同一個 harness，多咗一個選擇。

整理重點

真實任務實測：女媧、動畫、讀書DNA

作者用 claude-code-router 將 Qwen3.7-Max 接入 Claude Code，跑咗三個複雜任務。第一個係女媧 skill 蒸餾蒙台梭利專家，模型需要並行調用 6 個 subagent 做調研，再經過質量自檢同雙 Agent 精煉，最終輸出角色一致嘅回答。

第二個任務係用 huashu-design 整一段 30 秒官宣動畫，模型自己搜索資料、寫腳本、構建 HTML、Playwright 截圖自檢、ffmpeg 合成，9分49秒一氣呵成。

1 調用 search 蒐集模型資訊
2 寫腳本同 HTML 動畫
3 Playwright 多幀截圖驗證
4 ffmpeg 合 BGM 導出 MP4

第三個任務最難：結合 huashu-weread 同 huashu-design，分析十年讀書數據畫成 DNA 雙螺旋。模型自己寫 4 個 Python 腳本，定義 6 個維度，處理 5318 條筆記，最後輸出排版精緻嘅可視化。

整理重點

觀察：穩定迭代的價值

呢次體驗令作者體會到唔係單一分數，而係阿里喺Agent路線嘅具體推進：長程任務穩定性、跨框適應、指令遵循——呢三樣嘢加埋，先形成真正嘅產品力。

阿里已經連續幾個月每月20號準時發新版本，每個版本都將 Agent 能力推前少少。呢種節奏喺國內廠商入面唔多見。

Qwen3.7-Max 已經喺阿里雲百鍊正式上線，模型 Code 係 qwen3.7-max，function calling、cache、結構化輸出等能力都齊。開發者可以即刻接落去試。

昨天在X上刷到 Artificial Analysis 一條推文。Artificial Analysis 是國外公認的第三方大模型評測機構，給每個模型綜合多項能力打出一個 Intelligence Index 分數。

Qwen3.7-Max 的 Intelligence Index 評了 56.6 分，比上一代 Qwen3.6-Max 高了將近 5 分。讓我停下來看了兩眼的是他們的原話：「阿里仍然落後於 OpenAI、Anthropic 和 Google，但 Qwen3.7-Max 是他們離前沿最近的一次」。

往下翻評論區，又看到有人貼了 Text Arena 的盲測榜單。Text Arena 是全球用戶匿名盲測投票產生的大模型排行榜，已經有 600 萬人參與投票，被視為最接近真實使用體驗的口碑指標。

Text Arena 盲測榜，Qwen3.7-Max-Preview 排第 6，是 Top 6 裏唯一的國產模型

前五名清一色是 Anthropic、Meta、Google、OpenAI、xAI 的旗艦模型。第六名是阿里的 qwen3-7-max-preview，離第一名 Claude Opus 4.6 thinking 只差 27 分。國產模型這段時間相對靠前的一次站位。

回頭查了下，阿里幾天前剛發了 Qwen3.7-Max。再看官方放出來的 12 項 agent 評測，9 項第一。

看來人員的一些變化是一點沒影響阿里在大模型上的投入和卷。我印象中離 Qwen3.6 發佈也還沒過去幾天，往回翻了下，3 月 Qwen3.5、4 月 Qwen3.6、5 月 Qwen3.7，每個月 20 號準時發新版本，節奏挺穩。

以及，我從阿里的模型發佈文章裏看到了一些很有趣的現象，他們特意強調了Qwen3.7-Max很適合接入Claude Code、OpenClaw、Hermes Agent、Qwen Coder這些agent harness。看起來大模型的Agentic Coding的能力已經成了各個模型廠商最關注的方向了。

我跑了幾個真實任務。這篇想聊清楚這事。

先說說這12項benchmark

那張表裏有幾個細節挺值得說。

9 項第一的項目幾乎都是 agent 類：Terminal-Bench、SWE-bench Pro、SWE-bench Multilingual、MCP-Atlas、MCP-Mark、HLE、Apex 數學、IFBench 指令遵循、SuperGPQA。Opus 4.6 反超的 3 項（NL2Repo、ClawEval、CoWorkBench）都是真實 agent 協作場景，差距分別是 0.4、5.2、1.0。Anthropic 在這塊還是有積累。

裏面最值得拎出來說的是 IFBench 指令遵循 79.1 分，全場第一。指令遵循這件事翻譯成用戶視角就是：你給的 prompt 裏有 5 個約束，它基本不會丟任何一個。這正是 agent 時代用戶最在乎的能力之一。

最近幾個月整個行業最關注的方向就兩條：大模型編程能力（LM coding）和長程任務執行（Long Horizon）。Opus 4.7、GPT 5.5、DeepSeek V4，都在拼這兩條線。

Qwen3.7-Max 這次拿出來的核心指標，命中的正是這兩條線。前面 12 項裏有一大半就是這兩類。35 小時 1158 次工具調用的長程任務實驗，更是直接蹦着Long Horizon的天花板取得。

我仔細理解了下他們的測試，千問團隊找了一個真實 AI Infra 工程師的日常任務給模型做：在平頭哥真武 M890 芯片上自主優化 SGLang 的推理 kernel。kernel 簡單理解就是 GPU 上跑模型推理的那段核心計算代碼，AI Infra 工程師的日常工作之一就是給它做調優。

這個芯片千問之前沒見過。給模型的只有：一個任務描述、一份 SGLang Triton 參考實現、一個評估腳本。剩下的事情，模型自己幹。

然後它真的自己幹了 35 小時。

完整數據：

35 小時連續自主執行
432 次 kernel 評估
1158 次工具調用
10.0 倍幾何平均加速比（vs SGLang Triton 參考實現）

更有意思的細節是其他幾個模型「停下來的原因」。它們不是被人打斷的，是連續 5 輪沒發出任何工具調用，模型自己判斷幹不動了主動停了。Qwen3.7 沒停。30+ 小時之後還在發現新的優化點，其中一次是關鍵的架構重設計。

具體技術上，模型自主完成了兩次結構性躍遷。這些原本都是真人 AI Infra 工程師的活兒。我猜業內做這塊的同行看到這組數據，應該會想一會兒。

能在標準答案題上拿滿分，和能 35 小時不停摸索 kernel 設計，是兩種很不一樣的能力。前者靠 benchmark 這種考試式的分數衡量。後者要靠 trajectory 沉澱，也就是模型在長程任務裏一步步走過的決策軌跡。Qwen3.7 這次在兩邊都拿出了能看的數據。

跨框架泛化：我覺得這次最重要的事

回頭看官方博客裏有句話，乍讀會被忽略：「上述評測分數來自多種不同的智能體框架。Qwen3.7-Max 並非針對某一特定框架優化，而是在 Claude Code、OpenClaw、Qwen Code 和各類自定義框架下都能穩定發揮。」

Qwen 卡皮巴拉和 Claude Code、OpenClaw、Qwen Code 等家的吉祥物圍坐長桌

留意下官方這張頭圖。長桌上那排吉祥物，除了官方點名的三家，Hermes Agent 也畫在裏面。

這事的工程含義比一個 benchmark 分數大很多。

過去半年我寫過 4 篇 Claude Code 的文章，也專門做過 Hermes Agent 和 OpenClaw 的橙皮書。這幾家 agent harness 各有各的設計哲學：Claude Code 是 tool use 緊耦合，OpenClaw 偏個人助手型，Hermes Agent 是消息驅動，Qwen Code 自家的更輕量。要讓一個模型在差異這麼大的幾家框架下都跑出體面分數，意味着它的 tool use 能力沒綁死任何特定模式。

之前國產模型最大的痛點之一就是「benchmark 還行，換個 harness 就拉胯」。Qwen3.7 這次的 12 項評測都是在多框架下完成的，模型不挑工具棧。

我自己之前出的 4 本相關橙皮書，剛好可以對照看看：

橙皮書	主題	現在的含義
Claude Code 從入門到精通	CC 上手	後端可以換成 Qwen3.7 跑
Claude Code 源碼解析	CC 工作機制	模型不挑 harness 的工程基礎
Hermes Agent 從入門到精通	消息驅動框架	同一個原理，Qwen3.7 也能塞進來
OpenClaw	偏個人助手型的開源 agent	同一個原理

這 4 本之前的預設都是「Claude 模型 + 某個 harness」的組合。現在多了一種可能：國產模型 + 同一個 harness，也能跑。

下面就實測一下這事。

我把 Qwen3.7-Max 接進了 Claude Code

具體做法是通過 claude-code-router（CCR）這個開源工具把 Qwen3.7-Max 接到 Claude Code 後端。日常的 claude 命令保留訂閲模式不動，另起一個 claude-qwen 命令啓動 CCR，把 banner 顯示名設成 Qwen3.7-Max。

claude-qwen 啓動後，Claude Code banner 直接顯示 Qwen3.7-Max

接下來跑兩個有點意思的任務。

讓它跑一次女媧

公眾號老粉應該都知道我上個月開源的女媧（nuwa.skill）。前幾天 GitHub stars 剛過 2 萬，已經被好幾個大廠的 agent 產品納進給用戶預裝的默認 skill，也有不少團隊在研究它的 harness 架構設計。

社區裏更多的驚喜來自延伸用法。這個 skill 我做的時候默認場景是蒸餾 PG、芒格、費曼這種思想家，但社區拿它玩出了各種我意想不到的花樣。昨天就有個朋友告訴我，她用女媧蒸餾了一波育兒專家，給自己和她的用戶用。

這種用法我自己也沒想到。

女媧這工具對模型很挑。調研階段就要並行啓動 6 個 subagent，分別去查著作、對話、表達 DNA、外部評價、決策記錄、時間線。調研出來之後還要做質量自檢、3 個驗證 agent、2 個精煉 agent 的雙 Agent 評審。整套流程跑下來，子 agent 調用數量輕鬆上百，單次執行半小時起步。

這種任務對指令遵循和長程任務執行兩個維度都是硬考驗。在某一步跑偏，後面就連環錯。

我用 claude-qwen 把女媧跑了一遍，主題選的是蒙台梭利教育學專家。Qwen3.7-Max 跑下來全流程順：6 個調研 agent 全部完成（其中 1 個文件路徑寫錯，自己偵測到並 fallback 找到了文件）、Voice Check 5/5 PASS、Sanity Check 3/3 PASS、Edge Case 通過、雙 Agent 精煉綜合應用了 11 項改進建議。

蒸餾出來的蒙台梭利專家 skill 測試結果挺有意思。我問她：「在智能被無限供給的時代，怎麼看蒙台梭利教育？」

她回答的片段：

1907 年沒有 AI，沒有計算機，甚至沒有收音機。但那些聖洛倫佐貧民區的孩子，面對的挑戰和今天的孩子本質上是一樣的——成人世界總是急於把他們塑造成某種標準產品，而不是尊重他們內在的發展藍圖。
AI 是什麼？在我的框架裏，它是一種極其強大的環境要素。僅此而已。

這種回答的角色一致性，是評判蒸餾質量的核心指標。模型不僅要知道蒙台梭利說過什麼，還要能在新問題上保持她的論證方式。Qwen3.7-Max 在我這個測試裏做到了。

完整跑女媧的過程錄了視頻，可以感受一下 subagent 一個接一個起來的節奏：

順手讓它給自己做了一段宣傳動畫

跑完女媧又起了個念頭：讓 Qwen3.7 用我另一個 skill（huashu-design）給自己做一段官宣動畫。

huashu-design 是端到端的：主題調研、腳本拆解、HTML 動畫構建、Playwright 多幀截圖驗證、MP4 導出，最後用 ffmpeg 合 BGM。整條鏈路下來涉及一二十種工具調用，對模型在長鏈路裏既穩又有審美都有要求。

我給的 prompt 很簡單：「阿里最近剛發佈了 Qwen3.7-Max 模型，請幫我收集這個模型的信息，然後用 /huashu-design 給它做一個 30 秒左右的信息和數據豐富的宣傳動畫」。

Qwen3.7 一氣呵成跑了 9 分 49 秒，中間穿插多次搜索、文件寫入、HTML 構建、Playwright 截圖自檢、ffmpeg 合成。最後產物是一段 24.5 秒的 1920x1080 動畫。

這段流程裏最值得說的是它的執行穩定性。從調研到寫腳本、HTML 構建、Playwright 自檢、ffmpeg 合成，9 分多鐘裏一二十種工具混着用，模型沒有卡在任何一步。長鏈路任務能這樣跑下來的國產模型不多。

短期看，這就是一個 demo。但能把這種調研 + 工程 + 審美串在一起的複合任務一氣呵成跑完，對模型本身的執行穩定性是個不小的考驗。

再讓它做了一次「讀書 DNA」

最後一個我想試的，比前兩個都複雜。

我前幾天寫過一篇微信讀書 skill 的文章，反響挺好。裏面提過我自己另做了個增強版叫 huashu-weread，能在底層 weread API 之上做交叉分析。這次想讓 Qwen3.7 同時調用 huashu-weread 和 huashu-design 兩個 skill，把我十年的讀書數據畫成一張可視化。

我給的 prompt 也很簡單：讓它把書架和筆記本里的數據都拉出來，自己定 6-8 個能區分「讀者」的維度，給筆記多的書逐本打分，最後畫成 DNA 雙螺旋。

整個過程它做了挺多事。先調 huashu-weread 拉書架——返回 2088 本；再拉筆記本——310 本筆記書、5318 條筆記。然後自己寫了 4 個 Python 腳本：第一個 fetch 數據、第二個 analyze 筆記分佈、第三個定義 6 個維度（思想↔故事 / 科學↔人文 / 行動↔反思 / 東方↔西方 / 古典↔當代 / 個人↔系統）+ 給筆記數最多的 24 本逐本打分、第四個用 huashu-design 的設計規範構建 HTML。中間還自己跑 Playwright 截圖自校驗，發現一處不滿意就重截。

最後產物是這樣：

排版是編輯式磁書風格：cream 底色、襯線 display + 無襯線 body、中央一條豎向雙螺旋（左鏈興趣廣度、右鏈閲讀深度），橫檔顏色標這本書最強烈的維度。完全符合我 huashu-design skill 裏寫的反 AI slop 規範，沒有那種「賽博霓虹 + 紫色光圈」的俗氣審美。

讀者畫像那段我覺得寫得還蠻有洞察的。三個並存的人格：「要麼讀純思想（芒格、波茲曼、Ridley），要麼讀純故事（傅高義、Instagram、Simons），中間地帶的"半思半敍"基本不碰」「西方學方法，東方讀系統，西方書挑《掌控習慣》《卡片筆記》《俞軍方法論》，中文幾乎全在"系統級"（《美團》《置身事內》《沸騰新十年》）」。我很建議大家都用我的skill去診斷下自己的閲讀品味，可能會讓你發現些不一樣的自己。

這個測試比前兩個都難。兩個 skill 並用、自己寫 4 個 Python 腳本、幾次外部 API 調用、幾千條數據處理、最後還要按設計規範輸出可發佈的 HTML。整套鏈路跑下來，Qwen3.7 沒有需要我中途介入。

一些觀察

跑完這兩個真實任務，再回頭看那些 benchmark 數字，感受會平實一些。

讓我有體感的不是某項分數，是阿里在 agent 這條線上的幾個具體推進。

長程任務的穩定性是其中比較直接的一個。35 小時連着 1158 次工具調用還能產生新發現，這種能力是過去 trajectory RL 一直在打磨的事。我自己跑女媧那個半小時上百次 subagent 調用，跑宣傳動畫那個十分鐘串起搜索、HTML、Playwright、ffmpeg 一整條鏈路，中間可能跑偏的地方都沒跑偏。

跨 harness 這件事的意義在另一層。它意味着你手裏之前那套 agent 工具棧不用換，模型這一層多了一種選擇。

指令遵循也算順帶的進步。IFBench 79.1 這個數字翻譯成日常使用，就是你 prompt 裏寫的約束模型基本不會丟，尤其是給它一長串要求時。大部分 agent workflow 是被約束撐起來的，不是被代碼撐起來的，這一點對體驗影響其實挺大。

我不太想用千問殺回來了這種話。國內幾家模型這兩年本來就是 GLM、DeepSeek、Kimi、千問輪流刷榜的格局，誰也沒真正"殺回來"。能穩定按月迭代的廠商不多，阿里這幾個月幾乎每個月20號都準時發新版本，每一代都把 agent 這條線往前推一點。Qwen3.7-Max 是這條節奏裏最新的一站。

Anthropic 這幾個月也在使勁做同一件事，Opus 從 4.6 升到 4.7 的 system card 裏花了大量篇幅寫長程任務和評估意識。前面我寫 Opus 4.7 那篇裏也聊過這事。兩邊在同一個方向上推，方向多半是對的。

Qwen3.7-Max 已經在阿里雲百鍊正式上線，模型 Code 就是 qwen3.7-max。function calling、cache 緩存、結構化輸出、聯網搜索、模型微調這些能力都給齊了。

不管你手裏的 agent 客戶端是 Claude Code、OpenClaw 還是 Qwen Code，現在都多了一個能直接調的後端。親自上手跑一遍，比看我的文章介紹獲得的體感會實在得多。