Gemini + D2 + Claude,出版級配圖工具實測對比

作者:硅基鹿鳴
日期:2026年4月12日 下午2:03
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

實測9種AI繪圖工具,為出版級插圖找到最強配搭:D2做主、Claude輔、Gemini應急

整理版摘要

作者陸徐洲係一家LIMS公司嘅AI算法負責人,最近喺寫書《駕馭AI:Harness Engineering 實戰》時遇到一個典型問題:腦入面有清晰嘅六層架構圖,但用PPTIllustrator或draw.io都搞唔掂——要唔係對齊麻煩,就係太醜或者唔識用。佢決定將同一張圖扔畀9種AI工具,睇下邊個畫得最好。

測試結果顯示,每個工具各有強項GPT圖像生成中文亂碼硬傷;Gemini中英雙語完美,最適合快速出圖;Claude輸出SVG代碼,可以改顏色改文字,對出版場景「能改」比「好看」重要。Napkin.ai擅長將文字自動轉成信息圖;Excalidraw免費手繪風,技術博客常用;Mermaid簡單圖一次成型,複雜圖佈局易崩;D2有18個主題,風格統一能力最強;PlantUML表達複雜時序交互最強;matplotlib加SciencePlots一行代碼切換學術期刊風格。

最終作者嘅工作流定咗:D2做主力(風格統一、矢量輸出),Claude生成初稿代碼,需要精修就用Inkscape。佢仲按需求分類推薦:一句話出圖用Gemini;粘貼文字信息圖用Napkin.ai;要可編輯矢量圖用Claude;手繪風用Excalidraw;代碼控制加風格統一用D2;複雜時序交互用PlantUML;文檔內嵌簡單圖用Mermaid;學術期刊投稿用SciencePlots。全部免費。

  • GPT圖像生成中文亂碼嚴重,Gemini中文支援最佳,適合快速出圖。
  • Claude生成SVG矢量代碼,可編輯,對出版場景「能改」比「好看」重要。
  • D2有18個內置主題,風格統一能力最強,適合多圖書籍。
  • PlantUML最適合複雜時序圖,多角色並行協作表達力強。
  • matplotlib+SciencePlots一行代碼切換學術期刊風格,投稿必備。
整理重點

寫書卡關:想得清楚,畫唔出嚟

你一定經歷過呢種時刻:腦入面一套邏輯好清楚,張嘴就同人講得明,但要畫成一張圖,對住屏幕半個鐘都未鬱筆。作者寫書時就係咁——第二章有張六層架構圖,內容好清楚,但要變成出版級嘅插圖,用PPT畫要對齊半日,用Illustrator唔識,用draw.io能畫但好醜。佢決定轉個思路:同一張圖,扔畀9種唔同AI工具,睇下邊個畫得最好。

整理重點

一句話就出圖:GPT、Gemini、Claude、Napkin.ai

先試門檻最低嘅方法:同一段中文提示詞,扔畀GPTGeminiClaude。GPT出嘅圖佈局最有創意,同心圓配色靚,自動加咗小圖標,但中文全部亂碼——層名、組件名冇一個漢字係啱。英文部分完美,但呢個係GPT圖像生成喺中文場景嘅硬傷。

反觀Gemini,同樣提示詞,中英雙語全部正確,自動做咗雙語標註,層次清晰。作者話:「如果你嘅需求就係快速出一張能用嘅圖,唔想學任何工具,Gemini目前係中文場景嘅最優解。」

Claude行另一條路:佢唔直接出圖片,而係生成SVG代碼</highlight-inline>,喺對話界面實時渲染。乍睇冇Gemini咁靚,但輸出嘅係矢量代碼,可以複製到Inkscape改顏色改文字改佈局。對出版場景嚟講,「能改」比「好看」重要。

仲試咗Napkin.ai:唔使描述畫咩圖,直接將書入面五個設計原則嘅文字粘入去,30秒自動生成一張循環關係圖。教師粘教案出知識結構圖,產品經理粘需求文檔出流程圖,好方便。

  • GPT:佈局靚、英文正,但中文亂碼,唔適閤中文需求
  • Gemini:中英雙語完全正確,一句話出圖最快
  • Claude:輸出SVG可編輯,出版場景首選
  • Napkin.ai:粘文字自動生成信息圖,零門檻
整理重點

代碼即圖表:Excalidraw、Mermaid、D2、PlantUML

如果你願意寫少少代碼換取更高控制權,呢組工具啱曬你。首先係Excalidraw,佢嘅Text to Diagram功能——輸入系統架構描述,自動生成UML風格類圖。手繪線條係標誌風格,仲會自動標註「God Service(1266行技術債務)」。呢種手繪風喺CS論文同技術博客越嚟越流行。免費,唔使註冊,打開excalidraw.com就用得。

然後係Mermaid。作者用Claude生成Mermaid代碼,粘貼到mermaid.live渲染,畫咗書入面嘅數據流圖。兩個醫療系統之間嘅HTTP調用、純函數複用、異常判斷分支全部正確,但佈局偏散——VitalGuard被擠到左下角,兩條數據流鋪開後唔夠緊湊。呢個係Mermaid最畀人彈嘅問題:簡單圖一次成型,複雜圖佈局會崩。

D2畫同一張六層架構圖,效果完全唔同。關鍵係D2有18個內置主題,喺play.d2lang.com左下角一click,Earth TonesTerminal、深色模式,同一份代碼瞬間換膚。一本書30張圖嘅風格統一問題,一個主題配置就解決曬。作者強調:「呢個係D2同Mermaid最大嘅差別,唔係語法,係風格控制力。」

最後PlantUML用嚟畫時序圖。書入面有個四角色多Agent協作場景:Architect規劃、Java DevPython Dev並行編碼、QA驗證,三輪迭代先收斂。多角色、多輪次、並行加串行嘅複雜交互,PlantUML嘅序列圖語法表達力最強。

  1. 1 Excalidraw:免費手繪風,技術博客常用
  2. 2 Mermaid:簡單圖快,複雜圖佈局易崩
  3. 3 D2:18主題,風格統一最強,適合書籍
  4. 4 PlantUML:複雜時序交互首選
整理重點

學術出版嘅最後一公里:matplotlib + SciencePlots

最後一個場景係學術投稿。作者用matplotlib加上SciencePlots庫,一行代碼plt.style.use(['science', 'ieee']),圖表自動符合IEEE期刊規範;換成nature就係Nature風格。佢用書入面三個Agent嘅對比實驗數據,同時生成了三種風格——同一份數據,一行代碼切風格。投稿再唔會畀「請調整圖表格式」打返轉頭。

仲生成咗一張Token消耗分析圖,展示點解Claw Code讀一個3300行Java文件就崩潰。呢啲帶數據嘅分析圖,matplotlib最合適。

兜兜轉轉測咗一圈,作者最後嘅書稿插圖工作流定咗:D2做主力(風格統一、矢量輸出),Claude生成初稿代碼,需要精修就用Inkscape。佢仲整理咗按需求選工具嘅建議:一句話出圖用Gemini,粘文字信息圖用Napkin.ai,要可編輯矢量圖用Claude,手繪風用Excalidraw,代碼控制加風格統一用D2,複雜時序交互用PlantUML,文檔內嵌簡單圖用Mermaid,學術期刊投稿用SciencePlots。全部免費。

你實試過呢種情況:腦入面一套邏輯好清楚,開口就可以同人講得明,但要畫成一張圖,對住螢幕半個鐘都冇畫過一筆。

寫論文要配方法流程圖,做教材要畫知識結構,同上司匯報要畫業務架構。每次都卡喺同一個位:諗得好清楚,但畫唔出嚟。

我最近寫書都遇到呢個問題。第二章有一張六層架構圖,內容我好清楚,但要變成出版級嘅插圖,用 PPT 畫要對齊好耐,用 Illustrator 我唔識,用 draw.io 畫到但好樣衰。

後來轉咗個諗法。同一張圖,我交畀咗 9 種唔同嘅 AI 工具,睇邊個畫得好。有啲中文全部亂碼,有啲一次搞掂。

大家好,我係陸徐洲。今日同大家講下我真實畫呢張圖嘅過程,順便幫你將市面上嘅 AI 畫圖工具全部睇曬。

講一句說話就出圖

先由門檻最低嘅開始。同一段中文提示詞,交畀 GPT、Gemini 同 Claude。

GPT出嘅圖佈局最有創意。同心圓配色好靚,自動加咗細圖標。

圖片

不過呢,中文全部係亂碼。層名、組件名,冇一個漢字係啱嘅。英文部分就完美。呢個唔係偶發,係 GPT 圖像生成喺中文場景嘅死穴。

相反 Gemini,同樣嘅提示詞,中英雙語全部正確。

圖片

自動做咗雙語標註,層次清晰。如果你嘅需求就係「快啲出一張用得嘅圖」,唔想學任何工具,Gemini 目前係中文場景嘅最佳選擇

Claude 行咗另一條路。佢唔直接出圖片,而係生成 SVG 代碼,喺對話界面入面即時渲染。

圖片

第一眼冇 Gemini 咁靚。但佢輸出嘅係矢量代碼,可以複製去 Inkscape 改顏色改文字改佈局。對出版場景來講,「改得到」比「靚」重要。

仲試咗 Napkin.ai。唔使描述畫咩圖,直接將書入面五個設計原則嘅文字貼過去,30 秒自動生成咗一張循環關係圖。

圖片

教師貼教案可以出知識結構圖,產品經理貼需求文檔可以出流程圖。

拖曳手繪

Excalidraw 自帶 Text to Diagram 功能。我輸入咗書入面兩個系統(VitalGuard + SignalEngine)嘅架構描述,佢自動生成咗一張 UML 風格嘅類圖。

圖片

手繪線條係佢嘅標誌風格。兩個系統嘅模塊關係、HTTP 調用、數據庫依賴都畫啱咗,仲自動標註咗 God Service(1266 行技術債務)。

呢種手繪風喺 CS 論文同技術博客入面越來越流行。免費,唔使註冊,打開 excalidraw.com 就可以畫。

代碼即圖表

我叫 Claude 幫我生成 Mermaid 代碼,貼去 mermaid.live 就可以渲染。用呢個方式畫咗書入面嘅數據流圖。兩個醫療系統之間嘅 HTTP 調用、純函數複用、異常判斷分支,全部正確。

圖片

內容都啱,但佈局偏散。VitalGuard 被逼到左下角,兩條數據流攤開之後唔夠緊湊。呢個係 Mermaid 社區鬧得最多嘅問題:簡單圖一次搞掂,複雜圖佈局會崩潰。

D2 畫嘅係同一張六層架構圖。效果完全唔同。

圖片

關鍵係 D2 有 18 個內置主題。喺 play.d2lang.com 左下角撳一下,Earth Tones、Terminal、深色模式,同一份代碼瞬間換款。

圖片

一本書 30 張圖嘅風格統一問題,一個主題配置就搞掂咗。呢個係 D2 同 Mermaid 最大嘅分別,唔係語法,係風格控制力

PlantUML 用來畫時序圖。書入面有個四角色多 Agent 協作嘅場景:Architect 規劃、Java Dev 同 Python Dev 並行編碼、QA 驗證,三輪迭代先收斂。

圖片

多角色、多輪次、並行加串行嘅複雜交互,PlantUML 嘅序列圖語法表達力最強。

學術出版級

最後一個場景:學術投稿。

matplotlib 加上 SciencePlots 呢個庫,plt.style.use(['science', 'ieee']) 一行代碼,圖表自動符合 IEEE 期刊規範。換成 nature 就係 Nature 風格。

我用書入面三個 Agent 嘅對比實驗數據,同時生成咗三種風格:

圖片

圖片
圖片

同一份數據,一行代碼切風格。投稿再都唔會畀「請調整圖表格式」打回頭。

仲生成咗一張 Token 消耗分析圖,展示點解 Claw Code 讀咗一個 3300 行嘅 Java 文件就崩潰咗:

圖片
圖片

呢種帶數據嘅分析圖,matplotlib 最適合。

我嘅選擇

兜兜轉轉試咗一輪,最後我嘅書稿插圖工作流程定咗落嚟:

D2 做主力(風格統一,矢量輸出),Claude 生成初稿代碼,需要精修嘅用 Inkscape 微調。

按需求揀工具:

你嘅需求
無腦選
入口
講一句說話就要圖
Gemini
gemini.google.com
貼文字出資訊圖
Napkin.ai
napkin.ai
要可編輯嘅矢量圖
Claude
claude.ai
手繪風草圖
Excalidraw
excalidraw.com
代碼控制+風格統一
D2
play.d2lang.com
複雜時序交互
PlantUML
editor.plantuml.com
文檔內嵌簡單圖
Mermaid
mermaid.live
學術期刊投稿
SciencePlots
pip install

全部免費。

呢篇文章入面嘅所有插圖,都嚟自我正在寫嘅書《駕馭AI:Harness Engineering 實戰》。如果你對 AI Agent 工程化有興趣,可以留意後續連載。

畫圖呢件事,瓶頸從來都唔係工具。係你夠唔夠膽將腦入面嘅結構,清晰咁描述出嚟。

我係陸徐洲,一間 LIMS 公司嘅 AI 算法負責人。關注我,等我哋一齊喺 AI 落地實踐嘅路上,行得更遠。

多謝你睇我嘅文章。有任何關於 AI 提效或者工程落地實踐方面嘅問題都可以加我微信,交個朋友,一齊探討,共同進步。

圖片

你一定經歷過這種時刻:腦子裏一套邏輯特別清楚,張嘴就能跟人講明白,但要畫成一張圖,對着屏幕半小時愣是沒動筆。

寫論文要配方法流程圖,做課件要畫知識結構,給領導彙報要畫業務架構。每次都卡在同一個地方:想得清楚,畫不出來。

我最近寫書也碰到了這個問題。第二章有一張六層架構圖,內容我很清楚,但要變成出版級的插圖,用 PPT 畫要對齊半天,用 Illustrator 我不會,用 draw.io 能畫但醜。

後來換了個思路。同一張圖,我扔給了 9 種不同的 AI 工具,看誰畫得好。有的中文全亂碼,有的一次成型。

大家好,我是陸徐洲。今天聊聊我真實畫這張圖的過程,順便幫你把市面上的 AI 畫圖工具全過了一遍。

說一句話就出圖

先從門檻最低的開始。同一段中文提示詞,扔給 GPT、Gemini 和 Claude。

GPT出的圖佈局最有創意。同心圓配色漂亮,自動加了小圖標。

圖片

就是吧,中文全是亂碼。層名、組件名,沒有一個漢字是對的。英文部分倒是完美。這不是偶發,是 GPT圖像生成在中文場景的硬傷。

反觀 Gemini,同樣的提示詞,中英雙語全部正確。

圖片

自動做了雙語標註,層次清晰。如果你的需求就是"快速出一張能用的圖",不想學任何工具,Gemini 目前是中文場景的最優解

Claude 走了另一條路。它不直接出圖片,而是生成 SVG 代碼,在對話界面裏實時渲染。

圖片

乍看沒有 Gemini 好看。但它輸出的是矢量代碼,可以複製到 Inkscape 裏改顏色改文字改佈局。對出版場景來說,"能改"比"好看"重要。

還試了 Napkin.ai。不用描述畫什麼圖,直接把書裏五個設計原則的文字粘進去,30 秒自動生成了一張循環關係圖。

圖片

教師粘教案能出知識結構圖,產品經理粘需求文檔能出流程圖。

拖拽手繪

Excalidraw 自帶 Text to Diagram 功能。我輸入了書裏兩個系統(VitalGuard + SignalEngine)的架構描述,它自動生成了一張 UML 風格的類圖。

圖片

手繪線條是它的標誌風格。兩個系統的模塊關係、HTTP 調用、數據庫依賴都畫對了,還自動標註了 God Service(1266 行技術債務)。

這種手繪風在 CS 論文和技術博客裏越來越流行。免費,不用註冊,打開 excalidraw.com 就能畫。

代碼即圖表

我讓 Claude 幫我生成 Mermaid 代碼,粘貼到 mermaid.live 就能渲染。用這個方式畫了書裏的數據流圖。兩個醫療系統之間的 HTTP 調用、純函數複用、異常判斷分支,全部正確。

圖片

內容都對,但佈局偏散。VitalGuard 被擠到左下角,兩條數據流鋪開後不夠緊湊。這是 Mermaid 社區吐槽最多的問題:簡單圖一次成型,複雜圖佈局會崩。

D2 畫的是同一張六層架構圖。效果完全不同。

圖片

關鍵是 D2 有 18 個內置主題。在 play.d2lang.com 左下角點一下,Earth Tones、Terminal、深色模式,同一份代碼瞬間換膚。

圖片

一本書 30 張圖的風格統一問題,一個主題配置就解決了。這是 D2 和 Mermaid 最大的差別,不是語法,是風格控制力

PlantUML 用來畫時序圖。書裏有個四角色多 Agent 協作的場景:Architect 規劃、Java Dev 和 Python Dev 並行編碼、QA 驗證,三輪迭代才收斂。

圖片

多角色、多輪次、並行加串行的複雜交互,PlantUML 的序列圖語法表達力最強。

學術出版級

最後一個場景:學術投稿。

matplotlib 加上 SciencePlots 這個庫,plt.style.use(['science', 'ieee']) 一行代碼,圖表自動符合 IEEE 期刊規範。換成 nature 就是 Nature 風格。

我用書裏三個 Agent 的對比實驗數據,同時生成了三種風格:

圖片

圖片
圖片

同一份數據,一行代碼切風格。投稿再也不會被"請調整圖表格式"打回。

還生成了一張 Token 消耗分析圖,展示為什麼 Claw Code 讀了一個 3300 行的 Java 文件就崩潰了:

圖片
圖片

這種帶數據的分析圖,matplotlib 最合適。

我的選擇

兜兜轉轉測了一圈,最後我的書稿插圖工作流定下來了:

D2 做主力(風格統一,矢量輸出),Claude 生成初稿代碼,需要精修的用 Inkscape 微調。

按需求選工具:

你的需求
無腦選
入口
說一句話就要圖
Gemini
gemini.google.com
粘貼文字出信息圖
Napkin.ai
napkin.ai
要可編輯的矢量圖
Claude
claude.ai
手繪風草圖
Excalidraw
excalidraw.com
代碼控制+風格統一
D2
play.d2lang.com
複雜時序交互
PlantUML
editor.plantuml.com
文檔內嵌簡單圖
Mermaid
mermaid.live
學術期刊投稿
SciencePlots
pip install

全部免費。

這篇文章裏的所有插圖,都來自我正在寫的書《駕馭AI:Harness Engineering 實戰》。如果你對 AI Agent 工程化感興趣,可以關注後續連載。

畫圖這件事,瓶頸從來不是工具。是你能不能把腦子裏的結構,清晰地描述出來。

我是陸徐洲,一家 LIMS 公司的 AI 算法負責人。關注我,讓我們一起在 AI 落地實踐的路上,走得更遠。

感謝您閲讀我的文章。有任何關於AI提效或者工程落地實踐方面的問題都可以加我微信,交個朋友,一起探討,共同進步。

圖片