GPT-Image-2 完全指南！附大量玩法案例，順便開源我的生圖 Skill ～

作者：code秘密花園

日期：2026年4月28日上午12:30

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

GPT-Image-2 全面實測：文字渲染、指令遵循大提升，附開源 Skill 與上百案例

整理版摘要

呢篇文章係由花園老師（ConardLi）寫嘅，佢一直以嚟係 Nano-Banana-2 嘅忠實粉絲，但今次 OpenAI 推出嘅 GPT-Image-2 令佢大為驚艷，因為呢個模型喺文字渲染、指令遵循同編輯能力上都大幅超越咗佢之前用開嘅模型。作者想透過呢篇文章，幫讀者全面瞭解 GPT-Image-2 嘅優勢、使用渠道、創意玩法，同埋點樣透過佢開源嘅生圖 Skill 將 prompt 工程化，令出圖質量穩定提升。

整體結論係：GPT-Image-2 喺 Arena.AI 排行榜以 1512 分登頂，領先第二名 242 分，係目前最強嘅圖像生成模型。無論係做海報、UI 樣機、信息圖定係學術配圖，只要用佢開源嘅結構化模板同 Skill，就可以大幅減少試錯成本，快速出到專業級圖片。作者仲開咗一個案例網站，收錄咗上百個實例，每個都附有完整 prompt 同模板，方便讀者一鍵複製。

GPT-Image-2 文字渲染同指令遵循能力大幅領先，係目前最強圖像生成模型。
透過結構化 prompt 模板同開源 Skill，可將 prompt 工程化，提升出圖質量。
相比 Nano-Banana-2，GPT-Image-2 喺多語言文字、複雜指令跟隨同圖片編輯方面有壓倒性優勢。
AI 生圖可以應用喺 UI 樣機、品牌視覺、信息圖、學術配圖、漫畫、技術架構圖等多元場景。
去案例網站探索模板，或下載 garden-skills 倉庫配置 Agent，實現一句話出圖。

值得記低

連結 gpt-image2.mmh1.top

GPT-Image-2 案例網站

收錄上百個實例，附完整 prompt 同模板

Skill github.com

gpt-image-2 Skill

開源嘅生圖 Skill，支援多種 Agent 環境，包含 18 大類 79 個結構化模板

連結 developers.openai.com

OpenAI Image API

官方 API 文檔，可用 model: 'gpt-image-2' 調用

工具 lovart.ai

Lovart ChatCanvas

支援 GPT-Image-2 嘅 AI 設計協作畫布

整理重點

GPT-Image-2 強在哪裡？

經過大量實測，GPT-Image-2 嘅強主要體現喺三個方面：

文字渲染：圖中文字好穩陣，多語言都處理得靚，適合海報、封面、菜單、PPT風格圖等。

指令遵循：你可以畀好具體嘅要求，例如主體位置、背景、文案排列，佢盡量跟足，更接近「按brief出圖」。

編輯能力：支援高保真圖片輸入，適合產品換背景、局部替換、風格統一等工作。

呢啲能力令GPT-Image-2喺Arena.AI排行榜上以1512分大幅拋離第二位。

整理重點

邊度可以用？

官方渠道：ChatGPT Plus/Pro/Business直接使用，仲有Codex開發環境整合。
三方平台：Lovart ChatCanvas第一時間接入，支援視覺反饋協作。
API調用：OpenAI Image API用model:'gpt-image-2'；OpenRouter同302.AI提供靈活接入。

Lovart ChatCanvas係目前最熱門嘅AI設計平台，可以將GPT-Image-2同其他模型串聯使用。

開發者可以透過OpenAI API或OpenRouter、302.AI接入，適合整合入自家產品。

整理重點

玩法案例一覽

作者建立咗案例網站，收錄上百個實例，覆蓋18個分類。以下係幾個特別值得玩嘅方向：

UI界面樣機：生成嘅UI截圖幾可亂真，直播電商、社交平台、短視頻封面樣樣掂。

海報與品牌視覺：指定品牌名、slogan、配色，排版合理性大幅提升。

信息圖與數據可視化：便當格佈局、手繪風信息圖、步驟教程圖，文字清晰。

學術配圖：可以生成論文級別嘅pipeline圖、架構圖、Graphical Abstract，風格專業。

漫畫與角色：四格漫畫、分鏡、角色設定表，人物一致性夠用。

仲有技術架構圖、頭像貼紙等，全部可以喺案例網站免費睇。

整理重點

最佳實踐：開源生圖 Skill

直接對GPT-Image-2講「幫我畫個海報」效果有限，關鍵在於prompt工程化。作者開源咗一套生圖Skill，定義咗18大類79個結構化模板。

Skill係一套畀AI Agent睇嘅工作手冊，可以令Agent按照流程選模板、填參數、渲染高質量prompt。

1 Mode A：Garden本地模式，自配API Key，完全自動化生成圖片落盤。
2 Mode B：Host-Native委託宿主，例如Codex自帶工具，無需自己配Key。
3 Mode C：Advisor顧問模式，無API Key時只輸出prompt，拎去ChatGPT用。

安裝好後，對Agent話你想生成咩圖，佢就會自動處理。模板體系覆蓋學術配圖、UI樣機、信息圖等18個分類。

Skill倉庫同案例網站都持續更新，歡迎Star同貢獻。

2026 年 4 月 21 日，OpenAI 發佈了 GPT-Image-2，在 ChatGPT 中被稱為 Images 2.0。

在 Arena.AI 的 Text-to-Image 排

行榜上，GPT-Image-2 以 1512 分登頂，比第二名谷歌的 Nano-Banana-2 高出 242 分。Arena.AI 官方評價說：從未有任何模型能以如此懸殊的優勢排名第一。

作為 Nano-Banana-2 一直以來的忠實粉絲（之前文章配圖大部分為 Nano-Banana 生成的），我可以毫不誇張的說，GPT-Image-2 是迄今為止最強大的圖像生成模型，大部分情況下效果碾壓 Nano-Banana。

大家好，我是花園老師（ConardLi），歡迎來到 code秘密花園。

今天，我們將從多個角度講透 GPT-Image-2：

GPT-Image-2 究竟強在哪？
GPT-Image-2 哪裏可以用？
GPT-Image-2 有哪些有意思的玩法？
GPT-Image-2 使用的最佳實踐？

同時，我將介紹我開源的 GPT-IMAGE-2 玩法網站：

以及我開源的 GPT-IMAGE-2 生圖 Skill：

https://github.com/ConardLi/garden-skills/

一、GPT-Image-2 究竟強在哪？

經過我的大量實踐，我發現 GPT-Image-2 的強主要體現在下面幾個方面：

第一是文字渲染。

過去很多 AI 圖最明顯的問題就是圖裏文字亂掉，英文還好，中文、日文、韓文、印地語等多語言更容易翻車（Nano-Banana 在文字較多的時候經常會出現問題）。

GPT-Image-2 明顯把 “圖中文字” 當成核心能力來做了，適合做海報、封面、菜單、招牌、PPT 風格圖、UI 標籤和信息圖。

第二是指令遵循。

你可以給它非常具體的要求：主體放哪裏、背景是什麼、文案怎麼排、風格偏雜誌還是電商、哪些元素不能變。

雖然它無法保證像 Figma 一樣的軟件像素級可控，但比上一代更接近 “按 brief 出圖” 的感覺。

第三是編輯能力。

GPT-Image-2 支持圖像輸入和圖像編輯，並且會以高保真方式處理輸入圖片。

這意味着它更適合做產品換背景、局部替換、風格統一、Logo/包裝保留、人物或物體的參考圖延展。

二、GPT-Image-2 哪裏可以用？

官方渠道

最直接的入口是 ChatGPT，Plus、Pro、Business 等付費訂閲可以直接使用：

另外，GPT-Image-2 還直接整合進了 OpenAI 的 Codex 開發環境。

這意味着開發者可以在寫代碼的同時，用自然語言讓 AI 生成 UI 界面圖、遊戲貼圖、應用圖標等視覺資產。

三方平台

Lovart 是目前最熱門的 AI 設計的平台，已經第一時間接入了 GPT-Image-2。

它的核心產品叫 ChatCanvas — 一個支持視覺反饋的 AI 設計協作畫布。你可以把 GPT-Image-2 的生成能力和其他模型串聯使用，在同一個畫布上完成從草圖到成品的全流程。

API 調用

首先是官方渠道，開發者可以在 OpenAI 的 Image API 裏用 model: "gpt-image-2" 調 images.generate 或 images.edit。

https://developers.openai.com/api/docs/guides/image-generation?api=image

這適合把圖像生成接進自己的產品，比如營銷工具、電商後台、設計平台、內容生產系統或內部自動化工作流。

如果你不想直接對接 OpenAI 的 API，還有更靈活的選擇。

OpenRouter 是目前最熱門的模型路由平台，已上線 GPT-Image-2（通過 openai/gpt-5.4-image-2 模型名調用）。它的優勢是統一 API 格式、自動負載均衡、支持多模型切換。

https://openrouter.ai/openai/gpt-5.4-image-2

302.AI 是國內開發者更熟悉的平台，它按用量付費，支付簡單，無需訂閲，小白推薦。

https://302.ai/product/detail/gpt-image-2

三、GPT-Image-2 有哪些有意思的玩法？

案例網站

由於 GPT-Image-2 的玩法非常豐富，為了方便搭建能更好的把它用起來，我專門為 GPT-Image-2 建立了一個使用指南網站：

我實際跑了大量案例 — 覆蓋多個分類、大量結構化模板 — 然後把這些案例全部收錄到網站中了：

🔗 網站地址：https://gpt-image2.mmh1.top/

這個站不是一個簡單的圖庫。每張圖點開後，你能看到：

完整的生成 prompt（可一鍵複製）
它用了哪個模板
模板裏哪些字段是你可以改的
怎麼對着 Agent 說一句話就能復現這張圖

網站支持兩種瀏覽模式 — 瀑布流和按分類查看，你可以快速翻到自己感興趣的類型。

典型案例

下面挑幾個我覺得比較有代表性的方向，每個都是 GPT-Image-2 比較能發揮的場景。

1. UI 界面樣機

GPT-Image-2 在生成 "看起來像真實截圖" 的 UI 界面方面效果非常不錯。我跑了一系列 UI 樣機的 prompt，包括直播電商界面、社交平台動態頁、短視頻封面、聊天對話界面等等。

看完這些圖，可能真的會感嘆一句：有圖有真相的時代結束了...

2. 海報與品牌視覺

包括品牌主海報、Campaign KV、Web Banner、雜誌封面等。

你可以在 prompt 裏指定品牌名、slogan、配色方案、人物站位，它給出的結果在排版合理性上比以前強了不少。

我測了 Nike × LeBron James 運動海報、Apple Vision Pro 產品季 KV、《時代》雜誌風格封面等，都能比較好地完成。

3. 信息圖與數據可視化

GPT-Image-2 的文字渲染能力讓信息圖變得非常穩定了。

你可以拿它做便當格佈局（bento grid）、手繪風信息圖、步驟教程圖、KPI 儀表盤等風格。

像 "iPhone 16 Pro 全方位解析" 這種高密度多模塊的圖，它也能把各個區塊的中文標籤渲染清楚。

4. 學術配圖

這個方向可能出乎你的意料。

GPT-Image-2 可以生成論文級別的方法總覽圖（pipeline figure）、神經網絡架構圖、機理示意圖、Graphical Abstract 等。

風格上偏白底、出版物字體、低飽和工程色，看起來像正經投稿論文裏的 figure。

我分別跑了 CS/CV/ML 方向的 pipeline 圖、工程方向的機理圖、以及答辯首頁的研究總覽圖，效果都還不錯。

5. 漫畫與角色

四格漫畫、跨頁分鏡、角色設定表、角色關係圖 — 這些以前需要畫師才能搞定的東西，GPT-Image-2 也能交出像樣的結果了。

我試了"程序員與合併不了的週一"四格漫畫、仙俠少年的 8 格跨頁彩色分鏡、《三體》核心人物關係圖等。

人物一致性雖然還不完美，但作為快速出概念、跑 MVP 來說夠用了。

6. 技術架構圖

是的，GPT-Image-2 還能畫系統架構圖、流程圖、時序圖、ER 圖、狀態機、思維導圖、網絡拓撲圖。

當然，這些圖是 PNG 位圖，不是可編輯的 SVG。

所以它更適合用在文檔配圖、技術分享的 PPT、或者快速表達一個架構思路的場景，而不是替代 draw.io / Excalidraw。

7. 頭像與貼紙

風格化頭像、角色網格肖像、3D 擬物圖標、貼紙套裝、歷史人物系列 — 這個方向很適合拿來玩。

上面列的只是一部分方向。完整的幾百個案例，覆蓋地圖、產品視覺、繪本、極簡氛圍圖、包裝設計等 18 個分類，都在網站上可以免費查看：

https://gpt-image2.mmh1.top/

四、GPT-Image-2 使用的最佳實踐？

你可能已經注意到了，上面這些案例有個共同特點：prompt 都比較長、結構化程度很高。

如果你直接對 GPT-Image-2 說 "幫我畫個海報"，出來的效果肯定不如上面這些。區別在哪？在於 prompt 的工程化程度。

這就引出了我做的另一個東西 — GPT-Image-2 生圖 Skill。

我的生圖 Skill 介紹？

簡單說，Skill 是一套給 AI Agent 看的 "工作手冊"。

你把一個 Skill 放到 Agent 的工作環境裏（比如 Claude Code、Cursor、Codex），Agent 就會按照 Skill 定義的流程來幹活。對於生圖這件事，流程是：

判斷當前運行模式（有 API Key 嗎？宿主有圖像工具嗎？）
分析用戶的需求屬於哪個視覺類型
找到對應的結構化模板
把用戶輸入填進模板裏
渲染出一個高質量 prompt
調用圖像工具出圖（或者把 prompt 直接給你）

我之前開源的 rag-skill、web-design-skill ，以及當前這個 gpt-image-2 skill 全部都打包開源到這個倉庫中了：https://github.com/ConardLi/garden-skills/

Skill 的具體安裝方式大家可以到 Github 上查看：

https://github.com/ConardLi/garden-skills/blob/main/README.zh-CN.md

這個 Skill 覆蓋了 18 大類、79 個結構化模板。每個模板都是一份 Markdown 文件，裏面定義了 JSON 或結構化自然語言模板、參數表、變體說明、典型案例。前面我們介紹的典型案例圖，全部是用這套模板體系生成的。

三種運行模式

這個 Skill 設計了三種運行模式，適配不同的環境：

Mode A：Garden 本地模式

如果你有可以調用 gpt-image-2 的 API Key，Skill 會完整跑通整個流程 — 選模板、渲染 prompt、調用生圖腳本、圖片自動落盤。這是最 "全自動" 的模式。

適合在 Claude Code、Cursor 等支持自定義工具，但是又不具備生圖能力的 Agent 環境裏使用。

Mode B：Host-Native 委託宿主

如果你在 Codex 這類環境裏，Skill 就會退化成提示詞工程指引 — 它幫你選模板、填參數、渲染出最終 prompt，然後交給宿主自帶的圖像工具去執行。

這個模式的好處是不需要你自己配 API Key，直接用平台的能力就行。

Mode C：Advisor 顧問模式

如果你的 Agent 環境完全沒有圖像工具（比如純文本的 Agent），你也沒有 gpt-image-2 的 API Key，Skill 就會變成一個高質量的生圖 prompt 顧問。它依然會幫你走完模板選擇和參數填充的流程，最終把渲染好的 prompt 打印出來，你自己拿去 ChatGPT / Lovart 這些平台取用就可以。

怎麼用？

具體怎麼裝、怎麼跑，取決於你用的 Agent 環境，下面我們按常見場景說一下。

場景一：Codex

Codex 自帶圖像生成工具，屬於 Mode B。

你只需要把 garden-skills 倉庫中的 gpt-image-2 Skill 安裝到你的 Codex 的工作目錄（放到 .claude/skills 目錄下）：

然後直接對 Codex 說你想生成什麼圖，Codex 會讀取 Skill 裏的模板，幫你渲染 prompt，然後調用自己的圖像工具出圖。

場景二：Claude Code / Cursor 等 Agent（自配 API）

這類環境通常沒有內置圖像工具，但你可以自己配 OpenAI API Key。

首先還是要把 garden-skills 倉庫中的 gpt-image-2 Skill 安裝到你的 Agent 的工作目錄。然後配置如下環境變量：

ENABLE_GARDEN_IMAGEGEN=true ，代表要啓用本地的 API Key 來生成圖片
OPENAI_BASE_URL=xxx ，自定義的生圖地址
OPENAI_API_KEY=xxx ，自定義 API Key

配好環境變量後，Skill 進入 Mode A，完整跑通 "模板 → prompt → 調腳本 → 出圖落盤" 的全流程。

然後你對 Agent 說想生成什麼圖就行了，Skill 會自動處理後面的一切。

任務完成後，它會幫你把圖片和原始提示詞生成到一個本地固定目錄中：

場景三：ChatGPT Web / Lovart / 任何有生圖能力的對話界面

這個場景下你可以把 Skill 當作 prompt 工程的參考手冊。

依然同第二步一樣，在 Claude Code / Cursor 等 Agent 中配置好這個 Skill，但是不需要配置任何環境變量。

然後，你就可以直接和 Agent 發出你的繪圖需求，Agent 會幫你返回結構化的提示詞：

然後你可以把這段提示詞粘貼到 ChatGPT 或 Lovart 的對話框裏直接使用。

這樣做雖然多了一步手動操作，但 prompt 質量會比隨手寫高不少。

模板體系一覽

整個 Skill 的模板按 18 個分類組織，完整列表：

分類	模板數	案例數	典型方向
學術配圖	9	18	pipeline 圖、架構圖、Graphical Abstract、答辯首頁
素材資產	2	4	擬物圖標集、遊戲截圖 mockup
頭像人設	5	10	風格遷移頭像、角色網格、3D 圖標、貼紙、歷史系列
品牌包裝	4	8	品牌識別板、吉祥物套裝、化妝品包裝、飲料標籤
圖像編輯	5	10	背景替換、局部替換、雜物去除、產品精修、人像修改
網格拼貼	4	8	2×2 套裝、lookbook、多風格拼貼、動漫立項板
信息圖	6	12	手繪風、便當格、對比圖、步驟教程、KPI 儀表盤
地圖	4	8	美食地圖、旅行路線、城市風貌、門店分佈
人物肖像	4	8	商務肖像、創始人大片、虛擬主播、角色設定表
海報活動	4	8	品牌海報、Campaign KV、Web Banner、雜誌封面
產品視覺	5	10	爆炸視圖、白底主圖、影棚大片、禮盒展示、生活場景
場景插畫	4	8	治癒日常、概念大場景、繪本內頁、極簡氛圍
演示文檔	4	8	高密度講解 Slide、政策風、商業報告頁、教學示意圖
敍事序列	5	10	四格漫畫、漫畫分鏡、動漫 KV、人物關係圖、步驟流程
技術架構圖	7	14	系統架構、流程圖、時序圖、狀態機、ER 圖、思維導圖、拓撲
字體排版	2	4	大字主張海報、中英雙語版式
UI 樣機	5	10	直播電商、社交平台、落地頁、聊天界面、短視頻封面
編輯工作流	5	10	背景替換、局部替換、雜物去除、精修、人像編輯

全部模板和案例都在 Skill 倉庫和案例網站上可以直接查看和使用。

最後

如果你也對 GPT-Image-2 生圖感興趣，可以做兩件事：

去案例網站（https://gpt-image2.mmh1.top/）翻翻，找到你感興趣的方向，直接複製 prompt 試試
如果你在用 Codex / Claude Code / Cursor 之類的 Agent 環境，把 garden-skills（https://github.com/ConardLi/garden-skills/）拉下來配一下，以後說句話就能出圖

模板和案例會持續更新，歡迎 star 和貢獻。有問題可以在 GitHub 上開 issue。

如果你想第一時間收到 GPT-Image-2 的新玩法更新，可以 Star 我的 GitHub 倉庫：https://github.com/ConardLi/garden-skills/