GPT-Image-2 完全指南!附大量玩法案例,順便開源我的生圖 Skill ~

作者:code秘密花園
日期:2026年4月28日 上午12:30
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

GPT-Image-2 全面實測:文字渲染、指令遵循大提升,附開源 Skill 與上百案例

整理版摘要

呢篇文章係由花園老師(ConardLi)寫嘅,佢一直以嚟係 Nano-Banana-2 嘅忠實粉絲,但今次 OpenAI 推出嘅 GPT-Image-2 令佢大為驚艷,因為呢個模型喺文字渲染、指令遵循同編輯能力上都大幅超越咗佢之前用開嘅模型。作者想透過呢篇文章,幫讀者全面瞭解 GPT-Image-2 嘅優勢、使用渠道、創意玩法,同埋點樣透過佢開源嘅生圖 Skill 將 prompt 工程化,令出圖質量穩定提升。

整體結論係GPT-Image-2Arena.AI 排行榜以 1512 分登頂,領先第二名 242 分,係目前最強嘅圖像生成模型。無論係做海報、UI 樣機、信息圖定係學術配圖,只要用佢開源嘅結構化模板同 Skill,就可以大幅減少試錯成本,快速出到專業級圖片。作者仲開咗一個案例網站,收錄咗上百個實例,每個都附有完整 prompt 同模板,方便讀者一鍵複製。

  • GPT-Image-2 文字渲染同指令遵循能力大幅領先,係目前最強圖像生成模型。
  • 透過結構化 prompt 模板同開源 Skill,可將 prompt 工程化,提升出圖質量。
  • 相比 Nano-Banana-2GPT-Image-2 喺多語言文字、複雜指令跟隨同圖片編輯方面有壓倒性優勢。
  • AI 生圖可以應用喺 UI 樣機、品牌視覺、信息圖、學術配圖、漫畫、技術架構圖等多元場景。
  • 去案例網站探索模板,或下載 garden-skills 倉庫配置 Agent,實現一句話出圖。
值得記低
連結 gpt-image2.mmh1.top

GPT-Image-2 案例網站

收錄上百個實例,附完整 prompt 同模板

Skill github.com

gpt-image-2 Skill

開源嘅生圖 Skill,支援多種 Agent 環境,包含 18 大類 79 個結構化模板

連結 developers.openai.com

OpenAI Image API

官方 API 文檔,可用 model: 'gpt-image-2' 調用

工具 lovart.ai

Lovart ChatCanvas

支援 GPT-Image-2 嘅 AI 設計協作畫布

整理重點

GPT-Image-2 強在哪裡?

經過大量實測,GPT-Image-2 嘅強主要體現喺三個方面:

文字渲染:圖中文字好穩陣,多語言都處理得靚,適合海報、封面、菜單、PPT風格圖等。

指令遵循:你可以畀好具體嘅要求,例如主體位置、背景、文案排列,佢盡量跟足,更接近「按brief出圖」。

編輯能力:支援高保真圖片輸入,適合產品換背景、局部替換、風格統一等工作。

呢啲能力令GPT-Image-2Arena.AI排行榜上以1512分大幅拋離第二位。

整理重點

邊度可以用?

  • 官方渠道ChatGPT Plus/Pro/Business直接使用,仲有Codex開發環境整合。
  • 三方平台Lovart ChatCanvas第一時間接入,支援視覺反饋協作。
  • API調用OpenAI Image API用model:'gpt-image-2';OpenRouter同302.AI提供靈活接入。

Lovart ChatCanvas係目前最熱門嘅AI設計平台,可以將GPT-Image-2同其他模型串聯使用。

開發者可以透過OpenAI APIOpenRouter、302.AI接入,適合整合入自家產品。

整理重點

玩法案例一覽

作者建立咗案例網站,收錄上百個實例,覆蓋18個分類。以下係幾個特別值得玩嘅方向:

UI界面樣機:生成嘅UI截圖幾可亂真,直播電商、社交平台、短視頻封面樣樣掂。

海報與品牌視覺:指定品牌名、slogan、配色,排版合理性大幅提升。

信息圖與數據可視化:便當格佈局、手繪風信息圖、步驟教程圖,文字清晰。

學術配圖:可以生成論文級別嘅pipeline圖、架構圖、Graphical Abstract,風格專業。

漫畫與角色:四格漫畫、分鏡、角色設定表,人物一致性夠用。

仲有技術架構圖、頭像貼紙等,全部可以喺案例網站免費睇。

整理重點

最佳實踐:開源生圖 Skill

直接對GPT-Image-2講「幫我畫個海報」效果有限,關鍵在於prompt工程化。作者開源咗一套生圖Skill,定義咗18大類79個結構化模板。

Skill係一套畀AI Agent睇嘅工作手冊,可以令Agent按照流程選模板、填參數、渲染高質量prompt。

  1. 1 Mode AGarden本地模式,自配API Key,完全自動化生成圖片落盤。
  2. 2 Mode BHost-Native委託宿主,例如Codex自帶工具,無需自己配Key
  3. 3 Mode CAdvisor顧問模式,無API Key時只輸出prompt,拎去ChatGPT用。

安裝好後,對Agent話你想生成咩圖,佢就會自動處理。模板體系覆蓋學術配圖、UI樣機、信息圖等18個分類。

Skill倉庫同案例網站都持續更新,歡迎Star同貢獻。

圖片

2026 年 4 月 21 日,OpenAI 發佈了 GPT-Image-2,在 ChatGPT 中被稱為 Images 2.0。

在 Arena.AI 的 Text-to-Image 排

行榜上,GPT-Image-2 以 1512 分登頂,比第二名谷歌的 Nano-Banana-2 高出 242 分。Arena.AI 官方評價說:從未有任何模型能以如此懸殊的優勢排名第一。

圖片

作為 Nano-Banana-2 一直以來的忠實粉絲(之前文章配圖大部分為 Nano-Banana 生成的),我可以毫不誇張的說,GPT-Image-2 是迄今為止最強大的圖像生成模型,大部分情況下效果碾壓 Nano-Banana。

大家好,我是花園老師(ConardLi),歡迎來到 code秘密花園。

今天,我們將從多個角度講透 GPT-Image-2

  • GPT-Image-2 究竟強在哪?
  • GPT-Image-2 哪裏可以用?
  • GPT-Image-2 有哪些有意思的玩法?
  • GPT-Image-2 使用的最佳實踐?

同時,我將介紹我開源的 GPT-IMAGE-2 玩法網站:

https://gpt-image2.mmh1.top/
https://gpt-image2.mmh1.top/

以及我開源的 GPT-IMAGE-2 生圖 Skill:

https://github.com/ConardLi/garden-skills/
https://github.com/ConardLi/garden-skills/

一、GPT-Image-2 究竟強在哪?

圖片

經過我的大量實踐,我發現 GPT-Image-2 的強主要體現在下面幾個方面:

第一是文字渲染。

圖片

過去很多 AI 圖最明顯的問題就是圖裏文字亂掉,英文還好,中文、日文、韓文、印地語等多語言更容易翻車(Nano-Banana 在文字較多的時候經常會出現問題)。

GPT-Image-2 明顯把 “圖中文字” 當成核心能力來做了,適合做海報、封面、菜單、招牌、PPT 風格圖、UI 標籤和信息圖。


第二是指令遵循。

你可以給它非常具體的要求:主體放哪裏、背景是什麼、文案怎麼排、風格偏雜誌還是電商、哪些元素不能變。

圖片

雖然它無法保證像 Figma 一樣的軟件像素級可控,但比上一代更接近 “按 brief 出圖” 的感覺。


第三是編輯能力。

GPT-Image-2 支持圖像輸入和圖像編輯,並且會以高保真方式處理輸入圖片。

圖片

這意味着它更適合做產品換背景、局部替換、風格統一、Logo/包裝保留、人物或物體的參考圖延展。


二、GPT-Image-2 哪裏可以用?

官方渠道

最直接的入口是 ChatGPT,Plus、Pro、Business 等付費訂閲可以直接使用:

https://chatgpt.com/
https://chatgpt.com/

另外,GPT-Image-2 還直接整合進了 OpenAI 的 Codex 開發環境。

這意味着開發者可以在寫代碼的同時,用自然語言讓 AI 生成 UI 界面圖、遊戲貼圖、應用圖標等視覺資產。

https://openai.com/zh-Hans-CN/codex/
https://openai.com/zh-Hans-CN/codex/

三方平台

Lovart 是目前最熱門的 AI 設計的平台,已經第一時間接入了 GPT-Image-2。

https://www.lovart.ai/zh/home
https://www.lovart.ai/zh/home

它的核心產品叫 ChatCanvas — 一個支持視覺反饋的 AI 設計協作畫布。你可以把 GPT-Image-2 的生成能力和其他模型串聯使用,在同一個畫布上完成從草圖到成品的全流程。

API 調用

首先是官方渠道,開發者可以在 OpenAI 的 Image API 裏用 model: "gpt-image-2" 調 images.generate 或 images.edit。

https://developers.openai.com/api/docs/guides/image-generation?api=image
https://developers.openai.com/api/docs/guides/image-generation?api=image

這適合把圖像生成接進自己的產品,比如營銷工具、電商後台、設計平台、內容生產系統或內部自動化工作流。


如果你不想直接對接 OpenAI 的 API,還有更靈活的選擇。

OpenRouter 是目前最熱門的模型路由平台,已上線 GPT-Image-2(通過 openai/gpt-5.4-image-2 模型名調用)。它的優勢是統一 API 格式、自動負載均衡、支持多模型切換。

https://openrouter.ai/openai/gpt-5.4-image-2
https://openrouter.ai/openai/gpt-5.4-image-2

302.AI 是國內開發者更熟悉的平台,它按用量付費,支付簡單,無需訂閲,小白推薦。

https://302.ai/product/detail/gpt-image-2
https://302.ai/product/detail/gpt-image-2

三、GPT-Image-2 有哪些有意思的玩法?

案例網站

由於 GPT-Image-2 的玩法非常豐富,為了方便搭建能更好的把它用起來,我專門為 GPT-Image-2 建立了一個使用指南網站:

https://gpt-image2.mmh1.top/
https://gpt-image2.mmh1.top/

我實際跑了大量案例 — 覆蓋多個分類、大量結構化模板 — 然後把這些案例全部收錄到網站中了:

🔗 網站地址:https://gpt-image2.mmh1.top/

這個站不是一個簡單的圖庫。每張圖點開後,你能看到:

圖片
  • 完整的生成 prompt(可一鍵複製)
  • 它用了哪個模板
  • 模板裏哪些字段是你可以改的
  • 怎麼對着 Agent 說一句話就能復現這張圖

網站支持兩種瀏覽模式 — 瀑布流和按分類查看,你可以快速翻到自己感興趣的類型。

圖片

典型案例

下面挑幾個我覺得比較有代表性的方向,每個都是 GPT-Image-2 比較能發揮的場景。

1. UI 界面樣機

GPT-Image-2 在生成 "看起來像真實截圖" 的 UI 界面方面效果非常不錯。我跑了一系列 UI 樣機的 prompt,包括直播電商界面、社交平台動態頁、短視頻封面、聊天對話界面等等。

圖片

看完這些圖,可能真的會感嘆一句:有圖有真相的時代結束了...

2. 海報與品牌視覺

包括品牌主海報、Campaign KV、Web Banner、雜誌封面等。

https://gpt-image2.mmh1.top/
https://gpt-image2.mmh1.top/

你可以在 prompt 裏指定品牌名、slogan、配色方案、人物站位,它給出的結果在排版合理性上比以前強了不少。

圖片

我測了 Nike × LeBron James 運動海報、Apple Vision Pro 產品季 KV、《時代》雜誌風格封面等,都能比較好地完成。

3. 信息圖與數據可視化

GPT-Image-2 的文字渲染能力讓信息圖變得非常穩定了。

https://gpt-image2.mmh1.top/
https://gpt-image2.mmh1.top/

你可以拿它做便當格佈局(bento grid)、手繪風信息圖、步驟教程圖、KPI 儀表盤等風格。

圖片

像 "iPhone 16 Pro 全方位解析" 這種高密度多模塊的圖,它也能把各個區塊的中文標籤渲染清楚。

4. 學術配圖

這個方向可能出乎你的意料。

GPT-Image-2 可以生成論文級別的方法總覽圖(pipeline figure)、神經網絡架構圖、機理示意圖、Graphical Abstract 等。

圖片

風格上偏白底、出版物字體、低飽和工程色,看起來像正經投稿論文裏的 figure。

圖片

我分別跑了 CS/CV/ML 方向的 pipeline 圖、工程方向的機理圖、以及答辯首頁的研究總覽圖,效果都還不錯。

5. 漫畫與角色

四格漫畫、跨頁分鏡、角色設定表、角色關係圖 — 這些以前需要畫師才能搞定的東西,GPT-Image-2 也能交出像樣的結果了。

https://gpt-image2.mmh1.top/
https://gpt-image2.mmh1.top/

我試了"程序員與合併不了的週一"四格漫畫、仙俠少年的 8 格跨頁彩色分鏡、《三體》核心人物關係圖等。

圖片

人物一致性雖然還不完美,但作為快速出概念、跑 MVP 來說夠用了。

6. 技術架構圖

是的,GPT-Image-2 還能畫系統架構圖、流程圖、時序圖、ER 圖、狀態機、思維導圖、網絡拓撲圖。

https://gpt-image2.mmh1.top/
https://gpt-image2.mmh1.top/

當然,這些圖是 PNG 位圖,不是可編輯的 SVG。

圖片

所以它更適合用在文檔配圖、技術分享的 PPT、或者快速表達一個架構思路的場景,而不是替代 draw.io / Excalidraw。

7. 頭像與貼紙

風格化頭像、角色網格肖像、3D 擬物圖標、貼紙套裝、歷史人物系列 — 這個方向很適合拿來玩。

https://gpt-image2.mmh1.top/
https://gpt-image2.mmh1.top/

上面列的只是一部分方向。完整的幾百個案例,覆蓋地圖、產品視覺、繪本、極簡氛圍圖、包裝設計等 18 個分類,都在網站上可以免費查看:

https://gpt-image2.mmh1.top/

四、GPT-Image-2 使用的最佳實踐?

你可能已經注意到了,上面這些案例有個共同特點:prompt 都比較長、結構化程度很高。

如果你直接對 GPT-Image-2 說 "幫我畫個海報",出來的效果肯定不如上面這些。區別在哪?在於 prompt 的工程化程度。

這就引出了我做的另一個東西 — GPT-Image-2 生圖 Skill

我的生圖 Skill 介紹?

簡單說,Skill 是一套給 AI Agent 看的 "工作手冊"。

圖片

你把一個 Skill 放到 Agent 的工作環境裏(比如 Claude Code、Cursor、Codex),Agent 就會按照 Skill 定義的流程來幹活。對於生圖這件事,流程是:

  1. 判斷當前運行模式(有 API Key 嗎?宿主有圖像工具嗎?)
  2. 分析用戶的需求屬於哪個視覺類型
  3. 找到對應的結構化模板
  4. 把用戶輸入填進模板裏
  5. 渲染出一個高質量 prompt
  6. 調用圖像工具出圖(或者把 prompt 直接給你)

我之前開源的 rag-skill、web-design-skill ,以及當前這個 gpt-image-2 skill 全部都打包開源到這個倉庫中了:https://github.com/ConardLi/garden-skills/

Skill 的具體安裝方式大家可以到 Github 上查看:

https://github.com/ConardLi/garden-skills/blob/main/README.zh-CN.md
https://github.com/ConardLi/garden-skills/blob/main/README.zh-CN.md

這個 Skill 覆蓋了 18 大類、79 個結構化模板。每個模板都是一份 Markdown 文件,裏面定義了 JSON 或結構化自然語言模板、參數表、變體說明、典型案例。前面我們介紹的典型案例圖,全部是用這套模板體系生成的。

三種運行模式

這個 Skill 設計了三種運行模式,適配不同的環境:

圖片

Mode A:Garden 本地模式

如果你有可以調用 gpt-image-2 的 API Key,Skill 會完整跑通整個流程 — 選模板、渲染 prompt、調用生圖腳本、圖片自動落盤。這是最 "全自動" 的模式。

適合在 Claude Code、Cursor 等支持自定義工具,但是又不具備生圖能力的 Agent 環境裏使用。


Mode B:Host-Native 委託宿主

如果你在 Codex 這類環境裏,Skill 就會退化成提示詞工程指引 — 它幫你選模板、填參數、渲染出最終 prompt,然後交給宿主自帶的圖像工具去執行。

這個模式的好處是不需要你自己配 API Key,直接用平台的能力就行。


Mode C:Advisor 顧問模式

如果你的 Agent 環境完全沒有圖像工具(比如純文本的 Agent),你也沒有  gpt-image-2 的 API Key,Skill 就會變成一個高質量的生圖 prompt 顧問。它依然會幫你走完模板選擇和參數填充的流程,最終把渲染好的 prompt 打印出來,你自己拿去 ChatGPT / Lovart 這些平台取用就可以。

怎麼用?

具體怎麼裝、怎麼跑,取決於你用的 Agent 環境,下面我們按常見場景說一下。

場景一:Codex

Codex 自帶圖像生成工具,屬於 Mode B。

你只需要把 garden-skills 倉庫中的 gpt-image-2 Skill 安裝到你的 Codex 的工作目錄(放到 .claude/skills 目錄下):

圖片

然後直接對 Codex 說你想生成什麼圖,Codex 會讀取 Skill 裏的模板,幫你渲染 prompt,然後調用自己的圖像工具出圖。

圖片

場景二:Claude Code / Cursor 等 Agent(自配 API)

這類環境通常沒有內置圖像工具,但你可以自己配 OpenAI API Key。

首先還是要把 garden-skills 倉庫中的 gpt-image-2 Skill 安裝到你的 Agent 的工作目錄。然後配置如下環境變量:

  • ENABLE_GARDEN_IMAGEGEN=true ,代表要啓用本地的 API Key 來生成圖片
  • OPENAI_BASE_URL=xxx ,自定義的生圖地址
  • OPENAI_API_KEY=xxx ,自定義 API Key
圖片

配好環境變量後,Skill 進入 Mode A,完整跑通 "模板 → prompt → 調腳本 → 出圖落盤" 的全流程。

圖片

然後你對 Agent 說想生成什麼圖就行了,Skill 會自動處理後面的一切。

任務完成後,它會幫你把圖片和原始提示詞生成到一個本地固定目錄中:

圖片

場景三:ChatGPT Web / Lovart / 任何有生圖能力的對話界面

這個場景下你可以把 Skill 當作 prompt 工程的參考手冊。

依然同第二步一樣,在 Claude Code / Cursor 等 Agent 中配置好這個 Skill,但是不需要配置任何環境變量。

圖片

然後,你就可以直接和 Agent 發出你的繪圖需求,Agent 會幫你返回結構化的提示詞:

圖片

然後你可以把這段提示詞粘貼到 ChatGPT 或 Lovart 的對話框裏直接使用。

圖片

這樣做雖然多了一步手動操作,但 prompt 質量會比隨手寫高不少。

模板體系一覽

整個 Skill 的模板按 18 個分類組織,完整列表:

分類
模板數
案例數
典型方向
學術配圖
9
18
pipeline 圖、架構圖、Graphical Abstract、答辯首頁
素材資產
2
4
擬物圖標集、遊戲截圖 mockup
頭像人設
5
10
風格遷移頭像、角色網格、3D 圖標、貼紙、歷史系列
品牌包裝
4
8
品牌識別板、吉祥物套裝、化妝品包裝、飲料標籤
圖像編輯
5
10
背景替換、局部替換、雜物去除、產品精修、人像修改
網格拼貼
4
8
2×2 套裝、lookbook、多風格拼貼、動漫立項板
信息圖
6
12
手繪風、便當格、對比圖、步驟教程、KPI 儀表盤
地圖
4
8
美食地圖、旅行路線、城市風貌、門店分佈
人物肖像
4
8
商務肖像、創始人大片、虛擬主播、角色設定表
海報活動
4
8
品牌海報、Campaign KV、Web Banner、雜誌封面
產品視覺
5
10
爆炸視圖、白底主圖、影棚大片、禮盒展示、生活場景
場景插畫
4
8
治癒日常、概念大場景、繪本內頁、極簡氛圍
演示文檔
4
8
高密度講解 Slide、政策風、商業報告頁、教學示意圖
敍事序列
5
10
四格漫畫、漫畫分鏡、動漫 KV、人物關係圖、步驟流程
技術架構圖
7
14
系統架構、流程圖、時序圖、狀態機、ER 圖、思維導圖、拓撲
字體排版
2
4
大字主張海報、中英雙語版式
UI 樣機
5
10
直播電商、社交平台、落地頁、聊天界面、短視頻封面
編輯工作流
5
10
背景替換、局部替換、雜物去除、精修、人像編輯

全部模板和案例都在 Skill 倉庫和案例網站上可以直接查看和使用。

最後

如果你也對 GPT-Image-2 生圖感興趣,可以做兩件事:

  1. 去案例網站(https://gpt-image2.mmh1.top/)翻翻,找到你感興趣的方向,直接複製 prompt 試試
  2. 如果你在用 Codex / Claude Code / Cursor 之類的 Agent 環境,把 garden-skills(https://github.com/ConardLi/garden-skills/)拉下來配一下,以後說句話就能出圖

模板和案例會持續更新,歡迎 star 和貢獻。有問題可以在 GitHub 上開 issue。


如果你想第一時間收到 GPT-Image-2 的新玩法更新,可以 Star 我的 GitHub 倉庫:https://github.com/ConardLi/garden-skills/