1047 星 Skill 把 162 類 GPT-Image-2 prompt 全拆了

作者：傑森AI出海

日期：2026年5月3日上午6:00

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

gpt_image_2_skill 項目：162 個真實場景 GPT-Image-2 prompt 加工藝手冊，幫你慳返 3 個月踩坑時間

整理版摘要

GitHub 上一位叫 wuyoscar 嘅作者喺 4 月 22 號推出咗 gpt_image_2_skill 呢個項目，8 日內就攞到 1047 粒星同 111 個 fork。佢嘅核心目標好明確：拆走 OpenAI 官方 cookbook 同實際出圖之間嘅牆。官方 cookbook 教方法論，但普通用戶想整一張 9:16 城市夜景海報時，仍然唔知點寫 prompt。呢個項目就係針對呢個 gap，直接提供 162 個對應真實場景嘅 prompt，配埋 162 張參考圖，抄落嚟改一行就用到。

呢套 prompt 庫嘅最大特色係「按需加載」。佢唔似普通 repo 咁一份 README 幾千行掉畀 Agent 直接爆 context，而係將 162 個 prompt 拆成 12 個分類文件，例如 gallery-anime-and-manga.md、gallery-research-paper-figures.md 等等，再加一個 routing index gallery.md。Agent 接到請求時先睇 routing index 揾到正確分類，然後只加載對應嘅一個文件，其他 11 個分類完全唔入上下文，咁樣就唔會浪費 token。

真正嘅護城河係 references/craft.md 呢份 19 節工藝手冊。入面記錄咗好多生產經驗，例如文字一定要用直引號 "" 包住先 render 到中文、多面板拼圖要宣告 pan…

呢個項目證明咗 GPT-Image-2 嘅樽頸唔係模型本身，而係 prompt 工程；用呢套 prompt 庫可以慳返 3 個月踩坑時間
核心設計係按需加載：將 162 個 prompt 按 12 類拆成獨立文件，只用 routing index 揀啱分類先加載，避免爆 context
同普通 prompt 大全最大差異係提供場景到 prompt 嘅映射，而唔係求其畀一堆素材
19 節 craft.md 工藝手冊先係真正護城河，包含文字渲染、多面板、Scale-first 等生產經驗，OpenAI 官方 cookbook 冇呢啲
CLI 工具設計細心，例如 quality 當 budget knob 用、支援多 reference 同 mask inpaint、exit codes 方便嵌入 pipeline

值得記低

Skill github.com

gpt_image_2_skill

包含 162 個 GPT-Image-2 prompt 嘅 Agentic Skill，自動按需加載 12 類場景 prompt，適用於 Claude Code 同 Codex

流程 github.com

craft.md 工藝手冊

19 節 prompt 工藝經驗，涵蓋 Scale-first、JSON 風格 prompt、多面板、UI spec、文字渲染等，係項目最難複製嘅部分

工具 github.com

gpt-image CLI

一行命令出圖工具，支援 --quality 參數控制預算、-i 多參考圖、--mask inpaint，同埋 0/1/2 exit codes

整理重點

項目背景：拆走 cookbook 同出圖之間嘅牆

GitHub 作者 wuyoscar 推出嘅 gpt_image_2_skill，8 日內獲得 1047 星，目標係解決 OpenAI 官方 cookbook 太方法論、唔夠落地嘅問題。佢整理咗 162 個真實場景嘅 prompt，配齊參考圖，並且打包成 Claude Code / Codex 嘅 Agentic Skill 同埋 CLI 工具。

呢個項目將「場景到 prompt」嘅映射直接畀你用，唔使再自己由零開始諗點寫

整理重點

按需加載：唔爆 token 嘅 prompt 庫設計

普通 prompt repo 多數係一份幾千行嘅 README，Agent 一食入去就爆 context。呢個 repo 將 162 個 prompt 拆成 12 個分類文件，例如 gallery-anime-and-manga.md、gallery-ui-ux-mockups.md，再加一個 routing index gallery.md 做入口。

當 Agent 接到「我要做一張論文 figure」嘅請求，佢會先讀 routing index 揾到正確分類，然後只加載 gallery-research-paper-figures.md 呢一個文件，其他 11 個分類完全唔入上下文。咁樣就慳返大量 token，而且加載速度快好多。

12 個分類覆蓋動漫、遊戲、復古、電影、角色設計、字體海報、插畫、水彩、水墨、像素、等距、產品食品等主流場景
每個分類文件入面 prompt 都對應具體落地場景，例如學術論文 figure、Instagram product mockup、像素風遊戲角色四方向貼圖
OpenAI 官方 1004 行 cookbook 被完整收錄做本地知識庫，Agent 可以按需查閲，唔使聯網

整理重點

19 節工藝手冊：真正嘅護城河

Prompt 庫係顯性資產，好易被人抄。但 references/craft.md 呢份 19 節工藝手冊係作者自己跑出嚟嘅經驗，先係呢個項目喺 Top 1% 嘅原因。佢包含好多具體場景嘅寫法取捨。

例如中文文字渲染必須用直引號 "" 包住，唔可以用中文引號「」

多面板拼圖要先聲明 panel 結構，再逐格寫內容

"photorealistic" 比 "real photograph" 喺 GPT-Image-2 效果更穩，但 "iPhone photo" 呢種描述又特別有用

呢啲細節 OpenAI 官方 cookbook 完全冇寫，全部係作者由生產經驗沉澱出嚟。工藝手冊仲包含 Scale-first 用法、JSON 同 config 風格 prompt、UI spec、數據圖語法、edit invariants 等。

整理重點

CLI 工具：一行命令出圖，設計處處係細節

除咗 skill 之外，呢個 repo 仲包咗一個 CLI 工具 gpt-image，裝好之後可以用呢個命令直接出圖：

程式內容 bash

uvx --from git+https://github.com/wuyoscar/gpt_image_2_skill gpt-image -p "a cat astronaut"

設計上有 3 個值得留意嘅細節：

1 --quality 可以用嚟控制 budget：low 出 cheap draft 跑大量變體，medium 做 style probing，high 先出最終成品，慳錢慳時間
2 -i ref1.png -i ref2.png 可以帶多張參考圖，再加 --mask 做 inpaint，充分利用 GPT-Image-2 嘅多 reference 編輯能力
3 exit codes 設計：0 成功、1 API 報錯（stderr 出完整信息）、2 參數錯或 API key 缺失，方便嵌入 shell pipeline

整理重點

同類工具對比：唔係 prompt 大全，而係場景映射

市面上 GPT-Image-2 相關嘅 prompt repo 好多，但大多數停留喺「畀你好多 prompt 你自己揀」嘅階段。呢個 repo 嘅差異化好明顯。

普通 repo 畀素材，呢個 skill 畀「場景→prompt」嘅映射
普通 repo 一份 README 一刀切，呢個 skill 按分類拆成多個文件，按需加載
普通 repo 只有 prompt，呢個 skill 有 19 節工藝手冊做系統知識
普通 repo 得一個接口，呢個 skill 同時提供 Skill（自動調用）同 CLI（命令行）兩種 surface

同一份知識，兩種調用接口——呢個設計係未來 AI Tool 嘅標準形態

安裝方面：Claude Code 用戶用 /plugin marketplace add wuyoscar/gpt_image_2_skill/plugin；Codex 用戶用 $skill-installer install 指定 URL；CLI 用戶就一行 uvx 命令。裝完記住設定 OPENAI_API_KEY 環境變量，或者放喺 ~/.env 等佢自動讀取。

GitHub 上有個叫 wuyoscar 嘅作者，4 月 22 號推咗一個叫 gpt_image_2_skill 嘅項目，8 日 1047 粒星 111 個 fork。佢做嘅嘢好簡單，將 GPT-Image-2 喺研究圖、海報、UI 稿、遊戲 HUD、動漫、像素、等距、產品圖、手寫水墨等 12 大類共 162 個真實場景嘅 prompt 全部整理曬出嚟，配齊 162 張參考圖。同時打包成 Claude Code / Codex 嘅 Agentic Skill 同一行命令嘅 CLI（gpt-image -p）。

呢個 skill 解決嘅真問題：cookbook 係教法，呢個係 162 個工藝品

OpenAI 官方有一份 GPT Image prompting cookbook，1004 行嘅 markdown，將基礎參數、edits 模式、UI 稿寫法、科學可視化嘅語法講得好全面。問題係佢教嘅係方法論，唔係「我而家要做一個 9:16 嘅城市夜景海報，prompt 點寫」。

呢兩件事之間有一道牆。會查 cookbook 同會出圖相差三個月嘅踩坑經驗。gpt_image_2_skill 將呢堵牆拆咗。每個 prompt 都對應一個具體落地場景（學術論文 figure、Instagram product mockup、像素風遊戲角色四方向貼圖、小紅書風營銷海報…），抄落嚟改一行就得用。

更加重要嘅係，repo 將 OpenAI 官方嗰份 1004 行 cookbook 完整收錄到 references/openai-cookbook.md，作為 skill 嘅「按需加載知識庫」存在。當你問 Agent "點寫 mask 修圖 prompt" 嘅時候，佢會自動去睇呢份本地文件，唔使聯網，亦唔佔用戶上下文。

162 個 prompt 按 12 大類組織，按需加載唔爆 token

成個 prompt 庫嘅設計點全喺「按需加載」三個字。

呢個係佢同普通 prompt 大全 repo 最唔同嘅地方。普通 repo 係一份 5000 行嘅 README，掉俾 Agent 直接爆 context。呢個 skill 將 162 個 prompt 拆成 12 個分類文件（gallery-anime-and-manga.md、gallery-ui-ux-mockups.md、gallery-research-paper-figures.md…），加一個 routing index gallery.md。

Agent 接到「我要做一張論文 figure」嘅請求，先讀 routing index 揾到正確分類，再淨係加載 gallery-research-paper-figures.md 呢一個文件。其他 11 個分類嘅 prompt 完全唔入上下文。

12 個分類按主題分得好合理：動漫與漫畫、遊戲、復古與賽博朋克、電影與動畫、角色設計、字體與海報、插畫、水彩、水墨與中式、像素藝術、等距、產品與食品。基本覆蓋咗而家 AI 出圖嘅所有主流付費場景。

真正嘅護城河係 19 節 prompt 工藝手冊

prompt 庫本身係顯性資產，邊個都抄得走。呢個 repo 真正難複製嘅係 references/craft.md 呢份 19 節工藝手冊。

19 節裏麪包含 Scale-first 用法、JSON 同 config 風格 prompt、多面板 board、UI spec、數據圖語法、edit invariants、reference workflows、密集文字渲染，仲有每個 category 嘅 mini-schema。呢啲都係直接從生產經驗沉澱落嚟嘅「呢種場景呢種寫法行，嗰種寫法唔得」嘅經驗。

舉幾個具體例子。要令 GPT-Image-2 喺圖裏面渲染中文文字，文字必須用直引號 "" 包起嚟唔可以用中文引號；多面板拼圖要先聲明 panel 結構再寫每格內容；photorealistic 比 real photograph 喺 GPT-Image-2 裏面效果更穩定，但 iPhone photo 呢種講法又特別有用。呢啲細節喺 OpenAI 官方 cookbook 裏面都冇寫，全部係作者自己試出嚟嘅工藝。

craft.md 係呢個 repo 喺 Top 1% 嘅真正原因。前一篇文入面嗰 0.983 基尼係數講嘅就係呢件事，能進 Top 1% 嘅 Skill 一定喺某個具體維度有別人抄唔走嘅內功。呢份 19 節工藝手冊就係 wuyoscar 嘅護城河。

CLI 一行命令嘅設計

除咗 skill，repo 仲附帶一個 CLI 工具 gpt-image。裝好之後任何一個 prompt 都可以直接 gpt-image -p "..." --size portrait --quality high -f out.png 出圖。

設計上有 3 個值得抄嘅細節。

第一個係將 --quality 當 budget knob 用。同一個 prompt，low 俾 cheap draft 用來跑大量變體，medium 俾 style probing，high 留俾最終海報、中文渲染、密集文字。作者明確建議「先 low 跑十幾張揀 1 張，再用 high 出終稿」，呢個係真實生產流程總結出嚟嘅慳錢套路。

第二個係 reference image 嘅多輸入支持。-i ref1.png -i ref2.png 可以同時帶多張參考圖，外加一個 mask 入 inpaint。呢種多 reference 編輯能力係 GPT-Image-2 比上一代最大嘅提升點，CLI 將佢做成咗一行參數。

第三個係 exit codes 設計。0 成功，1 係 API 報錯（完整響應 echo 到 stderr），2 係參數錯或 API key 缺失。呢個係俾將 CLI 嵌入 shell pipeline 嘅用戶準備嘅，看似小事但能省下大量 debug 時間。

同同類工具嘅核心分別

市面上 GPT-Image-2 相關嘅 prompt repo 好多，大多數停留喺「prompt 大全」階段。呢個 repo 嘅差異化做得好清楚。

普通 prompt repo 俾嘅係「素材」，要靠用戶自己去匹配場景。呢個 skill 俾嘅係「場景到 prompt」嘅映射。普通 repo 一份 README 一刀切，呢個 skill 按分類拆成 12 個文件按需加載。普通 repo 只有 prompt 冇工藝，呢個 skill 將 19 節工藝手冊放喺 craft.md 裏面作為系統級知識。

最後一個分別係雙 surface。同一套知識庫，既可以作為 Claude Code / Codex 嘅 Skill 自動調用，都可以作為 CLI 直接命令行用。呢種「同一份知識，兩種調用接口」嘅設計係未來 AI Tool 嘅標準形態。

30 秒裝好就跑到

Claude Code 用戶：

/plugin marketplace add wuyoscar/gpt_image_2_skill
/plugin install gpt-image@wuyoscar-skills

Codex 用戶用內置嘅 $skill-installer 裝，命令係 $skill-installer install https://github.com/wuyoscar/gpt_image_2_skill/tree/main/skills/gpt-image。

CLI 用戶一行：uvx --from git+https://github.com/wuyoscar/gpt_image_2_skill gpt-image -p "a cat astronaut"。裝完讀 OPENAI_API_KEY 環境變量或 ~/.env 自動跑。

第一次用建議先去 README 嗰個 prompt 畫廊，揀一個同你想做嘅最似嘅場景，將 prompt 抄落嚟喺自己業務裏面改 1 到 2 個變量跑一次，比睇十篇 GPT-Image-2 教程都直觀。

一句話講重點

gpt_image_2_skill 呢個項目證明咗 GPT-Image-2 呢一代圖像模型真正嘅瓶頸唔喺模型本身，而喺 prompt 工程。模型能力上限俾 OpenAI 鎖死咗，但每個用戶實際能用出幾多效果，差距至少 5 倍。

162 個 prompt 係顯性嘅，19 節工藝手冊係隱性嘅，1004 行本地 cookbook 係底層嘅。三件套加埋一齊，俾所有想用 GPT-Image-2 出圖嘅人慳咗至少 3 個月嘅踩坑。前一篇文入面嗰 67,196 個 AI Agent 項目嘅 Top 1%，wuyoscar 呢個 8 日就入咗。

倉庫地址 github.com/wuyoscar/gpt_image_2_skill，文檔英文中文雙版，CC BY 4.0 協議，商業使用都得。

GitHub 上有個叫 wuyoscar 的作者，4 月 22 號推了一個叫 gpt_image_2_skill 的項目，8 天 1047 顆星 111 個 fork。它做的事情很簡單，把 GPT-Image-2 在研究圖、海報、UI 稿、遊戲 HUD、動漫、像素、等距、產品圖、手寫水墨等 12 大類共 162 個真實場景的 prompt 全部整理出來，配齊 162 張參考圖。同時打包成 Claude Code / Codex 的 Agentic Skill 和一行命令的 CLI（gpt-image -p）。

這個 skill 解決的真問題：cookbook 是教法，這是 162 個工藝品

OpenAI 官方有一份 GPT Image prompting cookbook，1004 行的 markdown，把基礎參數、edits 模式、UI 稿寫法、科學可視化的語法講得很全。問題是它教的是方法論，不是「我現在要做一個 9:16 的城市夜景海報，prompt 怎麼寫」。

這兩件事之間有一道牆。會查 cookbook 跟會出圖差三個月的踩坑。gpt_image_2_skill 把這堵牆拆了。每個 prompt 都對應一個具體落地場景（學術論文 figure、Instagram product mockup、像素風遊戲角色四方向貼圖、小紅書風營銷海報…），抄下來改一行就能用。

更重要的是，repo 把 OpenAI 官方那份 1004 行 cookbook 完整收錄到 references/openai-cookbook.md，作為 skill 的「按需加載知識庫」存在。當你問 Agent "怎麼寫 mask 修圖 prompt" 的時候，它會自動去翻這份本地文件，不需要聯網，也不佔用戶上下文。

162 個 prompt 按 12 大類組織，按需加載不爆 token

整套 prompt 庫的設計點全在「按需加載」三個字。

這是它跟普通 prompt 大全 repo 最不一樣的地方。普通 repo 是一份 5000 行的 README，丟給 Agent 直接爆 context。這個 skill 把 162 個 prompt 拆成 12 個分類文件（gallery-anime-and-manga.md、gallery-ui-ux-mockups.md、gallery-research-paper-figures.md…），加一個 routing index gallery.md。

Agent 接到「我要做一張論文 figure」的請求，先讀 routing index 找到正確分類，再只加載 gallery-research-paper-figures.md 這一個文件。其他 11 個分類的 prompt 完全不進上下文。

12 個分類按主題分得很合理：動漫與漫畫、遊戲、復古與賽博朋克、電影與動畫、角色設計、字體與海報、插畫、水彩、水墨與中式、像素藝術、等距、產品與食品。基本覆蓋了現在 AI 出圖的所有主流付費場景。

真正的護城河是 19 節 prompt 工藝手冊

prompt 庫本身是顯性資產，誰都能抄走。這個 repo 真正難複製的是 references/craft.md 這份 19 節工藝手冊。

19 節裏包含 Scale-first 用法、JSON 和 config 風格 prompt、多面板 board、UI spec、數據圖語法、edit invariants、reference workflows、密集文字渲染，還有每個 category 的 mini-schema。這些都是直接從生產經驗沉澱下來的「這種場景這種寫法行，那種寫法不行」的經驗。

舉幾個具體例子。要讓 GPT-Image-2 在圖裏渲染中文文字，文字必須用直引號 "" 包起來不能是中文引號；多面板拼圖要先聲明 panel 結構再寫每格內容；photorealistic 比 real photograph 在 GPT-Image-2 裏效果更穩，但 iPhone photo 這種說法又特別有用。這些細節在 OpenAI 官方 cookbook 裏都沒寫，全是作者自己跑出來的工藝。

craft.md 是這個 repo 在 Top 1% 的真正原因。前一篇文章裏那 0.983 基尼係數說的就是這件事，能進 Top 1% 的 Skill 一定在某個具體維度有別人抄不走的內功。這份 19 節工藝手冊就是 wuyoscar 的護城河。

CLI 一行命令的設計

除了 skill，repo 還附帶一個 CLI 工具 gpt-image。裝好之後任何一個 prompt 都可以直接 gpt-image -p "..." --size portrait --quality high -f out.png 出圖。

設計上有 3 個值得抄的細節。

第一個是把 --quality 當 budget knob 用。同一個 prompt，low 給 cheap draft 用來跑大量變體，medium 給 style probing，high 留給最終海報、中文渲染、密集文字。作者明確建議「先 low 跑十幾張選 1 張，再用 high 出終稿」，這是真實生產流程總結出來的省錢套路。

第二個是 reference image 的多輸入支持。-i ref1.png -i ref2.png 可以同時帶多張參考圖，外加一個 mask 進 inpaint。這種多 reference 編輯能力是 GPT-Image-2 比上一代最大的提升點，CLI 把它做成了一行參數。

第三個是 exit codes 設計。0 成功，1 是 API 報錯（完整響應 echo 到 stderr），2 是參數錯或 API key 缺失。這是給把 CLI 嵌入 shell pipeline 的用戶準備的，看似小事但能省下大量 debug 時間。

跟同類工具的核心差別

市面上 GPT-Image-2 相關的 prompt repo 很多，大多數停留在「prompt 大全」階段。這個 repo 的差異化做得很清楚。

普通 prompt repo 給的是「素材」，要靠用戶自己去匹配場景。這個 skill 給的是「場景到 prompt」的映射。普通 repo 一份 README 一刀切，這個 skill 按分類拆成 12 個文件按需加載。普通 repo 只有 prompt 沒有工藝，這個 skill 把 19 節工藝手冊放在 craft.md 裏作為系統級知識。

最後一個差別是雙 surface。同一套知識庫，既能作為 Claude Code / Codex 的 Skill 自動調用，也能作為 CLI 直接命令行用。這種「同一份知識，兩種調用接口」的設計是未來 AI Tool 的標準形態。

30 秒裝上跑起來

Claude Code 用戶：

/plugin marketplace add wuyoscar/gpt_image_2_skill
/plugin install gpt-image@wuyoscar-skills

Codex 用戶用內置的 $skill-installer 裝，命令是 $skill-installer install https://github.com/wuyoscar/gpt_image_2_skill/tree/main/skills/gpt-image。

CLI 用戶一行：uvx --from git+https://github.com/wuyoscar/gpt_image_2_skill gpt-image -p "a cat astronaut"。裝完讀 OPENAI_API_KEY 環境變量或 ~/.env 自動跑。

第一次用建議先去 README 那個 prompt 畫廊，挑一個跟你想做的最像的場景，把 prompt 抄下來在自己業務裏改 1 到 2 個變量跑一次，比看十篇 GPT-Image-2 教程都直觀。

一句話抓重點

gpt_image_2_skill 這個項目證明了 GPT-Image-2 這一代圖像模型真正的瓶頸不在模型本身，在 prompt 工程。模型能力上限被 OpenAI 鎖死了，但每個用戶實際能用出多少效果，差距至少 5 倍。

162 個 prompt 是顯性的，19 節工藝手冊是隱性的，1004 行本地 cookbook 是底層的。三件套加在一起，給所有想用 GPT-Image-2 出圖的人省了至少 3 個月的踩坑。前一篇文章裏那 67,196 個 AI Agent 項目的 Top 1%，wuyoscar 這個 8 天就進了。

倉庫地址 github.com/wuyoscar/gpt_image_2_skill，文檔英文中文雙版，CC BY 4.0 協議，商業使用也行。