12組非常規測試，GPT-image-2到底強在哪？

作者：龍御2037

日期：2026年5月2日上午4:26

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

GPT-image-2最恐怖嘅位：佢開始理解視覺系統，而唔係淨係畫畫

整理版摘要

呢篇文章係由一位AI測試者寫嘅，佢想用12組「非常規測試」嚟探討GPT-image-2嘅真正實力。佢唔淨係測試一般嘅繪圖能力，而係刻意避開網上常見嘅案例，專攻刁鑽嘅方向。佢發現呢個模型最恐怖嘅地方唔係畫得靚，而係開始理解「視覺背後嘅邏輯」——識得排版、構圖、UI邏輯、情緒表達，甚至世界觀設計。整體結論係：GPT-image-2已經唔再淨係繪圖模型，而係一個識得參與視覺創意嘅合夥人。

作者透過12個測試，展示模型喺唔同範疇嘅表現，例如結合考古同直播、抽象情緒可視化、未來縣城設計、宗教科幻融合等。每個測試都刻意刁鑽，要求模型理解時代融合、信息層級同鏡頭語言。結果顯示，GPT-image-2唔單止做到基本要求，仲自發性地加入細節，例如禮物特效邏輯、未來人誤解現代文明嘅味道，甚至模擬出AI做夢嘅抽象畫面。

最終作者指出，AI繪圖嘅真正變化已經由「畫得像」轉向「會表達想法」。未來嘅差距唔再係技術，而係用家嘅審美、創意、世界觀同敍事能力，因為工具正逐步變成「創意合夥人」。

GPT-image-2最強嘅係理解視覺系統，包括UI邏輯、排版、鏡頭語言同世界觀設計。
作者用12組「刁鑽測試」避開常見案例，全面測試模型嘅極限，例如考古直播、情緒可視化、未來縣城等。
呢個模型唔再只係生成圖片，而係能夠根據描述搭建一個完整嘅「世界」，連時代融合、品牌語言都掌握到。
測試顯示呢個模型可以理解抽象概念，例如將「成年人深夜改簡歷」變成情緒畫面，接近電影分鏡。
未來AI繪圖嘅關鍵唔再係技術，而係用家嘅審美、創意同敍事能力，因為工具已經變成創意合夥人。

結構示例

內容片段

內容片段 text

模擬一場三星堆文明的直播帶貨界面。
主播是青銅面具祭司，直播背景是古蜀祭祀坑。
直播標題：《今晚開箱太陽神鳥》
彈幕內容：“這青銅也太超前了”“連結呢？”“像外星文明”
界面風格：現代抖音直播 UI，但所有元素都帶有青銅器紋理。
右側禮物特效是：黃金面具、玉璋、神樹。
整體風格：古文明 + 未來科技混合，
神秘、荒誕、真實。

整理重點

歷史與未來嘅融合能力

作者首先測試模型係咪能夠理解「時代疊加」——例如將三星堆考古同現代直播帶貨結合。結果佢唔單止畫出直播界面，連彈幕UI層級同禮物特效邏輯都處理得似模似樣，完全唔似簡單貼元素。

另一個經典測試係「古代人做APP」：要求一個大唐外賣APP界面，融合敦煌壁畫色彩同iOS極簡設計。模型竟然識得保留UI邏輯同現代審美，資訊層級清晰到好似真實APP。

仲有「失敗文明博物館」測試：要求設計一張未來博物館展板，主題係人類最後一個手機充電器。模型唔單止生成展櫃同標籤，仲加入未來人誤解現代文明嘅考古註釋，充滿荒誕科幻感。

整理重點

抽象概念與情緒嘅表達

呢個環節測試模型對非實體概念嘅理解，例如「成年人深夜改簡歷」呢個情緒場景。作者要求唔好出現電腦特寫，而係用空間、燈光、人物狀態去表達。結果模型生成嘅畫面充滿冷咖啡、凌晨便利店燈光同未發送郵件提醒，完全捕捉到嗰種孤獨感，接近電影分鏡。

另一組「AI做夢」測試要求抽象表現AI夢見自己變成人類，出現錯誤人臉、漂浮童年記憶、亂碼化城市等元素。呢組作品已經接近實驗藝術，證明模型有能力處理意識流題材。

1 「情緒可視化」測試：用冷咖啡、凌晨便利店燈光營造孤獨感。
2 「城市人格化」測試：將重慶擬人化，用高架橋、火鍋蒸汽、輕軌構成人物情緒。
3 「AI做夢」測試：抽象表現AI夢境，出現漂浮童年記憶同像素化雨水。

整理重點

UI擬真與世界觀設計

呢一部分集中展示模型喺UI擬真同世界觀設計嘅恐怖能力。例如「偽Windows系統」測試：要求設計一個不存在的操作系統Windows 2099，文件夾會呼吸，通知欄預測用戶情緒。結果系統錯誤彈窗都帶有情感，似足微軟官方設計稿。

「未來縣城」測試更加展現模型對中國本土化科幻嘅理解：機器人修電動車、無人煎餅攤、懸浮麻將館，充滿城鄉結合部嘅真實荒誕感。

「偽Windows系統」：UI細節仿如真實設計稿，系統彈窗識得安慰用戶。
「互聯網考古」：模擬未來人類研究表情包、二維碼、直播打賞，信息結構嚴謹。
「中國神仙開發佈會」：玉皇大帝開科技發佈會，完全理解鏡頭語言同舞台佈置。

整理重點

AI成為創意合夥人

經過12組測試，作者總結：GPT-image-2最恐怖嘅地方唔係畫圖，而係開始理解視覺系統，包括UI邏輯、社交媒體結構、海報層級、電影鏡頭等。用家唔再係寫提示詞，而係描述一個世界，模型會幫手搭建出嚟。

作者強調，未來AI繪圖嘅關鍵已從技術轉向審美、創意、世界觀同敍事能力，因為工具正逐步變成「創意合夥人」。呢個係佢認為最值得吸收嘅核心訊息。

最後，作者提醒我哋：AI繪圖嘅真正變化係從「畫得更像」變成「更會表達想法」，未來嘅差距在於你嘅審美同創意，唔係技術參數。

查看圖片

GPT-image-2嘅強大最近好火，到底強喺邊？

我做了 12組「非常規測試”，結果好震驚

大多數人喺測試GPT-image-2嘅時候，
仲停留喺：

美女
賽博朋克
二次元頭像
海報
LOGO

呢啲當然做到。

但佢真正恐怖嘅地方，其實唔係「畫得靚」。

而是：

佢開始理解「視覺背後嘅邏輯」。

佢唔單止係一個繪圖模型。

更似一個：

識排版嘅設計師
識鏡頭嘅導演
識傳播嘅運營
識UI嘅產品經理
識敍事嘅美術總監

於是我做咗一系列：「刻意刁鑽」嘅測試。

盡量避開網上已經玩到爛嘅案例。

結果：

好多圖已經唔係「AI繪圖」。

而是：

AI開始參與「視覺創意」。

下面係我認為最值得測試嘅12個方向。

01「考古直播間」測試

我想知：GPT-image-2 能唔能夠理解：

「歷史+直播+社交媒體UI」

於是我輸入：

模擬一場三星堆文明的直播帶貨界面。
主播是青銅面具祭司，直播背景是古蜀祭祀坑。
直播標題：《今晚開箱太陽神鳥》
彈幕內容：“這青銅也太超前了”“連結呢？”“像外星文明”
界面風格：現代抖音直播 UI，但所有元素都帶有青銅器紋理。
右側禮物特效是：黃金面具、玉璋、神樹。
整體風格：古文明 + 未來科技混合，
神秘、荒誕、真實。

結果：

查看圖片

佢唔單止做出咗：

直播界面
彈幕
UI層級

甚至：

連「禮物特效邏輯」都理解咗。

呢個係最恐怖嘅。

02「失敗文明博物館」測試

我測試：GPT-image-2 能唔能夠理解「世界觀設計」。

輸入：

設計一張未來博物館展板。
主題：《人類最後一個手機充電器》
時間設定：公元3026年。
展櫃中的 Type-C 數據線
被當成遠古聖物。
旁邊有：錯誤考古註釋、能量圖譜、偽科學結構分析。
整體像：大英博物館 + NASA + IKEA說明書。
冷白色燈光，高級信息圖排版，收藏級科幻設定。

查看圖片

佢唔單止生成咗：

展櫃
標籤
參數

甚至：真係有「未來人誤解現代文明」嘅味道。

03「古代人做APP」測試

呢個係我最鍾意嘅一組。

輸入：

設計一個“大唐外賣”APP界面。
首頁推薦：胡餅、羊肉湯、葡萄酒。
騎手是快馬驛站。
狀態欄：大唐通網5G。
UI風格：iOS 極簡設計，但融合敦煌壁畫色彩、唐代紋樣、宣紙肌理。
廣告Banner：《長安三十分鐘達》

結果：

查看圖片

佢真係開始理解「時代融合」。

唔係簡單貼元素。

而是：

UI邏輯現代
審美係盛唐
資訊層級似真實APP

04「情緒可視化」測試

呢一組好抽象。我想測試佢係咪理解「非實體概念」。

輸入：

把“成年人深夜改簡歷”這件事，
畫成一張電影感插畫。
不要出現電腦界面特寫。
而是用空間、燈光、人物狀態、城市氛圍來表達。
整體像：王家衞電影 + 上海夜景 + 孤獨感攝影。
畫面有：冷掉的咖啡、凌晨便利店燈光、未發送的郵件提醒。

結果：

查看圖片

佢生成嘅唔係「人喺電腦前」。

而係情緒本身。

呢個已經接近電影分鏡喇。

05「未來縣城」測試

個個都喺做賽博朋克東京，我就偏唔。

輸入：

生成一座2048年的中國縣城。
不是超級都市。
而是：未來化的十八線小城。
街邊有：機器人修電動車、無人煎餅攤、AI算命館、懸浮麻將館。
風格：真實中國生活感，帶一點荒誕幽默。
不要歐美科幻感。

結果：

呢組特別「中國」。

甚至有種：「未來城鄉結合部」嘅真實感。

呢個好難。

06「賽博佛像」測試

我測試：佢能唔能夠融合「宗教感+科幻感」。

輸入：

設計一尊未來AI佛像。
不是機械拼接。
而是：“彷彿數據本身修煉成佛”。
佛像由：光纖、代碼流、神經網絡、粒子、星雲構成。
整體莊嚴、神聖、安靜，像宇宙意識。
風格：東方宗教壁畫 + 星際文明。

結果：

佢開始出現「概念藝術感」。

而唔係簡單機械人。

07「AI發夢」測試

呢一組特別適合測試模型上限。

輸入：

生成一張：
“AI 夢見自己變成人類”的畫面。
不要直白機械人。
而是：抽象、夢境、意識流。
出現：錯誤的人臉、漂浮的童年記憶、亂碼化城市、像素化雨水。
風格：今敏動畫 + 超現實主義。

結果：

夢境中的記憶碎片

呢組已經接近：實驗藝術。

08「偽Windows系統」測試

GPT-image-2最強嘅能力之一：UI擬真。

於是我測試：

設計一個不存在的操作系統。
名字：Windows 2099。
整個系統由 AI 接管。
桌面文件夾會“呼吸”，通知欄會預測用戶情緒。
系統錯誤彈窗：“你今天似乎有點難過”。
整體像：微軟官方UI + 黑鏡。

結果：

太似真嘅喇。

甚至：好多細節似真實系統設計稿。

09「城市人格化」測試

輸入：

把“重慶”擬人化。
不是簡單美女。
而是：整個人像由高架橋、火鍋蒸汽、輕軌、坡道、霓虹、江水構成。
人物情緒：熱烈、複雜、暴躁、浪漫。
雙重曝光結構，電影級光影。

結果：

查看圖片

呢個已經接近商業海報水平。

10「中國神仙開發佈會」測試

呢個特別離譜。

輸入：

玉皇大帝召開科技發佈會。
舞台像蘋果發佈會。
PPT標題：《天庭雲計算2.0》
哪吒在台下直播，太白金星負責講解。
整體：極簡科技風 + 東方神話。

結果：

佢甚至理解「科技發佈會鏡頭語言」。

11「假紀錄片截圖」測試

輸入：

生成一張Netflix紀錄片截圖。
主題：《最後一個會寫毛筆字的人》。
畫面：老人坐在舊城區裏，窗外是全息廣告時代。
字幕風格真實，電影顆粒感強，像真實紀錄片。

結果：

太似真實影視截圖。

12「互聯網考古」測試

呢個係我覺得最有趣嘅一組。

輸入：

假設3000年後的人類，
正在研究2020年代互聯網。
做一張未來考古百科頁。
展品包括：表情包、二維碼、直播打賞、外賣紅包、短視頻。
整體像：未來文明博物館圖鑑。

結果：

查看圖片

GPT-image-2對「資訊結構」嘅理解，

已經遠遠超過傳統繪圖模型。

GPT-image-2最恐怖嘅地方

唔係：「生成圖片」。

而係：佢開始理解「視覺系統」。

包括：

UI邏輯
社交媒體結構
海報層級
資訊密度
電影鏡頭
情緒表達
世界觀設計
品牌語言

好多時候：

你唔係喺「寫提示詞」。

而係喺：「描述一個世界」。

而GPT-image-2：開始真係可以將佢搭出嚟。

最後一句

AI繪圖真正嘅變化已經唔係：「邊個畫得更似」。

而是：

「邊個更識表達想法」。

未來嘅差距：唔再只係技術。

而是：

審美
創意
世界觀
敍事能力
資訊組織能力

因為：工具正在越來越似「創意合夥人」。

查看圖片

GPT-image-2的強大最近火出圈，到底強在哪？

我做了 12 組“非常規測試”，結果十分震驚

大多數人在測試 GPT-image-2 時，
還停留在：

美女
賽博朋克
二次元頭像
海報
LOGO

這些當然能做。

但它真正恐怖的地方，其實不是“畫得好看”。

而是：

它開始理解“視覺背後的邏輯”。

它不只是一個繪圖模型。

更像一個：

懂排版的設計師
懂鏡頭的導演
懂傳播的運營
懂UI的產品經理
懂敍事的美術總監

於是我做了一系列：“故意刁鑽”的測試。

儘量避開網上已經刷爛的案例。

結果：

很多圖已經不是“AI 繪圖”。

而是：

AI 開始參與“視覺創意”。

下面是我認為最值得測試的 12 個方向。

01「考古直播間」測試

我想知道：GPT-image-2 能不能理解：

“歷史 + 直播 + 社交媒體 UI”

於是我輸入：

模擬一場三星堆文明的直播帶貨界面。
主播是青銅面具祭司，直播背景是古蜀祭祀坑。
直播標題：《今晚開箱太陽神鳥》
彈幕內容：“這青銅也太超前了”“連結呢？”“像外星文明”
界面風格：現代抖音直播 UI，但所有元素都帶有青銅器紋理。
右側禮物特效是：黃金面具、玉璋、神樹。
整體風格：古文明 + 未來科技混合，
神秘、荒誕、真實。

結果：

查看圖片

它不僅做出了：

直播界面
彈幕
UI層級

甚至：

連“禮物特效邏輯”都理解了。

這是最恐怖的。

02「失敗文明博物館」測試

我測試：GPT-image-2 是否能理解“世界觀設計”。

輸入：

設計一張未來博物館展板。
主題：《人類最後一個手機充電器》
時間設定：公元3026年。
展櫃中的 Type-C 數據線
被當成遠古聖物。
旁邊有：錯誤考古註釋、能量圖譜、偽科學結構分析。
整體像：大英博物館 + NASA + IKEA說明書。
冷白色燈光，高級信息圖排版，收藏級科幻設定。

查看圖片

它不僅生成了：

展櫃
標籤
參數

甚至：真有“未來人誤解現代文明”的味道。

03「古代人做 APP」測試

這是我最喜歡的一組。

輸入：

設計一個“大唐外賣”APP界面。
首頁推薦：胡餅、羊肉湯、葡萄酒。
騎手是快馬驛站。
狀態欄：大唐通網5G。
UI風格：iOS 極簡設計，但融合敦煌壁畫色彩、唐代紋樣、宣紙肌理。
廣告Banner：《長安三十分鐘達》

結果：

查看圖片

它真的開始理解“時代融合”。

不是簡單貼元素。

而是：

UI邏輯現代
審美是盛唐
信息層級像真實APP

04「情緒可視化」測試

這一組非常抽象。我想測試它是否理解“非實體概念”。

輸入：

把“成年人深夜改簡歷”這件事，
畫成一張電影感插畫。
不要出現電腦界面特寫。
而是用空間、燈光、人物狀態、城市氛圍來表達。
整體像：王家衞電影 + 上海夜景 + 孤獨感攝影。
畫面有：冷掉的咖啡、凌晨便利店燈光、未發送的郵件提醒。

結果：

查看圖片

它生成的不是“人在電腦前”。

而是情緒本身。

這已經接近電影分鏡了。

05「未來縣城」測試

大家都在做賽博朋克東京，我偏不。

輸入：

生成一座2048年的中國縣城。
不是超級都市。
而是：未來化的十八線小城。
街邊有：機器人修電動車、無人煎餅攤、AI算命館、懸浮麻將館。
風格：真實中國生活感，帶一點荒誕幽默。
不要歐美科幻感。

結果：

這組特別“中國”。

甚至有種：“未來城鄉結合部”的真實感。

這個非常難。

06「賽博佛像」測試

我測試：它能否融合“宗教感 + 科幻感”。

輸入：

設計一尊未來AI佛像。
不是機械拼接。
而是：“彷彿數據本身修煉成佛”。
佛像由：光纖、代碼流、神經網絡、粒子、星雲構成。
整體莊嚴、神聖、安靜，像宇宙意識。
風格：東方宗教壁畫 + 星際文明。

結果：

它開始出現“概念藝術感”。

而不是簡單機器人。

07「AI 做夢」測試

這一組特別適合測試模型上限。

輸入：

生成一張：
“AI 夢見自己變成人類”的畫面。
不要直白機械人。
而是：抽象、夢境、意識流。
出現：錯誤的人臉、漂浮的童年記憶、亂碼化城市、像素化雨水。
風格：今敏動畫 + 超現實主義。

結果：

夢境中的記憶碎片

這組已經接近：實驗藝術。

08「偽 Windows 系統」測試

GPT-image-2 最強的能力之一：UI擬真。

於是我測試：

設計一個不存在的操作系統。
名字：Windows 2099。
整個系統由 AI 接管。
桌面文件夾會“呼吸”，通知欄會預測用戶情緒。
系統錯誤彈窗：“你今天似乎有點難過”。
整體像：微軟官方UI + 黑鏡。

結果：

太像真的了。

甚至：很多細節像真實系統設計稿。

09「城市人格化」測試

輸入：

把“重慶”擬人化。
不是簡單美女。
而是：整個人像由高架橋、火鍋蒸汽、輕軌、坡道、霓虹、江水構成。
人物情緒：熱烈、複雜、暴躁、浪漫。
雙重曝光結構，電影級光影。

結果：

查看圖片

這已經接近商業海報水平。

10「中國神仙開發佈會」測試

這個特別離譜。

輸入：

玉皇大帝召開科技發佈會。
舞台像蘋果發佈會。
PPT標題：《天庭雲計算2.0》
哪吒在台下直播，太白金星負責講解。
整體：極簡科技風 + 東方神話。

結果：

它甚至理解“科技發佈會鏡頭語言”。

11「假紀錄片截圖」測試

輸入：

生成一張Netflix紀錄片截圖。
主題：《最後一個會寫毛筆字的人》。
畫面：老人坐在舊城區裏，窗外是全息廣告時代。
字幕風格真實，電影顆粒感強，像真實紀錄片。

結果：

太像真實影視截圖。

12「互聯網考古」測試

這是我覺得最有意思的一組。

輸入：

假設3000年後的人類，
正在研究2020年代互聯網。
做一張未來考古百科頁。
展品包括：表情包、二維碼、直播打賞、外賣紅包、短視頻。
整體像：未來文明博物館圖鑑。

結果：

查看圖片

GPT-image-2 對“信息結構”的理解，

已經遠超傳統繪圖模型。

GPT-image-2 最恐怖的地方

不是：“生成圖片”。

而是：它開始理解“視覺系統”。

包括：

UI邏輯
社交媒體結構
海報層級
信息密度
電影鏡頭
情緒表達
世界觀設計
品牌語言

很多時候：

你不是在“寫提示詞”。

而是在：“描述一個世界”。

而 GPT-image-2：開始真的能把它搭出來。

最後一句

AI 繪圖真正的變化已經不是：“誰畫得更像”。

而是：

“誰更會表達想法”。

未來的差距：不再只是技術。

而是：

審美
創意
世界觀
敍事能力
信息組織能力

因為：工具正在越來越像“創意合夥人”。