12組非常規測試,GPT-image-2到底強在哪?
整理版優先睇
GPT-image-2最恐怖嘅位:佢開始理解視覺系統,而唔係淨係畫畫
呢篇文章係由一位AI測試者寫嘅,佢想用12組「非常規測試」嚟探討GPT-image-2嘅真正實力。佢唔淨係測試一般嘅繪圖能力,而係刻意避開網上常見嘅案例,專攻刁鑽嘅方向。佢發現呢個模型最恐怖嘅地方唔係畫得靚,而係開始理解「視覺背後嘅邏輯」——識得排版、構圖、UI邏輯、情緒表達,甚至世界觀設計。整體結論係:GPT-image-2已經唔再淨係繪圖模型,而係一個識得參與視覺創意嘅合夥人。
作者透過12個測試,展示模型喺唔同範疇嘅表現,例如結合考古同直播、抽象情緒可視化、未來縣城設計、宗教科幻融合等。每個測試都刻意刁鑽,要求模型理解時代融合、信息層級同鏡頭語言。結果顯示,GPT-image-2唔單止做到基本要求,仲自發性地加入細節,例如禮物特效邏輯、未來人誤解現代文明嘅味道,甚至模擬出AI做夢嘅抽象畫面。
最終作者指出,AI繪圖嘅真正變化已經由「畫得像」轉向「會表達想法」。未來嘅差距唔再係技術,而係用家嘅審美、創意、世界觀同敍事能力,因為工具正逐步變成「創意合夥人」。
- GPT-image-2最強嘅係理解視覺系統,包括UI邏輯、排版、鏡頭語言同世界觀設計。
- 作者用12組「刁鑽測試」避開常見案例,全面測試模型嘅極限,例如考古直播、情緒可視化、未來縣城等。
- 呢個模型唔再只係生成圖片,而係能夠根據描述搭建一個完整嘅「世界」,連時代融合、品牌語言都掌握到。
- 測試顯示呢個模型可以理解抽象概念,例如將「成年人深夜改簡歷」變成情緒畫面,接近電影分鏡。
- 未來AI繪圖嘅關鍵唔再係技術,而係用家嘅審美、創意同敍事能力,因為工具已經變成創意合夥人。
內容片段
模擬一場三星堆文明的直播帶貨界面。
主播是青銅面具祭司,直播背景是古蜀祭祀坑。
直播標題:《今晚開箱太陽神鳥》
彈幕內容:“這青銅也太超前了”“連結呢?”“像外星文明”
界面風格:現代抖音直播 UI,但所有元素都帶有青銅器紋理。
右側禮物特效是:黃金面具、玉璋、神樹。
整體風格:古文明 + 未來科技混合,
神秘、荒誕、真實。
歷史與未來嘅融合能力
作者首先測試模型係咪能夠理解「時代疊加」——例如將三星堆考古同現代直播帶貨結合。結果佢唔單止畫出直播界面,連彈幕UI層級同禮物特效邏輯都處理得似模似樣,完全唔似簡單貼元素。
另一個經典測試係「古代人做APP」:要求一個大唐外賣APP界面,融合敦煌壁畫色彩同iOS極簡設計。模型竟然識得保留UI邏輯同現代審美,資訊層級清晰到好似真實APP。
仲有「失敗文明博物館」測試:要求設計一張未來博物館展板,主題係人類最後一個手機充電器。模型唔單止生成展櫃同標籤,仲加入未來人誤解現代文明嘅考古註釋,充滿荒誕科幻感。
抽象概念與情緒嘅表達
呢個環節測試模型對非實體概念嘅理解,例如「成年人深夜改簡歷」呢個情緒場景。作者要求唔好出現電腦特寫,而係用空間、燈光、人物狀態去表達。結果模型生成嘅畫面充滿冷咖啡、凌晨便利店燈光同未發送郵件提醒,完全捕捉到嗰種孤獨感,接近電影分鏡。
另一組「AI做夢」測試要求抽象表現AI夢見自己變成人類,出現錯誤人臉、漂浮童年記憶、亂碼化城市等元素。呢組作品已經接近實驗藝術,證明模型有能力處理意識流題材。
- 1 「情緒可視化」測試:用冷咖啡、凌晨便利店燈光營造孤獨感。
- 2 「城市人格化」測試:將重慶擬人化,用高架橋、火鍋蒸汽、輕軌構成人物情緒。
- 3 「AI做夢」測試:抽象表現AI夢境,出現漂浮童年記憶同像素化雨水。
UI擬真與世界觀設計
呢一部分集中展示模型喺UI擬真同世界觀設計嘅恐怖能力。例如「偽Windows系統」測試:要求設計一個不存在的操作系統Windows 2099,文件夾會呼吸,通知欄預測用戶情緒。結果系統錯誤彈窗都帶有情感,似足微軟官方設計稿。
「未來縣城」測試更加展現模型對中國本土化科幻嘅理解:機器人修電動車、無人煎餅攤、懸浮麻將館,充滿城鄉結合部嘅真實荒誕感。
- 「偽Windows系統」:UI細節仿如真實設計稿,系統彈窗識得安慰用戶。
- 「互聯網考古」:模擬未來人類研究表情包、二維碼、直播打賞,信息結構嚴謹。
- 「中國神仙開發佈會」:玉皇大帝開科技發佈會,完全理解鏡頭語言同舞台佈置。
AI成為創意合夥人
經過12組測試,作者總結:GPT-image-2最恐怖嘅地方唔係畫圖,而係開始理解視覺系統,包括UI邏輯、社交媒體結構、海報層級、電影鏡頭等。用家唔再係寫提示詞,而係描述一個世界,模型會幫手搭建出嚟。
作者強調,未來AI繪圖嘅關鍵已從技術轉向審美、創意、世界觀同敍事能力,因為工具正逐步變成「創意合夥人」。呢個係佢認為最值得吸收嘅核心訊息。
最後,作者提醒我哋:AI繪圖嘅真正變化係從「畫得更像」變成「更會表達想法」,未來嘅差距在於你嘅審美同創意,唔係技術參數。

GPT-image-2嘅強大最近好火,到底強喺邊?
我做了 12組「非常規測試”,結果好震驚
大多數人喺測試GPT-image-2嘅時候,
仲停留喺:
美女 賽博朋克 二次元頭像 海報 LOGO
呢啲當然做到。
但佢真正恐怖嘅地方,其實唔係「畫得靚」。
而是:
佢開始理解「視覺背後嘅邏輯」。
佢唔單止係一個繪圖模型。
更似一個:
識排版嘅設計師 識鏡頭嘅導演 識傳播嘅運營 識UI嘅產品經理 識敍事嘅美術總監
於是我做咗一系列:「刻意刁鑽」嘅測試。
盡量避開網上已經玩到爛嘅案例。
結果:
好多圖已經唔係「AI繪圖」。
而是:
AI開始參與「視覺創意」。
下面係我認為最值得測試嘅12個方向。
01「考古直播間」測試
我想知:GPT-image-2 能唔能夠理解:
「歷史+直播+社交媒體UI」
於是我輸入:
模擬一場三星堆文明的直播帶貨界面。 主播是青銅面具祭司,直播背景是古蜀祭祀坑。 直播標題:《今晚開箱太陽神鳥》 彈幕內容:“這青銅也太超前了”“連結呢?”“像外星文明” 界面風格:現代抖音直播 UI,但所有元素都帶有青銅器紋理。 右側禮物特效是:黃金面具、玉璋、神樹。 整體風格:古文明 + 未來科技混合, 神秘、荒誕、真實。
結果:

佢唔單止做出咗:
直播界面 彈幕 UI層級
甚至:
連「禮物特效邏輯」都理解咗。
呢個係最恐怖嘅。
02「失敗文明博物館」測試
我測試:GPT-image-2 能唔能夠理解「世界觀設計」。
輸入:
設計一張未來博物館展板。 主題:《人類最後一個手機充電器》 時間設定:公元3026年。 展櫃中的 Type-C 數據線 被當成遠古聖物。 旁邊有:錯誤考古註釋、能量圖譜、偽科學結構分析。 整體像:大英博物館 + NASA + IKEA說明書。 冷白色燈光,高級信息圖排版,收藏級科幻設定。

佢唔單止生成咗:
展櫃 標籤 參數
甚至:真係有「未來人誤解現代文明」嘅味道。
03「古代人做APP」測試
呢個係我最鍾意嘅一組。
輸入:
設計一個“大唐外賣”APP界面。 首頁推薦:胡餅、羊肉湯、葡萄酒。 騎手是快馬驛站。 狀態欄:大唐通網5G。 UI風格:iOS 極簡設計,但融合敦煌壁畫色彩、唐代紋樣、宣紙肌理。 廣告Banner:《長安三十分鐘達》
結果:

佢真係開始理解「時代融合」。
唔係簡單貼元素。
而是:
UI邏輯現代 審美係盛唐 資訊層級似真實APP
04「情緒可視化」測試
呢一組好抽象。我想測試佢係咪理解「非實體概念」。
輸入:
把“成年人深夜改簡歷”這件事, 畫成一張電影感插畫。 不要出現電腦界面特寫。 而是用空間、燈光、人物狀態、城市氛圍來表達。 整體像:王家衞電影 + 上海夜景 + 孤獨感攝影。 畫面有:冷掉的咖啡、凌晨便利店燈光、未發送的郵件提醒。
結果:

佢生成嘅唔係「人喺電腦前」。
而係情緒本身。
呢個已經接近電影分鏡喇。
05「未來縣城」測試
個個都喺做賽博朋克東京,我就偏唔。
輸入:
生成一座2048年的中國縣城。 不是超級都市。 而是:未來化的十八線小城。 街邊有:機器人修電動車、無人煎餅攤、AI算命館、懸浮麻將館。 風格:真實中國生活感,帶一點荒誕幽默。 不要歐美科幻感。
結果:
呢組特別「中國」。
甚至有種:「未來城鄉結合部」嘅真實感。
呢個好難。
06「賽博佛像」測試
我測試:佢能唔能夠融合「宗教感+科幻感」。
輸入:
設計一尊未來AI佛像。 不是機械拼接。 而是:“彷彿數據本身修煉成佛”。 佛像由:光纖、代碼流、神經網絡、粒子、星雲構成。 整體莊嚴、神聖、安靜,像宇宙意識。 風格:東方宗教壁畫 + 星際文明。
結果:
佢開始出現「概念藝術感」。
而唔係簡單機械人。
07「AI發夢」測試
呢一組特別適合測試模型上限。
輸入:
生成一張: “AI 夢見自己變成人類”的畫面。 不要直白機械人。 而是:抽象、夢境、意識流。 出現:錯誤的人臉、漂浮的童年記憶、亂碼化城市、像素化雨水。 風格:今敏動畫 + 超現實主義。
結果:

呢組已經接近:實驗藝術。
08「偽Windows系統」測試
GPT-image-2最強嘅能力之一:UI擬真。
於是我測試:
設計一個不存在的操作系統。 名字:Windows 2099。 整個系統由 AI 接管。 桌面文件夾會“呼吸”,通知欄會預測用戶情緒。 系統錯誤彈窗:“你今天似乎有點難過”。 整體像:微軟官方UI + 黑鏡。
結果:
太似真嘅喇。
甚至:好多細節似真實系統設計稿。
09「城市人格化」測試
輸入:
把“重慶”擬人化。 不是簡單美女。 而是:整個人像由高架橋、火鍋蒸汽、輕軌、坡道、霓虹、江水構成。 人物情緒:熱烈、複雜、暴躁、浪漫。 雙重曝光結構,電影級光影。
結果:

呢個已經接近商業海報水平。
10「中國神仙開發佈會」測試
呢個特別離譜。
輸入:
玉皇大帝召開科技發佈會。 舞台像蘋果發佈會。 PPT標題:《天庭雲計算2.0》 哪吒在台下直播,太白金星負責講解。 整體:極簡科技風 + 東方神話。
結果:

佢甚至理解「科技發佈會鏡頭語言」。
11「假紀錄片截圖」測試
輸入:
生成一張Netflix紀錄片截圖。 主題:《最後一個會寫毛筆字的人》。 畫面:老人坐在舊城區裏,窗外是全息廣告時代。 字幕風格真實,電影顆粒感強,像真實紀錄片。
結果:

太似真實影視截圖。
12「互聯網考古」測試
呢個係我覺得最有趣嘅一組。
輸入:
假設3000年後的人類, 正在研究2020年代互聯網。 做一張未來考古百科頁。 展品包括:表情包、二維碼、直播打賞、外賣紅包、短視頻。 整體像:未來文明博物館圖鑑。
結果:

GPT-image-2對「資訊結構」嘅理解,
已經遠遠超過傳統繪圖模型。
GPT-image-2最恐怖嘅地方
唔係:「生成圖片」。
而係:佢開始理解「視覺系統」。
包括:
UI邏輯 社交媒體結構 海報層級 資訊密度 電影鏡頭 情緒表達 世界觀設計 品牌語言
你唔係喺「寫提示詞」。
而係喺:「描述一個世界」。
而GPT-image-2:開始真係可以將佢搭出嚟。
最後一句
AI繪圖真正嘅變化已經唔係:「邊個畫得更似」。
而是:
「邊個更識表達想法」。
未來嘅差距:唔再只係技術。
而是:
審美 創意 世界觀 敍事能力 資訊組織能力
因為:工具正在越來越似「創意合夥人」。

GPT-image-2的強大最近火出圈,到底強在哪?
我做了 12 組“非常規測試”,結果十分震驚
大多數人在測試 GPT-image-2 時,
還停留在:
美女 賽博朋克 二次元頭像 海報 LOGO
這些當然能做。
但它真正恐怖的地方,其實不是“畫得好看”。
而是:
它開始理解“視覺背後的邏輯”。
它不只是一個繪圖模型。
更像一個:
懂排版的設計師 懂鏡頭的導演 懂傳播的運營 懂UI的產品經理 懂敍事的美術總監
於是我做了一系列:“故意刁鑽”的測試。
儘量避開網上已經刷爛的案例。
結果:
很多圖已經不是“AI 繪圖”。
而是:
AI 開始參與“視覺創意”。
下面是我認為最值得測試的 12 個方向。
01「考古直播間」測試
我想知道:GPT-image-2 能不能理解:
“歷史 + 直播 + 社交媒體 UI”
於是我輸入:
模擬一場三星堆文明的直播帶貨界面。 主播是青銅面具祭司,直播背景是古蜀祭祀坑。 直播標題:《今晚開箱太陽神鳥》 彈幕內容:“這青銅也太超前了”“連結呢?”“像外星文明” 界面風格:現代抖音直播 UI,但所有元素都帶有青銅器紋理。 右側禮物特效是:黃金面具、玉璋、神樹。 整體風格:古文明 + 未來科技混合, 神秘、荒誕、真實。
結果:

它不僅做出了:
直播界面 彈幕 UI層級
甚至:
連“禮物特效邏輯”都理解了。
這是最恐怖的。
02「失敗文明博物館」測試
我測試:GPT-image-2 是否能理解“世界觀設計”。
輸入:
設計一張未來博物館展板。 主題:《人類最後一個手機充電器》 時間設定:公元3026年。 展櫃中的 Type-C 數據線 被當成遠古聖物。 旁邊有:錯誤考古註釋、能量圖譜、偽科學結構分析。 整體像:大英博物館 + NASA + IKEA說明書。 冷白色燈光,高級信息圖排版,收藏級科幻設定。

它不僅生成了:
展櫃 標籤 參數
甚至:真有“未來人誤解現代文明”的味道。
03「古代人做 APP」測試
這是我最喜歡的一組。
輸入:
設計一個“大唐外賣”APP界面。 首頁推薦:胡餅、羊肉湯、葡萄酒。 騎手是快馬驛站。 狀態欄:大唐通網5G。 UI風格:iOS 極簡設計,但融合敦煌壁畫色彩、唐代紋樣、宣紙肌理。 廣告Banner:《長安三十分鐘達》
結果:

它真的開始理解“時代融合”。
不是簡單貼元素。
而是:
UI邏輯現代 審美是盛唐 信息層級像真實APP
04「情緒可視化」測試
這一組非常抽象。我想測試它是否理解“非實體概念”。
輸入:
把“成年人深夜改簡歷”這件事, 畫成一張電影感插畫。 不要出現電腦界面特寫。 而是用空間、燈光、人物狀態、城市氛圍來表達。 整體像:王家衞電影 + 上海夜景 + 孤獨感攝影。 畫面有:冷掉的咖啡、凌晨便利店燈光、未發送的郵件提醒。
結果:

它生成的不是“人在電腦前”。
而是情緒本身。
這已經接近電影分鏡了。
05「未來縣城」測試
大家都在做賽博朋克東京,我偏不。
輸入:
生成一座2048年的中國縣城。 不是超級都市。 而是:未來化的十八線小城。 街邊有:機器人修電動車、無人煎餅攤、AI算命館、懸浮麻將館。 風格:真實中國生活感,帶一點荒誕幽默。 不要歐美科幻感。
結果:
這組特別“中國”。
甚至有種:“未來城鄉結合部”的真實感。
這個非常難。
06「賽博佛像」測試
我測試:它能否融合“宗教感 + 科幻感”。
輸入:
設計一尊未來AI佛像。 不是機械拼接。 而是:“彷彿數據本身修煉成佛”。 佛像由:光纖、代碼流、神經網絡、粒子、星雲構成。 整體莊嚴、神聖、安靜,像宇宙意識。 風格:東方宗教壁畫 + 星際文明。
結果:
它開始出現“概念藝術感”。
而不是簡單機器人。
07「AI 做夢」測試
這一組特別適合測試模型上限。
輸入:
生成一張: “AI 夢見自己變成人類”的畫面。 不要直白機械人。 而是:抽象、夢境、意識流。 出現:錯誤的人臉、漂浮的童年記憶、亂碼化城市、像素化雨水。 風格:今敏動畫 + 超現實主義。
結果:

這組已經接近:實驗藝術。
08「偽 Windows 系統」測試
GPT-image-2 最強的能力之一:UI擬真。
於是我測試:
設計一個不存在的操作系統。 名字:Windows 2099。 整個系統由 AI 接管。 桌面文件夾會“呼吸”,通知欄會預測用戶情緒。 系統錯誤彈窗:“你今天似乎有點難過”。 整體像:微軟官方UI + 黑鏡。
結果:
太像真的了。
甚至:很多細節像真實系統設計稿。
09「城市人格化」測試
輸入:
把“重慶”擬人化。 不是簡單美女。 而是:整個人像由高架橋、火鍋蒸汽、輕軌、坡道、霓虹、江水構成。 人物情緒:熱烈、複雜、暴躁、浪漫。 雙重曝光結構,電影級光影。
結果:

這已經接近商業海報水平。
10「中國神仙開發佈會」測試
這個特別離譜。
輸入:
玉皇大帝召開科技發佈會。 舞台像蘋果發佈會。 PPT標題:《天庭雲計算2.0》 哪吒在台下直播,太白金星負責講解。 整體:極簡科技風 + 東方神話。
結果:

它甚至理解“科技發佈會鏡頭語言”。
11「假紀錄片截圖」測試
輸入:
生成一張Netflix紀錄片截圖。 主題:《最後一個會寫毛筆字的人》。 畫面:老人坐在舊城區裏,窗外是全息廣告時代。 字幕風格真實,電影顆粒感強,像真實紀錄片。
結果:

太像真實影視截圖。
12「互聯網考古」測試
這是我覺得最有意思的一組。
輸入:
假設3000年後的人類, 正在研究2020年代互聯網。 做一張未來考古百科頁。 展品包括:表情包、二維碼、直播打賞、外賣紅包、短視頻。 整體像:未來文明博物館圖鑑。
結果:

GPT-image-2 對“信息結構”的理解,
已經遠超傳統繪圖模型。
GPT-image-2 最恐怖的地方
不是:“生成圖片”。
而是:它開始理解“視覺系統”。
包括:
UI邏輯 社交媒體結構 海報層級 信息密度 電影鏡頭 情緒表達 世界觀設計 品牌語言
你不是在“寫提示詞”。
而是在:“描述一個世界”。
而 GPT-image-2:開始真的能把它搭出來。
最後一句
AI 繪圖真正的變化已經不是:“誰畫得更像”。
而是:
“誰更會表達想法”。
未來的差距:不再只是技術。
而是:
審美 創意 世界觀 敍事能力 信息組織能力
因為:工具正在越來越像“創意合夥人”。


