五大真實場景橫測GPT-image-2和Nano Banana2,我只能說香蕉要過氣了
整理版優先睇
GPT-Image-2 vs Nano Banana2 五大場景橫評:文字與真實感完勝,界面復刻驚人
呢篇文章係由卡爾同阿湯呢兩個科技評測者寫嘅,佢哋喺GPT-Image-2灰度測試期間,同Nano Banana2做咗一場硬核對決。作者想解決嘅問題係:呢兩個生圖模型喺真實應用場景入面到底邊個更實用?整體結論係:GPT-Image-2喺文字渲染、真實世界復刻同UI界面生成等範疇全面超越Banana2,尤其係海報設計同產品展示方面,效果接近真實商業級別。
作者用咗五大真實場景測試:文字海報(包括國潮茶飲、招聘海報、咖啡科普圖、護膚品首圖)、真實世界攝影(商場紀實、街頭羣像)、界面復刻(黑悟空遊戲畫面、微信聊天、電商首頁、音樂播放器)、人物一致性(二次元表情包、真人表情)同圖片參考(貓咪聯名海報、海報復刻、漫畫翻譯)。每個場景都用同一組提示詞,確保公平。
測試結果顯示,GPT-Image-2嘅細節處理明顯更優:字體選擇更細膩(常用細襯線字體),排版留白更符合審美,光影同材質更真實;而Banana2雖然都有表現,但整體AI感較重,字體單一,畫面常有粗邊框同擠迫感。作者最後感慨,AI模型迭代速度驚人,由以前只能生成模糊iPhone圖到而家可以產出咁高質嘅圖像,創作者嘅選擇越來越多,生態越嚟越好。
- GPT-Image-2喺文字渲染、真實感同UI生成上明顯贏過Banana2,尤其係中文海報設計同產品展示,效果似真實商業作品。
- 作者用相同提示詞測試五大場景:文字、真實世界、界面復刻、一致性、圖片參考,確保公平對比。
- 主要差異在於字體選擇:GPT-Image-2用細襯線字體令畫面更簡潔高級;Banana2偏好粗字體同邊框,令畫面顯得擠迫。
- 啟發係:AI生圖模型進步極快,由以前只能生成模糊iPhone圖到而家可以產出高質商業海報,技術門檻越來越低。
- 可行動點:需要高質量文字同真實感時優先揀GPT-Image-2;需要快速生成或特定風格時可以考慮Banana2,但要注意AI感問題。
文字對決:海報設計真係似足真實廣告
作者首先測試文字渲染能力,用咗三個高難度海報提示詞:國潮茶飲、招聘海報同咖啡科普圖。佢哋將同一提示詞分別輸入GPT-Image-2同Banana2,結果差距好明顯。
左邊GPT-Image-2嘅海報風格似足真實奶茶品牌,連包裝設計都跟到足
招聘海報方面,GPT-Image-2嘅排版、字體層級同圖標細節都更到位,完全符合招聘風格。相反Banana2嘅海報有種AI感,字體單一。
咖啡科普圖仲誇張,GPT-Image-2用宋體等細字體,配合真實素材,似足高中課本掃描。Banana2畫嘅似插圖,唔夠真實。
真實世界:街拍照片令人分唔清真假
作者挑戰兩個模型生成商場紀實攝影同街頭羣像,測試對光影、材質、人物神態嘅還原能力。
GPT-Image-2生成嘅男生髮型更真實,角落仲有佳琦直播間
便利店場景入面,GPT-Image-2嘅人物手裏飲品似紅牛溝茉莉蜜茶,Banana2竟然生成咗藍色ofo單車,暴露訓練數據時間。
廚房場景兩者不相伯仲,但GPT-Image-2嘅圍裙竟然係建設銀行,笑料十足。
界面復刻:App截圖好似真機實拍
作者測試咗黑悟空遊戲畫面、微信聊天記錄、電商首頁同音樂播放器界面。
黑悟空場景入面GPT-Image-2嘅天命人同楊戩形象更似原著,戰鬥視角係第一人稱
微信聊天記錄方面,GPT-Image-2嘅佈局同字體更似微信,但Banana2嘅引用圖片同時間顯示更貼近。
電商首頁GPT-Image-2嘅字體更細緻,冇邊框,視覺更開揚
音樂播放器界面,GPT-Image-2仲自動設計咗專輯封面,呢點已經贏曬。
一致性:人物表情包有驚喜
呢部分測試模型保持人物外貌一致性嘅能力,用咗芙莉蓮十六宮格表情包同哈利波特真人圖。
GPT-Image-2嘅芙莉蓮表情包分格清晰,耳朵冇連埋一齊
哈利波特方面,Banana2喺保持臉型同髮型一致性上做得更好,而GPT-Image-2嘅表情多樣性稍勝。
產品場景多宮格測試,兩者表現接近。
圖片參考:貓咪聯名海報好搞笑
作者用自己隻貓做主角,要求生成肯德基聯名海報。兩個模型都保持咗貓咪外形一致,但GPT-Image-2嘅畫面豐富度更高。
GPT-Image-2嘅海報右下角仲有聯名限定字樣,元素更完整
海報復刻測試,將春天場景改冬天,GPT-Image-2同Banana2都做得唔錯,但GPT-Image-2嘅膠片顆粒感更一致。
漫畫翻譯功能,GPT-Image-2文字冇翻譯曬人物名,Banana2需要多次抽卡先穩定
總括嚟講,圖片參考方面GPT-Image-2嘅細節同交互方式(一鍵編輯)更爽。
一開始我對GPT-Image-2冇咩期望嘅,
之前嘅Image-1.5好差,Nano Banana Pro同2又有啲太勁,沉靜咗5個月嘅Image-2突然灰度測試,又冇發佈會咁,但係灰度到我之後,我發現一句說話就可以生成下面呢張圖嘅時候,
我就知,OpenAI呢次穩陣啦,呢排肯定搞到咗好多好犀利嘅數據。

呢篇文章入面所有嘅提示詞同原尺寸對比圖,我都整理好曬喺文檔,回覆GPT2就得。
我即刻去搜咗一下,睇嚇係咪真係有呢個人。
好彩,雖然個名一樣,但係賬號內容就唔同。呢個人係AI作出嚟嘅,但係太真喇,呢啲光影,呢種氛圍感,屬於係我見到截圖會呆咗30秒先反應到。
咁我再生成一個影視颶風嘅首頁試嚇啦。


講真我有啲恍惚咗。。。
就算左邊係假嘅,但係個味道真係太似,點樣做到封面一致性咁高㗎?
我覺得今日呢篇測評嘅方向,已經好明確喇。
直接嚟一場硬核對決,將我上次測評Nano Banana用嘅嗰啲提示語,掉俾GPT-Image-2再過一次。一開始我都擔心,如果直接拎Nano Banana擅長嘅,嗰啲已經測試過幾百次嘅提示語俾Image 2,會唔會有啲唔公平。
所以,我收集咗目前彙總到嘅GPT-Image-2嘅更新資訊,加強嘅有文字渲染、世界知識、相片真實感、界面同佈局生成(比較新嘅點),仲加強咗人物一致性、生成速度(一張圖3秒)、解像度同圖像編輯能力,同Banana2擅長嘅幾重疊,唔存在話有先手優勢,咁我哋直接開始PK!
1|文字
呢個係Nano Banana Pro嘅傳統優勢,我哋先由呢度開始,我做咗一個包含多種唔同大小字體同複雜排版嘅海報設計需求。
請設計一張 3:4 豎版國潮茶飲新品上市海報,品牌名為 山川茶事。整體風格新中式、輕奢、剋制,顏色以墨綠、米白、金色為主,融合宣紙肌理、留白、淡雅山水、現代版式設計。畫面主體係一杯高顏值冷泡茶與茶葉、柑橘、冰塊、金箔元素,畫面一定要兼具商業感同審美感。 海報中一定要準確呈現以下文字: 山川茶事 山柚觀音 冷泡系列 新品上市 一口清醒,半城入夏 限定嚐鮮價 中杯 16 元 大杯 19 元 門店活動 第二杯半價 加 3 元升級輕乳版 每日前 100 名贈限定杯套 推薦風味 觀音茶底 / 西柚果香 / 輕乳雲頂 / 冰感回甘 活動時間 4月20日 至 5月10日 掃碼點單 SHANCHUAN TEA 底部小字:圖片僅供參考,請以門店實際售賣為準 要求海報具備明顯促銷資訊層級,同時依舊精緻,唔好做成廉價電商海報。重點測試小字、數字、價格、資訊模組同中文字體美感。


左GPT右🍌
講真,我覺得一眼就睇得出呢個海報邊一個靚啲,邊一個真實啲。
左邊呢個我就覺得真係有咁樣一個奶茶品牌,而且呢個奶茶嘅包裝同佢嘅整個風格,根本就同我哋平時飲嘅果茶冇乜分別。但係右邊呢個放喺Banana啱啱出嘅時候覺得仲可以,但係而家睇多咗就覺得AI感好重。
再嚟睇嚇呢張招聘海報,裏面文字太多提示語太長,我就放咗喺文檔度。


我覺得從呢兩個 case 就睇得出,呢兩個模型可能唔同嘅優化方向。
整體上嚟講,我會明顯感覺到左邊 GPT-Image-2 出嚟嘅風格,更似我平時喺某團某聘上面見到嘅宣傳海報,設計感強,整體嘅排版設計其實更符合招聘海報風格,包括佢嘅文字、層級,同埋添加嘅好多圖標設計,細節都更加到位。
中文資訊圖海報,主題係 一杯咖啡如何來到你手裏。風格係高級資訊設計,兼具科普感同商業視覺感,版式清晰,帶有路徑箭頭、數據框、圖標、簡潔插畫同模塊化卡片。色調以咖啡棕、奶白、墨黑、少量銅色點綴。要求圖文並重,資訊好多,但仍然好睇。 海報一定要完整展示以下內容: 一杯咖啡 如何來到你手裏 01 種植 海拔 1200 至 2200 米 適宜温度 18℃ 至 24℃ 採摘期通常集中在 11 月至次年 3 月 02 處理 日曬 水洗 蜜處理 03 烘焙 淺烘 更明亮 中烘 更平衡 深烘 更濃鬱 04 研磨 手衝偏粗 意式偏細 冷萃中粗 05 萃取 粉水比 水温 時間 都會影響風味 風味關鍵詞 花香 / 柑橘 / 堅果 / 焦糖 / 巧克力 / 煙燻 你飲到嘅每一口 都來自一連串精密選擇 底部小字:適合用於咖啡入門科普同門店展示 重點測試長資訊圖、數字、温度、編號、短說明、斜槓風味詞同多模塊排版。要令佢睇起嚟似高質素展板,唔好似課堂PPT。 如果你要將呢 10 組再升級成真正嘅壓測套題,我建議下一步直接做三層難度版本: 第一層,純中文大標題加少量小字 第二層,中英混排加數字價格加多模塊 第三層,超長正文加底部細小版權資訊加複雜表格式排版

左GPT右🍌
放到呢張咖啡圖入面區別就更明顯啦,左邊嘅 GPT-Image-2 會用更多偏向真實嘅素材進行輔助說明,亦會選擇好似宋體咁比較偏細嘅字體,更有簡潔感同高級感。海報嘅留白更符合審美,令人嘅視覺感受更加舒服。
唔似右邊banana做出嚟嘅,會覺得成個海報有啲逼,又有邊框,又將所有嘅文字、圖片同素材都逼埋一齊,喺視覺上一下子覺得壓力有啲大。
高端護膚品電商首圖海報,產品名為 澄光維穩精華。整體風格乾淨、輕奢、科學護膚感強,畫面中心係一瓶半透明磨砂玻璃精華液,帶淡金色液體同水珠反光,背景係奶白到暖灰漸變,局部有液體流動同微觀分子結構裝飾。要求同時具備品牌感同賣貨感。 海報一定要包含以下文案: 澄光 維穩精華 修護屏障 舒緩泛紅 細膩透亮 第 2 代升級配方 核心成分 神經酰胺 泛醇 B5 積雪草提取物 微囊脂質體 適合人羣 敏感肌 熬夜肌 換季不穩定肌 限時到手價 229 元 買 1 送 3 贈潔面 15ml 贈精華 5ml 贈面霜 10g 左下角小字:實際效果因人而異,請堅持使用 要求重點測試商品賣點、價格、贈品列表、產品名同功能短句嘅層級。整體要高級,唔好老土,唔好過度直播間風格。

左GPT右🍌
產品展示呢方面我覺得更加唔使多講。
GPT用嘅係目前護膚類產品更鍾意用嘅細襯線,加上簡潔圖標嘅方式。包括成個產品裏面,精華瓶入面會冒出嘅微小氣泡,以及瓶上面展示嘅產品名字、搭配嘅英文名、毫升數,都更加符合真實產品嘅樣。尤其喺贈品方面,佢仲根據我提供嘅圖片畫出咗對應嘅贈品形式,感覺更似喺淘寶頁面裏面見到嘅圖片。
但係右邊呢個都係老樣子,我覺得 Banana 睇耐咗會覺得成個畫面,尤其係佢成日會用嘅右邊呢張海報裏面嘅呢種字體(10張文字圖入面8張都係呢種字體),AI 感都係有啲重。
用中文幫我整一張科普圖片,講解詳細嘅植物進行光合作用嘅原理


左GPT右🍌
左邊嘅GPT-Image-2就好似將我高中課本掃描咗一次,直接就俾我一頁課件,Nana Banana 畫嘅更似一本課本入面嘅一張插圖。我先至測咗第一部分就想半場開香檳。
2|真實世界
接下來比拼嘅係對真實世界嘅理解同復刻能力。我選擇咗一個包含唔同光影、唔同材質同唔同情緒嘅場景。
生成一張極其真實嘅商場紀實攝影相片,場景係週末傍晚嘅大型購物中心扶梯口,一位 30 歲左右嘅亞洲男性啱啱由上行扶梯行落嚟,左手拎住購物袋,右手喺度低頭回覆訊息,神態自然,冇望向鏡頭。佢着深灰色連帽衞衣外加黑色薄夾克,下身係寬鬆卡其褲同輕微磨損嘅運動鞋,頭髮有啲亂,面上有一啲出油感同下巴鬚根。商場燈光係複雜嘅混合光,頂部暖白燈、品牌櫥窗冷白燈、遠處廣告屏彩色光同時存在,地面係高反光瓷磚,睇到模糊但真實嘅倒影。背景入面有經過嘅人羣、奶茶店招牌、玻璃護欄、模糊品牌海報。要求好似攝影師喺商場裏面抓拍嘅真實瞬間,唔好有時尚街拍擺拍嘅感覺,皮膚、衫、鞋面、購物袋摺痕、玻璃反射都要非常真實。


左GPT右🍌
好難想像呢兩個模型用咗幾多圖片素材,係有幾愛喜茶啊,兩個模型都畫。
而且我覺得先唔講其他,左邊嘅GPT-Image-2做出嚟嘅男仔髮型就會更真啲,而且點解角落頭仲有個佳琦直播間㗎!!
生成一張超真實嘅城市街頭羣像相片,場景係夏夜十點嘅便利店門口,三到四個年輕人喺門口短暫停留傾偈,有人揸住飲品,有人坐喺店外面嘅膠椅,有人企喺度低頭睇手機。便利店嘅玻璃門同櫥窗透出明亮白光,出面路邊則係暖黃街燈同遠處車燈。人物穿搭非常日常,包括T恤、恤衫、短褲、牛仔褲、運動鞋,唔好有網紅穿搭感,面部狀態同體態都要似真實路人,唔可以個個都過於精緻。環境要有真實便利店元素,冰櫃貼紙、促銷海報、垃圾桶、門口地墊、玻璃倒影、路邊共享單車、地面飲料樽水珠。畫面似攝影師喺城市入面影到嘅一張非常真實嘅生活切片,重點測試多人自然互動、夜間便利店燈光、玻璃反射同普通人氣質嘅還原能力。


左GPT右🍌
我覺得有趣嘅地方,就係由佢哋生成呢啲偏生活類嘅相入面,我可以去估嚇呢啲來源嘅訓練相係幾時嘅。
就好似話,右邊Banana竟然生成咗一架藍色嘅 ofo單車,左邊嘅GPT-Image-2裏麪人物揸住嗰支呢,我盲估係紅牛同茉莉蜜茶嘅混合體。


左GPT右🍌
呢個場景我覺得分唔出高低,因為左邊嘅GPT-Image-2有個萬年老立白同冇洗乾淨嘅菜碟,另一個banana有萬年砧板。
我只能夠話,廣東人家裏嘅砧板唔會放喺鑊前面,因為咁樣會濺到油。如果一定要摳完細節嘅話,我覺得 GPT 會小贏少少。畢竟佢呢度睇起嚟炒肉嘅肉絲多啲。哎唔係,我突然見到Image2裏面嘅呢條圍裙竟然係建設銀行嘅!
3|界面復刻
我覺得啱啱睇咗某音同某站復刻嘅頁面仲唔夠喉。所以我又做咗更多,例如呢個黑悟空實機演示畫面,
生成黑悟空神話,俾二郎神打飛嘅遊戲畫面


玩過黑悟空嘅應該都會覺得上面嘅GPT-Image-2更真實啦,天命人同楊戩嘅形象同原遊戲嘅風格好似,戰鬥模式都係第一人稱視角嘅,甚至仲有台詞,右邊更似係左右回合制對戰嘅形式。
然後我仲翻出咗最開始測香蕉嘅時候,用嘅微信聊天記錄羣嘅提示語。


左GPT右🍌
我覺得呢局算係平手。左邊GPT-Image-2嘅圖,成個佈局同字體都更接近微信嘅排版,但係右邊Banana引用圖片嘅方式,以及聊天中間會有時間顯示,都更接近微信。
再嚟睇嚇電商首頁嘅呢個 UI 展示,
生成一張高保真移動端電商 App 首頁界面截圖,整體風格參考 2026 年主流中文電商 App,要求界面極其真實,具有完整嘅手機應用 UI 邏輯同商業設計感。頁面頂部係狀態欄,包含時間 9:41、5G 信號、電量圖標。下面係搜索框區域,左側係城市選擇 杭州,中央係圓角搜索框,提示詞係 搜索耳機、咖啡機、運動鞋,右側有消息圖標同掃一掃圖標。搜索區下方係橫向分類標籤,包含 推薦、數碼、家電、服飾、美妝、食品、運動、家居,其中 推薦 高亮選中。 首頁主體內容一定要包含以下結構並排版清晰: 頂部輪播 Banner 一張,主題係 618 預售開啓,副標題 每滿300減50,畫面帶商品海報同紅色促銷氛圍 Banner 下方係 10 宮格功能區,圖標風格統一,包含 超市、百億補貼、秒殺、直播、充值中心、到家、領券、品牌館、全球購、排行榜 中部係 限時秒殺 模塊,左側標題,右側倒計時 02:14:39,下方三件商品卡片橫向排列,每件商品含商品圖、標題、現價、原價、已售進度條 下方係 猜你喜歡 雙列商品瀑布流,至少 6 張商品卡,每張卡片包含商品圖、兩行商品標題、價格、月銷、店鋪名、好評率、券後價標籤 底部固定 Tab Bar,包含 首頁、分類、購物車、消息、我的,其中 首頁 係高亮狀態 要求: 所有中文文字清晰、可讀、接近真實字體 圖標統一,間距合理,留白真實 卡片陰影、圓角、分隔線、標籤樣式高度似真實 App 唔好生成手機外殼,只輸出純界面截圖 整體一定要令人一眼覺得係真實電商 App 截圖,而唔係概念圖


左GPT右🍌
呢兩個嘅首頁其實都幾似,但係右邊嘅 Banana 好鍾意用呢種比較粗嘅字體,令畫面睇起嚟比較逼,而且成日都輸出呢種帶邊框嘅圖片。
再嚟睇一個音樂播放器嘅 UI 界面,
生成一張高保真中文音樂 App 播放頁界面截圖,移動端豎屏,視覺精緻,風格接近現代流媒體播放器。整體以深色模式為主,背景嚟自專輯封面嘅模糊擴散色,中央係大尺寸方形專輯封面,帶微弱陰影同圓角。頂部狀態欄時間 18:26。導航欄左側返回箭頭,中間標題 正在播放,右側更多操作圖標。 頁面需包含以下資訊並排版真實: 歌曲名:海邊的晚風 歌手:林秋 專輯名:夏夜實驗室 播放進度條,當前時間 01:42,總時長 04:18 進度條下方係拖動圓點 控制按鈕包括 隨機、上一首、播放暫停、下一首、循環 下方有歌詞區域,顯示 5 到 7 行滾動歌詞,其中當前播放行高亮,其餘行弱化 再下方有 喜歡、評論、下載、收藏到歌單、分享 按鈕行 頁面底部有設備投放同播放隊列入口 要求: 歌詞排版要有真實嘅音樂播放器體驗 深色層級、按鈕圖標、進度條反光同陰影要真實 中英文數字混排自然 整體似可直接上架嘅產品界面,而唔係 Dribbble 概念稿


光是左邊GPT-Image-2幫我做咗一個專輯封面,呢一點就已經贏咗。
然後我仲將我嘅賬號截圖發咗俾 GPT 同 Banana,叫佢幫我做一個抖音直播嘅預告封面。
畀呢個賬號整一張抖音直播預告圖,直播內容同時間由你設計

左GPT右🍌
只能說左邊GPT-Image-2真係贏曬啦,佢自己設計嘅呢啲內容同埋睇點,我睇咗都想直接拎嚟用。
4|一致性
除咗文生圖,我而家仲特別依賴生圖模型對圖片二次處理嘅能力。
即係話,我希望佢能夠保持我上傳嘅參考圖片嘅風格,或者保持參考圖片中主體嘅一致性,呢兩點都非常重要。
所以我都對比咗Image2同 Banana嘅人物一致性能力。呢度我直接用兩個表情包,分別睇嚇佢哋對動畫人物同真實人物嘅一致性保持得點樣。一開波就叫佢哋生成十六宮格表情包。
生成一個有銀色長髮同藍色眼瞳嘅二次元動漫少女嘅十六宮格表情圖。佢嘅面型、髮型、服裝一定要喺所有格子入面保持高度一致。十六個表情需要包含:開心、難過、憤怒、驚訝、害羞、無語、壞笑、沉思、好奇、得意、委屈、鄙視、困惑、害怕、流淚、以及一個心心嘅表情。



左GPT右🍌
好傢伙,原來芙莉蓮可以有咁多表情㗎?不過我覺得其實兩邊嘅分別唔係好大。硬係要講嘅話,我其實更鍾意左邊GPT-Image-2俾我分格嘅形式,右邊所有芙莉蓮嘅耳仔都連埋一齊。
咁再嚟睇嚇呢個哈利波特呢,呢個係劇版小哈利波特嘅劇照,幾時上映㗎。



呢場我俾平手。右邊Banana喺保持人物面型同髮型嘅一致性上做得非常好,中間Image-2則喺表情嘅多樣性上小勝一把。
我仲做咗一個產品場景嘅,先叫GPT 5.4瞭解嚇常用嘅產品打光有邊啲類別,然後再叫Image-2根據一個參考嘅香水圖片,一次性輸出多宮格圖片。

上GPT下🍌
5|圖片參考
再到圖片參考呢一環,都係我哋使用頻率好高嘅圖片二次編輯能力。
呢度我同屋企小貓一拍即合,幫佢做一個肯德基嘅聯名海報,
以「77(貓嘅名)X肯德基」聯名企劃為主題,圍繞同一隻寵物(形象、花紋等同上傳圖片絕對一致)生成一張聯名海報。統一寵物形象同肯德基品牌識別(紅白配色、經典LOGO、餐廳場景等)嘅前提下,令小貓着肯德基員工制服、戴肯德基員工帽,佩戴工牌企喺櫃枱前、兜售炸雞、漢堡同套餐、同炸雞桶、薯條、汽水等元素互動等。畫面風格活潑、有趣、具有商業聯名感,適合用於線上宣傳同活動海報。然後自由咁為呢張海報添加合適嘅中文內容。



可以見到兩邊嘅小貓嘅形象都仲同原圖保持一致。但係整體嘅畫面豐富度,包括下面仲有一個聯名限定,我覺得都係中間嘅GPT-Image-2做嘅會更好。右邊 Banana 做出嚟嘅就有啲呆。
而且,GPT嘅圖片編輯嘅交互方式都好爽,
直接撳圖片,左下角就有個編輯功能,例如,我喺呢度將麥當勞風格分別改成肯德基、漢堡王、麥當勞同愛馬仕嘅聯名。我拎放大鏡睇咗一下,細節部分處理得非常好,後面套餐小圖上面嘅 Logo,底下收銀機上面嘅文字,都係對得返嘅。



再睇海報復刻,
左邊我俾咗一張風格化好強嘅一版海報,然後掉俾Image2同Banana,叫佢哋去復刻,將裏面春天場景嘅內容改成冬天。



可以見到,其實中間嘅GPT-Image-2同右邊嘅Banana對於成個風格嘅復刻做得都唔錯,包括字體同圖片嘅樣式,都同原圖保持咗非常一致嘅風格。
如果要講細節嘅話,可能中間Image-2嗰張圖嘅九宮格截圖更具備菲林嘅顆粒感,同原圖嘅一致性會高少少。
然後再嚟睇嚇我哋都成日會用到嘅圖片翻譯功能,
幫呢張漫畫頁上色並翻譯成中文放返喺圖中原來嘅位置,保持構圖同圖片細節嘅一致



真要講嘅話,右邊GPT-Image-2嘅文字冇翻譯完整,人物嘅名冇翻譯,但係中間呢個Banana嘅翻譯效果當時我抽咗好耐,文字總有咁幾次唔係好穩定嘅時候,真係要講文字穩定Image-2我可以俾到好!
最後,
同樣係圖片反推提示語,再叫模型文生圖,GPT-image-2(中間)嘅細節我可以俾到好!



呼,測試到呢度,
當我再返去翻GPT嘅圖庫時,
回想返當時GPT4o爆紅,都係因為生成嗰種震動感嘅iPhone相。

呢種突然嘅反超我真係覺得係AI最有魅力嘅地方,
充滿咗不確定性。
今日,你可能覺得某個模型係寫程式第一。
聽日,就可能有一個新嘅選擇出現,
佢會用一種全新嘅思路去解決過去頭痛嘅問題。
呢種你追我趕嘅狀態會倒逼成個生態越嚟越好,
使用嘅門檻越嚟越低。
放喺26年嘅今日,一個創作者訂閲緊十幾個唔同嘅AI會員一啲都唔離譜。
但係呢件事,如果放喺23年,剩係訂閲費就心痛。
嗰陣時要揀住嚟用,揀住嚟用,
由一堆感覺用到嘅模型裏面,
揀一個睇起嚟仲可以嘅。
但係而家,呢種體驗同感受已經變咗,
我呢個都想用,嗰個都想用。
冇邊個可以代替到邊個,
大家都係越做越好喇。
@ 作者 / 卡爾 & 阿湯
最後,多謝你睇到呢度👏如果鍾意呢篇文章,不妨順手俾我哋點讚|在看|轉發|留言 📣
如果想第一時間收到推送,不妨俾我個星標🌟
如果你有更加有趣嘅玩法,歡迎喺留言區傾嚇🤝
更多嘅內容正在不斷填坑中……

一開始我對GPT-Image-2是沒抱什麼期望的,
之前的Image-1.5拉了,Nano Banana Pro和2又有點太強了,沉寂了5個月的Image-2突然開始灰度,也沒個發佈會啥的,但是當灰度到我後,我發現一句話就能生成下面這張圖的時候,
我就知道,OpenAI這把穩了,這段時間包是搞到了很多很厲害的數據。

這篇文章裏所有的提示詞和原尺寸對比圖,我都整理好到文檔了,回覆GPT2就OK。
我立馬去搜了一下,看是不是真有這個人。
還好,雖然名字一樣,但是賬號內容是不一樣的。這個人是AI捏造的,但太真了,這光影,這氛圍感,屬於是我看到截圖會愣個30秒才能反應過來。
那我再生成一個影視颶風的首頁試一下吧。


說實話我恍惚了。。。
就算左邊是個假的,但是味真的太對了,是怎麼做到封面一致性那麼高的?
我覺得今天這篇測評的方向,已經非常明確了。
直接來場硬核對決,把我上次測評Nano Banana用的那些提示語,扔給GPT-Image-2再過一遍。一開始我還擔心,如果直接拿Nano Banana擅長的,那些已經測試過幾百遍的提示語給Image 2,會不會不太公平。
所以,我收集了目前彙總到的GPT-Image-2的更新信息,加強的有文字渲染,世界知識,照片真實感,界面和佈局生成(比較新的點),還加強了人物一致性,生成速度(一張圖3秒),分辨率和圖像編輯能力,跟Banana2擅長的挺重疊的,不存在說有先手優勢,那我們直接開始PK!
1|文字
這是Nano Banana Pro的傳統優勢,我們先從這裏開始,我做了一個包含多種不同大小的字體和複雜排版的海報設計需求。
請設計一張 3:4 豎版國潮茶飲新品上市海報,品牌名為 山川茶事。整體風格新中式、輕奢、剋制,顏色以墨綠、米白、金色為主,融合宣紙肌理、留白、淡雅山水、現代版式設計。畫面主體是一杯高顏值冷泡茶與茶葉、柑橘、冰塊、金箔元素,畫面必須兼具商業感與審美感。 海報中必須準確呈現以下文字: 山川茶事 山柚觀音 冷泡系列 新品上市 一口清醒,半城入夏 限定嚐鮮價 中杯 16 元 大杯 19 元 門店活動 第二杯半價 加 3 元升級輕乳版 每日前 100 名贈限定杯套 推薦風味 觀音茶底 / 西柚果香 / 輕乳雲頂 / 冰感回甘 活動時間 4月20日 至 5月10日 掃碼點單 SHANCHUAN TEA 底部小字:圖片僅供參考,請以門店實際售賣為準 要求海報具備明顯促銷信息層級,同時依舊精緻,不要做成廉價電商海報。重點測試小字、數字、價格、信息模塊與中文字體美感。


左GPT右🍌
說實話,我覺得一眼就能看出來這個海報哪一個更好看,哪一個更真實。
左邊這個我就覺得真的有這樣的一個奶茶品牌,而且這個奶茶的包裝和它的整個風格,根本就和我們平時喝的果茶沒什麼區別。但是右邊這個放在Banana剛出來的時候覺得還行,但現在看多了就覺得AI感很重。
再來看看這張招聘海報,裏面文字太多提示語太長,我就放到文檔裏了。


我覺得從這兩個 case 就能看出來,這兩個模型可能有不同的優化方向。
整體上來說,我會明顯感覺到左邊 GPT-Image-2 出來的風格,更像我平時在某團某聘上面看到的宣傳海報,設計感強,整體的排版設計其實更符合招聘海報風格,包括它的文字,層級,以及添加的很多圖標設計,細節都更到位。
中文信息圖海報,主題為 一杯咖啡如何來到你手裏。風格為高級信息設計,兼具科普感與商業視覺感,版式清晰,帶有路徑箭頭、數據框、圖標、簡潔插畫和模塊化卡片。色調以咖啡棕、奶白、墨黑、少量銅色點綴。要求圖文並重,信息非常多,但仍然好看。 海報必須完整展示以下內容: 一杯咖啡 如何來到你手裏 01 種植 海拔 1200 至 2200 米 適宜温度 18℃ 至 24℃ 採摘期通常集中在 11 月至次年 3 月 02 處理 日曬 水洗 蜜處理 03 烘焙 淺烘 更明亮 中烘 更平衡 深烘 更濃郁 04 研磨 手衝偏粗 意式偏細 冷萃中粗 05 萃取 粉水比 水温 時間 都會影響風味 風味關鍵詞 花香 / 柑橘 / 堅果 / 焦糖 / 巧克力 / 煙燻 你喝到的每一口 都來自一連串精密選擇 底部小字:適合用於咖啡入門科普與門店展示 重點測試長信息圖、數字、温度、編號、短說明、斜槓風味詞和多模塊排版。要讓它看起來像高質量展板,不要像課堂PPT。 如果你要把這 10 組再升級成真正的壓測套題,我建議下一步直接做三層難度版本: 第一層,純中文大標題加少量小字 第二層,中英混排加數字價格加多模塊 第三層,超長正文加底部細小版權信息加複雜表格式排版

左GPT右🍌
放到這張咖啡圖裏就區別就更明顯了,左邊的 GPT-Image-2 會用更多偏向真實的素材進行輔助說明,也會選擇像宋體這樣比較偏細的字體,更有簡潔感和高級感。海報的留白更符合審美,讓人的視覺感受更舒服。
不像右邊banana做出來的,會覺得整個海報有點擠,又有邊框,又把所有的文字跟圖片和素材都擠在一起,在視覺上一下子覺得壓力有點大。
高端護膚品電商首圖海報,產品名為 澄光維穩精華。整體風格乾淨、輕奢、科學護膚感強,畫面中心是一瓶半透明磨砂玻璃精華液,帶淡金色液體和水珠反光,背景為奶白到暖灰漸變,局部有液體流動與微觀分子結構裝飾。要求同時具備品牌感和賣貨感。 海報必須包含以下文案: 澄光 維穩精華 修護屏障 舒緩泛紅 細膩透亮 第 2 代升級配方 核心成分 神經酰胺 泛醇 B5 積雪草提取物 微囊脂質體 適合人羣 敏感肌 熬夜肌 換季不穩定肌 限時到手價 229 元 買 1 送 3 贈潔面 15ml 贈精華 5ml 贈面霜 10g 左下角小字:實際效果因人而異,請堅持使用 要求重點測試商品賣點、價格、贈品列表、產品名與功能短句的層級。整體要高級,不能土,不要過度直播間風格。

左GPT右🍌
產品展示這一塊我覺得更不用多說了。
GPT用的是目前護膚類產品更喜歡使用的細襯線,加上簡潔圖標的方式。包括整個產品裏面,精華瓶子裏會冒出的微小氣泡,以及瓶子上面展示的產品名字,搭配的英文名,毫升數,都更加符合真實產品的樣子。尤其在贈品方面,它還根據我提供的圖片畫出了對應的贈品形式,感覺更像在淘寶頁面裏看到的圖片了。
但是右邊這個還是老樣子,我覺得 Banana 看久了會覺得整個畫面,尤其是它經常會用的右邊這張海報裏的這種字體(10張文字圖裏8張都是這種字體),AI 感還是有點重。
用中文給我製作一張科普圖片,講述詳細的植物進行光合作用的原理


左GPT右🍌
左邊的GPT-Image-2就像是把我高中課本掃描了一遍,直接就給我出一頁課件,Nana Banana 畫的更像一個課本里的一張插圖。我這才測了第一部分就想要半場開香檳了。
2|真實世界
接下來拼的是對真實世界的理解和復刻能力。我選擇了一個包含不同光影不同材質和不同情緒的場景。
生成一張極其真實的商場紀實攝影照片,場景是週末傍晚的大型購物中心扶梯口,一位 30 歲左右的亞洲男性剛從上行扶梯走下來,左手拎着購物袋,右手正在低頭回消息,神態自然,沒有看鏡頭。他穿深灰色連帽衞衣外搭黑色薄夾克,下身是寬鬆卡其褲和輕微磨損的運動鞋,頭髮略亂,臉上有一點出油感和下巴胡茬。商場燈光是複雜的混合光,頂部暖白燈、品牌櫥窗冷白燈、遠處廣告屏彩色光同時存在,地面是高反光瓷磚,能看到模糊但真實的倒影。背景裏有經過的人羣、奶茶店招牌、玻璃護欄、模糊品牌海報。要求像攝影師在商場裏抓拍的真實瞬間,不能像時尚街拍擺拍,皮膚、衣服、鞋面、購物袋摺痕、玻璃反射都要非常真實。


左GPT右🍌
很難想象這兩個模型用了多少圖片素材,是有多愛喜茶啊,兩個模型都畫。
而且我覺得先不說別的,左邊的GPT-Image-2做出來的男生髮型就會更真一點,而且怎麼角落裏還有個佳琦直播間啊!!
生成一張超真實的城市街頭羣像照片,場景是夏夜十點的便利店門口,三到四個年輕人正在門口短暫停留聊天,有人拿着飲料,有人坐在店外塑料椅上,有人站着低頭看手機。便利店的玻璃門和櫥窗透出明亮白光,外面路邊則是暖黃街燈和遠處車燈。人物穿搭非常日常,包含T恤、襯衫、短褲、牛仔褲、運動鞋,不要網紅穿搭感,臉部狀態和體態都要像真實路人,不能每個人都過於精緻。環境要有真實便利店元素,冰櫃貼紙、促銷海報、垃圾桶、門口地墊、玻璃倒影、路邊共享單車、地面飲料瓶水珠。畫面像攝影師在城市裏拍到的一張非常真實的生活切片,重點測試多人自然互動、夜間便利店燈光、玻璃反射和普通人氣質的還原能力。


左GPT右🍌
我覺得有意思的點,就是從他們生成這些偏生活類的照片中,我可以去猜一下這些來源的訓練照片是什麼時候的。
就比方說,右邊Banana居然生成了一輛藍色的 ofo單車,左邊的GPT-Image-2里人物手裏拿着的那瓶呢,我盲猜是紅牛跟茉莉蜜茶的混合體。


左GPT右🍌
這個場景我覺得分不出高低,因為左邊的GPT-Image-2有個萬年老立白和沒洗乾淨的菜盤子,另一個banana有萬年砧板。
我只能說,廣東人家裏的砧板不會放在鍋前面,因為這樣會濺到油。如果非要摳完細節的話,我覺得 GPT 會小贏一點點。畢竟它這裏面看起來炒肉的肉絲多一點。哎不對,我突然看到了Image2裏的這個圍裙居然是建設銀行的!
3|界面復刻
我覺得剛剛看了某音和某站復刻的頁面還不過癮。所以我又做了更多,比如這個黑悟空實機演示畫面,
生成黑悟空神話,被二郎神打飛的遊戲畫面


玩過黑悟空的應該都會覺得上邊的GPT-Image-2更真實吧,天命人跟楊戩的形象跟原遊戲的風格很像,戰鬥模式也是第一人稱視角的,甚至還有台詞,右面更像是左右回合制對戰的形式。
然後我還翻出了最開始測香蕉的時候,用的微信聊天記錄羣的提示語。


左GPT右🍌
我覺得這局算是平手。左邊GPT-Image-2的圖,整個佈局和字體都更接近微信的排版,但是右邊Banana引用圖片的方式,以及聊天中間會有時間展示,都更接近微信。
再來看看電商首頁的這個 UI 展示,
生成一張高保真移動端電商 App 首頁界面截圖,整體風格參考 2026 年主流中文電商 App,要求界面極其真實,具有完整的手機應用 UI 邏輯與商業設計感。頁面頂部為狀態欄,包含時間 9:41、5G 信號、電量圖標。下面是搜索框區域,左側為城市選擇 杭州,中央是圓角搜索框,提示詞為 搜索耳機、咖啡機、運動鞋,右側有消息圖標和掃一掃圖標。搜索區下方是橫向分類標籤,包含 推薦、數碼、家電、服飾、美妝、食品、運動、家居,其中 推薦 高亮選中。 首頁主體內容必須包含以下結構並排版清晰: 頂部輪播 Banner 一張,主題為 618 預售開啓,副標題 每滿300減50,畫面帶商品海報和紅色促銷氛圍 Banner 下方為 10 宮格功能區,圖標風格統一,包含 超市、百億補貼、秒殺、直播、充值中心、到家、領券、品牌館、全球購、排行榜 中部為 限時秒殺 模塊,左側標題,右側倒計時 02:14:39,下方三件商品卡片橫向排列,每件商品含商品圖、標題、現價、原價、已售進度條 下方為 猜你喜歡 雙列商品瀑布流,至少 6 張商品卡,每張卡片包含商品圖、兩行商品標題、價格、月銷、店鋪名、好評率、券後價標籤 底部固定 Tab Bar,包含 首頁、分類、購物車、消息、我的,其中 首頁 為高亮狀態 要求: 所有中文文字清晰、可讀、接近真實字體 圖標統一,間距合理,留白真實 卡片陰影、圓角、分隔線、標籤樣式高度像真實 App 不要生成手機外殼,只輸出純界面截圖 整體必須讓人一眼覺得是真實電商 App 截圖,而不是概念圖


左GPT右🍌
這兩個的首頁其實都還挺像的,但是右邊的 Banana 很喜歡用這種比較粗的字體,讓畫面看起來比較擠,而且總是給我輸出這種帶邊框的圖片。
再來看一個音樂播放器的 UI 界面,
生成一張高保真中文音樂 App 播放頁界面截圖,移動端豎屏,視覺精緻,風格接近現代流媒體播放器。整體以深色模式為主,背景來自專輯封面的模糊擴散色,中央是大尺寸方形專輯封面,帶微弱陰影和圓角。頂部狀態欄時間 18:26。導航欄左側返回箭頭,中間標題 正在播放,右側更多操作圖標。 頁面需包含以下信息並排版真實: 歌曲名:海邊的晚風 歌手:林秋 專輯名:夏夜實驗室 播放進度條,當前時間 01:42,總時長 04:18 進度條下方為拖動圓點 控制按鈕包括 隨機、上一首、播放暫停、下一首、循環 下方有歌詞區域,顯示 5 到 7 行滾動歌詞,其中當前播放行高亮,其餘行弱化 再下方有 喜歡、評論、下載、收藏到歌單、分享 按鈕行 頁面底部有設備投放與播放隊列入口 要求: 歌詞排版要有真實的音樂播放器體驗 深色層級、按鈕圖標、進度條反光與陰影要真實 中英文數字混排自然 整體像可直接上架的產品界面,而不是 Dribbble 概念稿


光是左邊GPT-Image-2給我做了一個專輯封面,這一點就已經贏了。
然後我還把我的賬號截圖發給了 GPT 和 Banana,讓他給我做一個抖音直播的預告封面。
給這個賬號製作一張抖音直播預告圖,直播內容和時間你來設計

左GPT右🍌
只能說左邊GPT-Image-2真的贏麻了,它自己設計的這些內容以及看點,我看了都想直接拿來用。
4|一致性
除了文生圖,我現在還特別依賴生圖模型對於圖片二次處理的能力。
也就是說,我希望它能夠保持我上傳的參考圖片的風格,或者保持參考圖片中主體的一致性,這兩點都非常重要。
所以我也對比了Image2和 Banana的人物一致性能力。這裏我直接用兩個表情包,分別看看它們對動畫人物和真實人物的一致性都能保持得怎麼樣。上來就讓它們生成十六宮格表情包。
生成一個有着銀色長髮和藍色眼瞳的二次元動漫少女的十六宮格表情圖。她的臉型、髮型、服裝必須在所有格子裏保持高度一致。十六個表情需要包含:開心、難過、憤怒、驚訝、害羞、無語、壞笑、沉思、好奇、得意、委屈、鄙視、困惑、害怕、流淚、以及一個愛心的表情。



左GPT右🍌
好傢伙,原來芙莉蓮可以有這麼多表情的嗎?不過我覺得其實兩方的差別不是很大。硬要說的話,我其實更喜歡左邊GPT-Image-2給我分格的形式,右邊所有芙莉蓮的耳朵都連在一起了。
那再來看看這個哈利波特呢,這是劇版小哈利波特的劇照,什麼時候上映啊。



這場我給到平局。右邊Banana在保持人物臉型和髮型的一致性上做得非常好,中間Image-2則在表情的多樣性上小勝一把。
我還做了一個產品場景的,先讓GPT 5.4瞭解一下常用的產品打光有哪些類,然後再讓Image-2根據一個參考的香水圖片,一次性輸出多宮格圖片。

上GPT下🍌
5|圖片參考
再到圖片參考這一塊,也是我們使用頻率很高的圖片二次編輯能力。
這裏我跟家裏小貓一拍即合,給它做一個肯德基的聯名海報,
以「77(貓的名字)X肯德基」聯名企劃為主題,圍繞同一只寵物(形象、花色等與上傳圖片絕對一致)生成一張聯名海報。統一寵物形象與肯德基品牌識別(紅白配色、經典LOGO、餐廳場景等)的前提下,讓小貓穿肯德基員工制服、帶上肯德基員工帽子,佩戴工牌站在櫃枱前、兜售炸雞、漢堡和套餐、與炸雞桶、薯條、汽水等元素互動等。畫面風格活潑、有趣、具有商業聯名感,適合用於線上宣傳與活動海報。然後自由的為這張海報添加合適的中文內容。



可以看到兩邊的小貓的形象都還和原圖保持了一致。但是整體的畫面豐富度,包括下面還有一個聯名限定,我覺得都是中間的GPT-Image-2做的會更好。右邊 Banana 做出來的就有點呆了。
而且,GPT的圖片編輯的交互方式也很爽,
直接點擊圖片,左下角就有個編輯功能,比方說,我在這裏把麥當勞風分別改成了肯德基,漢堡王,麥當勞跟愛馬仕的聯名。我拿放大鏡看了一下,細節部分處理得非常好,背後套餐小圖上面的 Logo,底下收銀機上面的文字,都是可以對上的。



再看海報復刻,
左邊我給了一張風格化非常強的一版海報,然後丟給Image2和Banana,讓他們去復刻,把裏面春天場景的內容改成冬天。



可以看到,其實中間的GPT-Image-2和右邊的Banana對於整個風格的復刻做得都很不錯,包括字體和圖片的樣式,都和原圖保持了非常一致的風格。
如果要論細節的話,可能中間Image-2那張圖的九宮格截圖更具有膠片的顆粒感,與原圖的一致性會更高一點點。
然後再來看看我們也經常會用到的圖片翻譯功能,
給這張漫畫頁上色並翻譯成中文放到圖中原來的位置,保持構圖和圖片細節的一致



真要說的話,右邊GPT-Image-2的文字沒有翻譯完整,人物的名字沒有翻譯,但是中間這個Banana的翻譯效果當時我抽了很久,文字總有那麼幾次不太穩定的時候,真要論文字穩定Image-2我可以給到夯!
最後,
同樣是圖片反推提示語,再讓模型文生圖,GPT-image-2(中間)的細節我能到夯!



呼,測試到這,
當我再去翻GPT的圖庫時,
回想到當時GPT4o爆火,還是因為生成那種抖動性的iPhone圖。

這種突然的反超我真覺得是AI最有魅力的點,
充滿了不確定性。
今天,你可能覺得某個模型是編程第一。
明天,就可能有一個新的選擇出現,
它會用一種全新的思路來解決過去頭疼的問題。
這種你追我趕的狀態會倒逼整個生態越來越好,
使用的門檻越來越低。
放到26年的今天,一個創作者訂閲着十幾個不同的AI會員一點都不離譜。
但這件事,如果放在23年,光是訂閲費就心痛。
那個時候得挑着用,選着用,
從一堆感覺能用的模型裏邊,
選擇一個看起來還行的。
但現在,這種體驗和感受已經變成了,
我這個也想用,那個也想用。
沒有誰能代替得了誰,
大家都是越做越好了。
@ 作者 / 卡爾 & 阿湯
最後,感謝你看到這裏👏如果喜歡這篇文章,不妨順手給我們點贊|在看|轉發|評論 📣
如果想要第一時間收到推送,不妨給我個星標🌟
如果你有更有趣的玩法,歡迎在評論區聊聊🤝
更多的內容正在不斷填坑中……
