夯爆了還是拉完了? 橫評GPT Image 2和Nano Banana Pro
整理版優先睇
GPT Image 2 vs Nano Banana Pro:圖像生成能力全面比併,GPT Image 2 全面壓勝
最近 GPT Image 2 喺網上爆紅,好多人都話佢「秒殺一切」。但係同另一個模型 Nano Banana Pro 比,係咪真係咁大差距?呢篇文章嘅作者係一個 AI 工具用家,同時亦係 EasyClaw 嘅推廣者。佢想用同一組提示詞同一批參考圖,客觀咁比較兩個模型,唔預設結論,淨係用圖說話。
測試涵蓋六個場景:海報級人生照片、雜誌內頁、電影分鏡、年代感老照片、字體視覺海報同手寫字模仿。結論係 GPT Image 2 喺理解深度、細節還原、文字生成同光影自然度方面全面優勝,但 Nano Banana Pro 都有啲亮點,例如自己加咗龍蝦元素同 logo 正確。作者強調工具冇絕對好壞,要睇場景揀,最後亦推銷自家產品 EasyClaw。
- 結論:GPT Image 2 喺六個場景嘅測試中全面壓制 Nano Banana Pro,尤其喺推理理解同細節還原上表現突出。
- 方法:用完全一樣嘅提示詞同參考圖,分別由兩個模型生成輸出,直接對比結果。
- 差異:GPT Image 2 嘅文字生成冇亂碼、光影自然、常識合理;Nano Banana Pro 偶有創意,例如加入未提及嘅元素,但亂碼同邏輯問題較多。
- 啟發:AI 模型對人嘅基本常識(例如冬天户外冇理由支鍋煮餃子)仲未掌握,提示詞設計要考慮呢點。
- 可行動點:如果追求高品質專業圖像,優先揀 GPT Image 2;若果想試下另類玩法,Nano Banana Pro 都有驚喜。作者推薦下載 EasyClaw 提升效率。
測試背景與方法
GPT Image 2 最近爆紅,網上好多截圖都話佢「秒殺一切」。作者就用 同一組提示詞同參考圖,分別叫 GPT Image 2 同 Nano Banana Pro 生成,唔預設結論,純粹用圖說話。
測試涵蓋六個場景,每個場景都考驗模型唔同方面:推理理解、排版文字、敍事連貫、常識還原、字形融合同模仿能力。
海報級人生照片考驗「輪廓內部有標誌性場景」呢個概念,模型要真正讀懂提示詞嘅推理要求。
海報與雜誌:推理同文字能力分野
第一題係海報級人生照片,要參考圖人物嘅側面輪廓內部有完整敍事宇宙。GPT Image 2 完勝,畫面精準;Nano Banana Pro 雖然自己加咗 龍蝦元素,而且 EasyClaw logo 正確,但理解深度有差距。
第二題係雜誌內頁,模型要自行生成文字排版。GPT Image 2 排版清晰,完全冇亂碼;Nano Banana Pro 對產品瞭解唔錯,但 亂碼好出戲。
電影分鏡同老照片:連貫性與常識差距
第三題係電影分鏡頭,要 3x3 九格講一個故事,主角唔可以換臉。GPT Image 2 做到敍事連貫,但 Nano Banana Pro 竟然將主角變成 成龍,完全走樣。
第四題係年代感老照片,要 90 年代東北過年風格。GPT Image 2 光影自然、人物神情到位,仲有時間戳細節;Nano Banana Pro 光影太均勻,每個人都清楚, 春聯寫住「春聯」,而且冬天户外煮餃子唔合理。
- GPT Image 2 嘅老照片還原度高,常識合理。
- Nano Banana Pro 靚但穿崩,顯示 AI 對人類生活常識理解不足。
字體視覺與手寫字:字形融合同模仿力
第五題係字體視覺設計,要讓「未來」兩個字成為構圖一部分。GPT Image 2 做到字畫一體,人企喺字嘅筆畫中間,光透出來,感覺好自然;Nano Banana Pro 就 生硬似貼字。
第六題係模仿手寫字,Nano Banana Pro 竟然輸出 衡水體,同參考圖風格差好遠,GPT Image 2 還原度明顯更高。
字體視覺題最考驗模型係咪真係做到「字係構圖一部分」,而唔係後期浮貼。
總結:工具無絕對好壞,按需選擇
作者最後話,工具冇絕對好壞,只有適唔適合你嘅場景。如果你需要高品質專業圖像,GPT Image 2 係首選;如果諗住玩下新嘢,Nano Banana Pro 都值得試。
另外,作者都推介自己嘅產品 EasyClaw,話可以幫你提效。國內版:easyclaw.cn;國際版:easyclaw.com;企業版:easyclaw.work。
最近GPT Image 2熱爆全網,周圍都係啲話「秒殺一切」嘅截圖洗版。
同樣嘅提示詞,換咗落Nano Banana度,結果真係差咁遠咩?
我揀咗幾個場景,同一組提示詞、同一批參考圖,兩個模型各自生成一次。唔預設結論,由圖說話。右下角有logo嘅係Nano Banana,冇logo嘅係GPT Image 2,效果點樣,大家嚟睇下:
· · ·
海報級人生相
根據參考圖中嘅人物,生成典藏級宏大電影海報,人物角色側面輪廓內部延伸出完整嘅敍事宇宙同標誌性場景。風格融合電影海報同空靈水彩插畫,氛圍靜謐、壯闊、莊重、眷戀,鋪上紙紋質感薄霧效果,考究留白,仲巧妙嵌入署名「FU SHENG」
呢條題考嘅係「輪廓內部有標誌性場景」呢個概念,模型係咪真係讀得明,其實考驗緊推理理解能力。畫面明顯GPT Image 2更勝一籌冇得講,但令我都有啲意外嘅係Nano Banana生成嘅呢張,提示詞入面完全冇提過龍蝦元素,佢自己加咗上去,而且EasyClaw嘅logo都係啱嘅。

· · ·
雜誌內頁
根據參考圖中嘅人物,設計一版現代科技精英刊物內頁,呈現真實雜誌內頁效果。整體需要具備專業嘅排版佈局,內容要素包括:佔據主要版面嘅大幅模特主圖;刊物標題,副標題、註解、輔助文字。版面大氣,編排有序,要模仿真實期刊,避免海報式單一感覺,切忌淨係放一張人物大圖。
呢題其實考嘅唔止係作圖水平,海報入面嘅文字全部都係佢自己生成,我提示詞入面一啲都冇,文字內容上都算靠譜,聯想推理能力在線。講到圖片,我覺得GPT嘅排版更清晰易讀,而且冇一個亂碼,但係都唔可以唔話Nano Banana對我哋產品都幾瞭解,只係亂碼好礙眼。

· · ·
電影分鏡
生成 3×3 嘅電影分鏡,主角係參考圖中嘅人物,佢去到宇宙尋找新嘅人類生存之地,模擬斯坦尼康拍攝效果,16:9。
呢條題兩張答卷差距有啲離譜,主要睇敍事連貫性。九格畫面,主角唔可以換臉,故事要講得通。所以睇完呢兩張圖,相信你同我一樣有疑惑,點解Nano Banana Pro生成嘅圖入面我變咗成龍?


· · ·
年代感舊相
幫我生成一張舊相,東北過年嗰陣嘅相,用90年代中國老相嘅風格,左下角標註時間。


· · ·
字體視覺
生成一張「基於詞意進行視覺轉譯」嘅高級概念海報。文字、圖像、構圖、色彩共同組成一個完整、聰明、剋制、極簡但有力嘅視覺表達。畫面必須優先採用「極簡主場景+承載面+角色演繹+巨型文字骨架」嘅構圖邏輯,盡量出現一個明確嘅橫向承載結構,好似舞台、土地、台基、坡面、切面、地平線、平台、表層、底座或者簡化嘅場域。用戶輸入嘅文字、單詞、詞組或字母必須成為畫面嘅主視覺骨架,以巨大、清晰、強識別度嘅方式出現,佔據畫面重要區域。整體風格應接近高級圖形藝術海報,具有印刷品氣質,允許帶有拼貼感、石版印刷感、絲網印刷感、版畫感、紙張顆粒等。我將會提供畀你核心文字:未來。可選情緒傾向係科幻式嘅。
呢條題考嘅係係咪真係做到令字成為構圖嘅一部分,而唔係後期浮貼。
GPT依然秒殺Nano Banana。我雖然唔係好識藝術構圖,但我get到人企喺字入面,光從筆畫嘅罅隙透出來,感覺人係喺「未來」呢個空間入面存在,字同畫係一回事,Nano Banana都係生硬咗啲。

· · ·
仿寫手寫字體
提供人手寫嘅英文參考圖,畀模型模仿字跡重新生成文字內容。差距都係一目瞭然,唔知Nano Banana Pro喺邊度學返嚟嘅衡水體。

· · ·
我嘅結論
當然,工具冇絕對嘅好壞,只有適唔適合你嘅場景。但測試本身,係最誠實嘅答案。
最後,如果你諗住試下畀龍蝦幫你提升效率,歡迎下載EasyClaw:
內地版:easyclaw.cn
國際版:easyclaw.com
企業版:easyclaw.work

最近GPT Image 2火遍全網,各種"秒殺一切"的截圖刷屏。
同樣的提示詞,換到Nano Banana身上,結果真的差那麼多嗎?
我選了幾個場景,同一組提示詞、同一批參考圖,兩個模型各生成一次。不預設結論,讓圖說話。右下角帶logo的是Nano Banana,不帶的是GPT Image 2,效果怎麼樣,大家來看看:
· · ·
海報級人生照片
根據參考圖中的人物,生成典藏級恢弘電影海報,人物角色側面輪廓內部延展出完整的敍事宇宙與標誌性場景。風格融合電影海報與空靈水彩插畫,氛圍靜謐、壯闊、莊重、眷戀,鋪以紙紋質感薄霧效果,考究留白,並巧妙嵌入署名"FU SHENG"
這道題考的是"輪廓內部有標誌性場景"這個概念,模型能不能真正讀懂,其實考驗的是推理理解能力了。畫面上明顯GPT Image 2更勝一籌沒的說,但讓我有點意外的是Nano Banana生成的這張,提示詞裏完全沒提到龍蝦元素,它自己加上去了,而且EasyClaw的logo也是對的。

· · ·
雜誌內頁
根據參考圖中的人物,設計一頁現代科技精英刊物內頁,呈現真實雜誌內頁效果。整體需具備專業的排版佈局,內容要素包含:佔據主要版面的大幅模特主圖;刊物標題,副標題、註解、輔助文字。版面大氣,編排有序,若仿真實期刊,要避免海報式單一感,切忌僅放置單張人物大圖。
這題其實考的不光是作圖水平了,海報裏面的文字全都是它自己生成的,我提示詞裏一點沒有,文字內容上都還算靠譜,聯想推理能力在線。就圖片來說我覺得GPT的排版更清晰易讀,而且沒有一個亂碼,但不得不說Nano Banana對我們產品挺了解啊,就是亂碼挺出戲。

· · ·
電影分鏡頭
生成 3×3 的電影分鏡頭,主人公是參考圖中的人物,他去到宇宙尋找新的人類生存之地,模擬斯坦尼康拍攝效果,16:9。
這道題兩張答卷差距有點離譜,主要看敍事連貫性。九格畫面,主角不能換臉,故事得講得通。所以看完這兩張圖相信你和我有一樣的疑惑,為啥Nano Banana Pro生成的圖裏我變成成龍了?


· · ·
年代感老照片
給我生成一張舊照片,東北過年時的照片,使用90年代中國老照片的風格,左下角標註時間。


· · ·
字體視覺
生成一張“基於詞意進行視覺轉譯”的高級概念海報。文字、圖像、構圖、色彩共同組成一個完整、聰明、剋制、極簡但有力的視覺表達。畫面必須優先採用“極簡主場景+承載面+角色演繹+巨型文字骨架”的構圖邏輯,儘量出現一個明確的橫向承載結構,像舞台、土地、台基、坡面、切面、地平線、平台、表層、底座或簡化的場域。用戶輸入的文字、單詞、詞組或字母必須成為畫面的主視覺骨架,以巨大、清晰、強識別度的方式出現,佔據畫面重要區域。整體風格應接近高級圖形藝術海報,具有印刷品氣質,允許帶有拼貼感、石版印刷感、絲網印刷感、版畫感、紙張顆粒等。 我將提供給你核心文字 :未來。可選情緒傾向是科幻式的。
這道題考的是能不能真正做到讓字成為構圖的一部分,而不是後期浮貼。
GPT依然秒殺Nano Banana。我雖然不太懂藝術構圖,但我能get到人站在字裏面,光從筆畫的縫隙裏透出來,感覺人是在"未來"這個空間裏存在的,字和畫是一回事,Nano Banana還是生硬了點。

· · ·
仿寫手寫字體
提供人工手寫英文參考圖,讓模型模仿字跡重新生成文字內容。差距也是一目瞭然了,不知道Nano Banana Pro從哪裏學來的衡水體。

· · ·
我的結論
當然,工具沒有絕對的好壞,只有適不適合你的場景。但測試本身,是最誠實的答案。
最後,如果你想試試讓龍蝦幫你提效,歡迎下載EasyClaw:
國內版:easyclaw.cn
國際版:easyclaw.com
企業版:easyclaw.work
