Opus 4.6 + GPT 5.3 Codex實測:沒頭腦和不高興

作者:驍哥AI編程
日期:2026年2月6日 下午3:02
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

Opus 4.6 同 Codex 5.3 走向極端,組合使用效果最佳

整理版摘要

呢篇文章係由AI工具測評作者驍哥撰寫,佢喺AnthropicOpenAI分別發佈Claude Opus 4.6同GPT-5.3-Codex之後,即時進行咗多個實測,目的係瞭解兩個模型喺實際編程任務中嘅表現差異。整體結論係兩個模型已經走向完全唔同嘅路線,各有優劣,最好嘅用法係組合使用。

作者透過四個測試場景——個人主頁審美、海浪模擬、超級馬裏奧遊戲同3D賽車遊戲——發現Codex寫代碼好穩定好精準,極少Bug,但佢唔會主動多做任何額外功能,甚至為咗效率犧牲界面美感。相反,Opus思維好活躍,會主動添加好多細節同特效,但有時會出現Bug或者唔穩定嘅情況。

作者指出呢個其實唔係邊個好啲嘅問題,而係定位問題。Codex係「精密機器」,適合純粹寫代碼嘅任務;Opus係「有人味」嘅助手,適合需求討論、創意發想、快速原型。如果可以將兩個模型組合使用,例如用Opus開發場景,再用Codex修正Bug,就可以達到1+1>2嘅效果。最後作者仲推介咗佢創立嘅Skill Hub平台,方便大家交流AI編程技能。

  • 兩個模型走向極端Codex穩定精準但缺乏創意,Opus活躍多變但可能不穩定。
  • 透過多個編程測試(網頁、遊戲)比較兩者,Codex冇頭腦」只執行任務,Opus唔高興」會自作主張。
  • Codex 寫代碼基本冇Bug,但唔會多做任何額外功能,界面美感犧牲;Opus 豐富細節但常有Bug
  • 啟發:代碼工作用 Codex,創意工作用 Opus,組合使用可達1+1>2。
  • 可行動點:嘗試使用 Skill Hub 平台獲取更多 AI 編程技能,提升效率。
值得記低
連結 skill-cn.com

Skill Hub

一個集合AI編程Skill嘅平台,可以交流同下載實用技能。

整理重點

模型發布與初步印象

今朝早凌晨,AnthropicOpenAI分別發佈咗Claude Opus 4.6同GPT-5.3-Codex,引起唔少討論。作者驍哥即刻進行實測,想睇下兩個模型實際表現。

Opus 4.6 同 GPT-5.3-Codex 嘅發佈只相隔20分鐘

基礎審美測試「做一個炫酷嘅靜態個人主頁」中,Codex簡單粗暴,Opus就花好多功夫加粒子特效同聚光燈效果,審美方面Opus完勝。

Opus 嘅背景粒子特效、聚光燈效果同卡片效果都好酷

整理重點

各項測試表現

  • 海浪模擬Opus 效果逼真,支援3D操作,超預期;Codex 多次生成結果抽象,表現唔理想。
  • 超級馬裏奧Opus 場景還原度高,但有小Bug(食蘑菇變大後撞怪即死);Codex 一次過冇Bug但冇驚喜。
  • 3D賽車Opus 場景豐富但細節有Bug(道路未渲染、碰撞冇做);Codex 一次過但冇驚喜。

Codex 寫代碼基本冇Bug,但絕對唔會多幹一點活

Opus 嘅主動性係雙刃劍:會主動優化代碼,但可能引入新Bug

整理重點

核心結論與使用建議

綜合測試結果,作者認為兩個模型已經走上兩條極端路線。Codex係「精密機器」,著重效率同穩定性;Opus係「有人味」嘅助手,思維活躍但可能唔穩定。

只畀 Codex 做同寫代碼相關嘅工作,其餘一切工作交畀 Opus 或者 GPT

作者仲推薦咗佢創立嘅 Skill Hub 平台(https://www.skill-cn.com/),方便交流AI編程Skill,大家可以去體驗下。

Skill Hub 係一個集合AI編程技能嘅平台,PC體驗效果更佳

就喺今朝凌晨:Anthropic發布咗Claude Opus 4.6,只係20分鐘之後,OpenAI跟住發布咗GPT-5.3-Codex❗️

上一篇文入面,我哋詳細介紹咗兩個模型嘅數據,比起上代都有唔少提升👉Claude Opus 4.6 & GPT-5.3-Codex深夜震撼發布!前端又死咗?

呢篇文章,我哋就透過幾組測評,睇嚇兩個模型嘅實際表現係點💁

圖片

圖片

(以下簡稱Codex同Opus)

基礎審美

提示詞:「做一個好型嘅靜態個人主頁」

Codex:簡單粗暴😑

Opus:就好靚啦,背景嘅粒子特效、聚光燈效果、卡片效果都好型🧑‍🎤

審美方面,Opus完勝👍

模擬海浪

提示詞:「創建一個單頁應用(單個HTML文件)。滿足以下要求:名稱:海浪模擬;目標:展示逼真嘅海浪動畫效果;功能:可以調整風速、浪高同光照;界面:應該呈現寧靜同逼真嘅效果。」

Opus:效果真係幾好,竟然仲支持3D操作?好超預期

GPT-5.3-Codex:...?

圖片

圖片

再嚟一次

圖片

大家信我,我重新生成咗5次,呢兩次係效果「最好」嘅,冇放出嚟嘅仲抽象...😅

呢個真係有啲甩轆啊

我轉返去GPT-5.2-Codex:

圖片

似乎好咗少少,但係都唔好得去邊,於是我又轉返去GPT-5.2

圖片

舒服曬....

之前驍哥就一直強調:「創意類工作,例如對需求、寫UI...唔好用codex,用gpt❗️」,而家大家知道點解啦啩?😅

呢組測試都說明咗一個問題:GPT-5.3-Codex嘅審美,比起GPT-5.2-Codex仲要Low...📉

超級馬裏奧

提示詞:「創建一個單頁應用(單個HTML文件)mario.html,做一個超級馬裏奧遊戲,要求盡可能還原第一關嘅所有細場景」

Codex:一次過,冇乜Bug,都冇乜驚喜

Opus:❗️

首先唔好講其他嘢先,場景還原度上,Opus將Codex爆咗🤯

但係透過視頻可以睇得出,Opus係有啲Bug的:例如食咗🍄變大之後,碰到敵人就會直接死;跳起踩敵人嘅判定都唔係好準

不過遊戲元素設計方面,Opus設計嘅真係好齊全,例如:

食🌻放火球

踩🐢(我被彈返嚟嘅龜殼撞飛咗...🤣)

呢啲Codex都冇做,但係Opus都整咗出嚟👍

3D賽車遊戲

提示詞:「做一個第一人稱視角嘅3D賽車遊戲」

Codex:一次過,冇乜Bug,都冇乜驚喜

Opus:第一次黑畫面,第二次就過到。場景更加豐富,但係細節上仲有Bug(例如道路冇渲染、車輛碰撞冇做)

然後,我叫Codex修咗一下Opus作品嘅Bug,成果

可以的,咁就好好多啦!集合咗Opus嘅場景豐富度同埋Codex嘅穩定性👍

結果對比

由結果上嚟睇,似乎Opus 4.6嘅表現比起 5.3 Codex要好?🧏‍♀️

其實唔係

驍哥覺得,而家兩個模型,走咗上兩條完全唔同嘅路,喺各自條路上越走越遠,走向咗兩個極端🥸

圖片

係嘅,Codex相比以前,放棄「人性」越來越徹底,惰性更加強,完全淪為一個執行寫代碼任務嘅「精密機器」、「士兵」🤖

用更細嘅代價去完成你嘅任務,換來更好嘅精準度、可控性、穩定性同埋更快嘅速度(速度快咗20%左右)⚡️

由上面幾個例子,可以睇得出:Codex寫代碼基本上冇Bug但係都絕對唔會幫你做多啲嘢,都係點到即止

之所以Codex整出嚟嘅界面樣衰,都係因為Codex認為「界面」呢樣嘢,優先級冇咁高

圖片

而Opus,思維更加活躍,更加「主動」,更加有「人味」🙆

呢個喺某啲寫代碼嘅場景下,「主動」可能並唔係一件好事。好似你想要單純咁加一個功能,點知發現Opus主動將啲碼都一齊優化咗,可能仲有Bug..

但係好似傾需求、寫文章、或者你想用一個「模糊」嘅想法快速出MVP等呢類場景入面,Opus呢種「發散活躍」嘅特點就好適用!😃

而且自從Cowork、OpenCraw之後,Claude模型都唔再集中喺代碼,開始慢慢行泛化路線。🦞OpenCraw入面,Opus都仲係第一適用模型(貴都真係...)

突然覺得,Opus同Codex呢對組合,驍哥好熟啊🤓👇

圖片

小結

總結嚟講,大家只需要記住💁:淨係叫Codex做同寫代碼相關嘅工作(技術方案都可以叫Codex嚟做),其餘所有工作,交畀Opus(或者gpt)

如果可以,最好組合咁用。就好似賽車嗰個例子,邊個模型整出嚟嘅都有缺陷,但係兩個模型夾埋用,結果就1+1>2啦

另外,最近Skill好興,驍哥最近利用「偷懶」時間,順便創辦咗Skill Hub,歡迎體驗🤗

https://www.skill-cn.com/(「閲讀原文」就可以體驗,PC體驗效果更加好)

圖片

圖片

往期Skill實踐👇

8歲細路仔Skill入門教程:逐步教你使用Skill

用AI編程 + Remotion Skill,實現直播間刷禮物特效?

一句話叫AI編程,完成視頻摳綠幕 —— Remotion Skill嘅使用技巧

瀏覽器自動化Skill:Agent Browser終極攻略(含登錄狀態解決方案)

AI編程可以直接生成視頻啦?Remotion Skill 初體驗

0基礎新手建站:Supabase免費數據庫逐步教學

呢個SKILL,自動操作我嘅瀏覽器,扒咗我嘅網購記錄出嚟0.0!?

自媒體取標題太嘥時間?我將佢做成咗一個SKILL

用AI獨立開發產品,域名諗唔出就用呢招!

點解你用AI整嘅產品成日都唔滿意?因為跳過咗呢個環節

新手點樣用AI編程,快速打造商用級UI

點樣喺Cursor、TRAE入面,用Skills 3分鐘製作精美PPT

畀8歲細路仔嘅Agent Skill入門教程

就在今早凌晨:Anthropic發佈了Claude Opus 4.6,僅僅20分鐘後,OpenAI緊接着發佈了GPT-5.3-Codex❗️

上盤文章中,我們詳細的介紹了兩個模型的數據,較上代均有不小的提升👉Claude Opus 4.6 & GPT-5.3-Codex深夜震撼發佈!前端叕死了?

這篇文章,我們就通過幾組測評,看看兩個模型的實際表現如何💁

圖片

圖片

(以下簡稱Codex和Opus)

基礎審美

提示詞:“做一個炫酷的靜態個人主頁”

Codex:簡單粗暴😑

Opus:就很花了,背景的粒子特效、聚光燈效果、卡片效果都很酷🧑‍🎤

審美方面,Opus完勝👍

模擬海浪

提示詞:“創建一個單頁應用(單個HTML文件)。滿足以下要求:名稱:海浪模擬;目標:展示逼真的海浪動畫效果;功能:可調整風速、浪高和光照;界面:應呈現寧靜且逼真的效果。”

Opus:效果確實可以,竟然還支持3D操作?挺超預期

GPT-5.3-Codex:...?

圖片

圖片

再來一次

圖片

大家信我,我重新生成了5次,這兩次是效果“最好的”,沒放出來的更抽象...😅

這確實有點掉鏈子啊

我切換回了GPT-5.2-Codex:

圖片

似乎好了一點,但還是沒好到哪裏去,於是我又切回了GPT-5.2

圖片

舒服了....

之前驍哥就一直強調:“創意類工作,比如對需求、寫UI...不要用codex,用gpt❗️”,現在大家知道為啥了吧😅

這組測試也說明了一個問題:GPT-5.3-Codex的審美,相比GPT-5.2-Codex還要Low...📉

超級馬里奧

提示詞:“創建一個單頁應用(單個HTML文件)mario.html,做一個超級馬里奧遊戲,要求儘可能還原第一關的所有細場景”

Codex:一次過,沒啥Bug,也沒啥驚喜

Opus:❗️

首先先不談別的,場景還原度上,Opus就把Codex給爆了🤯

但是通過視頻可以看出來,Opus是有一些Bug的:比如吃🍄變大後,碰到敵人直接掛;跳起來踩敵人判定也不是很靈

不過遊戲元素設計上,Opus設計的真的很齊全,比如:

吃🌻放火球

踩🐢(我被彈回的龜殼創飛了...🤣)

這些Codex都沒做,但是Opus都做出來了👍

3D賽車遊戲

提示詞:“做一個第一人稱視角的3D賽車遊戲”

Codex:一次過,沒啥Bug,也沒啥驚喜

Opus:第一次黑屏,第二次過。場景更加豐富,但是細節上還是有Bug(比如道路沒有渲染、車輛碰撞沒做)

然後,我讓Codex修了一下Opus作品的Bug,成果

可以的,這就好很多了!集合了Opus的場景豐富度以及Codex的穩定性👍

結果對比

從結果上來看,似乎Opus 4.6的表現比 5.3 Codex要好?🧏‍♀️

其實不然

驍哥覺得,現在兩個模型,走上了兩條完全不同的路,並在各自路上越走越遠了,走向了兩個極端🥸

圖片

是的,Codex相較以前,拋棄“人性”愈發徹底,惰性更強了,徹底淪為了一個執行寫代碼任務的“精密機器”、“士兵”🤖

以更小的代價去完成你的任務,換來更好的精準度、可控性、穩定性以及更快的速度(速度提升20%左右)⚡️

從上面幾個例子,可以看出來:Codex寫代碼基本沒Bug但是也絕對不可能給你多幹一點活,都是點到即止

之所以Codex做出的界面醜,也是因為Codex認為"界面"這種東西,優先級沒那麼高

圖片

那Opus,思維也更加活躍,更“主動”,更有“人味”🙆

這在某些寫代碼的場景下,“主動”可能並不是一件好事。就比如你想要單純的加一個功能,結果發現Opus主動把代碼也給一起優化了,可能還有Bug..

但是像商討需求、寫文章、或者你想以一個“模糊”的想法快速出MVP等這類場景中,Opus這種“發散活躍”的特點就很適用!😃

而且自從Cowork、OpenCraw後,Claude模型也不再聚焦於代碼,開始逐漸走泛化路線了。🦞OpenCraw中,Opus還是第一適用模型(貴也是真的...)

突然覺得,Opus和Codex這對組合,驍哥熟悉啊🤓👇

圖片

小結

綜上,大家只需記住💁:只讓Codex做和寫代碼的相關工作(技術方案也可以讓Codex來),其餘一切工作,交給Opus(或者gpt)

如果可以,最好組合使用。就好比賽車那個例子,哪個模型做出來的都有缺陷,但兩個模型搭配用,結果就1+1>2了

另外,最近Skill很火,驍哥最近利用“摸魚”時間,順手創辦了 Skill Hub,歡迎體驗🤗

https://www.skill-cn.com/(「閲讀原文」即可體驗,PC體驗效果更佳)

圖片

圖片

往期Skill實踐👇

8歲寶寶Skill入門教程:手把手教你使用Skill

用AI編程 + Remotion Skill,實現直播間刷禮物特效?

一句話讓AI編程,完成視頻摳綠幕 —— Remotion Skill的使用技巧

瀏覽器自動化Skill:Agent Browser究極攻略(含登錄態解決方案)

AI編程可以直接生成視頻了?Remotion Skill 初體驗

0基礎小白建站:Supabase免費數據庫手把手教學

這個SKILL,自動操作我的瀏覽器,扒出了我的網購記錄0.0!?

自媒體取標題太耗時間?我把它做成了一個SKILL

用AI獨立開發產品,域名想不出來就用這招!

為什麼你用AI做的產品總是不滿意?因為跳過了這個環節

小白如何使用AI編程,快速打造商用級UI

如何在Cursor、TRAE中,用Skills 3分鐘製作精美PPT

給8歲寶寶的Agent Skill入門教程