Opus 4.6 + GPT 5.3 Codex實測:沒頭腦和不高興
整理版優先睇
Opus 4.6 同 Codex 5.3 走向極端,組合使用效果最佳
呢篇文章係由AI工具測評作者驍哥撰寫,佢喺Anthropic同OpenAI分別發佈Claude Opus 4.6同GPT-5.3-Codex之後,即時進行咗多個實測,目的係瞭解兩個模型喺實際編程任務中嘅表現差異。整體結論係兩個模型已經走向完全唔同嘅路線,各有優劣,最好嘅用法係組合使用。
作者透過四個測試場景——個人主頁審美、海浪模擬、超級馬裏奧遊戲同3D賽車遊戲——發現Codex寫代碼好穩定好精準,極少Bug,但佢唔會主動多做任何額外功能,甚至為咗效率犧牲界面美感。相反,Opus思維好活躍,會主動添加好多細節同特效,但有時會出現Bug或者唔穩定嘅情況。
作者指出呢個其實唔係邊個好啲嘅問題,而係定位問題。Codex係「精密機器」,適合純粹寫代碼嘅任務;Opus係「有人味」嘅助手,適合需求討論、創意發想、快速原型。如果可以將兩個模型組合使用,例如用Opus開發場景,再用Codex修正Bug,就可以達到1+1>2嘅效果。最後作者仲推介咗佢創立嘅Skill Hub平台,方便大家交流AI編程技能。
- 兩個模型走向極端:Codex穩定精準但缺乏創意,Opus活躍多變但可能不穩定。
- 透過多個編程測試(網頁、遊戲)比較兩者,Codex「冇頭腦」只執行任務,Opus「唔高興」會自作主張。
- Codex 寫代碼基本冇Bug,但唔會多做任何額外功能,界面美感犧牲;Opus 豐富細節但常有Bug。
- 啟發:代碼工作用 Codex,創意工作用 Opus,組合使用可達1+1>2。
- 可行動點:嘗試使用 Skill Hub 平台獲取更多 AI 編程技能,提升效率。
Skill Hub
一個集合AI編程Skill嘅平台,可以交流同下載實用技能。
模型發布與初步印象
今朝早凌晨,Anthropic同OpenAI分別發佈咗Claude Opus 4.6同GPT-5.3-Codex,引起唔少討論。作者驍哥即刻進行實測,想睇下兩個模型實際表現。
Opus 4.6 同 GPT-5.3-Codex 嘅發佈只相隔20分鐘
基礎審美測試「做一個炫酷嘅靜態個人主頁」中,Codex簡單粗暴,Opus就花好多功夫加粒子特效同聚光燈效果,審美方面Opus完勝。
Opus 嘅背景粒子特效、聚光燈效果同卡片效果都好酷
各項測試表現
- 海浪模擬:Opus 效果逼真,支援3D操作,超預期;Codex 多次生成結果抽象,表現唔理想。
- 超級馬裏奧:Opus 場景還原度高,但有小Bug(食蘑菇變大後撞怪即死);Codex 一次過冇Bug但冇驚喜。
- 3D賽車:Opus 場景豐富但細節有Bug(道路未渲染、碰撞冇做);Codex 一次過但冇驚喜。
Codex 寫代碼基本冇Bug,但絕對唔會多幹一點活
Opus 嘅主動性係雙刃劍:會主動優化代碼,但可能引入新Bug
核心結論與使用建議
綜合測試結果,作者認為兩個模型已經走上兩條極端路線。Codex係「精密機器」,著重效率同穩定性;Opus係「有人味」嘅助手,思維活躍但可能唔穩定。
只畀 Codex 做同寫代碼相關嘅工作,其餘一切工作交畀 Opus 或者 GPT
作者仲推薦咗佢創立嘅 Skill Hub 平台(https://www.skill-cn.com/),方便交流AI編程Skill,大家可以去體驗下。
Skill Hub 係一個集合AI編程技能嘅平台,PC體驗效果更佳
就喺今朝凌晨:Anthropic發布咗Claude Opus 4.6,只係20分鐘之後,OpenAI跟住發布咗GPT-5.3-Codex❗️
上一篇文入面,我哋詳細介紹咗兩個模型嘅數據,比起上代都有唔少提升👉Claude Opus 4.6 & GPT-5.3-Codex深夜震撼發布!前端又死咗?
呢篇文章,我哋就透過幾組測評,睇嚇兩個模型嘅實際表現係點💁


(以下簡稱Codex同Opus)
基礎審美
提示詞:「做一個好型嘅靜態個人主頁」
Codex:簡單粗暴😑
Opus:就好靚啦,背景嘅粒子特效、聚光燈效果、卡片效果都好型🧑🎤
審美方面,Opus完勝👍
模擬海浪
提示詞:「創建一個單頁應用(單個HTML文件)。滿足以下要求:名稱:海浪模擬;目標:展示逼真嘅海浪動畫效果;功能:可以調整風速、浪高同光照;界面:應該呈現寧靜同逼真嘅效果。」
Opus:效果真係幾好,竟然仲支持3D操作?好超預期
GPT-5.3-Codex:...?


再嚟一次

大家信我,我重新生成咗5次,呢兩次係效果「最好」嘅,冇放出嚟嘅仲抽象...😅
呢個真係有啲甩轆啊
我轉返去GPT-5.2-Codex:

似乎好咗少少,但係都唔好得去邊,於是我又轉返去GPT-5.2

舒服曬....
之前驍哥就一直強調:「創意類工作,例如對需求、寫UI...唔好用codex,用gpt❗️」,而家大家知道點解啦啩?!😅
呢組測試都說明咗一個問題:GPT-5.3-Codex嘅審美,比起GPT-5.2-Codex仲要Low...📉
超級馬裏奧
提示詞:「創建一個單頁應用(單個HTML文件)mario.html,做一個超級馬裏奧遊戲,要求盡可能還原第一關嘅所有細場景」
Codex:一次過,冇乜Bug,都冇乜驚喜
Opus:❗️
首先唔好講其他嘢先,場景還原度上,Opus將Codex爆咗🤯
但係透過視頻可以睇得出,Opus係有啲Bug的:例如食咗🍄變大之後,碰到敵人就會直接死;跳起踩敵人嘅判定都唔係好準
不過遊戲元素設計方面,Opus設計嘅真係好齊全,例如:
食🌻放火球
踩🐢(我被彈返嚟嘅龜殼撞飛咗...🤣)
呢啲Codex都冇做,但係Opus都整咗出嚟👍
3D賽車遊戲
提示詞:「做一個第一人稱視角嘅3D賽車遊戲」
Codex:一次過,冇乜Bug,都冇乜驚喜
Opus:第一次黑畫面,第二次就過到。場景更加豐富,但係細節上仲有Bug(例如道路冇渲染、車輛碰撞冇做)
然後,我叫Codex修咗一下Opus作品嘅Bug,成果
可以的,咁就好好多啦!集合咗Opus嘅場景豐富度同埋Codex嘅穩定性👍
結果對比
由結果上嚟睇,似乎Opus 4.6嘅表現比起 5.3 Codex要好?🧏♀️
其實唔係
驍哥覺得,而家兩個模型,走咗上兩條完全唔同嘅路,喺各自條路上越走越遠,走向咗兩個極端🥸

係嘅,Codex相比以前,放棄「人性」越來越徹底,惰性更加強,完全淪為一個執行寫代碼任務嘅「精密機器」、「士兵」🤖
用更細嘅代價去完成你嘅任務,換來更好嘅精準度、可控性、穩定性同埋更快嘅速度(速度快咗20%左右)⚡️
由上面幾個例子,可以睇得出:Codex寫代碼基本上冇Bug,但係都絕對唔會幫你做多啲嘢,都係點到即止
之所以Codex整出嚟嘅界面樣衰,都係因為Codex認為「界面」呢樣嘢,優先級冇咁高

而Opus,思維更加活躍,更加「主動」,更加有「人味」🙆
呢個喺某啲寫代碼嘅場景下,「主動」可能並唔係一件好事。好似你想要單純咁加一個功能,點知發現Opus主動將啲碼都一齊優化咗,可能仲有Bug..
但係好似傾需求、寫文章、或者你想用一個「模糊」嘅想法快速出MVP等呢類場景入面,Opus呢種「發散活躍」嘅特點就好適用!😃
而且自從Cowork、OpenCraw之後,Claude模型都唔再集中喺代碼,開始慢慢行泛化路線。🦞OpenCraw入面,Opus都仲係第一適用模型(貴都真係...)
突然覺得,Opus同Codex呢對組合,驍哥好熟啊🤓👇

小結
總結嚟講,大家只需要記住💁:淨係叫Codex做同寫代碼相關嘅工作(技術方案都可以叫Codex嚟做),其餘所有工作,交畀Opus(或者gpt)
如果可以,最好組合咁用。就好似賽車嗰個例子,邊個模型整出嚟嘅都有缺陷,但係兩個模型夾埋用,結果就1+1>2啦
另外,最近Skill好興,驍哥最近利用「偷懶」時間,順便創辦咗Skill Hub,歡迎體驗🤗
https://www.skill-cn.com/(「閲讀原文」就可以體驗,PC體驗效果更加好)


往期Skill實踐👇
用AI編程 + Remotion Skill,實現直播間刷禮物特效?
一句話叫AI編程,完成視頻摳綠幕 —— Remotion Skill嘅使用技巧
瀏覽器自動化Skill:Agent Browser終極攻略(含登錄狀態解決方案)
AI編程可以直接生成視頻啦?Remotion Skill 初體驗
呢個SKILL,自動操作我嘅瀏覽器,扒咗我嘅網購記錄出嚟0.0!?
就在今早凌晨:Anthropic發佈了Claude Opus 4.6,僅僅20分鐘後,OpenAI緊接着發佈了GPT-5.3-Codex❗️
上盤文章中,我們詳細的介紹了兩個模型的數據,較上代均有不小的提升👉Claude Opus 4.6 & GPT-5.3-Codex深夜震撼發佈!前端叕死了?
這篇文章,我們就通過幾組測評,看看兩個模型的實際表現如何💁


(以下簡稱Codex和Opus)
基礎審美
提示詞:“做一個炫酷的靜態個人主頁”
Codex:簡單粗暴😑
Opus:就很花了,背景的粒子特效、聚光燈效果、卡片效果都很酷🧑🎤
審美方面,Opus完勝👍
模擬海浪
提示詞:“創建一個單頁應用(單個HTML文件)。滿足以下要求:名稱:海浪模擬;目標:展示逼真的海浪動畫效果;功能:可調整風速、浪高和光照;界面:應呈現寧靜且逼真的效果。”
Opus:效果確實可以,竟然還支持3D操作?挺超預期
GPT-5.3-Codex:...?


再來一次

大家信我,我重新生成了5次,這兩次是效果“最好的”,沒放出來的更抽象...😅
這確實有點掉鏈子啊
我切換回了GPT-5.2-Codex:

似乎好了一點,但還是沒好到哪裏去,於是我又切回了GPT-5.2

舒服了....
之前驍哥就一直強調:“創意類工作,比如對需求、寫UI...不要用codex,用gpt❗️”,現在大家知道為啥了吧!😅
這組測試也說明了一個問題:GPT-5.3-Codex的審美,相比GPT-5.2-Codex還要Low...📉
超級馬里奧
提示詞:“創建一個單頁應用(單個HTML文件)mario.html,做一個超級馬里奧遊戲,要求儘可能還原第一關的所有細場景”
Codex:一次過,沒啥Bug,也沒啥驚喜
Opus:❗️
首先先不談別的,場景還原度上,Opus就把Codex給爆了🤯
但是通過視頻可以看出來,Opus是有一些Bug的:比如吃🍄變大後,碰到敵人直接掛;跳起來踩敵人判定也不是很靈
不過遊戲元素設計上,Opus設計的真的很齊全,比如:
吃🌻放火球
踩🐢(我被彈回的龜殼創飛了...🤣)
這些Codex都沒做,但是Opus都做出來了👍
3D賽車遊戲
提示詞:“做一個第一人稱視角的3D賽車遊戲”
Codex:一次過,沒啥Bug,也沒啥驚喜
Opus:第一次黑屏,第二次過。場景更加豐富,但是細節上還是有Bug(比如道路沒有渲染、車輛碰撞沒做)
然後,我讓Codex修了一下Opus作品的Bug,成果
可以的,這就好很多了!集合了Opus的場景豐富度以及Codex的穩定性👍
結果對比
從結果上來看,似乎Opus 4.6的表現比 5.3 Codex要好?🧏♀️
其實不然
驍哥覺得,現在兩個模型,走上了兩條完全不同的路,並在各自路上越走越遠了,走向了兩個極端🥸

是的,Codex相較以前,拋棄“人性”愈發徹底,惰性更強了,徹底淪為了一個執行寫代碼任務的“精密機器”、“士兵”🤖
以更小的代價去完成你的任務,換來更好的精準度、可控性、穩定性以及更快的速度(速度提升20%左右)⚡️
從上面幾個例子,可以看出來:Codex寫代碼基本沒Bug,但是也絕對不可能給你多幹一點活,都是點到即止
之所以Codex做出的界面醜,也是因為Codex認為"界面"這種東西,優先級沒那麼高

那Opus,思維也更加活躍,更“主動”,更有“人味”🙆
這在某些寫代碼的場景下,“主動”可能並不是一件好事。就比如你想要單純的加一個功能,結果發現Opus主動把代碼也給一起優化了,可能還有Bug..
但是像商討需求、寫文章、或者你想以一個“模糊”的想法快速出MVP等這類場景中,Opus這種“發散活躍”的特點就很適用!😃
而且自從Cowork、OpenCraw後,Claude模型也不再聚焦於代碼,開始逐漸走泛化路線了。🦞OpenCraw中,Opus還是第一適用模型(貴也是真的...)
突然覺得,Opus和Codex這對組合,驍哥熟悉啊🤓👇

小結
綜上,大家只需記住💁:只讓Codex做和寫代碼的相關工作(技術方案也可以讓Codex來),其餘一切工作,交給Opus(或者gpt)
如果可以,最好組合使用。就好比賽車那個例子,哪個模型做出來的都有缺陷,但兩個模型搭配用,結果就1+1>2了
另外,最近Skill很火,驍哥最近利用“摸魚”時間,順手創辦了 Skill Hub,歡迎體驗🤗
https://www.skill-cn.com/(「閲讀原文」即可體驗,PC體驗效果更佳)


往期Skill實踐👇
用AI編程 + Remotion Skill,實現直播間刷禮物特效?
一句話讓AI編程,完成視頻摳綠幕 —— Remotion Skill的使用技巧
瀏覽器自動化Skill:Agent Browser究極攻略(含登錄態解決方案)
AI編程可以直接生成視頻了?Remotion Skill 初體驗
這個SKILL,自動操作我的瀏覽器,扒出了我的網購記錄0.0!?