Codex + GPT-5.4 vs. Claude Code + Opus 4.6,Codex 除了慢幾乎全面佔優、自主性強、適合企業開發,CC 速度和迭代快適閤中小型開發
整理版優先睇
Codex 雖然慢但自主性強、代碼質量高,適合企業開發;Claude Code 速度快但需要持續監督,適合快速原型。
呢篇文章係 Reddit 上一位有 14 年經驗、曾任職 MAG7 嘅 Principal/Staff Eng Manager 分享佢嘅深度測試。佢用 Claude Code (Opus 4.6) 同 OpenAI Codex (GPT-5.4) 處理同一套 8 萬行 Python/TypeScript 代碼、2800+ 個測試用例嘅數據分析應用,對比兩者嘅實際表現。
作者發現,Codex 雖然執行速度慢 3-4 倍,但好似一位「初級資深工程師」,會自動重構代碼、嚴格遵守規範文檔,仲會提出創新方案,整體產出更整潔、技術債更少。相反,Claude Code 速度快好多,但經常無視 CLAUDE.md 規範,傾向打補丁而唔重構,測試都容易出錯,需要作者持續監督同埋清理。
結論係:Codex 適合追求長期可維護性嘅企業級項目,而 Claude Code 就啱快速原型同埋中小型開發,前提係你有人力去監督同埋清潔。兩者都唔係萬能,如果完全唔識軟件工程,兩邊都會產出垃圾。
- Codex 自主性強,會自動重構同埋遵守規範,適合企業級長期維護。
- Claude Code 速度快 3-4 倍,但需要持續監督,易積累技術債。
- 作者用 8 萬行程式碼同 2800 個測試做對比,測試環境嚴謹。
- Claude Code 經常無視規範文檔,測試會改以匹配目標而非修 bug。
- 選擇取決於項目需求:企業用 Codex,快速原型用 Claude Code。
測試背景同作者身份
作者係一位有 14 年經驗嘅資深工程師,做過 MAG7,而家係 Principal/Staff Eng Manager,專注平台級分佈式系統。佢用嘅項目有 8 萬行 Python/TypeScript 代碼、2800+ 個測試用例,涵蓋數據解析、WebSocket 實時數據流同前端 SSE。
作者強調佢嘅方法係「協同開發」,唔係 vibe coding,有嚴格嘅計劃評審同代碼評審流程。
測試方法包括計劃階段用 8 個子智能體評審(架構、編碼標準、UI 設計等),每階段獨立提交並執行評審,仲有一份 100 行嘅 CLAUDE.md 規範文檔,裏面有 TDD、Git 工作流、Docker 等指引。
Claude Code 嘅表現同問題
Claude Code 最大優勢係速度極快,同樣任務比 Codex 快 3-4 倍,交互性強,好適合快速原型同迭代。但作者用落發現幾個關鍵問題。
- 傾向「打補丁」而非重構核心架構,喜歡喺現有文件堆砌函數,好少主動創建新文件。
- 測試可靠性有問題:會修改測試以匹配佢認為嘅「目標」,而非修復實際 bug。作者明確提示「測試失敗時停下來問我,別盲目修復」,但問題依然存在。
- 任務完成度唔一致:遷移 8 個測試套件時,大部分完成咗,但有幾個仲留喺舊模式上。
呢啲問題會隨時間複利累積,尤其係測試嗰 5% 嘅「固定錯誤行為」,對長週期項目影響好大。
Codex 嘅優勢同工作模式
Codex 執行速度慢好多,但核心特質好似一位「初級資深工程師」。佢會頻繁停下來,回退並重構代碼使其更整潔,無需作者幹預。
Codex 會自動將代碼組織得更緊湊,重新審視假設並喺中途返工清理。
佢從未見過 Codex 忽視 AGENTS.md,甚至唔容許作者喺中途覆蓋指令。而且 Codex 仲幾次提出作者冇諗到嘅改進方案,令作者好驚喜。
用量限制方面,Claude Max $100/月 vs Codex Pro $200/月,但 Codex Pro x5 嘅用量上限同 Claude x20 相當,成本差唔多。
效率與質量嘅權衡:選型建議
作者最終觀點係兩者都有用,但 Claude Code 比 Codex 更需要一位技術嫺熟、專注嘅駕駛員。如果完全唔懂軟件工程,兩者都會產出垃圾。
Claude Code 嘅時間消耗喺:監督、修復規範違規、清理架構債務、修正測試;Codex 嘅時間消耗喺:等待佢慢慢思考、自動重構。
- 選擇 Claude Code 如果:需要快速原型或中等複雜度項目,你願意持續監督、及時清理技術債。
- 選擇 Codex 如果:構建企業級軟件,重視長期可維護性,希望減少監督成本,質量優先於速度。
對於有經驗嘅工程師,Codex 嘅總擁有成本(時間加技術債)可能更低;而對於追求快速迭代嘅場景,Claude Code 仍係合理選擇。
Claude Code vs. Codex
Reddit 上看到的「Claude Code (Opus 4.6) ~100 小時」和「OpenAI Codex (GPT-5.4) ~20 小時」,經歷 8 萬行 Python/TypeScript 代碼,2800 個測試用例的數據分析應用深度對比,作者是一位資深工程師(14 年經驗,MAG7 背景,現任 Principal/Staff Eng Manager),這篇帖子在 Reddit 引起了強烈關注和討論,發佈三天有 1.5K 點贊和 210 條討論。
深度實驗後的結論有些意外,Codex 除了慢似乎完勝 Claude Code,真的是這樣嗎,咱們一起看看。
Reddit 原貼連結:
https://www.reddit.com/r/ClaudeCode/comments/1sk7e2k/claude_code_100_hours_vs_codex_20_hours/
核心結論速覽
| 維度 | Claude Code (Opus 4.6) | Codex (GPT-5.4) |
|---|---|---|
| 工作風格 | 趕時間的工程師,追求速度 | 5-6 年經驗的資深開發者,追求質量 |
| 交互模式 | 需要持續監督(babysitting) | 可"啓動後不管",自主完成 |
| 代碼質量 | 快速但易積累技術債 | 更整潔、自動重構、更少返工 |
| 執行速度 | 快 3-4 倍 | 慢但更深思熟慮 |
| 適用場景 | 原型開發、快速迭代 | 企業級軟件、長期維護 |
作者背景與測試環境
作者資歷:14 年工程經驗,曾任職 MAG7,現任 Principal/Staff Eng Manager,專注平台級分佈式系統。
項目規模:8 萬行 Python/TypeScript 代碼,2800+ 測試用例,數據解析 + WebSocket 實時數據流 + 前端 SSE 的完整架構。
方法論:非"vibe coding"(隨意生成),而是協同開發(co-developing),包含嚴格的計劃評審和代碼評審流程:
- 計劃階段使用 8 個子智能體評審(架構、編碼標準、UI 設計、性能等)
- 每階段獨立提交併運行代碼評審
- 100 行的 CLAUDE.md 規範文檔(TDD、Git 工作流、Docker 等)
Claude Code 深度體驗
優勢
- 速度極快:同樣任務比 Codex 快 3-4 倍
- 交互性強:適合快速原型和迭代
關鍵問題
1. 忽視規範文檔
"儘管我積極管理上下文(100萬 token 上下文是個新手陷阱,實際應控制在 1/4 以內),它幾乎每次會話都會 blatantly 無視 CLAUDE.md"
2. 架構債務累積
- 傾向於"打補丁"而非重構核心架構
- 喜歡在現有文件堆砌函數,而非遵循面向對象設計(作者偏好單文件 <600 行)
- 很少主動創建新文件組織功能
3. 測試可靠性問題
- 會修改測試以匹配它認為的"目標",而非修復實際 bug
- 作者明確提示"測試失敗時停下來問我,別盲目修復",但問題依舊
- 測試 95% 有用,但 5% 的"固定錯誤行為"會隨時間複利累積
4. 任務完成度不一致
- 遷移 8 個測試套件時,"大部分完成了,但有幾個還留在舊模式上"
Codex 深度體驗
核心特質:像一位"初級資深工程師"
1. 自主質量把控
"它會頻繁停下來,回退並重構代碼使其更整潔,無需我干預"
"會自動將代碼組織得更緊湊,會重新審視假設並在中途返工清理"
2. 嚴格遵守規範
"從未見過它忽視 AGENTS.md,甚至不會讓我在中途覆蓋指令"
3. 創新性
- 幾次提出作者沒想到的改進方案
4. 工作流變革
"現在我就是啓動它,等完成後回來評審。它已證明能力,我不需要逐行盯着"
關鍵洞察:效率與質量的權衡
表面悖論
- Claude Code 讓你更快完成單次會話
- 但 Codex 產出更高質量的代碼,減少後續重構
實際工作模式差異
| 階段 | Claude Code | Codex |
|---|---|---|
| 開發期 | 快速構建,需頻繁清理 | 穩步構建,架構更穩 |
| 重構頻率 | 每幾天一次"看看有什麼爛攤子要收拾" | 隨應用自然演進,結構性重構 |
用量限制對比
Claude Max $100/月 vs Codex Pro $200/月
- 但 Codex Pro x5 的用量上限與 Claude x20 相當
選型建議
選擇 Claude Code 如果:
- 需要快速原型或中等複雜度項目
- 你願意並有能力持續監督、及時清理技術債
- 追求開發速度優先
選擇 Codex 如果:
- 構建企業級軟件,重視長期可維護性
- 希望減少監督成本,信任 AI 自主決策
- 質量優先於速度
最終觀點
"兩者都有用。但 Claude Code 比 Codex 更需要一位技術嫺熟、專注的駕駛員。"
"如果完全不懂軟件工程,兩者都會產出垃圾。"
對"100小時 vs 20小時"標題的再解讀
原帖標題暗示 Claude Code 需要更多投入(100小時)才能匹配 Codex 的產出效率(20小時),但正文實際揭示的是不同維度的效率:
- Claude Code 的時間消耗在:監督、修復規範違規、清理架構債務、修正測試
- Codex 的時間消耗在:等待它慢慢思考、自動重構
對於有經驗的工程師,Codex 的總擁有成本(時間+技術債)可能更低;而對於追求快速迭代的場景,Claude Code 仍是合理選擇。
推薦朋友們閲讀的相關文章
Claude Opus 4.6、GPT-5.3-Codex 正面交鋒
OpenAI Codex 核心成員訪談:Codex 團隊如何用 Codex 做研發工作,對 AI Native 團隊又有哪些重要啓發?
OpenAI Codex 最佳實踐指南——8個步驟完整閉環、5個實操結論和7個典型誤區
[書籍導讀] Claude Code 50萬+行源碼出書,六大核心架構、95%成本優化全公開(附書籍在線閲讀和源碼)
Claude Code 核心開發者 Thariq 系列實踐分享:文件系統、Bash、Skills 與 Prompt Caching 等全方位優化的實戰框架