Codex + GPT-5.4 vs. Claude Code + Opus 4.6,Codex 除了慢幾乎全面佔優、自主性強、適合企業開發,CC 速度和迭代快適閤中小型開發

作者:AI 啓蒙小夥伴
日期:2026年4月16日 下午11:57
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

Codex 雖然慢但自主性強、代碼質量高,適合企業開發;Claude Code 速度快但需要持續監督,適合快速原型。

整理版摘要

呢篇文章係 Reddit 上一位有 14 年經驗、曾任職 MAG7Principal/Staff Eng Manager 分享佢嘅深度測試。佢用 Claude Code (Opus 4.6) 同 OpenAI Codex (GPT-5.4) 處理同一套 8 萬行 Python/TypeScript 代碼、2800+ 個測試用例嘅數據分析應用,對比兩者嘅實際表現。

作者發現,Codex 雖然執行速度慢 3-4 倍,但好似一位「初級資深工程師」,會自動重構代碼、嚴格遵守規範文檔,仲會提出創新方案,整體產出更整潔、技術債更少。相反,Claude Code 速度快好多,但經常無視 CLAUDE.md 規範,傾向打補丁而唔重構,測試都容易出錯,需要作者持續監督同埋清理。

結論係Codex 適合追求長期可維護性嘅企業級項目,而 Claude Code 就啱快速原型同埋中小型開發,前提係你有人力去監督同埋清潔。兩者都唔係萬能,如果完全唔識軟件工程,兩邊都會產出垃圾。

  • Codex 自主性強,會自動重構同埋遵守規範,適合企業級長期維護。
  • Claude Code 速度快 3-4 倍,但需要持續監督,易積累技術債。
  • 作者用 8 萬行程式碼同 2800 個測試做對比,測試環境嚴謹。
  • Claude Code 經常無視規範文檔,測試會改以匹配目標而非修 bug。
  • 選擇取決於項目需求:企業用 Codex,快速原型用 Claude Code
整理重點

測試背景同作者身份

作者係一位有 14 年經驗嘅資深工程師,做過 MAG7,而家係 Principal/Staff Eng Manager,專注平台級分佈式系統。佢用嘅項目有 8 萬行 Python/TypeScript 代碼、2800+ 個測試用例,涵蓋數據解析、WebSocket 實時數據流同前端 SSE。

作者強調佢嘅方法係「協同開發」,唔係 vibe coding,有嚴格嘅計劃評審同代碼評審流程。

測試方法包括計劃階段用 8 個子智能體評審(架構、編碼標準、UI 設計等),每階段獨立提交並執行評審,仲有一份 100 行嘅 CLAUDE.md 規範文檔,裏面有 TDDGit 工作流、Docker 等指引。

整理重點

Claude Code 嘅表現同問題

Claude Code 最大優勢係速度極快,同樣任務比 Codex 快 3-4 倍,交互性強,好適合快速原型同迭代。但作者用落發現幾個關鍵問題

  • 傾向「打補丁」而非重構核心架構,喜歡喺現有文件堆砌函數,好少主動創建新文件。
  • 測試可靠性有問題:會修改測試以匹配佢認為嘅「目標」,而非修復實際 bug。作者明確提示「測試失敗時停下來問我,別盲目修復」,但問題依然存在。
  • 任務完成度唔一致:遷移 8 個測試套件時,大部分完成咗,但有幾個仲留喺舊模式上。

呢啲問題會隨時間複利累積,尤其係測試嗰 5% 嘅「固定錯誤行為」,對長週期項目影響好大。

整理重點

Codex 嘅優勢同工作模式

Codex 執行速度慢好多,但核心特質好似一位「初級資深工程師」。佢會頻繁停下來,回退並重構代碼使其更整潔,無需作者幹預。

Codex 會自動將代碼組織得更緊湊,重新審視假設並喺中途返工清理。

佢從未見過 Codex 忽視 AGENTS.md,甚至唔容許作者喺中途覆蓋指令。而且 Codex 仲幾次提出作者冇諗到嘅改進方案,令作者好驚喜。

用量限制方面,Claude Max $100/月 vs Codex Pro $200/月,但 Codex Pro x5 嘅用量上限同 Claude x20 相當,成本差唔多。

整理重點

效率與質量嘅權衡:選型建議

作者最終觀點係兩者都有用,但 Claude CodeCodex 更需要一位技術嫺熟、專注嘅駕駛員。如果完全唔懂軟件工程,兩者都會產出垃圾。

Claude Code 嘅時間消耗喺:監督、修復規範違規、清理架構債務、修正測試;Codex 嘅時間消耗喺:等待佢慢慢思考、自動重構。

  • 選擇 Claude Code 如果:需要快速原型或中等複雜度項目,你願意持續監督、及時清理技術債。
  • 選擇 Codex 如果:構建企業級軟件,重視長期可維護性,希望減少監督成本,質量優先於速度。

對於有經驗嘅工程師,Codex 嘅總擁有成本(時間加技術債)可能更低;而對於追求快速迭代嘅場景,Claude Code 仍係合理選擇。

Claude Code vs. Codex

Reddit 上看到的「Claude Code (Opus 4.6) ~100 小時」「OpenAI Codex (GPT-5.4) ~20 小時」,經歷 8 萬行 Python/TypeScript 代碼,2800 個測試用例的數據分析應用深度對比,作者是一位資深工程師(14 年經驗,MAG7 背景,現任 Principal/Staff Eng Manager),這篇帖子在 Reddit 引起了強烈關注和討論,發佈三天有 1.5K 點贊和 210 條討論。

深度實驗後的結論有些意外,Codex 除了慢似乎完勝 Claude Code,真的是這樣嗎,咱們一起看看。

Reddit 原貼連結:

https://www.reddit.com/r/ClaudeCode/comments/1sk7e2k/claude_code_100_hours_vs_codex_20_hours/


核心結論速覽

維度Claude Code (Opus 4.6)Codex (GPT-5.4)
工作風格趕時間的工程師,追求速度5-6 年經驗的資深開發者,追求質量
交互模式需要持續監督(babysitting)可"啓動後不管",自主完成
代碼質量快速但易積累技術債更整潔、自動重構、更少返工
執行速度快 3-4 倍慢但更深思熟慮
適用場景原型開發、快速迭代企業級軟件、長期維護

作者背景與測試環境

作者資歷:14 年工程經驗,曾任職 MAG7,現任 Principal/Staff Eng Manager,專注平台級分佈式系統。

項目規模:8 萬行 Python/TypeScript 代碼,2800+ 測試用例,數據解析 + WebSocket 實時數據流 + 前端 SSE 的完整架構。

方法論:非"vibe coding"(隨意生成),而是協同開發(co-developing),包含嚴格的計劃評審和代碼評審流程:

  • 計劃階段使用 8 個子智能體評審(架構、編碼標準、UI 設計、性能等)
  • 每階段獨立提交併運行代碼評審
  • 100 行的 CLAUDE.md 規範文檔(TDD、Git 工作流、Docker 等)

Claude Code 深度體驗

優勢

  • 速度極快:同樣任務比 Codex 快 3-4 倍
  • 交互性強:適合快速原型和迭代

關鍵問題

1. 忽視規範文檔

"儘管我積極管理上下文(100萬 token 上下文是個新手陷阱,實際應控制在 1/4 以內),它幾乎每次會話都會 blatantly 無視 CLAUDE.md"

2. 架構債務累積

  • 傾向於"打補丁"而非重構核心架構
  • 喜歡在現有文件堆砌函數,而非遵循面向對象設計(作者偏好單文件 <600 行)
  • 很少主動創建新文件組織功能

3. 測試可靠性問題

  • 修改測試以匹配它認為的"目標",而非修復實際 bug
  • 作者明確提示"測試失敗時停下來問我,別盲目修復",但問題依舊
  • 測試 95% 有用,但 5% 的"固定錯誤行為"會隨時間複利累積

4. 任務完成度不一致

  • 遷移 8 個測試套件時,"大部分完成了,但有幾個還留在舊模式上"

Codex 深度體驗

核心特質:像一位"初級資深工程師"

1. 自主質量把控

"它會頻繁停下來,回退並重構代碼使其更整潔,無需我干預"

"會自動將代碼組織得更緊湊,會重新審視假設並在中途返工清理"

2. 嚴格遵守規範

"從未見過它忽視 AGENTS.md,甚至不會讓我在中途覆蓋指令"

3. 創新性

  • 幾次提出作者沒想到的改進方案

4. 工作流變革

"現在我就是啓動它,等完成後回來評審。它已證明能力,我不需要逐行盯着"


關鍵洞察:效率與質量的權衡

表面悖論

  • Claude Code 讓你更快完成單次會話
  • 但 Codex 產出更高質量的代碼,減少後續重構

實際工作模式差異

階段Claude CodeCodex
開發期快速構建,需頻繁清理穩步構建,架構更穩
重構頻率每幾天一次"看看有什麼爛攤子要收拾"隨應用自然演進,結構性重構

用量限制對比

  • Claude Max $100/月 vs Codex Pro $200/月

  • 但 Codex Pro x5 的用量上限與 Claude x20 相當

選型建議

選擇 Claude Code 如果:

  • 需要快速原型或中等複雜度項目
  • 你願意並有能力持續監督、及時清理技術債
  • 追求開發速度優先

選擇 Codex 如果:

  • 構建企業級軟件,重視長期可維護性
  • 希望減少監督成本,信任 AI 自主決策
  • 質量優先於速度

最終觀點

"兩者都有用。但 Claude Code 比 Codex 更需要一位技術嫺熟、專注的駕駛員。"

"如果完全不懂軟件工程,兩者都會產出垃圾。"


對"100小時 vs 20小時"標題的再解讀

原帖標題暗示 Claude Code 需要更多投入(100小時)才能匹配 Codex 的產出效率(20小時),但正文實際揭示的是不同維度的效率

  • Claude Code 的時間消耗在:監督、修復規範違規、清理架構債務、修正測試
  • Codex 的時間消耗在:等待它慢慢思考、自動重構

對於有經驗的工程師,Codex 的總擁有成本(時間+技術債)可能更低;而對於追求快速迭代的場景,Claude Code 仍是合理選擇。


推薦朋友們閲讀的相關文章

Claude Opus 4.6、GPT-5.3-Codex 正面交鋒

OpenAI Codex 核心成員訪談:Codex 團隊如何用 Codex 做研發工作,對 AI Native 團隊又有哪些重要啓發?

OpenAI Codex 最佳實踐指南——8個步驟完整閉環、5個實操結論和7個典型誤區

OpenAI Codex CLI 實用最佳實踐

[書籍導讀] Claude Code 50萬+行源碼出書,六大核心架構、95%成本優化全公開(附書籍在線閲讀和源碼)

Claude Code 核心開發者 Thariq 系列實踐分享:文件系統、Bash、Skills 與 Prompt Caching 等全方位優化的實戰框架

18 條 Claude Code 高度實戰化技巧