身邊的人陸續切 Codex 了,這次沒人講清楚真原因

作者:縱所周知101
日期:2026年4月29日 下午11:13
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

Codex 嘅背後,係「指揮官心智」同「項目經理心智」嘅取捨

整理版摘要

呢篇文章出自一個做咗 AI 兩年嘅開發者,佢觀察到身邊唔少朋友由 Claude Code 轉用 Codex,表面原因係錢、模型、限額,但佢用自己 54 個 skill 嘅沉澱做例子,指出呢啲理由根本撐唔住。

作者深挖之後發現,真正問題Claude Code 嗰套「配置即權力」哲學——26 個 lifecycle hooks、CLAUDE.md、skill 庫——雖然浪漫,但令你用越來越多時間去配工具,而唔係寫代碼。呢種「反向打工感」令工具變成老闆,而唔係員工。相反 Codex 提供嘅係「項目經理心智」:落完需求就唔使理,佢自己搞掂。

作者結論係唔好一刀切,而係分場景雙持Claude Code 負責探索同架構,Codex 負責執行。切之前要盤三件事——沉澱盤點、任務畫像、反向追問——避免只係換個工具繼續犯錯。

  • 真正推動切換嘅唔係錢或性能,而係工具哲學:Claude Code 嘅深度可控性變咗操心負擔,產生「反向打工感
  • Codex 行「項目經理心智」,你唔使隨時在場;Claude Code 行「指揮官心智」,你要無時無刻打理
  • 雙持先係王道Codex 做 keystroke、Claude Code 做 commits,或者一個做「做」、一個做「想」
  • 切之前盤三件事:沉澱嘅 skill 係咪真係用緊?任務係探索性定執行性?覺得累係工具定係想做嘅事本身有問題?
  • 工具係鏡子,照出你最近真係花時間喺邊度——配工具定做產品?
整理重點

表面原因撐唔住:錢、模型、限額都唔係真因

作者身邊七八個朋友陸續由 Claude Code 轉用 Codex,表面理由係「Codex 平啲」、「Limit 煩」、「唔使守」。但 Reddit 最高讚嘅帖顯示 67% 嘅人承認 Claude Code 寫嘅代碼質素更高,質量好嘅反而被放棄,呢件事唔簡單。

作者自己沉澱咗 54 個 skill 同半年 CLAUDE.md,遷移成本遠超十幾廿蚊,所以斷言「人唔會因為差幾個點就丟低半年 lock-in

CodexTerminal-Bench 2.0 上 77.3% 對 Claude Code 65.4%,終端快;但 Claude Opus 喺 SWE-bench 仍然第一。限額方面,Claude Pro 5 小時窗口好易燒盡,Codex 平穩。可惜呢啲都只係表面。

整理重點

兩種心智哲學:指揮官 vs 項目經理

Claude Code 給你「指揮官心智」——26 個 lifecycle hooks、可層疊嘅 CLAUDE.md、skill 庫、permissions 分級、sub-agent、plan mode。每樣都係工程師浪漫,但代價係你寫 code 時間變少,配 agent 時間變多。

作者試過一個 Friday 夜晚本來寫功能,結果調咗 3 小時 hook 順序,第二日 commit log 見到業務 code 0 行、config 14 個

Codex 俾你嘅係「項目經理心智」——寫段需求丟入去,佢自己喺沙盒寫完返嚟報告,你只係審 PR。冇 hooks、冇 heavy CLAUDE.md、冇 26 層事件。

67% 開發者盲測話 Claude Code 寫得更好,但佢會打斷你——限額到直接停;Codex 會做完手頭先停,呢種差異係產品哲學,唔係技術參數

  • 指揮官心智:工具係你嘅延伸,你要隨時在場,深度可控=深度操心
  • 項目經理心智:工具係你嘅員工,你可以走開,但冇咁聰明
整理重點

反向打工感:工具變咗老闆

Anthropic 最近幫 Claude Code 加咗「寵物小精靈」UI,慳返個位俾用戶吐槽「唔止冇用仲阻掟」。內部花唔完嘅 token 用嚟做花巧嘢,緩存問題拖幾個月先修。

工具開始覺得自己好可愛,用戶開始覺得自己好攰,就係「反向打工感

深度可控性變成深度操心,沉澱變成負擔。一旦工具迭代快過你沉澱速度,skill 庫變成博物館藏品——你望住 30 個 skill 目錄得意幾秒,諗返上次用第 17 個係幾時?

整理重點

雙持先係出路:Codex 做、Claude Code 想

Codex 都有問題:code review 時會編造問題,cloud 模式自動化太高令你失去掌控感,仲唔支援 MCP。所以你接落嚟嘅 MCP server 全部用唔到。

Reddit 最高讚方案:「Codex for keystroke, Claude Code for commits」——日常敲 code 用 Codex,關鍵 commit 前用 Claude Code 複核

另一個方向:「Claude Code 用嚟諗清楚,Codex 用嚟做出嚟」——作者自己將 1000 行嘅 prompt skill 重構,先畀 Codex 推骨架,再用 Claude Code 接力做深度關卡。

  • 探索性、架構性、唔確定點做 → Claude Code
  • 目標明確、需求寫好、跑完就得 → Codex
  • 切到 Codex 係將 Claude Code 由「全場指揮官」降級做「關鍵任務會診醫生
整理重點

切之前盤三件事

工具係鏡子,照出你最近真係花時間喺邊度

唔係 Codex 突然之間咁勁,而係 Claude Code 呢套方法令人開始覺得自己喺度反向打工。


圖 5

01先講現象

我做 AI 呢行有兩年喇,工具轉換嘅嘢見過唔少。

最近三個月,我身邊至少七八個朋友——陸續將 Claude Code 刪咗,轉用 Codex。

一個人先鬱,第二個就跟住出 post 話「我都轉咗」,然後第三個、第四個。好似喺一條暗線上面排隊咁。

仲怪嘅係,問佢哋點解轉,答案五花八門。「Codex 平啲吖」、「limits 好煩」、「我而家跑 code 唔使睇實」——但你順住呢啲理由挖落去,冇一個可以撐到尾。

去 Reddit 搜「Claude Code usage limits」,最高讚嗰條有 388 票。500 幾條留言嘅 blind test 入面,65% 嘅人話日常用 Codex,但同一班人裏面 67% 承認 Claude Code 寫出嚟嘅 code 質素更高。

質素更好嗰個,俾人放棄咗。

淨係睇 model benchmark,呢件事根本睇唔出。

02個個都話係 Codex 更加勁,但呢個冇講到核心。

大致三種原因

第一種,錢。同一個 Express.js 重構,有人實測過 Codex 用咗 15 美金,Claude Code 用咗 155 美金。差十倍。一個人做公司邊個唔計數。

第二種,模型。SWE-bench Verified 上 Claude Opus 4.7 仍然係第一,87.6%。但 Terminal-Bench 2.0 上 GPT-5.3-Codex 係 77.3%,Claude Code 得 65.4%。喺 terminal 入面做嘢,Codex 真係快啲。

第三種,限額。Claude Pro 嘅 5 個鐘窗口,複雜 prompt 用咗 50% 唔出奇。Codex 同樣 20 蚊美金,Reddit 上一個有 232 票嘅 post 原話:「用成日用唔曬。」

聽落都啱。但都冇講到核心。

如果只係錢、只係模型、只係限額,舊用戶唔會鬱。我自己 54 個 skill 喺 Claude Code 上面行,沉澱咗半年嘅 CLAUDE.md / hooks / permissions——呢啲嘢嘅搬遷成本唔係十蚊二十蚊可以計到。

我加過嘅 hook、寫過嘅 skill、調過嘅 plan mode,每一項背後都係踩過嘅坑。要掉咗佢,等於掉咗踩坑嘅學費。

人唔會因為差幾個百分點就將半年嘅 lock-in 掉咗。所以「轉」呢件事,背後一定有個比慳錢、比快幾秒更加深層嘅嘢喺度推。


圖 2

03揀工具唔係揀性能,係揀兩種思維哲學

我將呢件事諗咗一個禮拜先諗明。

唔係 Codex 突然之間咁勁。而係 Claude Code 呢套方法令人開始覺得自己喺度反向打工。

Claude Code 俾你嘅,係「指揮官心態」。

佢有 26 個 lifecycle hooks,有可以疊加嘅 CLAUDE.md,有 skill library,有 permissions 分級,有 sub-agent,有 plan mode。

每一項都係工程師嘅浪漫。每一項都令你覺得「我對呢個 agent 有完全嘅掌控」。

但代價係——你寫 code 嘅時間變少,配 agent 嘅時間變多。

SemiAnalysis 引用過一個用戶嘅原話:「我大部分工程時間唔係用嚟寫 code」——用喺邊?用喺配 hooks、調 CLAUDE.md、寫 skill、整理 permissions。

我自己都犯賤過。

一個星期五夜晚原本想寫功能,結果調咗 3 個鐘 hook 順序。第二日打開 commit log 一睇:業務 code 0 行,配置文件 14 個。

嗰一刻我冇用工具。係工具用緊我。

Codex 係另一種心態。佢俾嘅係「項目經理」位置。

寫一段需求丟入去。佢走去自己嘅沙盒裏面寫。寫完返嚟報告。你審 PR,merge 或者打回頭。

冇 hooks。冇 CLAUDE.md(有 AGENTS.md 但輕好多)。冇 26 層生命週期事件俾你管。

指揮官要隨時睇實。項目經理可以行開飲咖啡。

呢個唔係工具嘅問題,係你對工具嘅期望變咗。

佢的確冇咁聰明。500+ 開發者 blind test 裏面 67% 話 Claude Code 寫得更好。

Codex 有個更狠嘅——佢唔打斷你。Claude Code 限額到咗,係直接停。就算改緊你啲 code 改到一半。

Codex 檢測到限額就嚟到,會先做完當前任務,再停。

呢種差異係藏喺產品哲學裏面,唔喺技術參數裏面。

一個將工具當成指揮官嘅延伸——咁你必須隨時在場。

一個將工具當成員工——咁你可以行開。


圖 3

04人離開嘅唔係 Claude Code,係反向打工嘅疲倦

Anthropic 最近幫 Claude Code 加咗「寵物小精靈」UI——一個會鬱嘅小嘢。LINUX DO 上面有人吐槽:「唔單止冇用仲阻掟。」我見到嗰條 comment 笑咗出嚟。Anthropic 內部用唔曬嘅 token 都攞去做呢啲花巧嘢,cache 嘅老問題拖咗幾個月先至修。

工具開始覺得自己好可愛。用戶開始覺得自己好攰。

呢個就係反向打工嘅感覺。

唔係 Codex 喺度搶 Claude Code 嘅人。係 Claude Code 呢套「配置即權力」嘅哲學,去到某個臨界點。深度可控性變成深度操心,沉澱變成負擔。一旦工具反覆運算速度快過你沉澱嘅速度,你啲 skill library 就會變成博物館藏品。

你望住自己 30 個 skill 嘅目錄,威幾秒,然後諗到——我上次打開第 17 個係幾時?但呢句話又唔係全啱。

Anthropic 嘅 Boris Cherny、OpenAI 嘅 Calvin French-Owen——佢哋都係重度用戶,都冇走。證明對一部分人,「管 26 個 hook」係樂趣。

唔係所有人都在走。呢點要承認。

05轉完就完咗?真相係分場景雙持

我都係潑自己一盤冷水。

Codex 唔係冇問題。Hacker News 上面有開發者吐槽,Codex 做 code review 嗰陣會編造一啲睇落合理但根本唔存在嘅問題——你審嗰陣好容易俾佢說服,轉頭自己踩坑。

佢嘅 cloud 模式自動化太高,行十幾分鐘出嚟,你已經冇咗過程嘅掌控感。

更要命嘅係,Codex 暫時唔支援 MCP。你喺 Claude Code 上面接嗰啲 MCP server——全部用唔到。

所以真相唔係「放棄」。真相係分場景雙持。

Reddit 上面最高讚嘅方案叫「Codex for keystroke, Claude Code for commits」——日常打 code 用 Codex,關鍵 commit 之前用 Claude Code 複核。

都有反過嚟嘅:「Claude Code 用嚟諗清楚,Codex 用嚟做出嚟。」

我自己嘅分法:探索性、架構性、唔太確定點做嘅——Claude Code。已經寫好需求文檔、目標明確、行完就得嘅——Codex。

我一個 1000 行嘅 prompt skill 重構,先丟俾 Codex 推返個骨架出嚟,再用 Claude Code 接力做「道+反例」穿透關卡呢啲需要反覆推演嘅部分。一個負責「做」,一個負責「諗」。

轉去 Codex 呢件事,就係將 Claude Code 由「全場指揮官」,降級做「關鍵任務嘅會診醫生」。


圖 4

06轉之前,先諗三件事

返去最初嘅問題——你要轉嗎?

轉之前,先諗三件事。

第一,沉澱盤點。 你嗰啲 skill / CLAUDE.md / hooks,係咪真係有喺度用?定係配完之後再冇打開過?我自己 54 個 skill 裏面真係高頻用嘅,老實講唔夠 15 個。其他 39 個喺度擺,好似我書架上嗰本《資本論》——好睇、好重、唔讀。

第二,任務畫像。 最近三個月你行得最多嘅係乜?探索性嘅(唔知點做、要試錯)多,咁 Claude Code 唔好鬱。執行性嘅(已經知點做、要快速完成)多,Codex 嘅輕量值得一試。

第三,反向追問。 你話攰嗰陣——係工具嘅問題,定你想做嘅嘢本身有問題?

工具可以換。要做嘅嘢換唔到。

如果你 54 個 skill 配完發現自己根本冇喺做產品,只係喺配工具——咁就唔係 Claude Code 嘅錯。都唔係 Codex 可以解決嘅。

工具只係鏡子。反映出嚟你最近真正花時間嘅係乜。


周知 · 我哋一齊同 AI 覺醒超級個體


不是 Codex 突然多牛,是 Claude Code 這套範式讓人開始覺得自己在反向打工。


圖 5

01先說現象

我做 AI 這一行有2年了,工具切換的事見過不少。

最近三個月,我身邊至少七八個朋友——陸續把 Claude Code 卸了,改用 Codex。

一個先動,第二個跟着發朋友圈說"我也切了",然後第三個、第四個。像在一條暗線上排隊。

更怪的是,問他們為什麼切,答案五花八門。"Codex 便宜啊"、"limits 煩死了"、"我現在跑代碼不用守着了"——但你順着這些理由往下挖,沒有一個能撐到底。

去 Reddit 搜「Claude Code usage limits」,最高贊那條 388 票。500 多條評論的盲測裏,65% 的人說日常用 Codex,可同樣這批人裏 67% 承認 Claude Code 寫出來的代碼質量更高。

質量更好的那個,被放棄了。

光看模型基準,這事根本看不出來。

02大家都說是 Codex 更強了,但這沒說到本質

大體三種原因

第一種,錢。同樣一個 Express. js 重構,有人實測過 Codex 燒 15 美元,Claude Code 燒 155 美元。差十倍。一人公司誰不算賬。

第二種,模型。SWE-bench Verified 上 Claude Opus 4.7 還是第一,87.6%。但 Terminal-Bench 2.0 上 GPT-5.3-Codex 是 77.3%,Claude Code 只有 65.4%。終端裏幹活,Codex 真的快。

第三種,限額。Claude Pro 的 5 小時窗口,複雜 prompt 燒個 50% 不奇怪。Codex 同樣 20 美元,Reddit 上一個 232 票的帖子原話:"用一整天用不完。"

聽上去都對。但都沒穿透。

如果只是錢、只是模型、只是限額,老用戶不會動。我自己 54 個 skill 在 Claude Code 上跑,沉澱半年的 CLAUDE. md / hooks / permissions——這些東西的遷移成本不是十塊二十塊能算出來的。

我加過的 hook、寫過的 skill、調過的 plan mode,每一項背後都是踩過的坑。要扔掉,等於扔掉踩坑的學費。

人不會因為差幾個點就把半年的 lock-in 丟掉。所以"切"這件事,背後一定有比省錢、比快幾秒更深的東西在推。


圖 2

03選工具不是選性能,是選兩種心智哲學

我把這事想了一週才想明白。

不是 Codex 突然多牛。是 Claude Code 這套範式讓人開始覺得自己在反向打工。

Claude Code 給你的,是「指揮官心智」。

它有 26 個 lifecycle hooks,有可層疊的 CLAUDE. md,有 skill 庫,有 permissions 分級,有 sub-agent,有 plan mode。

每一項都是工程師的浪漫。每一項都讓你覺得"我對這個 agent 有完全的掌控"。

但代價是——你寫代碼的時間在變少,配 agent 的時間在變多。

SemiAnalysis 引用過一個用戶的原話:"我大部分工程時間不是花在寫代碼上"——花在哪?花在配 hooks、調 CLAUDE. md、寫 skill、捋 permissions。

我自己也犯賤過。

一個 Friday 晚上原本想寫功能,結果調了 3 小時 hook 順序。第二天打開 commit log 一看:業務代碼 0 行,配置文件 14 個。

那一刻我沒工具用。是工具在用我。

Codex 是另一種心智。它給的是「項目經理」位置。

寫一段需求丟進去。它跑去自己的沙盒裏寫。寫完回來報告。你審 PR,merge 或者打回。

沒有 hooks。沒有 CLAUDE. md(有 AGENTS. md 但更輕)。沒有 26 層生命週期事件讓你管。

指揮官要隨時盯。項目經理可以走開喝咖啡。

這不是工具的問題,是你對工具的期待變了。

它確實沒那麼聰明。500+ 開發者盲測裏 67% 說 Claude Code 寫得更好。

Codex 有個更狠的——它不打斷你。Claude Code 限額到了,是直接停。哪怕在改你代碼改一半。

Codex 檢測到限額接近,會先把當前任務做完,再停。

這種差異藏在產品哲學裏,不在技術參數裏。

一個把工具當指揮官的延伸——那你必須隨時在場。

一個把工具當員工——那你可以走開。


圖 3

04人離開的不是 Claude Code,是反向打工的疲倦

Anthropic 最近給 Claude Code 加了「寵物小精靈」UI 上一個會動的小東西。LINUX DO 上有人吐槽:"不僅沒用還佔位置。"我看到那條評論笑出來了。Anthropic 內部花不完的 token 都去做這種花裏胡哨的事,緩存的老問題拖了好幾個月才修。

工具開始覺得自己很可愛。用戶開始覺得自己很累。

這就是反向打工感。

不是 Codex 在搶 Claude Code 的人。是 Claude Code 這套"配置即權力"的哲學,到了某個臨界點。深度可控性變成深度操心,沉澱變成負擔。一旦工具迭代速度快過你的沉澱速度,你的 skill 庫就成了博物館藏品。

你看着自己 30 個 skill 的目錄,得意幾秒,然後想到——我上次打開第 17 個是什麼時候的事?但這話也不是全對。

Anthropic 的 Boris Cherny、OpenAI 的 Calvin French-Owen——他們都是重度用戶,都沒走。說明對一部分人,"管 26 個 hook"是樂趣。

不是所有人都在走。這點要承認。

05切完就完了嗎?真相是分場景雙持

我也得潑自己一盆冷水。

Codex 不是沒問題。Hacker News 上有開發者吐槽,Codex 做 code review 時會編造看似合理但根本不存在的問題——你審的時候很容易被它說服,回頭自己挖坑。

它的 cloud 模式自動化太高,跑十幾分鍾出來,你已經失去了過程的掌控感。

更要命的是,Codex 暫時不支持 MCP。你在 Claude Code 上接的那些 MCP server——通通用不了。

所以真相不是"放棄"。真相是分場景雙持。

Reddit 上最高讚的方案叫 "Codex for keystroke, Claude Code for commits"——日常敲代碼用 Codex,關鍵 commit 前用 Claude Code 複核。

也有反過來的:"Claude Code 用來想清楚,Codex 用來做出來。"

我自己的盤法:探索性、架構性、不太確定怎麼辦的——Claude Code。已經寫好需求文檔、目標明確、跑完就行的——Codex。

我一個 1000 行的 prompt skill 重構,先丟給 Codex 把骨架推出來,再用 Claude Code 接力做"道+反例"穿透關卡那種需要反覆推演的部分。一個負責"做",一個負責"想"。

切到 Codex 這件事,就是把 Claude Code 從"全場指揮官",降級為"關鍵任務的會診醫生"。


圖 4

06切之前,先盤三件事

回到最初的問題——你要切嗎?

切之前,先盤三件事。

第一,沉澱盤點。 你那些 skill / CLAUDE. md / hooks,是不是真在被自己用?還是配完之後再沒打開過?我自己 54 個 skill 裏真的高頻用的,老實說不到 15 個。其他的 39 個躺在那,像我書架上那本《資本論》——好看、很重、不讀。

第二,任務畫像。 最近三個月你跑得最多的是什麼?探索性的(不知道怎麼辦、要試錯)多,那 Claude Code 別動。執行性的(已經知道怎麼做、要快速完成)多,Codex 的輕量值得一試。

第三,反向追問。 你說累的時候——是工具的問題,還是你想做的事本身有問題?

工具能換。要做的事換不了。

如果你 54 個 skill 配完發現自己根本沒在做產品,只是在配工具——那不是 Claude Code 的錯。也不是 Codex 能解決的。

工具只是鏡子。照出來你最近真正花時間的是什麼。


周知 · 我們一起和 AI 覺醒超級個體