AI 編程工具大亂鬥:程序員真實投票結果出來了,Codex 正在“殺瘋”?

作者:小白說遙感
日期:2026年5月13日 下午11:51
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

Codex 在真實開發者投票中口碑第一,但高手多用 Claude + Codex 協同,工程可控性比智商更重要。

整理版摘要

呢篇文章係由程序員論壇一個帖子引發嘅討論,樓主問「AI編程工具邊個最好用?」有65條真實回覆,全部都係寫生產代碼嘅老手,唔係試玩兩日就吹嘅人。作者「小白說遙感」整理咗啲討論,想話畀大家知而家真實開發者係點樣用AI寫代碼嘅。整體結論係:Codex 已經成為最多人推薦嘅工具,但係 Claude Code 依然好強,高手們普遍會用多個工具協同,例如 Claude 負責理解需求,Codex 負責審查。

作者指出,AI編程已經進入第二階段,唔再係單純比生成速度快,而係比長上下文穩定性、代碼審查能力、回滾能力同工程可控性。Codex 之所以跑出,因為邏輯穩定、多文件修改強、而且唔易封號。Claude 雖然模型最強,但成日「想太多」,會擅自改動曬成個項目,容易搞到失控。國產工具界面靚但工程唔夠穩定。最大啟示係:短demo睇落個個都勁,真正拉開差距嘅係連續改一個真實項目時嘅可控性。

  • Codex 喺投票中口碑第一,因為邏輯穩定、多文件修改能力強、而且封號問題少。
  • Claude Code 模型最強但經常「想太多」,會自動重構曬成個項目,導致失控。
  • 高手普遍用多工具組合,最常見係 Claude 負責需求同架構,Codex 負責審查同修 bug。
  • 國產工具界面好但工程穩定性不足,長上下文容易亂,真實項目容易跑偏。
  • 長上下文可控性、代碼審查、回滾能力先係真正生產力,短 demo 唔代表一切。
整理重點

投票結果:Codex 成為陣營分化嘅贏家

最近程序員論壇有個帖子好火,樓主問「AI編程工具邊個最好用?」65條回覆全部都係寫生產代碼嘅老手。作者統計曬所有回覆,發現 Codex 被提及次數最多,而且唔係隨口提,而係話「Codex最好」、「智商在線」、「review強」。呢個現象反映咗一個大改變:AI編程工具已經出現 陣營分化,有人死磕 Claude Code,有人全面轉向 Codex,仲有人開始用 DeepSeek + OpenCode 慳成本。

陣營分化

而家決定體驗好壞嘅,唔再係生成一個演示程序,而係 能否長期記住上下文、會唔會改壞代碼、回滾方唔方便。所以好多人覺得 Codex 越來越似一個真正嘅工程師。

能否長期記住上下文

整理重點

點解 Codex 突然被吹?三大原因

評論區反覆提到三個點,解釋點解 Codex 口碑咁好。

  1. 1 第一,邏輯非常穩定Codex 似個老程序員,係一個強迫症工程師,一個審查型開發者。
  2. 2 第二,多文件修改能力強:真實項目最怕 AI 改完 10 個文件後失控,Codex 喺大項目、重構、代碼審查、多輪連續修改方面優勢特別明顯。
  3. 3 第三,唔易封號Anthropic 封號封到癲,好多人因為呢個原因轉向 CodexCursor、DeepSeek。穩定先係生產力。

多文件修改能力強

唔易封號

整理重點

Claude Code:最強模型但成日「想太多」

雖然 Codex 熱度最高,但冇人否認 Claude Code 係最強模型。好多人話「Claude 寫得最對」、「需求理解最牛」,因為 Claude 有 產品思維,會主動理解業務、設計結構、擴展功能、優化體驗。但問題係:佢經常想太多。

產品思維

有個開發者形容得好貼切:「Claude 會將自己當成 codebase 嘅主人。」你叫佢改 A,佢順手重構 B、優化 C、修改 D,再抽象架構,最後個 project 炸咗。所以高手而家都係用多 AI 協作,唔會淨係靠一個。

整理重點

多工具協同同工程可控性先係未來

而家高手嘅工作模式已經進化到多 AI 協同。最常見係 Claude + CodexClaude 負責理解需求、生成功能、設計架構;Codex 負責代碼審查、修 bug、細節優化。交叉驗證後穩定性提升好大。第二種係 Cursor + Codex,適合鍾意圖形界面嘅人。第三種係 DeepSeek + OpenCode,性價比流,DeepSeek V4 Pro Max 唔差,仲要平。

Claude + Codex

Cursor + Codex

DeepSeek + OpenCode

國產工具好似 Trae CN、QoderGLM 等,雖然界面靚、易上手,但工程能力唔穩定,工具調用易炸、長上下文易亂。有句評價好中:「國外係工程師思路,國內係消費者思路。

最後作者提醒大家要小心「假燈塔」:AI 一開始寫錯架構,但因為寫得自信,文件越嚟越多,最後沿住錯誤方向瘋狂前進,變成 token 黑洞。所以 AI 越強,人類就越要識工程。

假燈塔

最近,程式討論區有個帖好紅。

問嘅係:AI寫程式工具,邊個最好用?

65條真實回覆,全部都係寫生產代碼嘅老手。

唔係玩兩日就吹到上天嗰種。

我認真睇曬所有留言,發現一個大變化。

AI寫程式圈,已經出現明顯嘅「陣營分化」。

有人死撐Claude Code。

有人全面轉去Codex。

仲有人開始用DeepSeek + OpenCode,貪佢低成本。

今日呢篇文章,就將討論整理出嚟。

唔係廣告,唔係測評。

就係睇嚇真正嘅開發者,而家係點用AI寫程式嘅。

圖片



先講結論。

Codex,已經成為目前口碑第一。

我統計嚇呢個帖嘅所有回覆。

提得最多嘅,就係Codex。

而且唔係隨便提一句。

話:「Codex最好」、「智商在線」、「review勁」。

「邏輯最清晰」、「比Claude更穩定」、「主力已經轉咗過去」。

好多人而家嘅組合,已經好明確。

用Claude Code寫功能。

用Codex做程式碼審查。

或者Cursor加Codex,兩個一齊用。

呢個說明咗一件事。

AI寫程式工具,正喺度由「傾偈」走向「工程化」。

而家決定體驗好壞嘅,唔再係識唔識生成一個演示程式。

亦唔係會唔會寫個待辦事項app。

而係:可唔可以長期記住上下文。

會唔會將程式碼改壞。

回滾方唔方便。

程式碼審查靠唔靠譜。

多檔案修改穩唔穩定。

適唔適合真實項目。

所以好多人開始覺得:Codex越來越似一個真正嘅工程師。


點解大家突然開始讚Codex?

帖文留言入面反覆提到三點。

第一,邏輯非常穩定。

好多人覺得Codex更似個「理科腦」。

佢唔會好似Claude咁瘋狂發揮產品思維。

佢就好似一個老程序員,一個強迫症工程師,一個審查型開發者。

特點就係:廢話少,目標明確,唔容易走偏。

改bug好穩,程式碼審查非常強。

好多人甚至話:Codex寫嘅邏輯,比Claude更可靠。



第二,多檔案修改能力好強。

真實項目最怕啲乜?

唔係AI唔識寫程式。

係AI一次過改咗10個檔案之後,完全失控。

好多開發者而家開始強調:可控性比智商更重要。

Codex喺呢方面口碑非常高。

尤其係大項目、重構、程式碼審查、修bug、多輪連續修改。

優勢特別明顯。



第三,無咁易封號。

呢個喺帖入面畀人瘋狂吐槽。

好多人話:Claude嘅賬號全部被封曬。

甚至有人話:Anthropic同智譜,喺我度坐埋一枱。

而家大家對Claude最大嘅不滿,已經唔係能力。

而係太容易封號,限額太狠。

所以好多人開始轉向Codex、Cursor、DeepSeek、OpenCode。

原因好簡單:穩定性都係生產力。


當然,Claude Code仍然係最強模型。

雖然帖入面Codex熱度最高。

但有一點大家都很統一:冇人否認Claude Code好勁。

好多人原話就係:「Claude寫得最啱」。

或者「Claude做需求理解最叻」。

呢個其實就係Claude最大嘅特點——產品思維非常強。

佢會主動理解業務,主動設計結構,主動擴展功能,主動優化體驗。

但問題都嚟咗:佢經常唸多咗。

有個開發者形容得特別真實:「Claude會將自己當成codebase嘅主人。」

即係點解呢?

你叫佢改A。

佢順手就將B重構咗,將C優化咗,將D改咗。

順便再抽象一下架構。

最後,個項目炸咗。


而家高手基本上都唔係只用一個AI。

而係多個AI夾埋一齊做嘢。

最常見嘅係Claude + Codex嘅組合。

Claude負責理解需求,負責生成功能,負責設計架構。

Codex負責程式碼審查,負責修bug,負責細節優化。

好多人話:兩個AI交叉驗證之後,穩定性提升好大。

第二種係Cursor + Codex。

適合嗰啲習慣用VS Code嘅人,鍾意圖形界面同IDE工作流程嘅人。

好多人而家已經明確表示:命令列工具唔適合長期開發。

原因好簡單:睇程式碼改動唔方便,程式碼審查效率低。

多檔案修改唔好睇,回滾操作唔直觀。

所以Cursor呢啲圖形界面嘅IDE,優勢越來越大。

第三種係DeepSeek + OpenCode,低成本流。

呢個係今次討論入面好值得注意嘅新趨勢。

好多人提到:DeepSeek V4 Pro Max真係唔差。

甚至有人話:「比GLM強一萬倍」。

因為佢平,穩定,智商在線,長期使用成本極低。

所以有人開始用DeepSeek做日常開發,用Codex做關鍵任務。

因為真正生產環境下,token成本會越來越重要。


國產AI寫程式工具嘅問題,都暴露咗。

帖入面對國產工具嘅評價兩極分化。

例如Trae CN、Qoder、CodeBuddy、Pi、GLM呢啲。

好多人承認:國產工具嘅界面真係比較好。

靚仔,上手簡單,功能入口明顯,更加似一個「產品」。

但問題都好明顯:工程能力唔夠穩定。

好多留言提到:工具調用容易冧,長上文容易亂。

真實項目容易走偏,複雜邏輯唔穩定。

有句評價講得好準:「國外係工程師思路,國內係消費者思路。」


今次討論最有價值嘅一句話係:

「短demo睇落個個都勁,真正拉開差距嘅,係連續改一個真實項目時嘅可控性。」

呢句話非常關鍵。

因為AI寫程式已經進入第二階段喇。

第一階段,大家比嘅係邊個生成程式碼快。

邊個一句話就做到個網站,邊個嘅演示程式更型。

第二階段,亦即係而家,大家開始比長上文嘅穩定性。

比程式碼審查能力、回滾能力、工程可控性。

比同Git工作流程嘅融合、多Agent協同。

呢啲,先係真正嘅生產力。


帖入面仲有一句話特別值得警惕。

「提防AI寫得太求其,喺項目入面立假燈塔。」

即係點解呢?

就係AI一開始寫錯咗架構。

但因為佢寫得好自信,檔案越嚟越多,程式碼越嚟越複雜。

最後成個項目,會沿住錯嘅方向瘋狂前進。

最後變成token黑洞,無限修bug,永遠重構唔完。

所以好多老程序員而家開始強調:AI越強,人類越要識工程。


我自己呢半年都明顯感覺到。

AI寫程式已經由玩具,變成咗生產工具。

以前AI更加似自動補全,幫你偷懶。

而家AI已經開始接管重構、接管程式碼審查、接管文檔。

接管測試,接管架構草稿。

但現階段,冇任何一個AI可以完全取代工程師。

真正高效嘅人,已經唔再係「叫AI自動寫完程式碼」。

而係知道「幾時應該用邊個AI」。

未來好大機會會形成咁嘅格局:

Claude負責理解世界。

Codex負責實現世界。

DeepSeek負責降低成本。

Cursor負責工程交互。

而真正嘅核心競爭力,依然係你嘅工程經驗同你嘅判斷力。


最後總結一下目前AI寫程式工具嘅真實梯隊。ai寫程式嘅進化係月月新,以下嘅排名只適用於2026年5月。

第一梯隊(生產級主力):Codex、Claude Code、Cursor。

第二梯隊(性價比流):DeepSeek + OpenCode、Trae CN。

第三梯隊(爭議較大):GLM、Qoder、Pi、Kimi Code。

AI寫程式最危險嘅階段,唔係AI唔識寫程式。

而係佢已經「好似好識寫程式」咁。

但最後決定項目生死嘅,依然係架構、程式碼審查、可維護性同工程紀律。

呢個亦係點解越來越多高手開始叫Claude負責創造,叫Codex負責審判。



呢度係「小白說遙感」

image-20260513105454050

如果你都喺度做遙感、GIS、AI、Python。

歡迎一齊交流。



最近,程序員論壇有個帖子火了。

問的是:AI編程工具,哪個最好用?

65條真實回覆,全是寫生產代碼的老手。

不是試玩兩天就吹的那種。

我認真刷完所有評論,發現一個大變化。

AI編程圈,已經出現明顯的“陣營分化”。

有人死磕Claude Code。

有人全面轉向Codex。

還有人開始用DeepSeek + OpenCode,圖個低成本。

今天這篇文章,就把討論整理出來。

不是廣告,不是測評。

就是看看真正的開發者,現在是怎麼用AI寫代碼的。

圖片



先說結論。

Codex,已經成為當前口碑第一。

我統計一下這個帖子的所有回覆。

提到次數最多的,就是Codex。

而且不是隨便提一嘴。

說的是:“Codex最好”、“智商在線”、“review強”。

“邏輯最清晰”、“比Claude更穩定”、“主力已經切過去了”。

很多人現在的組合,已經很明確了。

用Claude Code寫功能。

用Codex做代碼審查。

或者Cursor加Codex,兩個一起用。

這說明了一件事。

AI編程工具,正在從“聊天”走向“工程化”。

現在決定體驗好壞的,不再是能不能生成一個演示程序。

也不是會不會寫個待辦事項應用。

而是:能不能長期記住上下文。

會不會把代碼改壞。

回滾方不方便。

代碼審查靠不靠譜。

多文件修改穩不穩定。

適不適合真實項目。

所以很多人開始覺得:Codex越來越像一個真正的工程師。


為什麼大家突然開始吹Codex?

帖子評論裏反覆提到三個點。

第一,邏輯非常穩定。

很多人覺得Codex更像個“理工科腦子”。

它不會像Claude那樣瘋狂發揮產品思維。

它就像一個老程序員,一個強迫症工程師,一個審查型開發者。

特點就是:廢話少,目標明確,不容易跑偏。

改bug很穩,代碼審查非常強。

很多人甚至說:Codex寫的邏輯,比Claude更可靠。



第二,多文件修改能力很強。

真實項目裏最怕什麼?

不是AI不會寫代碼。

是AI一口氣改了10個文件以後,徹底失控了。

很多開發者現在開始強調:可控性比智商更重要。

Codex在這方面口碑非常高。

尤其是大項目、重構、代碼審查、修bug、多輪連續修改。

優勢特別明顯。



第三,不容易封號。

這個在帖子裏被瘋狂吐槽。

很多人都說:Claude的賬號全被封完了。

甚至有人說:Anthropic和智譜,在我這裏坐一桌。

現在大家對Claude最大的不滿,已經不是能力了。

而是太容易封號,限額太狠。

所以很多人開始轉向Codex、Cursor、DeepSeek、OpenCode。

原因很簡單:穩定性也是生產力。


當然,Claude Code仍然是最強模型。

雖然帖子裏Codex熱度最高。

但有一點大家都很統一:沒人否認Claude Code很強。

很多人原話就是:“Claude寫得最對”。

或者“Claude做需求理解最牛”。

這其實就是Claude最大的特點——產品思維非常強。

它會主動理解業務,主動設計結構,主動擴展功能,主動優化體驗。

但問題也來了:它經常想太多。

有個開發者形容得特別真實:“Claude會把自己當成codebase的主人。”

什麼意思呢?

你讓它改A。

它順手就把B重構了,把C優化了,把D修改了。

順便再抽象一下架構。

最後,項目炸了。


現在高手們基本都不是隻用一個AI。

而是多個AI協同幹活。

最常見的是Claude + Codex的組合。

Claude負責理解需求,負責生成功能,負責設計架構。

Codex負責代碼審查,負責修bug,負責細節優化。

很多人說:兩個AI交叉驗證以後,穩定性提升非常大。

第二種是Cursor + Codex。

適合那些習慣用VS Code的人,喜歡圖形界面和IDE工作流的人。

很多人現在已經明確表示:命令行工具不適合長期開發。

原因很簡單:看代碼改動不方便,代碼審查效率低。

多文件修改不好看,回滾操作不直觀。

所以Cursor這種圖形界面的IDE,優勢越來越明顯。

第三種是DeepSeek + OpenCode,低成本流。

這是這次討論裏非常值得注意的新趨勢。

很多人提到:DeepSeek V4 Pro Max真不差。

甚至有人說:“比GLM強一萬倍”。

因為它便宜,穩定,智商在線,長期使用成本極低。

所以有人開始用DeepSeek做日常開發,用Codex做關鍵任務。

因為真正生產環境下,token成本會越來越重要。


國產AI編程工具的問題,也暴露了。

帖子裏對國產工具的評價兩極分化。

比如Trae CN、Qoder、CodeBuddy、Pi、GLM這些。

很多人承認:國產工具的界面確實更好。

漂亮,上手簡單,功能入口明顯,更像一個“產品”。

但問題也很明顯:工程能力不夠穩定。

很多評論提到:工具調用容易炸,長上下文容易亂。

真實項目容易跑偏,複雜邏輯不穩定。

有句評價說得很準:“國外是工程師思路,國內是消費者思路。”


這次討論裏最有價值的一句話是:

“短demo看起來都強,真正拉開差距的,是連續改一個真實項目時的可控性。”

這句話非常關鍵。

因為AI編程已經進入第二階段了。

第一階段,大家比的是誰生成代碼快。

誰一句話就能做個網站,誰的演示程序更酷。

第二階段,也就是現在,大家開始比長上下文的穩定性。

比代碼審查能力、回滾能力、工程可控性。

比與Git工作流的融合、多Agent協同。

這些,才是真正的生產力。


帖子裏還有一句話特別值得警惕。

“謹防AI寫得太隨意,在項目裏立假燈塔。”

什麼意思呢?

就是AI一開始寫錯了架構。

但因為它寫得很自信,文件越來越多,代碼越來越複雜。

最後整個項目,會沿着錯誤的方向瘋狂前進。

最後變成token黑洞,無限修bug,永遠重構不完。

所以很多老程序員現在開始強調:AI越強,人類越要懂工程。


我自己這半年也明顯感覺到。

AI編程已經從玩具,變成了生產工具。

以前AI更像自動補全,幫你偷個懶。

現在AI已經開始接管重構、接管代碼審查、接管文檔。

接管測試,接管架構草稿。

但現階段,沒有任何一個AI能完全替代工程師。

真正高效的人,已經不再是“讓AI自動寫完代碼”。

而是知道“什麼時候該用哪個AI”。

未來大概率會形成這樣的格局:

Claude負責理解世界。

Codex負責實現世界。

DeepSeek負責降低成本。

Cursor負責工程交互。

而真正的核心競爭力,仍然是你的工程經驗和你的判斷力。


最後總結一下當前AI編程工具的真實梯隊。ai編程的進化是月月新,以下的排名只適用於2026年5月。

第一梯隊(生產級主力):Codex、Claude Code、Cursor。

第二梯隊(性價比流):DeepSeek + OpenCode、Trae CN。

第三梯隊(爭議較大):GLM、Qoder、Pi、Kimi Code。

AI編程最危險的階段,不是AI不會寫代碼。

而是它已經“看起來很會寫代碼”了。

但最後決定項目生死的,依然是架構、代碼審查、可維護性和工程紀律。

這也是為什麼越來越多的高手開始讓Claude負責創造,讓Codex負責審判。



這裏是「小白說遙感」

image-20260513105454050

如果你也在做遙感、GIS、AI、Python。

歡迎一起交流。