從夯爆到夯，鋭評 7 個最主流的 AI 編程模型！

作者：AI技術宅

日期：2026年5月6日上午3:05

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

關注公眾號，AI 技術乾貨及時送達↓推薦閲讀：OpenAI 把 Codex 裝進了 Claude Code！！大家好，我是R哥。最近 AI 編程模型又卷瘋了。一邊是國外大模型繼續往工程能力、長上下文、Agent 方向猛衝，另一邊是國產模型也開始發力，各種大模型宣稱能媲美 Claude 的能力。。所以現在再問哪個編程模型最強，其實已經不太好回答了，因為不同模型的性格差異越來越明顯了。有的適合寫複雜工程，有的適合做 UI，有的適合改老項目，有的適合跑 Agent，有的 benchmark 很漂亮，但真正幹活的時候可能又是另外一個樣子。我這篇就不做學術排名了，只聊真實編程體感。。第一梯隊（夯爆）第一梯隊我覺得就是兩個：GPT 5.5 和 Claude Opus 4.6 / 4.7，毫無疑問，這兩個基本屬於雙王並列。沒有絕對第一，只有場景適配。GPT 5.5 的優勢是綜合、全面，工程場景也很穩。尤其是 API 生態、工具鏈適配、工程落地這一塊，搭配 Codex CLI、Codex APP、雲端支持，這一套確實成熟，它可能不是最牛逼的，但是全方面能力最強的。而且 GPT 5.5 的性價比也很能打，如果你是高頻使用，比如每天寫文案、寫代碼、生成圖片等工作，Plus 就完全能夠勝任，它屬於那種量大管飽型選手。當然，它缺點也有。它寫界面的審美還需要繼續打磨，功能上能完成，但 UI 有時候會有點程序員審美，能用，規整，但少一點產品感和高級感。Claude Opus 4.6 / 4.7 則是另一種強。它的上下文理解很強（1M），尤其適合產品邏輯、複雜需求、長文檔、UI 交互這類任務。在實際編程時，你都不用把每個細節都說死，它能順着你的意圖往下補，甚至能提前想到一些你沒說但確實需要的東西。這就是 Claude 最厲害的地方，它不是隻會寫代碼，它更像懂產品的人在幫你寫代碼。缺點就是：貴、對網絡環境要求非常高、非常容易封號，前陣子又搞出了實名認證，用 Claude 的成本是越來越高，也越來越不可控。參考閲讀：• 炸了！Claude Code 移除 Pro 用戶！！• 喪心病狂！Claude 開始要求實名身份驗證了。。。就 Claude 種種變態的限制行為，建議大家還是還是不要作為首選或者太依賴它。第二梯隊（夯）第二梯隊也很有意思，比如：GLM-5.1、Gemini 3、Qwen 3、DeepSeek V4、Kimi K2.6 這些大模型就在這一檔。先說 GLM-5.1，目前最接近第一梯隊的國產模型之一。尤其是 Agent 能力，已經能貼着第一梯隊打了。它不是那種只會回答問題的聊天模型，而是已經開始具備拆任務、調工具、持續推進的高級能力。但它的問題也明顯：慢，而且不夠穩定，算力不夠，訂閲非常難，Coding Plan 基本都要靠搶。再說說 Gemini 3，它是典型的偏科生。它在 UI 和前端場景挺能打，尤其是頁面佈局、視覺表達、交互結構，經常能給你一些不錯的結果。做頁面時，它有時候比傳統工程型模型更有感覺。但工程場景偏弱，比如：複雜後端、長鏈路重構、多模塊項目協同，它沒有 GPT 和 Claude 那麼穩。所以 Gemini 的定位很清楚，適合前端、UI、視覺類任務，複雜工程儘量別用它。再說說通義千問 Qwen 3，它屬於國產裏非常能打的一檔。它的整體能力比較均衡，一般來說在代碼生成、中文理解、工程任務上表現都比較穩定，比如寫接口、補代碼、做業務邏輯這類活都能很好勝任。而且它的優勢在於生態完整 + 落地能力強，依託阿里雲，在企業應用、API 接入、私有化部署等場景裏會更有優勢。但問題也有，一般來說在複雜工程推理、長上下文深度理解上，和第一梯隊還是有差距。另外，它也是一樣的套路，Coding Plan 基礎款已經下線，高級套餐訂閲還要靠搶。。再說說 DeepSeek V4，它寫代碼比較穩重。很多模型寫代碼喜歡加戲，明明你只要改一個地方，它順手給你重構一大片。DeepSeek 的風格一般更收斂，常規業務代碼寫得快，也不太亂髮揮。它適合程序員日常開發裏的大量基礎活，比如 CRUD、腳本、接口邏輯、工具類、常見算法，它都挺穩。但它的問題是，目前沒有 Coding Plan，如果拿來高頻編程，成本會顯得有點高。最後再說說 Kimi K2.6，它屬於潛力型選手。它的 benchmark 很出色，Coding Plan 也不用搶，但實際用下來，體感有時沒那麼絲滑，尤其是複雜工程任務裏，它有時會在執行過程中掉一下鏈子。感覺它很適合龍蝦這麼類 Agent，之前還上過最適合 OpenClaw 大模型的榜單。所以我對 Kimi 的評價是，上限很高，但穩定性還需要時間。怎麼選？我建議別隻用一個模型，而是更合理的組合使用：• 寫後端、修 bug、處理工程任務，用 GPT 5.5。• 做複雜產品設計、需求梳理，用 Claude 4.7。• 做前端頁面和視覺草稿，可以讓 Gemini 3 先跑一版。• 想體驗國產大模型能力，可以試 GLM-5.1、Qwen 3。• 想寫穩定業務代碼，可以用 DeepSeek V4。組合搭配，這樣才是目前更實際的玩法，我目前也是這麼玩的。因為模型之間已經不是簡單的誰強誰弱，而是各方面能力各不不同，就像團隊裏有人適合做架構，有人適合寫頁面，有人適合修線上問題，有人適合寫文檔。你非要讓一個大模型幹所有活，也不是不行，就是效率、質量等方面可能不一定是最高的。當然，也可以根據自己的任務進行測試，一般簡單的任務你隨便用哪個可能區別都不大，複雜任務還得是用最專業的、最夯的模型。好了，今天就暫時分享到這裏了，R哥持續分享更多 AI 好玩的東西，公眾號第一時間推送，關注「AI技術宅」公眾號和我一起學 AI。⚠️ 版權聲明：本文系公眾號 "AI技術宅" 原創，未經授權禁止轉載，嚴禁搬運、抄襲、洗稿、侵權一律投訴，並保留追究其法律責任的權利。 < END >推薦閲讀：OpenClaw 在國內的熱度徹底涼了。。OpenClaw 必裝的 10 個 Skills！！OpenClaw 飛書 + QQ 接入完整指南！！Claude Skills 徹底爆了，從實現原理到實戰！開源版 Claude Code 殺瘋了，怒斬 70k+ Star！Gemini CLI 免費用戶也能使用 Gemini 3 了！免費白嫖 Gemini 3 Pro 的 3 種方式，太香了！Gemini 3 Pro 的 8 個官方入口（建議收藏）玩轉 CodeX CLI 的 16 個實用小技巧！玩轉 Claude Code 的 23 個實用小技巧！更多 ↓↓↓ 關注公眾號 ✔ 標星⭐ 哦

整理版摘要

關注公眾號，AI 技術乾貨及時送達↓推薦閲讀：OpenAI 把 Codex 裝進了 Claude Code！大家好，我是R哥。最近 AI 編程模型又卷瘋了。一邊是國外大模型繼續往工程能力、長上下文、Agent 方向猛衝，另一邊是國產模型也開始發力，各種大模型宣稱能媲美 Claude 的能力。

所以而家再問哪個編程模型最強，其實已經不太好回答了，因為不同模型的性格差異越來越明顯了。有的適合寫複雜工程，有的適合做 UI，有的適合改老項目，有的適合跑 Agent，有的 benchmark 很漂亮，但真正幹活的時候可能又是另外一個樣子。我這篇就不做學術排名了，只聊真實編程體感。

第一梯隊（夯爆）第一梯隊我覺得就是兩個：GPT 5.5 和 Claude Opus 4.6 / 4.7，毫無疑問，這兩個基本屬於雙王並列。沒有絕對第一，只有場景適配。GPT 5.5 的優勢是綜合、全面，工程場景也很穩。尤其是 API 生態、工具鏈適配、工程落地這一塊，搭配 Codex CLI、Codex APP、雲端支持，這一套確實成熟，它可能不是最牛逼的，但是全方面能力最強的。而且 GPT 5.5 的性價比也很能打，如果你是高頻使用，比如每天寫文案、寫代碼、生成圖片等工作，Plus 就完全能夠勝任，它屬於那種量大管飽型選手。當然，它缺點也有。它寫界面的審美還需要繼續打磨，功能上能完成，但 UI 有時候會有點程序員審美，能用，規整，但少一點產品感和高…

從夯爆到夯，鋭評 7 個最主流的 AI 編程模型！
從夯爆到夯，鋭評 7 個最主流的 AI 編程模型！｜重點 2
從夯爆到夯，鋭評 7 個最主流的 AI 編程模型！｜重點 3
從夯爆到夯，鋭評 7 個最主流的 AI 編程模型！｜重點 4
從夯爆到夯，鋭評 7 個最主流的 AI 編程模型！｜重點 5

值得記低

Skill

可記低 Skill

關注公眾號，AI 技術乾貨及時送達↓推薦閲讀：OpenAI 把 Codex 裝進了 Claude Code！！大家好，我是R哥。最近 AI 編程模型又卷瘋了。一邊是國外大模型繼續往工程能力、長上下文、Agent 方向猛衝，另一邊是國產模型…

整理重點

整理版

關注公眾號，AI 技術乾貨及時送達↓推薦閲讀：OpenAI 把 Codex 裝進了 Claude Code！！大家好，我是R哥。最近 AI 編程模型又卷瘋了。一邊是國外大模型繼續往工程能力、長上下文、Agent 方向猛衝，另一邊是國產模型也開始發力，各種大模型宣稱能媲美 Claude 的能力。。所以而家再問哪個編程模型最強，其實已經不太好回答了，因為不同模型的性格差異越來越明顯了。有的適合寫複雜工程，有的適合做 UI，有的適合改老項目，有的適合跑 Agent，有的 benchmark 很漂亮，但真正幹活的時候可能又是另外一個樣子。我這篇就不做學術排名了，只聊真實編程體感。。第一梯隊（夯爆）第一梯隊我覺得就是兩個：GPT 5.5 和 Claude Opus 4.6 / 4.7，毫無疑問，這兩個基本屬於雙王並列。沒有絕對第一，只有場景適配。GPT 5.5 的優勢是綜合、全面，工程場景也很穩。尤其是 API 生態、工具鏈適配、工程落地這一塊，搭配 Codex CLI、Codex APP、雲端支持，這一套確實成熟，它可能不是最牛逼的，但是全方面能力最強的。而且 GPT 5.5 的性價比也很能打，如果你是高頻使用，比如每天寫文案、寫代碼、生成圖片等工作，Plus 就完全能夠勝任，它屬於那種量大管飽型選手。當然，它缺點也有。它寫界面的審美還需要繼續打磨，功能上能完成，但 UI 有時候會有點程序員審美，能用，規整，但少一點產品感和高級感。Claude Opus 4.6 / 4.7 則是另一種強。它的上下文理解很強（1M），尤其適合產品邏輯、複雜需求、長文檔、UI 交互這類任務。在實際編程時，你都不用把每個細節都說死，它能順着你的意圖往下補，甚至能提前想到一些你沒說但確實需要的東西。這就是 Claude 最厲害的地方，它不是隻會寫代碼，它更像懂產品的人在幫你寫代碼。缺點就是：貴、對網絡環境要求非常高、非常容易封號，前陣子又搞出了實名認證，用 Claude 的成本是越來越高，也越來越不可控。參考閲讀：• 炸了！Claude Code 移除 Pro 用戶！！• 喪心病狂！Claude 開始要求實名身份驗證了。。。就 Claude 種種變態的限制行為，建議大家還是還是不要作為首選或者太依賴它。第二梯隊（夯）第二梯隊也很有意思，比如：GLM-5.1、Gemini 3、Qwen 3、DeepSeek V4、Kimi K2.6 呢啲大模型就在這一檔。先說 GLM-5.1，目前最接近第一梯隊的國產模型之一。尤其是 Agent 能力，已經能貼着第一梯隊打了。它不是那種只會回答問題的聊天模型，而是已經開始具備拆任務、調工具、持續推進的高級能力。但它的問題也明顯：慢，而且不夠穩定，算力不夠，訂閲非常難，Coding Plan 基本都要靠搶。再說說 Gemini 3，它是典型的偏科生。它在 UI 和前端場景挺能打，尤其是頁面佈局、視覺表達、交互結構，經常能給你一些不錯的結果。做頁面時，它有時候比傳統工程型模型更有感覺。但工程場景偏弱，比如：複雜後端、長鏈路重構、多模塊項目協同，它沒有 GPT 和 Claude 那麼穩。所以 Gemini 的定位很清楚，適合前端、UI、視覺類任務，複雜工程儘量別用它。再說說通義千問 Qwen 3，它屬於國產裏非常能打的一檔。它的整體能力比較均衡，一般來說在代碼生成、中文理解、工程任務上表現都比較穩定，比如寫接口、補代碼、做業務邏輯這類活都能很好勝任。而且它的優勢在於生態完整 + 落地能力強，依託阿里雲，在企業應用、API 接入、私有化部署等場景裏會更有優勢。但問題也有，一般來說在複雜工程推理、長上下文深度理解上，和第一梯隊還是有差距。另外，它也是一樣的套路，Coding Plan 基礎款已經下線，高級套餐訂閲還要靠搶。。再說說 DeepSeek V4，它寫代碼比較穩重。很多模型寫代碼喜歡加戲，明明你只要改一個地方，它順手給你重構一大片。DeepSeek 的風格一般更收斂，常規業務代碼寫得快，也不太亂髮揮。它適合程序員日常開發裏的大量基礎活，比如 CRUD、腳本、接口邏輯、工具類、常見算法，它都挺穩。但它的問題是，目前沒有 Coding Plan，如果拿來高頻編程，成本會顯得有點高。最後再說說 Kimi K2.6，它屬於潛力型選手。它的 benchmark 很出色，Coding Plan 也不用搶，但實際用下來，體感有時沒那麼絲滑，尤其是複雜工程任務裏，它有時會在執行過程中掉一下鏈子。感覺它很適合龍蝦這麼類 Agent，之前還上過最適合 OpenClaw 大模型的榜單。所以我對 Kimi 的評價是，上限很高，但穩定性還需要時間。怎麼選？我建議別隻用一個模型，而是更合理的組合使用：• 寫後端、修 bug、處理工程任務，用 GPT 5.5。• 做複雜產品設計、需求梳理，用 Claude 4.7。• 做前端頁面和視覺草稿，可以讓 Gemini 3 先跑一版。• 想體驗國產大模型能力，可以試 GLM-5.1、Qwen 3。• 想寫穩定業務代碼，可以用 DeepSeek V4。組合搭配，咁樣才是目前更實際的玩法，我目前也是這麼玩的。因為模型之間已經不是簡單的誰強誰弱，而是各方面能力各不不同，就像團隊裏有人適合做架構，有人適合寫頁面，有人適合修線上問題，有人適合寫文檔。你非要讓一個大模型幹所有活，也不是不行，就是效率、質量等方面可能不一定是最高的。當然，也可以根據自己的任務進行測試，一般簡單的任務你隨便用哪個可能區別都不大，複雜任務還得是用最專業的、最夯的模型。好了，今天就暫時分享到這裏了，R哥持續分享更多 AI 好玩的東西，公眾號第一時間推送，關注「AI技術宅」公眾號和我一起學 AI。⚠️ 版權聲明：本文系公眾號 "AI技術宅" 原創，未經授權禁止轉載，嚴禁搬運、抄襲、洗稿、侵權一律投訴，並保留追究其法律責任的權利。 < END >推薦閲讀：OpenClaw 在國內的熱度徹底涼了。。OpenClaw 必裝的 10 個 Skills！！OpenClaw 飛書 + QQ 接入完整指南！！Claude Skills 徹底爆了，從實現原理到實戰！開源版 Claude Code 殺瘋了，怒斬 70k+ Star！Gemini CLI 免費用戶也能使用 Gemini 3 了！免費白嫖 Gemini 3 Pro 的 3 種方式，太香了！Gemini 3 Pro 的 8 個官方入口（建議收藏）玩轉 CodeX CLI 的 16 個實用小技巧！玩轉 Claude Code 的 23 個實用小技巧！更多 ↓↓↓ 關注公眾號 ✔ 標星⭐ 哦

關注公眾號，AI 技術乾貨第一時間送到↓

推薦閲讀：OpenAI 將 Codex 裝咗入 Claude Code！！

大家好，我係R哥。

最近 AI 編程模型又捲到癲曬。

一邊係國外大模型繼續向工程能力、長上下文、Agent 方向猛衝，另一邊國產模型都開始發力，各種大模型話自己媲美 Claude 嘅能力。。

所以而家再問邊個編程模型最勁，其實已經唔係咁答到，因為唔同模型嘅性格差異越來越明顯。

有啲適合寫複雜工程，有啲適合做 UI，有啲適合改舊項目，有啲適合行 Agent，有啲 benchmark 好靚，但真正做嘢嘅時候可能又係另一個樣。

我呢篇就唔做學術排名啦，只係講真實編程體感。。

第一梯隊（勁到爆）

第一梯隊我覺得就係兩個：GPT 5.5 和 Claude Opus 4.6 / 4.7，毫無疑問，呢兩個基本上係雙王並列。冇絕對第一，只有場景適合邊個。

GPT 5.5 嘅優勢係綜合、全面，工程場景都好穩陣。

尤其係 API 生態、工具鏈適配、工程落地呢方面，配合 Codex CLI、Codex APP、雲端支援，呢套真係成熟，佢可能唔係最勁，但係全方位能力最強嘅。

而且 GPT 5.5 嘅性價比都好打得，如果你係高頻使用，例如每日寫文案、寫 code、生成圖片等工作，Plus 就完全勝任，佢屬於嗰種份量多又夠曬用嘅選手。

當然，佢缺點都有。

佢寫界面嘅審美仲要繼續打磨，功能上做到，但 UI 有時會有啲程序員審美，用得，規整，但少咗啲產品感同高級感。

Claude Opus 4.6 / 4.7 就係另一種強。

佢嘅上下文理解好強（1M），尤其適合產品邏輯、複雜需求、長文檔、UI 交互呢類任務。

實際編程時，你唔使將每個細節都講死，佢會順住你嘅意圖補落去，甚至事先諗到一啲你冇講但確實需要嘅嘢。

呢個就係 Claude 最勁嘅地方，佢唔係只係寫 code，佢更加似係識產品嘅人幫你寫 code。

缺點就係：貴、對網絡環境要求好高、非常容易封號，前排又搞咗實名認證，用 Claude 嘅成本越來越高，亦越來越失控。

參考閲讀：

鑑於 Claude 種種變態嘅限制行為，建議大家都係唔好當首選或者太過依賴佢。

第二梯隊（勁）

第二梯隊都好有趣，例如：GLM-5.1、Gemini 3、Qwen 3、DeepSeek V4、Kimi K2.6 呢啲大模型就喺呢一檔。

先講 GLM-5.1，目前最接近第一梯隊嘅國產模型之一。

尤其係 Agent 能力，已經可以貼住第一梯隊打。佢唔係嗰種只係識答問題嘅聊天模型，而係已經開始具備拆解任務、調用工具、持續推進嘅高級能力。

但佢嘅問題都好明顯：慢，而且唔夠穩定，算力唔夠，訂閲非常難，Coding Plan 基本上都要靠搶。

再講下 Gemini 3，佢係典型嘅偏科生。

佢喺 UI 同前端場景都幾打得，尤其係頁面佈局、視覺表達、交互結構，成日俾到一啲唔錯嘅結果。做頁面時，佢有時比傳統工程型模型更有感覺。

但工程場景偏弱，例如：複雜後端、長鏈路重構、多模塊項目協同，佢冇 GPT 同 Claude 咁穩陣。

所以 Gemini 嘅定位好清楚，適合前端、UI、視覺類任務，複雜工程盡量唔好用佢。

再講下通義千問 Qwen 3，佢屬於國產裏面好打得嘅一檔。

佢嘅整體能力比較均衡，一般來講喺 code 生成、中文理解、工程任務上表現都比較穩定，例如寫接口、補 code、做業務邏輯呢類工作都能夠好好勝任。

而且佢嘅優勢在於生態完整 + 落地能力強，依託阿里雲，喺企業應用、API 接入、私有化部署等場景會更有優勢。

但問題都有，一般來講喺複雜工程推理、長上下文深度理解方面，同第一梯隊仲有差距。

另外，佢都係一樣嘅套路，Coding Plan 基礎款已經下線，高級套餐訂閲都要靠搶。。

再講下 DeepSeek V4，佢寫 code 比較穩陣。

好多模型寫 code 鍾意加戲，明明你只係改一個地方，佢順手幫你重構一大片。DeepSeek 嘅風格一般更收斂，常規業務 code 寫得快，都唔會亂發揮。

佢適合程序員日常開發裏面大量基礎工作，例如 CRUD、腳本、接口邏輯、工具類、常見算法，佢都幾穩陣。

但佢嘅問題係，目前冇 Coding Plan，如果用嚟高頻編程，成本會顯得有啲高。

最後再講下 Kimi K2.6，佢屬於潛力型選手。

佢嘅 benchmark 好出色，Coding Plan 都唔使搶，但實際用落，體感有時冇咁順滑，尤其係複雜工程任務裏面，佢有時會喺執行過程中甩一甩鏈。

感覺佢好適合龍蝦呢類 Agent，之前仲上過最適合 OpenClaw 大模型嘅榜單。

所以我對 Kimi 嘅評價係，上限好高，但穩定性仲需要時間。

點樣揀？

我建議唔好只係用一個模型，而係更合理咁組合使用：

• 寫後端、修 bug、處理工程任務，用 GPT 5.5。
• 做複雜產品設計、需求梳理，用 Claude 4.7。
• 做前端頁面同視覺草稿，可以俾 Gemini 3 先做一版。
• 想體驗國產大模型能力，可以試 GLM-5.1、Qwen 3。
• 想寫穩定業務 code，可以用 DeepSeek V4。

組合搭配，咁先係目前更實際嘅玩法，我而家都係咁玩。

因為模型之間已經唔係簡單嘅邊個強邊個弱，而係各方面能力各有不同，就好似團隊入面有人適合做架構，有人適合寫頁面，有人適合修線上問題，有人適合寫文檔。

你一定要一個大模型做曬所有嘢，都唔係唔得，只係效率、質量等方面可能唔係最高。

當然，都可以根據自己嘅任務測試，一般簡單嘅任務你隨便用邊個可能分別都唔大，複雜任務仲係要用最專業、最勁嘅模型。

好啦，今日就暫時分享到呢度啦，R哥持續分享更多 AI 好玩嘅嘢，公眾號第一時間推送，關注「AI技術宅」公眾號同我一齊學 AI。

⚠️ 版權聲明：
本文係公眾號 "AI技術宅" 原創，未經授權禁止轉載，嚴禁搬運、抄襲、洗稿、侵權一律投訴，並保留追究其法律責任嘅權利。

< END >

推薦閲讀：

OpenClaw 喺國內嘅熱度徹底涼咗。。

OpenClaw 必裝嘅 10 個 Skills！！

OpenClaw 飛書 + QQ 接入完整指南！！

Claude Skills 徹底爆啦，從實現原理到實戰！

開源版 Claude Code 殺到癲咗，怒斬 70k+ Star！

Gemini CLI 免費用戶都可以用 Gemini 3 啦！

免費白嫖 Gemini 3 Pro 嘅 3 種方式，太正啦！

Gemini 3 Pro 嘅 8 個官方入口（建議收藏）

玩轉 CodeX CLI 嘅 16 個實用小技巧！

玩轉 Claude Code 嘅 23 個實用小技巧！

更多 ↓↓↓ 關注公眾號 ✔ 標星⭐ 哦

關注公眾號，AI 技術乾貨及時送達↓

推薦閲讀：OpenAI 把 Codex 裝進了 Claude Code！！

大家好，我是R哥。

最近 AI 編程模型又卷瘋了。

一邊是國外大模型繼續往工程能力、長上下文、Agent 方向猛衝，另一邊是國產模型也開始發力，各種大模型宣稱能媲美 Claude 的能力。。

所以現在再問哪個編程模型最強，其實已經不太好回答了，因為不同模型的性格差異越來越明顯了。

有的適合寫複雜工程，有的適合做 UI，有的適合改老項目，有的適合跑 Agent，有的 benchmark 很漂亮，但真正幹活的時候可能又是另外一個樣子。

我這篇就不做學術排名了，只聊真實編程體感。。

第一梯隊（夯爆）

第一梯隊我覺得就是兩個：GPT 5.5 和 Claude Opus 4.6 / 4.7，毫無疑問，這兩個基本屬於雙王並列。沒有絕對第一，只有場景適配。

GPT 5.5 的優勢是綜合、全面，工程場景也很穩。

尤其是 API 生態、工具鏈適配、工程落地這一塊，搭配 Codex CLI、Codex APP、雲端支持，這一套確實成熟，它可能不是最牛逼的，但是全方面能力最強的。

而且 GPT 5.5 的性價比也很能打，如果你是高頻使用，比如每天寫文案、寫代碼、生成圖片等工作，Plus 就完全能夠勝任，它屬於那種量大管飽型選手。

當然，它缺點也有。

它寫界面的審美還需要繼續打磨，功能上能完成，但 UI 有時候會有點程序員審美，能用，規整，但少一點產品感和高級感。

Claude Opus 4.6 / 4.7 則是另一種強。

它的上下文理解很強（1M），尤其適合產品邏輯、複雜需求、長文檔、UI 交互這類任務。

在實際編程時，你都不用把每個細節都說死，它能順着你的意圖往下補，甚至能提前想到一些你沒說但確實需要的東西。

這就是 Claude 最厲害的地方，它不是隻會寫代碼，它更像懂產品的人在幫你寫代碼。

缺點就是：貴、對網絡環境要求非常高、非常容易封號，前陣子又搞出了實名認證，用 Claude 的成本是越來越高，也越來越不可控。

參考閲讀：

就 Claude 種種變態的限制行為，建議大家還是還是不要作為首選或者太依賴它。

第二梯隊（夯）

第二梯隊也很有意思，比如：GLM-5.1、Gemini 3、Qwen 3、DeepSeek V4、Kimi K2.6 這些大模型就在這一檔。

先說 GLM-5.1，目前最接近第一梯隊的國產模型之一。

尤其是 Agent 能力，已經能貼着第一梯隊打了。它不是那種只會回答問題的聊天模型，而是已經開始具備拆任務、調工具、持續推進的高級能力。

但它的問題也明顯：慢，而且不夠穩定，算力不夠，訂閲非常難，Coding Plan 基本都要靠搶。

再說說 Gemini 3，它是典型的偏科生。

它在 UI 和前端場景挺能打，尤其是頁面佈局、視覺表達、交互結構，經常能給你一些不錯的結果。做頁面時，它有時候比傳統工程型模型更有感覺。

但工程場景偏弱，比如：複雜後端、長鏈路重構、多模塊項目協同，它沒有 GPT 和 Claude 那麼穩。

所以 Gemini 的定位很清楚，適合前端、UI、視覺類任務，複雜工程儘量別用它。

再說說通義千問 Qwen 3，它屬於國產裏非常能打的一檔。

它的整體能力比較均衡，一般來說在代碼生成、中文理解、工程任務上表現都比較穩定，比如寫接口、補代碼、做業務邏輯這類活都能很好勝任。

而且它的優勢在於生態完整 + 落地能力強，依託阿里雲，在企業應用、API 接入、私有化部署等場景裏會更有優勢。

但問題也有，一般來說在複雜工程推理、長上下文深度理解上，和第一梯隊還是有差距。

另外，它也是一樣的套路，Coding Plan 基礎款已經下線，高級套餐訂閲還要靠搶。。

再說說 DeepSeek V4，它寫代碼比較穩重。

很多模型寫代碼喜歡加戲，明明你只要改一個地方，它順手給你重構一大片。DeepSeek 的風格一般更收斂，常規業務代碼寫得快，也不太亂髮揮。

它適合程序員日常開發裏的大量基礎活，比如 CRUD、腳本、接口邏輯、工具類、常見算法，它都挺穩。

但它的問題是，目前沒有 Coding Plan，如果拿來高頻編程，成本會顯得有點高。

最後再說說 Kimi K2.6，它屬於潛力型選手。

它的 benchmark 很出色，Coding Plan 也不用搶，但實際用下來，體感有時沒那麼絲滑，尤其是複雜工程任務裏，它有時會在執行過程中掉一下鏈子。

感覺它很適合龍蝦這麼類 Agent，之前還上過最適合 OpenClaw 大模型的榜單。

所以我對 Kimi 的評價是，上限很高，但穩定性還需要時間。

怎麼選？

我建議別隻用一個模型，而是更合理的組合使用：

• 寫後端、修 bug、處理工程任務，用 GPT 5.5。
• 做複雜產品設計、需求梳理，用 Claude 4.7。
• 做前端頁面和視覺草稿，可以讓 Gemini 3 先跑一版。
• 想體驗國產大模型能力，可以試 GLM-5.1、Qwen 3。
• 想寫穩定業務代碼，可以用 DeepSeek V4。

組合搭配，這樣才是目前更實際的玩法，我目前也是這麼玩的。

因為模型之間已經不是簡單的誰強誰弱，而是各方面能力各不不同，就像團隊裏有人適合做架構，有人適合寫頁面，有人適合修線上問題，有人適合寫文檔。

你非要讓一個大模型幹所有活，也不是不行，就是效率、質量等方面可能不一定是最高的。

當然，也可以根據自己的任務進行測試，一般簡單的任務你隨便用哪個可能區別都不大，複雜任務還得是用最專業的、最夯的模型。

好了，今天就暫時分享到這裏了，R哥持續分享更多 AI 好玩的東西，公眾號第一時間推送，關注「AI技術宅」公眾號和我一起學 AI。

⚠️ 版權聲明：
本文系公眾號 "AI技術宅" 原創，未經授權禁止轉載，嚴禁搬運、抄襲、洗稿、侵權一律投訴，並保留追究其法律責任的權利。

< END >

推薦閲讀：

OpenClaw 在國內的熱度徹底涼了。。

OpenClaw 必裝的 10 個 Skills！！

OpenClaw 飛書 + QQ 接入完整指南！！

Claude Skills 徹底爆了，從實現原理到實戰！

開源版 Claude Code 殺瘋了，怒斬 70k+ Star！

Gemini CLI 免費用戶也能使用 Gemini 3 了！

免費白嫖 Gemini 3 Pro 的 3 種方式，太香了！

Gemini 3 Pro 的 8 個官方入口（建議收藏）

玩轉 CodeX CLI 的 16 個實用小技巧！

玩轉 Claude Code 的 23 個實用小技巧！

更多 ↓↓↓ 關注公眾號 ✔ 標星⭐ 哦