90%的代碼已經是AI寫的，姚順宇說剩下10%也快了

作者：字節筆記本

日期：2026年5月13日上午7:35

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

姚順宇指出90%代碼已由AI生成，模型差距縮小但預訓練未到盡頭，Coding最先爆發因反饋信號同數據優勢。

整理版摘要

呢篇訪談嘅主角係姚順宇，清華物理出身，斯坦福博士畢業，之後加入Anthropic親歷Claude 3.7開發，而家喺Google DeepMind做長上下文同AI自主科研。佢分享咗對AI模型現狀嘅深入觀察，整體結論係：模型能力差距已經唔係重點，重點係每個實驗室想將邊個方向做到極致；預訓練仲未撞牆，只係進步曲線唔同咗；而coding之所以最先爆發，係因為反饋信號清晰同數據基礎好。

佢又提到，AI令佢寫code效率提升20到50倍，但工作時間反而變長，因為可以試嘅想法多咗。程序員唔會一夜被取代，但需要轉向系統設計、意圖表達同任務拆解。OpenClaw呢類產品之所以由外部做出嚟，係因為大公司負擔太重，而技術上模型能力早已具備。Anthropic成功嘅關鍵係技術決策人同時係公司決策人，而Google進步歸功於組織清晰化。

至於中美差距，佢話過去一年半確實在縮小，但最後會唔會追上唔清楚。蒸餾有兩種：硬蒸餾只係複製，冇建立真正能力；聰明蒸餾用多個模型互相評價，反而可能有創新。佢離開Anthropic係想橫向擴展，唔鍾意以想法換存在感嘅文化。最後佢分享咗一道24小時強化學習面試題，考驗候選人嘅協作能力同執行力。

模型能力趨同，差異在於意願而非能力；預訓練未撞牆，進步曲線唔同咗。
Coding爆發因反饋信號清晰同GitHub高質量數據，係結構性優勢。
AI令寫code效率提升20-50倍，但工作時間反變長，因為可以試嘅想法多咗。
程序員需轉向系統設計、意圖表達同任務拆解，半年後AI可能全做到。
判斷AI研究員唔係睇寫code，而係協作、理解同執行力；24小時面試題係好方法。

整理重點

模型差距縮小，預訓練未到盡頭

姚順宇話，而家三家頂級實驗室嘅模型喺公開榜單上差唔多，好嘅比差嘅高一兩個百分點，本質上係噪聲。但實際使用上，Claude喺工具使用同agent場景目前最強，Codex喺純coding追近咗，Gemini喺推理同日常使用好，但coding同agent仲係追緊。

更大嘅變化係，以前擔心追唔上OpenAI嘅焦慮已經消失，而家更難嘅係想明白接下來要做乜。呢個係一個靠內部判斷力嘅賭，唔係堆算力算得出。

從50%到60%用戶可能覺得好咗少少，但從70%到75%用戶感受到嘅提升反而更大，因為以前做唔到嘅事突然做到。

整理重點

點解coding最先跑出？OpenClaw嘅啟示

姚順宇分析，coding有兩個結構性優勢：第一，反饋信號極其清晰，輸入輸出客觀冇歧義；第二，數據基礎天然強，GitHub上幾十年高質量代碼，優秀程序員嘅風格收斂，有好嘅標準。

從產品角度，coding係效率工具，容易贏家通吃。一旦工具明顯好過其他，用戶冇理由唔遷移。

對於OpenClaw，佢話業內討論冇業外咁激烈。技術上，OpenClaw依賴嘅模型能力喺去年Claude Opus 3發佈時已經具備。點解唔係大廠研究員先做出嚟？因為大公司負擔太重，法律審查、品牌風險、資源穩定都要考慮。

至於Manus同OpenClaw都賣畀模型公司，說明壁壘仲喺模型側。Cursor走嘅路唔容易，同Anthropic嘅關係已經變得好微妙。

整理重點

AI對程序員嘅衝擊與適應

姚順宇保守估計而家90%嘅代碼由模型產生，唔保守嘅話係99%，留1%畀自己面子。真正需要佢花時間嘅，係確認模型寫嘅係唔係真正想要，同埋提供合適上下文。

實驗效率比一年半前快20到50倍，但工作時間反而變長咗，因為可以試嘅想法太多，越試越想試，停唔落嚟。

程序員唔會一夜被取代，但AI係極度集中化嘅技術，令少數人更強，大部分人失去獨特價值。將來可能十分之一人做曬所有工作，拎100倍人工。

整理重點

Anthropic點樣贏？Google點樣追？面試題考乜？

Anthropic成功嘅關鍵條件：技術決策人同時係公司決策人，有權力調配資源。加上創始團隊信任基礎，佢哋一齊做過關鍵論文，默契唔係靠流程建立。

Google DeepMind模型能力突飛猛進，主因係組織上清晰咗。每個人負責乜、資源點分配、評估框架點設計，都清清楚楚。Google工程管理能力極強，一旦變工程問題就入咗佢嘅舒適區。

至於中美差距，姚順宇話過去一年半確實在縮小。佢提到聰明嘅蒸餾用唔同家模型做輔助或評價，可能產生美國實驗室冇嘅特性。而硬蒸餾只係複製，冇建立真正能力。

佢離開Anthropic係因為想學唔同嘢，同埋唔鍾意新入職同事以想法換存在感嘅風氣。佢嘅面試題係24小時內從零到一完成強化學習項目，考驗協作、理解同執行力。

同姚順宇嘅對話，呢次訪問值得你翻睇十次。

姚順宇，清華物理出身，本科嗰陣就整咗個開放量子系統，博士喺史丹福搞高能理論物理搞咗五年，畢業攞到伯克利博後offer，返工兩星期就遞辭職信去咗Anthropic。

喺Anthropic做咗一年，親身經歷Claude 3.7由零到推出嘅成個過程。就係嗰個顛覆Coding嘅Claude 3.7嘅直接參與者。

舊年九月底走咗，加入Google DeepMind，而家做長上下文同AI自主科研。

以下係呢場對話入面我覺得有意思嘅問答精要嘅部分摘要。

而家三家嘅差距有幾大？

Q：而家三家頂級實驗室，能力係咪已經同質化？

A：字面上睇確係差唔多。你去睇公開榜單，好嘅比差嘅高一兩個百分點，本質上係噪聲，唔係信號。大家都喺80%附近，差嗰一兩個點，主要係隨機波動，唔代表真實能力嘅高低。

但實際用起上嚟仲係感受到有分別。

我嘅印象係，Claude喺工具使用同agent場景目前仲係最勁；Codex喺純coding上最近追近咗，縮窄咗中間嘅差距；Gemini喺純推理同日常使用下表現好，但喺coding同agent上仲喺度追緊。

更大嘅變化係，以前三家都擔心追唔上OpenAI，呢種擔心而家基本消失咗。而家更難嘅問題係要諗清楚下一步要做啲乜。呢個係一個要靠內部判斷力去賭嘅嘢，唔係話疊算力就計到答案。以前模型嘅差異在於能力，而家嘅差異更加嚟自意願，係你想將邊個方向做到極致。

預訓練係咪已經撞牆？

Q：預訓練嘅Scaling Law係咪已經到咗盡頭？模型進步嘅速度係咪放慢咗？

A：完全冇。我嚟緊四個月會繼續做，而且我睇唔到有撞牆嘅跡象。

如果你俾我一個每個月喺某個榜單上要升幾多分嘅標準，咁當然會慢咗，因為滿分係100分，越接近天花板就升得越慢。

但呢個指標根本唔代表用戶體驗到嘅模型能力增長。由50%到60%可能用戶覺得好咗少少，由70%到75%用戶感受到嘅提升反而可能更大，因為以前做唔到嘅嘢突然做到咗。

話到頭嘅人，不外乎三種情況：一係覺得呢個規律本身有物理邊界，scaling根本上唔可以無限延展；二係覺得數據已經撞牆，冇新數據可以餵；三係自己實驗入面有bug未發現，以為規律失效，其實係自己出咗問題。

我判斷，絕大多數話到頭嘅案例係屬於第三種。

遇到bug有兩個反應：覺得「呢個肯定搞得掂」，你就繼續向前；覺得「呢件事到咗頭」，你就停低。

呢個本質上係一個信念問題，唔係純技術問題。

做呢行最重要嘅能力之一，係當實驗結果同預期唔一樣嘅時候，你能夠有系統咁排除各種可能性，而唔係直接宣佈死亡。

Coding點解最先爆發？

Q：點解過去幾個月，coding能力嘅發展速度係最快？

A：兩個結構性優勢，其他場景好難同時具備。

第一係反饋信號極之清晰。你寫一段code，要實現某個功能，輸入去，輸出嚟，對唔對得埋，非常客觀，冇任何歧義。呢個令到訓練變得高效同穩定，模型可以清楚知道乜嘢叫啱，乜嘢叫錯，梯度信號乾淨。相比之下，好多其他任務嘅好壞判斷要靠人嘅主觀評價，又慢又貴，仲有噪聲。

第二係數據基礎天生強。GitHub上面幾十年積累嘅高質素code，係任何其他場景都冇嘅資產。優秀programmer寫code嘅風格係收斂嘅，有公認嘅好壞標準：結構清晰、合理抽象、面向未來嘅可維護性，呢啲喺好嘅工程師之間係有共識嘅。呢個意味著由數據入面學返嚟嘅「好code」係真實有意義，唔係噪聲。

由產品角度睇，coding呢個場景本身係效率工具，而效率工具最容易贏家通吃。一旦某個工具明顯好過其他，用戶冇理由唔轉過去。呢個都係點解呢個賽道競爭咁激烈。

OpenClaw都係外行人鬧得熱哄哄！

Q：點睇OpenClaw呢類產品嘅出現？點解係外部團隊做出嚟，而唔係硅谷大廠嘅研究員？

A：有趣嘅係，呢件事喺業內嘅討論遠遠冇業外咁激烈。對內部人嚟講，OpenClaw並唔係一個特別令人驚訝嘅嘢。好多公司內部其實一早有人做過類似嘅實驗或者demo，只係冇當做一個產品認真打磨然後推出。你去睇OpenClaw最早版本嘅code，其實寫得都唔係特別乾淨，但佢好重要嘅一件事係示範咗呢種可能性俾大家睇。

技術上嚟講，OpenClaw依賴嗰啲模型能力，其實喺舊年Claude Opus 3出嘅時候已經有咗。唔係到今年初先準備好，而係更早就可以展示出嚟。佢推出之後都唔係即刻就爆紅，係過咗一段時間先活躍起嚟。

點解唔係大廠研究員先整出嚟？因為大公司嘅包袱太重。一個研究員喺公司內部整咗個有趣嘅demo，想將佢推出街，要過法律審查，要確認唔會損害品牌，要有穩定嘅資源支撐呢條產品線，要保證唔會因為模型權限過高而搞冧用戶嘅系統。Google冇可能推出一個可能會攞你電腦上所有權限嘅產品，就算佢好犀利。

但對個人嚟講冇所謂，開源項目理得佢點，出咗問題一齊搞掂。呢個就係點解呢類嘢永遠係先由外面走出嚟，大廠先跟上。

至於Manus同OpenClaw最後都賣咗俾模型公司，我覺得說明咗一件事：目前嚟講壁壘主要仲喺模型嗰邊，應用層想長久生存，一係就跑得夠快喺模型公司反應之前佔領夠多用戶同時自己做模型，一係就揾一個細到大公司懶得理嘅垂直場景。Cursor行緊前一條路，但佢而家同Anthropic嘅關係已經好微妙，曾經係緊密合作夥伴，而家已經係競爭關係。呢條路行唔行得通，仲未知道。

有咗AI，點解工作時間反而長咗？

Q：AI寫code幫你提高咗幾多倍工作效率？仲有邊啲code係AI目前寫唔到？

A：保守估計，我而家九成嘅code係模型產生嘅。唔保守嘅估計可能係99%，剩返嗰1%係俾自己留啲面。

真正需要我花時間嘅，係確認模型寫嘅係唔係我真係想要嘅，同埋幫佢提供合適嘅context——話俾佢知呢段code需要同邊啲files關聯，需要參考邊啲已有嘅實現，整體嘅設計意圖係乜。有咗AI之後，寫code呢件事最重要嘅地方變咗做系統設計同意圖表達，真正打字輸出code呢件事，模型勁過人好多，人同模型比呢個冇意思。

由實驗效率上講，比年半前快咗20到50倍。以前想驗證一個諗法，可能先要用半日set環境，遇到一個唔熟嘅file要約人講解，等一兩個鐘先可以繼續。而家遇到唔識嘅嘢，問一問，五秒鐘有答案，繼續做。

但有個副作用：工作時間反而長咗。因為試得嘅諗法太多，以前受限於執行速度而冇辦法唔放棄嘅念頭，而家都可以行一次，越試越想試，停唔到手。

Programmer嘅命運會唔會被淘汰？

Q：Programmer幾時會俾徹底取代？未來嘅programmer要點樣先可以生存到？

A：呢一日會嚟，但唔會係一夜之間。唔會係programmer仲喺度，瞓醒覺就全部俾人炒。佢係一個漸進嘅過程，而且已經發生緊，有啲公司已經開始用呢個理由裁員。

AI本質上係一種極度集中化嘅技術。佢令到少部分人變得更強，同時令到大部分人失去佢哋嘅獨特價值。傳統軟件工程最後嘅結果，可能係而家十分之一嘅人做咗過去所有人嘅工作，攞住而家100倍嘅人工。剩低嘅人唔係因為能力差，而係因為佢哋做嗰種工作唔再需要人做。

生存落嚟需要咩特質？而家睇有三件事：技術要好勁，因為如果技術弱，冇理由話你唔會被取代；要理解自己嘅工作點樣嵌入一個大組織嘅目標入面，呢種系統性視角AI目前仲做唔好；有足夠強嘅規劃能力，可以將一個複雜嘅大問題拆成可執行嘅細步驟，分配俾唔同嘅agent去做。

但我一定要加一句：呢三件事六個月之後可能AI全部搞得掂。所以我只可以話係由而家嘅視角睇，過六個月再問我，答案可能會更悲觀。

Anthropic點解喺Coding領域贏咗？

Q：Anthropic嘅執行力由邊度嚟？點解其他公司好難複製？

A：有一個條件好關鍵，亦都好難複製：技術上嘅決策人，同時亦係公司層面嘅決策人。

呢件事聽落簡單，做到非常難。技術上要令到人服氣，下面嘅研究員先願意跟住你，你話呢個方向重要佢哋先會全力投入，而唔係陽奉陰違；同時你仲要係公司真正嘅決策者，有權力為呢件事調配資源，否則你嘅判斷永遠要經過一層又一層嘅審批，等到落地嘅時候機會窗口已經閂咗。

另外係創始團隊嘅信任基礎。Anthropic嘅核心團隊，好多人係同一批關鍵論文上面嘅共同作者，Scaling Law嗰篇、RLHF嘅早期工作，啲名高度重疊。佢哋由OpenAI一齊出嚟，喺最重要嘅研究節點上一齊打過仗，呢種信任唔係靠流程建立，係靠一齊經歷過唔確定性積累出嚟嘅默契。呢個解釋咗點解呢間公司嘅核心團隊一直冇人離開，而OpenAI嗰邊就不斷有動盪。

Google內部到底發生咗啲乜

Q：Google DeepMind嘅模型能力點解可以突飛猛進？

A：最關鍵嘅變化係組織上清晰咗。預訓練呢件事，而家非常清楚邊個負責乜嘢，每個節點嘅負責人係邊個，資源點樣分配，評估框架點樣設計。以前據我瞭解係比較混亂，大家各自做，資源分散，方向都唔統一。呢種清晰化本身就可以帶嚟巨大嘅效率提升。

Google喺呢件事上有一個天生優勢，就係一旦某件事變咗做工程問題，佢嘅工程管理能力極之強。預訓練而家已經係一個相對確定嘅範式，進入咗Google嘅舒適區。佢可以將呢件事做成一個極之精密嘅工程項目，為每一個關鍵變數建立評估體系，可預測，可疊代，你可以知道下一代唔會差，甚至可以預測佢會好幾多。呢個係Google做搜索引擎累積落嚟嘅能力，而家用咗嚟訓練大模型。

中美差距，仲有幾多？

Q：中美模型差距係咪喺度縮窄？點睇國內嘅「蒸餾」爭議？

A：過去年半，差距確實在縮窄，呢個係肉眼睇到嘅趨勢。但最後會唔會完全抹平，甚至中國超越美國，我覺得係唔清楚嘅問題。

中國喺實際算力資源上處於好大嘅劣勢，但呢個劣勢反而逼出咗一啲有意思嘅嘢。國內模型公司喺蒸餾呢件事上確實做得好好，從某種意義上係俾人逼出嚟。

但蒸餾有兩種，分別好大。

一種係硬蒸餾：直接由Claude或GPT嘅輸出抽大量數據，強行用嚟訓練自己嘅模型。呢件事商業上有道德問題，技術上亦都好蠢，因為你連自己真正想做啲乜都唔知，唯一做到嘅就係複製人哋，令到自己個模型喺數字上好睇啲，但冇建立任何真正嘅能力。呢種做法本質上暴露咗一件事：呢間公司唔知道自己應該做啲乜。

另一種係聰明嘅蒸餾：用唔同嘅模型作為輔助或者評價者，構建自己嘅訓練系統。例如用A家嘅模型生成候選答案，用B家嘅模型作為評判者，將呢啲信號融合入自己嘅訓練流程入面。呢個商業上係灰色地帶，但技術上非常有趣，而且可能產生一啲美國實驗室反而冇嘅特性，唔同模型嘅語言分佈差異好大，將佢哋融合入一個訓練系統，某程度上你做出嚟嘅係真正意義上嘅多智能體訓練，比起用同一家嘅唔同版本有意思得多。

點解離開Anthropic？

Q：當初點解離開緊要起飛嘅Anthropic加入Google？

A：原因有幾個，我喺公開場合講Dario嗰件事佔咗四成，但呢個唔係控股原因，只係一個好大嘅導火線。

主要原因係：我想學啲唔同嘅嘢。Anthropic非常專注，專注到你學到嘅嘢有好清晰嘅邊界。語言模型、工具使用、coding、agent，呢條線上可以學到好多，而且學得好深。但多模態生成你幾乎掂唔到，大規模基礎設施嘅工程你都冇乜機會深入。嗰個階段我認為自己更想橫向擴展，而唔係繼續喺呢條線往深處去。

仲有文化上嘅變化。公司快速擴張之後，由出面嚟咗一啲人，帶嚟咗一啲我唔太適應嘅風氣。具體講就係：有人開始花好多時間喺內部討論平台上講大道理，講好多聽落好有見地嘅說話，但唔落地，唔執行。諗法係便宜嘅，將一個模糊嘅諗法變成可執行嘅步驟做出嚟，先係真正難嘅事。我唔係咁鍾意嗰種用諗法換存在感嘅氛圍。

點樣判斷一個AI研究員靠唔靠譜

Q：你有冇方法快速判斷一個候選人？

A：我出過一條面試題，24個鐘之內由零到一完成一個強化學習項目。自己揀模型、揀數據、揀算法，將嘢行出嚟，然後同我傾一個鐘。

呢條題嘅設計有幾層考慮。

第一層：喺AI時代，考核code寫得好唔好已經冇乜意義，模型可以幫你全套做。真正重要嘅係呢個人能唔可以有效咁同AI協作，知道點樣拆解問題，知道點樣驗證模型嘅輸出，知道喺邊啲地方需要自己介入。

第二層：呢條題有一個陷阱。如果你將成個任務全部交俾AI，自己唔真正理解AI為你做咗啲乜，喺最後一個鐘嘅討論入面會暴露到出嚟。呢個唔係考核你自己會唔會寫code，而係考核你有冇真正參與落去，定係只係轉包。

第三層：點解係24個鐘。呢個係睇呢個人有幾在乎呢個機會。24個鐘可以強迫一個真心想要呢件事嘅人捱夜，如果佢捱唔住，就證明呢件事對佢嚟講可有可無，咁可能呢個機會對佢都唔係咁重要。我想要嘅係嗰種會為咗一件值得嘅事透支自己嘅人。

結尾

訪問就快完嘅時候，佢講咗一段話，我覺得值得原樣留低：

「我哋每一個人都係衝浪嘅人，但本質上係個浪，唔係你個衝浪嘅人。AI呢件事會向前行，無論你衝唔衝呢個浪，呢個浪都會拍到岸上。只係有人追到，有人冇追到。」

對話姚順宇這期訪談值得你反覆看十遍。

姚順宇，清華物理出身，本科期間就做出了開放量子系統，博士在斯坦福搞高能理論物理五年，畢業拿到伯克利博後offer，入職兩週，辭了去了Anthropic。

在Anthropic待了一年，親歷Claude 3.7從零到發佈的全過程。就是那個顛覆Coding的Claude 3.7的直接參與者。

去年九月底離開，加入Google DeepMind，現在做長上下文和AI自主科研。

以下是這場對話裏我認為有意思的問答精要部分摘要。

目前三家的差距有多大？

Q：現在三家頂級實驗室，能力是否已經同質化？

A：紙面上確實都差不多。你去看公開榜單，好的比差的高一兩個百分點，本質上是噪聲，不是信號。大家都在80%附近，差那一兩個點，主要是隨機波動，不代表真實能力的高低。

但實際使用上還是能感受到區別。

我的印象是，Claude在工具使用和agent場景目前還是最強的；Codex在純coding上最近追近了一些，把中間的差距縮小了；Gemini在純推理和日常使用下表現好，但在coding和agent上還在追趕。

更大的變化是，以前三家都在擔心能不能追上OpenAI，這個焦慮現在基本消失了。現在更難的問題是想明白接下來要做什麼。這是一個需要內部判斷力的賭，不是堆算力能算出來的答案。以前模型的差異在能力上，現在的差異更多來自於意願，來自於你想把哪個方向做到極致。

預訓練已經撞牆了嗎？

Q：預訓練的Scaling Law是否已經到頭？模型進步的速度是否在放緩？

A：完全沒有。我接下來四個月還會繼續，而且我沒看到要撞牆的跡象。

如果你給我一個每個月在某個榜單上漲多少分這樣的標準，那當然會變慢，因為滿分就是100分，越接近天花板漲得越慢。

但這個指標根本不代表用戶體驗到的模型能力增長。從50%到60%可能用戶感覺好了一點，從70%到75%用戶感受到的提升反而可能更大，因為那些以前做不到的事突然能做了。

說到頭的人，無非三種情況：一是覺得這個規律本身有物理邊界，scaling本質上不能無限延展；二是覺得數據已經撞牆了，沒有新的數據可以餵了；三是自己實驗裏有bug沒發現，以為規律失效了，其實是自己出了問題。

我的判斷是，絕大多數說到頭的案例屬於第三種。

遇到bug有兩種反應：覺得“這個肯定能解決”，你就繼續往前；覺得“這事到頭了“，你就停下來。

這本質上是一個信念問題，不是一個純技術問題。

做這行最重要的能力之一，是當實驗結果和預期不一樣的時候，你能不能系統性地排除各種可能性，而不是直接宣佈死亡。

Coding為什麼最先爆發?

Q：為什麼過去幾個月，coding能力的發展速度是最快的？

A：兩個結構性優勢，其他場景很難同時具備。

第一是反饋信號極其清晰。你寫一段代碼，要實現某個功能，輸入進去，輸出出來，能不能對上，非常客觀，沒有任何歧義。這讓訓練變得高效且穩定，模型能清楚地知道什麼叫做對，什麼叫做錯，梯度信號乾淨。相比之下，很多其他任務的好壞判斷要依賴人的主觀評價，既慢又貴，還有噪聲。

第二是數據基礎天然強。GitHub上幾十年積累的高質量代碼，是任何其他場景都不具備的資產。優秀程序員寫代碼的風格是收斂的，有公認的好壞標準：結構清晰，合理抽象，面向未來的可維護性，這些在好的工程師之間是有共識的。這意味着從數據裏學出來的「好代碼」是真實有意義的，不是噪聲。

從產品角度說，coding這個場景天然是效率工具，而效率工具最容易贏家通吃。一旦某個工具明顯比別的好，用戶沒有理由不遷移過去。這也是為什麼這個賽道競爭如此激烈。

OpenClaw也就外行熱鬧！

Q：怎麼看OpenClaw這類產品的出現？為什麼是外部團隊做出來，而不是硅谷大廠的研究員？

A：有意思的是，這件事在業內的討論遠沒有業外激烈。對內部人來說，OpenClaw並不是一個特別令人驚訝的事。很多公司內部其實早就有人做過類似的實驗或demo，只是沒有作為一個產品認真打磨發出去。你去看OpenClaw最早版本的代碼，其實寫得也不是特別乾淨，但它很重要的一件事是給大家展示了這種可能性。

技術上說，OpenClaw依賴的那些模型能力，其實在去年Claude Opus 3發佈的時候就已經具備了。不是到今年初才準備充分，而是更早就可以展示出來。他發佈之後也不是立即就火，過了一段時間才活起來。

為什麼不是大廠研究員先做出來？因為大公司的負擔太重了。一個研究員在公司內部做了一個有趣的demo，想把它發出去，要過法律審查，要確認不會損害品牌，要有穩定的資源支撐這條產品線，要保證不會因為模型權限過高而搞崩用戶的系統。Google不可能發佈一個可能會獲取你電腦上所有權限的產品，哪怕它很厲害。

但對個人來說無所謂，開源項目愛咋咋地，出了問題大家一起修。這就是為什麼這類東西永遠是先從外面冒出來，大廠跟上。

至於Manus和OpenClaw最後都賣給了模型公司，我覺得說明了一件事：目前來說壁壘主要還在模型側，應用層想長久生存，要麼跑得夠快在模型公司反應過來之前佔領足夠多的用戶同時自己做模型，要麼就找一個小到大公司懶得管的垂直場景。Cursor在走前一條路，但它現在和Anthropic的關係已經非常微妙了，曾經是親密合作夥伴，現在已經是競爭關係。這條路能不能走通，還不好說。

有了AI，為什麼工作時間反而變長了？

Q：AI寫代碼幫你提高了多少倍工作效率？還有什麼代碼是AI目前寫不了的？

A：保守估計，我現在90%的代碼是模型產生的。不保守的估計可能是99%，剩下那1%是給自己留點面子。

真正需要我花時間的，是確認模型寫的是不是我真正想要的，以及幫它提供合適的上下文——告訴它這段代碼需要跟哪些文件關聯，需要參考哪些已有的實現，整體的設計意圖是什麼。有了AI之後，寫代碼這件事最重要的地方變成了系統設計和意圖表達，真正打字輸出代碼這件事，模型比人強太多，人跟模型比這個沒有意義。

從實驗效率上說，比一年半前快了20到50倍。以前想驗證一個想法，可能先花半天配環境，碰到一個不熟悉的文件要約人講解，等一兩個小時才能繼續。現在碰到不懂的東西，問一下，五秒鐘有答案，接着幹。

但有個副作用：工作時間反而變長了。因為能試的想法太多，以前受限於執行速度而不得不放棄的念頭，現在都可以跑一遍，越試越想試，停不下來。

程序員的命運是否會被淘汰？

Q：程序員什麼時候會被徹底取代？未來什麼樣的程序員才能活下來？

A：這一天會來，但不會是一夜之間。不會是程序員還在，睡一覺起來全被開除了。它是一個漸進的過程，而且已經在發生了，有些公司已經開始以此為由裁員。

AI本質上是一種極度集中化的技術。它讓少部分人變得更強，同時讓大部分人失去他們的獨特價值。傳統軟件工程最後的結果，可能是現在十分之一的人幹了過去所有人的工作，拿着現在100倍的工資。剩下的人不是因為能力差，而是因為他們做的那種工作不再需要人來做了。

活下來需要什麼特質？現在來看有三件事：技術要非常強，因為如果技術弱，沒有任何理由說你不能被取代；能理解自己的工作怎麼嵌進一個大組織的目標裏，這種系統性視角AI目前還做不好；有足夠強的規劃能力，能把一個複雜的大問題拆成可執行的小步驟，分配給不同的agent去跑。

但我必須加一句：這三件事六個月之後可能AI全都能幹了。所以我只能說這是從現在的視角來看，過六個月再問我，答案可能會更悲觀。

Anthropic為什麼能在Coding領域獲勝？

Q：Anthropic的執行力從哪裏來？為什麼其他公司很難複製？

A：有一個條件很關鍵，也很難複製：技術上的決策人，同時也是公司層面的決策人。

這件事聽起來簡單，做到非常難。技術上要能服眾，下面的研究員才願意跟着你，你說這個方向重要他們才會全力投入，而不是陽奉陰違；同時你還得是公司真正的決策者，有權力為這件事調配資源，否則你的判斷永遠要經過一層又一層的審批，等到落地的時候機會窗口早關了。

其次是創始團隊的信任基礎。Anthropic的核心團隊，很多人是在同一批關鍵論文上的共同作者，Scaling Law那篇、RLHF的早期工作，那些名字高度重疊。他們從OpenAI一起出來，在最重要的研究節點上並肩作戰過，這種信任不是靠流程建立的，靠的是一起趟過不確定性積累出來的默契。這解釋了為什麼這家公司的核心團隊一直沒有人離開，而OpenAI那邊卻一直在動盪。

Google內部到底發生了什麼

Q：Google DeepMind的模型能力為什麼能突飛猛進？

A：最關鍵的變化是組織上清晰了。預訓練這件事，現在非常清楚誰負責什麼，每個節點的負責人是誰，資源怎麼分配，評估框架怎麼設計。以前據我瞭解是比較混亂的，大家各做各的，資源分散，方向也不統一。這種清晰化本身就能帶來巨大的效率提升。

Google在這件事上有一個天然優勢，就是一旦某件事變成了工程問題，它的工程管理能力極其強。預訓練現在已經是一個相對確定的範式，進入了Google的舒適區。它能把這件事做成一個極其精密的工程項目，給每一個關鍵變量建立評估體系，可預測，可迭代，你能知道下一代不會差，甚至能預測它會好多少。這是Google做搜索引擎積累下來的能力，現在用到了訓練大模型上。

中美差距，還有多少?

Q：中美模型差距在縮小嗎？怎麼看國內的「蒸餾」爭議？

A：過去一年半，差距確實在縮小，這是肉眼可見的趨勢。但最後會不會完全抹平，甚至中國超過去，我覺得是不清楚的問題。

中國在實際算力資源上處於很大的劣勢，但這個劣勢反而逼出了一些有意思的東西。國內模型公司在蒸餾這件事上確實做得很好，從某種意義上來說是被逼出來的。

但蒸餾有兩種，差別非常大。

一種是硬蒸餾：直接從Claude或GPT的輸出裏抽大量數據，強行拿來訓練自己的模型。這件事商業上存在道德問題，技術上也很蠢，因為你連自己真正想幹什麼都不知道，唯一能做的事就是複製別人，讓自己的模型在數字上好看一點，但沒有建立任何真正的能力。這種做法本質上暴露了一件事：這家公司不知道自己該做什麼。

另一種是聰明的蒸餾：用不同家的模型作為輔助或評價者，構建自己的訓練系統。比如用A家的模型生成候選答案，用B家的模型作為評判者，把這些信號融合進自己的訓練流程裏。這在商業上是灰色地帶，但技術上非常有趣，而且可能產生一些美國實驗室反而沒有的特性，不同家模型的語言分佈差異極大，把它們融合進一個訓練系統，某種程度上你做出來的是真正意義上的多智能體訓練，比用同一家的不同版本有意思得多。

為什麼離開Anthropic?

Q：當初為什麼離開正在起飛的Anthropic加入Google？

A：原因有幾個，我在公開場合說Dario那件事佔了40%，但這不是控股原因，只是一個很大的導火索。

主要原因是：我想學一些不一樣的東西。Anthropic非常專注，專注到你能學到的東西有很清晰的邊界。語言模型、工具使用、coding、agent，這條線上能學到很多，而且學得很深。但多模態生成你幾乎碰不到，大規模基礎設施的工程你也沒什麼機會深入。那個階段我覺得自己更想橫向擴展，而不是繼續在這條線上往深處走。

還有文化上的變化。公司快速擴張之後，從外面來了一些人，帶來了一些我不太適應的風氣。具體說就是：有人開始花很多時間在內部討論平台上講大道理，說很多聽起來很有見地的話，但不落地，不執行。想法是便宜的，把一個模糊的想法變成可執行的步驟做出來，才是真正難的事。我不太喜歡那種以想法換存在感的氛圍。

怎麼判斷一個AI研究員靠不靠譜

Q：你有什麼方法快速判斷一個候選人？

A：我出過一道面試題，24小時之內從零到一完成一個強化學習項目。自己選模型、選數據、選算法，把東西跑出來，然後和我聊一個小時。

這道題的設計有幾層考量。

第一層：在AI時代，考察代碼寫得好不好已經沒有太大意義了，模型能幫你全套做。真正重要的是這個人能不能有效地和AI協作，知道怎麼拆解問題，知道怎麼驗證模型的輸出，知道在哪些地方需要自己介入。

第二層：這道題有一個陷阱。如果你把整個任務全扔給AI，自己不真正理解AI為你做了什麼，那在最後一個小時的討論裏會暴露出來。這不是在考察你自己會不會寫代碼，而是在考察你有沒有真正參與進去，還是隻是在轉包。

第三層：為什麼是24小時。這是在看這個人有多在乎這個機會。24小時可以強迫一個真正想要這件事的人去熬夜，如果他撐不住，說明這件事對他來說可有可無，那可能這個機會對他來說也沒那麼重要。我想要的是那種會為了一件值得的事透支自己的人。

結尾

訪談快結束的時候，他說了一段話，我覺得值得原樣留下來：

"我們每個人都是衝浪的人，但本質上是那個浪，不是你那個衝浪的人。AI這件事會往前走，不管你衝不衝這個浪，這個浪都會拍到岸上。只是有人趕上了，有人沒趕上。"