【欄目對話和訪談】Sebastian 和 Nathan 在 Lex Fridman 播客深度解讀 AI 現狀：中美競爭、模型對比、規模定律、AGI 時間線

作者：寶玉AI

日期：2026年2月1日上午5:53

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

Sebastian Raschka 同 Nathan Lambert 深入拆解 AI 現狀：中美競爭、模型對比、規模定律與 AGI 時間線

整理版摘要

呢篇文章係 Lex Fridman 播客嘅 4 小時對話整理，嘉賓 Sebastian Raschka（《從零構建大語言模型》作者）同 Nathan Lambert（AI2 後訓練負責人）都係一線研究者。佢哋傾咗 AI 界幾乎所有熱門話題：中美競爭、模型對比、規模定律、訓練流程、AGI 時間線、開源 vs 閉源，仲有程序員會唔會被取代。

整體結論係：AI 進步好快，但唔係大眾想像嘅方式。架構根本上冇變過，所謂「突破」好多都係工程優化；AGI 可能唔係單一模型，而係一堆專業系統組合；人類仍然係核心，尤其係需求規格同系統設計。兩人對未來審慎樂觀，認為人類總會揾到辦法。

關鍵洞察包括：DeepSeek 開源贏得社區心，但美國模型目前較好；預訓練規模定律未死，但推理時擴展同 RLVR 更有吸引力；RLVR 係 2025 後訓練最大突破，50 步就可以解鎖模型已有知識；開源對培養下一代研究者至關重要，美國需要 ATOM 項目保持競爭力。

中美競爭：DeepSeek 開源贏得開源社區，但美國模型目前較好；中國開源模型許可證更寬鬆，係進入美國市場嘅曲線方式。
規模定律：預訓練擴展仍然有效，但性價比不如推理時擴展同強化學習擴展；GPT-4.5 就係例子。
後訓練突破：RLVR 可驗證獎勵強化學習係 2025 最大突破，用 50 步可將 MATH-500 準確率從 15% 跳到 50%，只係解鎖已有知識。
開源價值：獲取用戶、分發、數據私隱、定製需求，仲有教育同培養人才；美國需要開源模型保持競爭力，ATOM 項目就係為咗呢個。
程序員未來：軟件工程會更偏向系統設計，AI 工具需要清晰規格；「一個模型統治一切」嘅夢想正在死去，未來係多個專業代理協作。

整理重點

中美競爭與模型對比

Lex 一開場就問：中美之間邊個贏緊？Sebastian 話「贏」呢個詞太闊，DeepSeek 贏得開源社區嘅心，因為佢哋真係放曬模型出嚟。但長期睇，冇公司可以獨佔技術——研究員成日跳槽，諗法會流動。真正差異化係預算同硬件。

Nathan 補充：Claude 4.5 嘅熱度係有機增長，而 Gemini 3 營銷攻勢猛但好快被蓋過。「差異化程度在降低」，各家諗法空間好流通，但 Anthropic 喺代碼上嘅長期押注正在收成。

關於中國公司，Nathan 指出 DeepSeek 可能「正在失去王冠」——智譜 AI、MiniMax、月之暗面等喺 2025 下半年表現更亮眼。DeepSeek 啟動咗中國開源運動，中國公司會持續開源至少幾年，因為美國公司唔會買中國 API，開源係曲線進入美國市場嘅方式。

三人嘅模型偏好

1 Sebastian：多數用 ChatGPT 快速查嘢，非思考模式；偶爾用 Pro 模式深度檢查文章引用。
2 Nathan：從唔用 GPT-5 非思考模式，信息檢索用 GPT-5.2 思考模式或 Pro，快速問題用 Gemini，代碼同哲學討論用 Claude Opus 4.5，實時信息用 Grok。
3 Lex：用 Grok-4 Heavy 做硬核調試，界面偏好 Gemini 因為長上下文能力。

Sebastian 總結：「你一直用到佢出問題，出咗問題就換一個模型」，好似瀏覽器咁。Lex 問點解三個人都冇提中國模型？Sebastian 認為係平台同模型脱節——中國開源模型多數係權重下載，唔係產品界面。Nathan 補充：美國模型目前更好，所以大家都用佢哋。

整理重點

規模定律與訓練流程

「預訓練規模定律已死」呢句話傳得好廣。Nathan 先畀技術定義：規模定律係計算量同預測準確率之間嘅冪律關係，呢個關係仍然存在。問題係用戶可以從中拎到咩？而家有三種擴展方式：預訓練擴展、強化學習擴展、推理時擴展。

Nathan 話「容易摘嘅果子已經摘得差唔多」。預訓練變貴係因為服務成本——DeepSeek 預訓練成本約 500 萬美元，但服務百萬用戶嘅推理成本係「真正數十億美元」。Sebastian 補充：「唔會話預訓練擴展已死，只係而家有其他更有吸引力嘅擴展方式。」GPT-4.5 就係例子：預訓練更大模型嘅性價比不如用 o1 嘅推理時擴展。

訓練流程分三階段：預訓練（下一個詞預測，用高質量數據同合成數據）、中訓（針對長上下文，避免災難性遺忘）、後訓練（SFT、DPO、RLVR、RLHF）。後訓練係解鎖已有能力，唔係教新知識。數據規模方面，小型模型預訓練 5-10 萬億詞元，通義千問據說到 50 萬億，閉源實驗室傳言 100 萬億。

整理重點

後訓練前沿：RLVR vs RLHF

Nathan 話 2025 年後訓練最大突破係 RLVR（可驗證獎勵強化學習）。機制好簡單：模型嘗試解題，驗證答案正確性，正確性作為獎勵信號。呢個令模型可以學習工具使用、代碼執行、自我糾錯。

Sebastian 做咗個實驗：用 RLVR 對通義千問 2.5 基礎模型訓練僅 50 步，MATH-500 準確率從 15% 跳到 50%。「你唔可能喺 50 步裏面真係學識數學。知識早喺預訓練階段存在，RLVR 只係解鎖佢。」

關於 DeepSeek R1 嘅「頓悟時刻」——模型自發話「我做錯咗，等我再試一次」——Nathan 持懷疑態度：「呢啲『頓悟時刻』可能係假嘅。」因為預訓練數據中肯定有類似內容（數學講座轉錄、教學視頻字幕），RLVR 只係放大已有模式。Sebastian 補充：呢個亦解釋點解蒸餾能奏效——如果模型真係學到全新數學能力，蒸餾唔可能得。

整理重點

開源模型嘅價值與未來

Nathan 列舉開源嘅原因：獲取用戶（免費本地跑）、獲取分發（用用戶 GPU）、數據私隱</highlight>、定製需求。 Sebastian 補充：開源係培養下一代研究者嘅唯一方式——如果只得閉源模型，你只能加入公司後先學到，但點樣識別同招聘人才？

中國開源模型通常係大型 MoE 架構，峯值性能更高；美國偏好較小稠密模型。但中國模型許可證幾乎冇限制，相比 Llama、Gemma 有用戶數量上限，對商業化更友好。Nathan 發起咗 ATOM（美國真正開放模型）項目，目標係讓美國建立最佳開源模型，避免價值流向中國模型。

開源模型嘅四大價值

獲取用戶：好多人唔會付費訂閲 API，但願意喺本地跑模型。
獲取分發：OpenAI 都 GPU 唔夠用，開源可以用用戶嘅 GPU。
數據私隱：有啲數據你唔想發到雲端。
定製需求：企業可以喺開源模型上做專屬微調。

Sebastian 提到開源社區對 Llama 嘅批評可能太苛刻：「佢哋試圖做好事，畀我哋開源模型，然後我哋講負面說話，佢哋嘅反應就係『好啦，咁我哋改變主意』。」Nathan 預測唔會有開源嘅 Llama 5，因為內部政治鬥爭同激勵錯位。

整理重點

AGI 時間線與人類角色

AGI 定義爭議好大，Nathan 話「能替代大多數遠程工作者」係相對合理嘅標準。AI 2027 報告嘅預測已從 2027-28 年推遲到 2031 年（均值），Lex 嘅判斷更保守。Nathan 核心論點係 AI 能力「鋸齒狀」——某些事好擅長，某些事好差。

Nathan 話「一個模型統治一切嘅夢想正在死去」。未來可能係多個代理處理不同任務，互相協調——唔係一個超級大腦，而係一羣專家組成嘅團隊。Sebastian 同意但反問：「咁樣真係 AGI 嗎？如果 AGI 嘅實現方式係一堆專用系統組合，個詞需要重新思考。」

人類嘅未來：Sebastian 話唔擔心 AI「接管」，因為「你必須話俾佢做咩，佢唔會自己獲得代理權」。Nathan 預測物理商品同線下活動價值會急劇上升，因為 AI 生成垃圾內容只會更多。Lex 結尾話：「如果人類同機器後奇點戰爭，人類會贏——我哋太聰明，而且可能會用本地開源 LLM 幫手對抗機器。」

Sebastian Raschka 和 Nathan Lambert 坐在 Lex Fridman 的播客裏，聊了整整 4 個小時。

Sebastian 是《從零構建大語言模型》一書的作者，那本書教你從零開始寫一個 GPT-2。Nathan 是艾倫人工智能研究所（AI2）的後訓練負責人，寫了業界最權威的 RLHF（基於人類反饋的強化學習）書籍。兩個人都是真正在一線做研究、訓練模型的人。

這期播客覆蓋了 AI 領域幾乎所有熱門話題：中美競爭、模型對比、規模定律（Scaling Laws，即模型性能隨計算量增長的規律）、訓練流程、AGI（通用人工智能）時間線、程序員是否會被取代……信息密度極高。以下是按訪談順序整理的核心內容。

Lex 開場就拋了一個問題：國際層面，中國還是美國在贏？

Sebastian 的回答很謹慎："贏"這個詞太寬泛了。他認為 DeepSeek 贏得了開源社區的心，因為他們真的把模型放出來了。但長期來看，不會有任何一家公司獨佔某種技術——研究者頻繁跳槽，想法會流動。真正的差異化因素是預算和硬件。

Nathan 補充了一個有趣的觀察：Claude 4.5 的熱度是有機增長的，而幾個月前 Gemini 3 發佈時營銷攻勢很猛，但熱度很快就被 Claude 蓋過了。

"差異化程度在降低，"他說。各家的想法空間很流通，但 Anthropic 在代碼上的長期押注正在收到回報。

關於中國公司，Nathan 指出 DeepSeek 可能正在"失去王冠"——智譜 AI、MiniMax、月之暗面等公司在 2025 年下半年表現更加亮眼。DeepSeek 啓動了中國的開源運動，就像 ChatGPT 啓動了美國的聊天機器人運動一樣。

"中國現在有大量科技公司在發佈非常強的前沿開源模型。"

Lex 追問：中國公司會持續開源多久？

Nathan 的判斷是：至少幾年。中國公司很清楚，美國頂級科技公司出於安全顧慮不會購買中國 API 服務。開源模型是一種"曲線進入"美國市場的方式——用戶在本地運行，既獲得分發又不觸發安全紅線。

"他們對此非常現實，而且正在奏效。"

ChatGPT、Claude、Gemini、Grok：誰更強？

Lex 問：2025 年哪個模型贏了？2026 年誰會贏？

Nathan 坦言很難押注 Gemini 超過 ChatGPT，因為 OpenAI 是市場領先者，在科技行業這有巨大優勢。但 Gemini 的勢頭確實在上升。他的判斷是：Gemini 會繼續蠶食 ChatGPT 的份額，Anthropic 會在軟件和企業端持續成功。

關於個人使用習慣，三人的偏好完全不同：

Sebastian：大多數時候用 ChatGPT 快速查東西，用非思考的快速模式。偶爾用 Pro 模式做深度檢查，比如讓它徹底審查一篇文章的引用、格式、邏輯。

Nathan：從不碰 GPT-5 的非思考模式。信息檢索一律用 GPT-5.2 思考模式或 Pro，快速問題用 Gemini，代碼和哲學討論用 Claude Opus 4.5（帶擴展思考），實時信息用 Grok。

"我簡直不敢相信你用路由模式和非思考模式。"

Lex：用 Grok-4 Heavy 做硬核調試，其他模型解決不了的問題它能解。界面上更偏好 Gemini，因為它的長上下文能力——在"大海撈針"場景下（即從海量文本中找到特定信息），Gemini 對他來說表現最好。

Sebastian 總結了一個普遍規律："你一直用到它出問題，出了問題就換一個模型。"

就像瀏覽器一樣——Safari、Firefox、Chrome 功能差不多，你不會同時打開三個瀏覽器對比同一個網頁。你用習慣的那個，直到它出問題。

Lex 提了一個尖鋭的問題：我們三個都沒提中國模型。這說明什麼？

Sebastian 認為這是平台和模型的脱節——中國開源模型更多是作為權重被下載使用，而不是通過產品界面。Nathan 補充：美國用戶願意為邊際智能付費，而中國公司還沒找到讓美國用戶付費的方式。

"簡單說，美國模型目前更好，我們就用它們。"

最佳編程 AI

Lex 說他一半用 Cursor，一半用 Claude Code，因為它們是"根本不同的體驗"。

Sebastian 用 Cursor（VS Code 插件版），因為方便——一個聊天窗口直接訪問代碼庫。他還沒準備好讓 AI 完全接管項目。"也許我是個控制狂，但我還是喜歡看到正在發生什麼。"

Nathan 做了一個有趣的對比測試建議：同時打開 Claude Code、Cursor、VS Code，選同樣的模型，問同樣的問題。結果會很不一樣。

"Claude Code 在這個領域好太多了，真的很驚人。"

Lex 解釋他用 Claude Code 的原因："培養用英語編程的能力"。這是一種完全不同的思維方式——不是盯着代碼細節和差異對比，而是用自然語言在宏觀層面指導，像做設計。

Sebastian 提了一個值得思考的問題：如果大語言模型隨時可用，你還會去"掙扎"嗎？

資深開發者用 AI 更多，可能是因為他們更會用、更會審查。但新人如果從不經歷掙扎，怎麼成為專家？"我是通過自己嘗試來學習的。如果大語言模型一直在那兒，你還會願意掙扎嗎？"

開源與閉源大模型

Lex 讓兩人即興列舉能想到的開源模型。

Nathan 開始報名：DeepSeek、Kimi、MiniMax、01.AI、月之暗面……

Sebastian 接力：Mistral、Gemma、GPT-o1（OpenAI 的開源模型）、英偉達的 Nemotron-3、通義千問……

"你能至少說出 10 箇中國的，至少 10 個西方的。"

Nathan 提到一個關鍵區別：中國開源模型通常是大型 MoE（混合專家模型，即模型內部有多個"專家"子網絡，每次只激活一部分）架構，峯值性能更高；美國偏好的 Gemma、Nemotron 等往往是較小的稠密模型（所有參數每次都參與計算）。但這正在改變——Mistral Large 2 就是一個巨型混合專家模型。

Sebastian 指出中國模型許可證的優勢：幾乎無限制。而 Llama、Gemma 有用戶數量上限等條款。對於想基於開源模型做商業化的公司，中國模型限制更少。

為什麼要開源？Nathan 列了幾個原因：

1. 獲取用戶——很多人不會付費訂閲 API，但願意在本地跑模型
2. 獲取分發——OpenAI 都 GPU 不夠用，開源可以用用戶的 GPU
3. 數據隱私——有些數據你不想發到雲端
4. 定製需求——企業可以在開源模型上做專屬微調

Sebastian 補充：開源還解決了教育和人才問題。如果只有閉源模型，你只能加入公司後才能學習，但怎麼識別和招聘人才呢？"開源是培養下一代研究者的唯一方式。"

Transformer 架構：從 2019 年到現在的演進

Lex 問了一個基礎但重要的問題：從 GPT-2 到今天，架構到底變了多少？

Sebastian 的回答可能讓很多人意外：

"從根本上說，架構還是一樣的。"

具體變化可以列出來：

• 混合專家模型（MoE）：不是 DeepSeek 發明的，但他們用得很好
• 多頭潛在注意力（MLA）：DeepSeek 的注意力機制變體
• 分組查詢注意力（GQA）：比 MLA 更早出現，很多模型在用
• 滑動窗口注意力：OLMo-2 在用
• RMSNorm 替代 LayerNorm（兩種歸一化方法）
• 非線性激活函數的微調

"你可以從一個模型轉換到另一個，只需要添加這些改動。"

Sebastian 在他的書裏就是這麼做的：從 GPT-2 出發，增量修改得到 OLMo、Llama 3 等。

Nathan 補充了另一個變化維度：系統層面。FP8、FP4 訓練（低精度浮點數），更高效的 GPU 通信，更快的每秒每 GPU 生成詞元數。這些不改變架構，但讓實驗速度大幅提升。

"你現在訓練一個 GPT-MoE 8x7B 的實際耗時可能比當年訓 GPT-2 還快。"

Sebastian 提到一些替代架構正在冒頭：文本擴散模型、Mamba（狀態空間模型）。但它們有各自的權衡取捨。如果追求最先進的效果，自迴歸 Transformer 仍然是首選。

規模定律：死了還是活着？

這是個敏感話題。"預訓練規模定律已死"這句話在圈內流傳很廣。

Nathan 先給了技術定義：規模定律是計算量/數據量（x 軸）和預測準確率（y 軸）之間的冪律關係。這個關係仍然存在。問題是：用戶能從中得到什麼？

現在有三種擴展方式：

1. 預訓練擴展：模型大小 + 數據量
2. 強化學習擴展：RL 訓練時間
3. 推理時擴展：生成更多詞元

"我還是比較樂觀的。這三種方式都還在起作用，只是容易摘的果子已經被摘得差不多了。"

Nathan 解釋預訓練變貴的原因：訓練一個萬億參數模型意味着你要向用戶提供一個巨型模型，服務成本極高。DeepSeek 預訓練成本約 500 萬美元聽起來不多，但服務百萬用戶的推理成本是"真正數十億美元"的開銷。

Sebastian 的觀點更平衡："我不會說預訓練擴展已死，只是現在有其他更有吸引力的擴展方式。"

在理想世界裏，你會同時做預訓練、中訓、後訓、推理時擴展——如果有無限計算資源的話。現實是你要選擇把錢花在哪裏。

GPT-4.5 就是一個例子：預訓練一個更大的模型，性價比不如用 o1 這樣的推理時擴展。

Nathan 預測 2026 年會出現 2000 美元/月的訂閲服務——是現在 200 美元的 10 倍。新的 Blackwell 計算集羣正在上線，實驗室會有更多訓練計算資源。

訓練流程詳解：預訓練、中訓、後訓練

Sebastian 給了清晰的定義：

預訓練：經典的下一個詞預測，在海量互聯網數據、書籍、論文上訓練。現在不只是扔原始數據進去，還包括合成數據——把維基百科文章改寫成問答格式，用光學字符識別提取 PDF 文本，清理和重組數據。

"更高質量的數據讓模型訓練更快。如果語法和標點都正確，它直接學到正確的方式，而不是先學錯再糾正。"

中訓：類似預訓練但更聚焦，比如專門針對長上下文文檔。為什麼單獨拎出來？因為長上下文文檔本來就少，而且神經網絡有"災難性遺忘"問題——學新東西會忘舊東西。中訓是一種選擇性的、高質量的階段。

後訓練：所有微調階段，包括 SFT（監督微調，用人類標註的問答對訓練）、DPO（直接偏好優化）、RLVR（可驗證獎勵強化學習，用可驗證的正確答案作為獎勵）、RLHF（人類反饋強化學習）。這裏不是教模型新知識，而是"解鎖"它已有的能力。

Nathan 補充了數據規模的概念：小型模型的預訓練數據集是 5-10 萬億詞元，通義千問據說到 50 萬億，閉源實驗室傳言達到 100 萬億。但這只是原始數據，實際訓練的是篩選後的一小部分。

關於合成數據，兩人都強調：這不等於"AI 編造的數據"。它包括光學字符識別提取、格式轉換、數據清洗——很多是技術處理而非憑空生成。

後訓練前沿：RLVR 與 RLHF

Nathan 說 2025 年後訓練最大的突破是 RLVR（可驗證獎勵強化學習）。

機制很簡單：模型嘗試解題，驗證答案正確性，正確性作為強化學習的獎勵信號。這讓模型能學習工具使用、代碼執行、自我糾錯等行為。

"推理時擴展和 RLVR 訓練之間有一種完美的耦合。"

Sebastian 做了一個實驗：用 RLVR 對通義千問 2.5 基礎模型訓練僅 50 步，MATH-500 準確率從 15% 跳到 50%。

"你不可能在 50 步裏真的學會數學。知識早就在預訓練階段存在了，RLVR 只是解鎖它。"

關於 DeepSeek R1 論文裏著名的"頓悟時刻"——模型自發說"啊，我做錯了，讓我再試一次"——Nathan 持懷疑態度：

"這些'頓悟時刻'可能是假的。"

他的理由是：預訓練數據中肯定包含類似內容——數學講座轉錄、教學視頻字幕，裏面充滿了老師的自我糾錯。RLVR 不是發明新行為，是放大已有模式。

Sebastian 補充：這就是為什麼蒸餾能奏效。如果模型真的在 RLVR 過程中學到全新的數學能力，蒸餾應該不可能。

RLVR 與 RLHF 的關鍵區別

Nathan：RLHF 有天然上限。偏好是主觀的、可平均的，訓練到一定程度後繼續投入計算沒有意義。歷史上的 RLHF 規模定律論文標題是《獎勵模型過擬合的規模定律》——講的是過擬合問題，不是持續提升。

但 RLVR 不同。OpenAI 的 o1 論文展示了真正的規模定律：計算量對數增長，性能線性增長。DeepSeek 復現了這個結果。

"你可以讓最好的 RLVR 訓練多跑 10 倍，獲得更好的性能。但 RLHF 做不到。"

這將定義這個領域。

入行建議：如何進入 AI 研發

Sebastian 的建議：從零實現一個小模型。

"目標不是做一個日常使用的個人助手，而是理解大語言模型裏面到底有什麼。"

在你的筆記本上跑，理解預訓練、注意力機制、微調。然後你會遇到瓶頸——大規模訓練的複雜性：參數分片、鍵值緩存實現細節、分佈式系統。

"書裏的代碼是為了理解，不是為了生產。一旦你有了基礎，你就能讀懂生產級代碼。"

一個實用技巧：從 Hugging Face Transformers 庫加載預訓練權重，然後在你自己的架構實現裏跑。如果輸出一致，你的實現就是對的。

Nathan 的建議更偏向職業路徑：

對於零計算資源的研究者，最有影響力的路徑是：創建讓前沿模型失敗的評測基準。如果你的基準被 Claude 或 GPT 下一版在博客裏引用，職業生涯起飛。

"你可能需要花幾周時間真正理解一個狹窄的領域。但一旦你做到，可能全世界只有 2-3 個人在深度關注這個問題。找到他們，給他們發郵件。"

他舉了一個例子：一個牛津學生聯繫他，對"角色訓練"感興趣——如何讓模型變得幽默、諷刺或嚴肅。Nathan 指導了他，論文已經發表。當時全球可能只有 2-3 個人在深度關注這個話題。

另一條路是加入前沿實驗室。Nathan 說，如果你進了 OpenAI，最有影響力的貢獻方式可能不是"發明下一個 o1"，而是：找到更好的數據，或讓團隊實驗速度提升 5%。

"花哨的算法工作是最性感的想法，但大多數貢獻是讓數據更好，或讓基礎設施更好。"

AI 工作文化：996 與幸福感

Lex 提到 996——早 9 晚 9，一週 6 天。這原本是中國科技公司的文化，現在已經滲透硅谷 AI 實驗室。

Sebastian 說他在學術界時也是這種狀態——教授要寫科研經費申請、教課、做研究，三份工作合一。但現在看來，前沿實驗室的壓力可能更大。

Nathan 的觀察更直接：

"我那些當教授的朋友，平均來看比在前沿實驗室工作的朋友更幸福。"

OpenAI 平均每位員工每年獲得超過 100 萬美元股票薪酬。但高薪不等於幸福。

教授有學生輔導帶來的成就感，有穩定的研究方向，有明確的使命感。而實驗室的節奏是無止境的競爭——模型在互相追趕，沒有終點。

Nathan 提到帕特里克·麥基的書《蘋果在中國》：蘋果在中國建供應鏈時有"拯救婚姻項目"的代號——當工程師必須回家挽救婚姻時，同事會進入緊急接替狀態。

"有人因這種程度的過度工作死亡。"

Sebastian 補充：很多時候不是被強迫的，是太熱愛這件事了。他自己也有過過度工作導致的身體問題——背痛、頸椎問題。"不是因為有人逼我，是因為我想工作，因為這東西太激動人心了。"

硅谷泡沫

Lex 提到他和各種各樣的人交流，能清楚看到各種"泡沫"和"回聲室"。硅谷毫無疑問是一個。

"泡沫實際上可以非常有用和有效。"它像喬布斯的現實扭曲場——你們互相說服突破即將到來，然後突破真的就來了。

Nathan 提到伯恩·霍巴特的泡沫分類：金融投機型（壞的）和基礎設施建設型（好的）。AI 目前處於後者，但有轉向前者的風險。

一個極端例子是"永久下層階級"這個梗，意思是 2025 年下半年是唯一能在 AI 創業中創造持久價值的窗口，否則所有價值都將被現有公司捕獲，你就會變窮。

"這是舊金山 AI 圈文化走向極端的例子。"

Lex 的建議：如果你要進入這個泡沫——它確實有價值——也要出來。讀歷史書，讀文學，去世界其他地方看看。推特和 Substack 不是整個世界。

新研究方向：文本擴散模型

Sebastian 介紹了一個正在冒頭的替代架構：文本擴散模型。

原理類似圖像生成的 Stable Diffusion——從隨機噪聲開始，迭代去噪。但應用到文本上，不是一個詞元一個詞元生成，而是並行填充多個位置。

優勢是可能更快。但權衡在於某些任務本質上是串行的，比如需要中間結果的推理任務、需要調用工具的場景。

Nathan 提到一個實際用例：代碼創業公司用文本擴散生成超長的代碼差異，因為自迴歸模型生成這種東西需要幾分鐘，用戶流失嚴重。

谷歌宣佈推出 Gemini Diffusion，定位是 Nano-2 模型同等質量但更快。

Sebastian 的判斷：文本擴散不會取代自迴歸 Transformer，但會成為"廉價快速選項"——也許是免費層級的選擇。

工具使用

Sebastian 強調 GPT-o1（OpenAI 的開源模型）是第一個真正為工具使用設計訓練的公開模型。這是一個範式轉變。

"大語言模型最常見的抱怨是幻覺。解決幻覺最好的方式之一是：不要試圖記憶一切。數學問題？用 Python 計算器。歷史問題？做網絡搜索。"

但開源生態對工具使用的支持仍然滯後。部分原因是信任問題：你不想讓大語言模型在你電腦上有執行任意命令的權限。需要容器化、沙箱等基礎設施。

Nathan 指出開源和閉源模型在工具使用上的不同處境：

閉源模型（ChatGPT、Claude）可以深度集成特定工具——搜索、代碼執行、文件系統。用戶體驗是無縫的。

開源模型需要兼容各種用戶自定義的工具配置。你用 OpenRouter 可能想接不同的搜索後端，這就需要模型更通用、更靈活，但也更難優化。

Sebastian 提到一篇 2024 年底的論文《遞歸語言模型》：將長上下文任務分解為子任務，遞歸調用大語言模型解決每個子任務，每個子任務可以調用工具。

"你不是把所有東西塞進一個長上下文，而是分解成多個小調用。這樣節省內存，準確率還更高。"

持續學習

這是 AGI 討論中的關鍵缺失能力。

Nathan 解釋：當前大語言模型無法像人類員工那樣從反饋中快速學習。你告訴一個編輯他犯了錯，好編輯下次不會再犯。但大語言模型做不到，它的權重是固定的。

如果我們想要一個能"替代遠程工作者"的系統，它需要能從在職學習中快速適應。

但 Nathan 對"必須更新權重"持懷疑態度：

"我對語言模型通過很好的上下文就能快速學習比較樂觀。你可以寫詳細的文檔——'這是我寫過的所有博客，我的風格基於這些'。但很多人不提供這些給模型。"

也許不需要真正的持續學習，只需要足夠好的上下文工程。

Sebastian 補充了障礙：為每個用戶更新權重太昂貴了。即使是 OpenAI 的規模，為每個用戶定製模型也不現實。

可能的突破口是設備端模型，比如蘋果智能，成本由消費者的硬件承擔。

長上下文

Nathan 說業界普遍認為長上下文是計算和數據問題。你可以用架構變體（混合注意力模型）來降低計算成本，但這些不是免費的——需要配合大量計算和正確的數據。

"100 萬詞元的序列在世界上有多少？這些數據從哪來？訓練成本很高。"

目前已經很快到達 100 萬詞元窗口。Nathan 預計今年會增長到 200 萬或 500 萬，但 1 億詞元不太可能很快實現。

關於後訓練的有趣方向：讓代理自己管理上下文。

Claude 用戶都知道"壓縮"的痛苦，當對話太長時，Claude 會把整個歷史壓縮成要點列表。Nathan 說下一代模型可能會訓練"壓縮作為一種動作"，模型自己決定何時壓縮、如何壓縮，目標是最小詞元數保持最大性能。

Sebastian 提到 DeepSeek-V3 的稀疏注意力機制，用輕量級索引器選擇"實際需要注意的詞元"，而不是注意全部。這是在全注意力和壓縮之間尋找平衡。

機器人

Lex 說他最近腦子裏一直在想機器人。這是一個幾乎沒在播客裏討論的領域。

Nathan 對這個領域的投資很興奮，大語言模型的基礎設施正在惠及機器人領域。Hugging Face 可能會成為機器人模型的開源生態中心——下載模型、微調、共享數據集。

但他對消費級家用學習型機器人非常悲觀。

"我對自動駕駛非常樂觀，對工業自動化非常樂觀——比如亞馬遜專門為機器人設計的配送中心。但家用機器人？"

家庭環境太複雜了。每個人的家都不一樣，機器人需要在現場快速適應，回到持續學習的瓶頸。

Lex 提了一個幾乎沒人討論的問題：安全。

"學習機器人的所有有趣複雜性，我們討論的所有失敗模式，在大語言模型領域這都是好玩的。但在機器人領域，在人們家裏，在數百萬分鐘和數十億次交互中，你幾乎不允許任何失敗。"

AGI 時間線

Nathan 說 AGI（通用人工智能）和 ASI（超級人工智能）的定義爭議很大，但"能替代大多數遠程工作者"是一個相對合理的標準。

AI 2027 報告（原《態勢感知》）的預測已從 2027-28 年推遲到 2031 年（均值預測）。

Lex 的判斷更保守，"甚至比 2031 還要遠"。

Nathan 的核心論點是 AI 能力是"鋸齒狀的"，某些事情非常擅長，某些事情很差。

"這些模型在傳統機器學習、前端方面非常出色。但分佈式機器學習訓練？模型實際上相當差，因為這方面的訓練數據太少了。"

他不相信"自動化軟件工程師"會完全實現，因為這意味着在所有領域都達到超人水平。更可能的是，模型在某些代碼領域已經超人，人類填補它們的弱點，兩者配合快速前進。

"到今年年底，被自動化的軟件量將非常高。但像用多組 GPU 通信訓練強化學習模型這樣的事仍然很難，可能一兩年後會容易很多。"

程序員會被取代嗎？

Nathan 的判斷：軟件工程會變得更偏向系統設計和結果導向。

"人們從說'AI 代理是垃圾貨（slop）'到'軟件的工業化，任何人都能用自己的指紋創建軟件'，只花了幾周時間。"

一個驚人的細節：Cursor 的 Composer 模型（基於中國大型混合專家模型微調——有時用中文回覆可以判斷出來）"每 90 分鐘根據真實用戶反饋更新模型權重"。

"這是我見過的最接近現實世界強化學習的實踐。"

Sebastian 提了一個務實的問題：需求規格。

"問題是你還得告訴大語言模型你想要什麼。大語言模型可以寫代碼，但你需要告訴它目標是什麼。"

Lex 認為這是人類技能問題。很多程序員對 AI 工具持懷疑態度，可能部分是因為他們沒學會如何正確使用——清晰的規格、足夠的上下文、正確的期望。

Nathan 補充：失敗模式目前很蠢。"Claude，你試了 14 次我沒裝的命令行工具，然後我發給你要運行的命令。"從建模角度看，這是可修復的問題。

AGI 夢想是否在死去？

Nathan 說了一句大膽的話：

"'一個模型統治一切'的夢想正在死去。"

他的理由是：Claude 雖然是通用模型，但它越來越依賴集成——搜索、代碼執行、文件系統。真正的用法是 Claude + 工具，不是純 Claude。

未來可能是多個代理處理不同任務，互相協調。不是一個超級大腦，是一羣專家組成的團隊。

Sebastian 同意但提了一個反問：那這真的是 AGI 嗎？"我們正在專業化。這和以前的專用算法有什麼本質區別？"

他認為真正的突破是有了"基礎模型可以專業化"——這是新的。但如果 AGI 的實現方式是一堆專用系統的組合，那這個詞的含義需要重新思考。

AI 如何賺錢？

Sebastian 提到廣告是必然的。

"我幾年前就提過：如果你問推薦跑鞋，耐克先出現是巧合嗎？"

Nathan 說問題是競爭，只要有一家不放廣告，用戶就會流向那裏。目前大家都在用風投的錢補貼，沒人想先動。

但他認為廣告可以是好的："如果我是一個做世界上最好牛排刀的小公司，我想讓需要的人找到我。AI 如果能讓這種匹配更好，對世界是好事。"

壞的是讓人上癮的信息流以展示更多廣告。

他預測 10 年後的格局：靠廣告收入可以補貼更好的研發、訓練更好的模型。YouTube 就是這個邏輯，廣告收入讓它主導視頻市場。

2026 年大收購

Nathan 預計 200 億美元級別的收購會變得常見。Groq 被收購（傳聞約 200 億），Scale AI 估值近 300 億。

但他擔心一種新型交易結構：授權協議而不是真正的收購。這對硅谷生態有害，不是全員受益的收購，而是隻帶走頂尖人才。

"如果你加入創業公司，即使它不那麼成功，公司被收購時你的股權會變現。但這種授權協議只帶走高管。"

關於首次公開募股：只要融資容易，這些公司不會上市。公開市場會帶來壓力。但 MiniMax 和智譜 AI 已經在中國提交了上市申請。

各大公司前景

OpenAI：總是看起來混亂，但總能落地。GPT-5 的路由功能可能幫他們省了很多 GPU 成本。

Anthropic：文化上最不混亂，在企業和軟件市場持續成功。

谷歌：規模優勢，自研芯片不用付英偉達的利潤空間，數據中心先發優勢。如果有新範式，最可能來自 OpenAI；如果是規模競爭，谷歌更有利。

Meta/Llama：完蛋了。Nathan 預測不會有開源的 Llama 5。

"內部政治鬥爭、激勵錯位、研究者追求最佳模型與管理層追求公關的衝突。"

扎克伯格 2024 年 7 月寫了"可能是當時最好的開源 AI 案例"博文，2025 年 7 月就說"我們正在重新評估與開源的關係"。

Sebastian 補充：開源社區對 Llama 的批評可能太苛刻了。"我們作為開源開發者可能有點太嚴厲了。他們試圖做好事，給我們開源模型，然後我們說負面的話，他們的反應是'好吧，那我們就改變主意'。"

ATOM 項目

Nathan 發起了 ATOM（美國真正開放模型），目標是讓美國建立最佳開源模型。

"這些中國開源模型正在積累影響力。如果最好的研究發生在使用中國模型的基礎上，價值就流向那裏了。"

美國國家科學基金會給 AI2 提供了 1 億美元 4 年撥款——基金會史上最大的計算機科學撥款。英偉達也在加大 Nemotron 等開源模型的投入。

但他強調：任何開源模型都是有價值的模型。他不是要"禁止中國模型"，而是要美國在開源領域有競爭力。

AI 曼哈頓計劃

Lex 提到 AI 2027 報告的一個敍事：隨着 AI 變強，國家安全擔憂會導致集中化——實驗室合併、保密加強、軍方介入，變成中美之間的競賽。

Sebastian 不同意這會在 2025-27 年發生：

"你可以對計算機說同樣的話——'計算機太強大了，不能讓公眾擁有'。或芯片。看看華為現在在造芯片。你無法控制知識的傳播。"

Nathan 提了一個有趣的反向思路：開源模型的"曼哈頓計劃"成本其實不高。

"一億美元左右就能訓一個前沿開源模型。對這些公司來說這不算什麼。"

英偉達與計算未來

Sebastian 說英偉達的真正護城河不是 GPU，是 CUDA 生態系統，二十年積累的軟件棧。

"即使 15 年前我做生物物理模擬時，我們就用 Tesla GPU。他們在這上面投資了很久。"

Nathan 說只要黃仁勳還這麼深度參與運營，英偉達就會持續創新。"他的投入程度和其他大公司很不一樣。"

關於太空數據中心的想法：問題不是能源（太陽能充足），是散熱，太空沒有空氣散熱，還會接收太陽輻射。但有大量空間可以放集羣，工程上可能可以解決。

人類文明的未來

Lex 問：100 年後，歷史學家會怎麼看我們這個時代的技術突破？

Sebastian：可能不會記得"AI"或"Transformer"。會記得的是"計算"，就像我們說"工業革命"而不是"蒸汽機"。

Nathan 補充："深度學習"這個詞大概率會留下來。

關於人類與機器的關係，Sebastian 說他不擔心 AI"接管"：

"我們人類決定我們想做什麼。AI 在當前實現中——你必須告訴它做什麼。它不會自己獲得代理權。你仍然是負責人。"

Nathan 對未來幾年的預測：

"物理商品和線下活動的價值會急劇上升。垃圾內容只會更多。接下來幾年會有更多、更多樣的 AI 生成垃圾內容。"

他希望社會"淹沒在垃圾內容中然後醒悟"，意識到數字內容太多、太廉價，然後物理存在變成稀缺品。

Sebastian 說即使是現在，如果他知道一篇文章明顯是 AI 生成的，他就不想讀了。"算了，不適合我。"

Lex 最後問：有什麼讓你們對人類文明的未來抱有希望？

Nathan 的回答：

"人類總能找到辦法。這就是人類生來要做的——建立社區，想辦法解決問題。這就是我們走到今天的方式。"

Sebastian 的回答：

"完全同意。如果有什麼會出錯，那是因為有東西被明確編程去做有害的事。AI 本身不會'接管'。"

Lex 的結尾：

"如果是人類和機器的後奇點、後末日戰爭，我認為人類會贏。我們太聰明瞭。很難解釋我們怎麼會想出辦法，但我們會的。而且我們可能會用本地大語言模型、開源大語言模型來幫助對抗機器。"

這場 4 小時的對話覆蓋了 AI 的幾乎所有維度：技術細節、商業邏輯、人才市場、社會影響、哲學思考。兩位嘉賓都是真正在一線的人，他們的判斷不一定對，但至少是基於真實經驗。

如果要提煉一個核心主題：AI 正在快速進步，但不是以人們想象的方式。架構沒怎麼變，"突破"很多是工程優化，AGI 可能不是"一個模型"，而人類的位置仍然是核心的、不可替代的。