【欄目對話和訪談】Sebastian 和 Nathan 在 Lex Fridman 播客深度解讀 AI 現狀:中美競爭、模型對比、規模定律、AGI 時間線

作者:寶玉AI
日期:2026年2月1日 上午5:53
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

Sebastian RaschkaNathan Lambert 深入拆解 AI 現狀:中美競爭、模型對比、規模定律與 AGI 時間線

整理版摘要

呢篇文章係 Lex Fridman 播客嘅 4 小時對話整理,嘉賓 Sebastian Raschka(《從零構建大語言模型》作者)同 Nathan Lambert(AI2 後訓練負責人)都係一線研究者。佢哋傾咗 AI 界幾乎所有熱門話題:中美競爭、模型對比、規模定律、訓練流程、AGI 時間線、開源 vs 閉源,仲有程序員會唔會被取代。

整體結論係:AI 進步好快,但唔係大眾想像嘅方式。架構根本上冇變過,所謂「突破」好多都係工程優化;AGI 可能唔係單一模型,而係一堆專業系統組合;人類仍然係核心,尤其係需求規格同系統設計。兩人對未來審慎樂觀,認為人類總會揾到辦法。

關鍵洞察包括DeepSeek 開源贏得社區心,但美國模型目前較好;預訓練規模定律未死,但推理時擴展同 RLVR 更有吸引力;RLVR 係 2025 後訓練最大突破,50 步就可以解鎖模型已有知識;開源對培養下一代研究者至關重要,美國需要 ATOM 項目保持競爭力。

  • 中美競爭DeepSeek 開源贏得開源社區,但美國模型目前較好;中國開源模型許可證更寬鬆,係進入美國市場嘅曲線方式。
  • 規模定律:預訓練擴展仍然有效,但性價比不如推理時擴展同強化學習擴展;GPT-4.5 就係例子。
  • 後訓練突破RLVR 可驗證獎勵強化學習係 2025 最大突破,用 50 步可將 MATH-500 準確率從 15% 跳到 50%,只係解鎖已有知識。
  • 開源價值:獲取用戶、分發、數據私隱、定製需求,仲有教育同培養人才;美國需要開源模型保持競爭力,ATOM 項目就係為咗呢個。
  • 程序員未來:軟件工程會更偏向系統設計,AI 工具需要清晰規格;「一個模型統治一切」嘅夢想正在死去,未來係多個專業代理協作。
整理重點

中美競爭與模型對比

Lex 一開場就問:中美之間邊個贏緊?Sebastian 話「贏」呢個詞太闊,DeepSeek 贏得開源社區嘅心,因為佢哋真係放曬模型出嚟。但長期睇,冇公司可以獨佔技術——研究員成日跳槽,諗法會流動。真正差異化係預算同硬件。

Nathan 補充Claude 4.5 嘅熱度係有機增長,而 Gemini 3 營銷攻勢猛但好快被蓋過。「差異化程度在降低」,各家諗法空間好流通,但 Anthropic 喺代碼上嘅長期押注正在收成。

關於中國公司,Nathan 指出 DeepSeek 可能「正在失去王冠」——智譜 AI、MiniMax、月之暗面等喺 2025 下半年表現更亮眼。DeepSeek 啟動咗中國開源運動,中國公司會持續開源至少幾年,因為美國公司唔會買中國 API,開源係曲線進入美國市場嘅方式。

三人嘅模型偏好

  1. 1 Sebastian:多數用 ChatGPT 快速查嘢,非思考模式;偶爾用 Pro 模式深度檢查文章引用。
  2. 2 Nathan:從唔用 GPT-5 非思考模式,信息檢索用 GPT-5.2 思考模式或 Pro,快速問題用 Gemini,代碼同哲學討論用 Claude Opus 4.5,實時信息用 Grok。
  3. 3 Lex:用 Grok-4 Heavy 做硬核調試,界面偏好 Gemini 因為長上下文能力。

Sebastian 總結:「你一直用到佢出問題,出咗問題就換一個模型」,好似瀏覽器咁。Lex 問點解三個人都冇提中國模型?Sebastian 認為係平台同模型脱節——中國開源模型多數係權重下載,唔係產品界面。Nathan 補充:美國模型目前更好,所以大家都用佢哋。

整理重點

規模定律與訓練流程

預訓練規模定律已死」呢句話傳得好廣。Nathan 先畀技術定義:規模定律係計算量同預測準確率之間嘅冪律關係,呢個關係仍然存在。問題係用戶可以從中拎到咩?而家有三種擴展方式:預訓練擴展、強化學習擴展、推理時擴展。

Nathan 話「容易摘嘅果子已經摘得差唔多」。預訓練變貴係因為服務成本——DeepSeek 預訓練成本約 500 萬美元,但服務百萬用戶嘅推理成本係「真正數十億美元」。Sebastian 補充:「唔會話預訓練擴展已死,只係而家有其他更有吸引力嘅擴展方式。」GPT-4.5 就係例子:預訓練更大模型嘅性價比不如用 o1 嘅推理時擴展。

訓練流程分三階段:預訓練(下一個詞預測,用高質量數據同合成數據)、中訓(針對長上下文,避免災難性遺忘)、後訓練(SFTDPORLVR、RLHF)。後訓練係解鎖已有能力,唔係教新知識。數據規模方面,小型模型預訓練 5-10 萬億詞元,通義千問據說到 50 萬億,閉源實驗室傳言 100 萬億。

整理重點

後訓練前沿:RLVR vs RLHF

Nathan 話 2025 年後訓練最大突破係 RLVR(可驗證獎勵強化學習)。機制好簡單:模型嘗試解題,驗證答案正確性,正確性作為獎勵信號。呢個令模型可以學習工具使用、代碼執行、自我糾錯。

Sebastian 做咗個實驗:用 RLVR 對通義千問 2.5 基礎模型訓練僅 50 步,MATH-500 準確率從 15% 跳到 50%。「你唔可能喺 50 步裏面真係學識數學。知識早喺預訓練階段存在,RLVR 只係解鎖佢。」

關於 DeepSeek R1 嘅「頓悟時刻」——模型自發話「我做錯咗,等我再試一次」——Nathan 持懷疑態度:「呢啲『頓悟時刻』可能係假嘅。」因為預訓練數據中肯定有類似內容(數學講座轉錄、教學視頻字幕),RLVR 只係放大已有模式。Sebastian 補充:呢個亦解釋點解蒸餾能奏效——如果模型真係學到全新數學能力,蒸餾唔可能得。

整理重點

開源模型嘅價值與未來

Nathan 列舉開源嘅原因:獲取用戶(免費本地跑)、獲取分發(用用戶 GPU)、數據私隱</highlight>、定製需求。 Sebastian 補充:開源係培養下一代研究者嘅唯一方式——如果只得閉源模型,你只能加入公司後先學到,但點樣識別同招聘人才?

中國開源模型通常係大型 MoE 架構,峯值性能更高;美國偏好較小稠密模型。但 中國模型許可證幾乎冇限制,相比 LlamaGemma 有用戶數量上限,對商業化更友好。Nathan 發起咗 ATOM(美國真正開放模型)項目,目標係讓美國建立最佳開源模型,避免價值流向中國模型。

開源模型嘅四大價值

  • 獲取用戶:好多人唔會付費訂閲 API,但願意喺本地跑模型。
  • 獲取分發OpenAIGPU 唔夠用,開源可以用用戶嘅 GPU
  • 數據私隱:有啲數據你唔想發到雲端。
  • 定製需求:企業可以喺開源模型上做專屬微調。

Sebastian 提到開源社區對 Llama 嘅批評可能太苛刻:「佢哋試圖做好事,畀我哋開源模型,然後我哋講負面說話,佢哋嘅反應就係『好啦,咁我哋改變主意』。」Nathan 預測唔會有開源嘅 Llama 5,因為內部政治鬥爭同激勵錯位。

整理重點

AGI 時間線與人類角色

AGI 定義爭議好大,Nathan 話「能替代大多數遠程工作者」係相對合理嘅標準。AI 2027 報告嘅預測已從 2027-28 年推遲到 2031 年(均值),Lex 嘅判斷更保守。Nathan 核心論點係 AI 能力「鋸齒狀」——某些事好擅長,某些事好差。

Nathan 話「一個模型統治一切嘅夢想正在死去」。未來可能係多個代理處理不同任務,互相協調——唔係一個超級大腦,而係一羣專家組成嘅團隊。Sebastian 同意但反問:「咁樣真係 AGI 嗎?如果 AGI 嘅實現方式係一堆專用系統組合,個詞需要重新思考。」

人類嘅未來Sebastian 話唔擔心 AI「接管」,因為「你必須話俾佢做咩,佢唔會自己獲得代理權」。Nathan 預測物理商品同線下活動價值會急劇上升,因為 AI 生成垃圾內容只會更多。Lex 結尾話:「如果人類同機器後奇點戰爭,人類會贏——我哋太聰明,而且可能會用本地開源 LLM 幫手對抗機器。」

Sebastian Raschka 和 Nathan Lambert 坐在 Lex Fridman 的播客裏,聊了整整 4 個小時。

圖片

Sebastian 是《從零構建大語言模型》一書的作者,那本書教你從零開始寫一個 GPT-2。Nathan 是艾倫人工智能研究所(AI2)的後訓練負責人,寫了業界最權威的 RLHF(基於人類反饋的強化學習)書籍。兩個人都是真正在一線做研究、訓練模型的人。

這期播客覆蓋了 AI 領域幾乎所有熱門話題:中美競爭、模型對比、規模定律(Scaling Laws,即模型性能隨計算量增長的規律)、訓練流程、AGI(通用人工智能)時間線、程序員是否會被取代……信息密度極高。以下是按訪談順序整理的核心內容。

Lex 開場就拋了一個問題:國際層面,中國還是美國在贏?

Sebastian 的回答很謹慎:"贏"這個詞太寬泛了。他認為 DeepSeek 贏得了開源社區的心,因為他們真的把模型放出來了。但長期來看,不會有任何一家公司獨佔某種技術——研究者頻繁跳槽,想法會流動。真正的差異化因素是預算和硬件。

Nathan 補充了一個有趣的觀察:Claude 4.5 的熱度是有機增長的,而幾個月前 Gemini 3 發佈時營銷攻勢很猛,但熱度很快就被 Claude 蓋過了。

"差異化程度在降低,"他說。各家的想法空間很流通,但 Anthropic 在代碼上的長期押注正在收到回報。

關於中國公司,Nathan 指出 DeepSeek 可能正在"失去王冠"——智譜 AI、MiniMax、月之暗面等公司在 2025 年下半年表現更加亮眼。DeepSeek 啓動了中國的開源運動,就像 ChatGPT 啓動了美國的聊天機器人運動一樣。

"中國現在有大量科技公司在發佈非常強的前沿開源模型。"

Lex 追問:中國公司會持續開源多久?

Nathan 的判斷是:至少幾年。中國公司很清楚,美國頂級科技公司出於安全顧慮不會購買中國 API 服務。開源模型是一種"曲線進入"美國市場的方式——用戶在本地運行,既獲得分發又不觸發安全紅線。

"他們對此非常現實,而且正在奏效。"

圖片

ChatGPT、Claude、Gemini、Grok:誰更強?

Lex 問:2025 年哪個模型贏了?2026 年誰會贏?

Nathan 坦言很難押注 Gemini 超過 ChatGPT,因為 OpenAI 是市場領先者,在科技行業這有巨大優勢。但 Gemini 的勢頭確實在上升。他的判斷是:Gemini 會繼續蠶食 ChatGPT 的份額,Anthropic 會在軟件和企業端持續成功。

關於個人使用習慣,三人的偏好完全不同:

Sebastian:大多數時候用 ChatGPT 快速查東西,用非思考的快速模式。偶爾用 Pro 模式做深度檢查,比如讓它徹底審查一篇文章的引用、格式、邏輯。

Nathan:從不碰 GPT-5 的非思考模式。信息檢索一律用 GPT-5.2 思考模式或 Pro,快速問題用 Gemini,代碼和哲學討論用 Claude Opus 4.5(帶擴展思考),實時信息用 Grok。

"我簡直不敢相信你用路由模式和非思考模式。"

Lex:用 Grok-4 Heavy 做硬核調試,其他模型解決不了的問題它能解。界面上更偏好 Gemini,因為它的長上下文能力——在"大海撈針"場景下(即從海量文本中找到特定信息),Gemini 對他來說表現最好。

Sebastian 總結了一個普遍規律:"你一直用到它出問題,出了問題就換一個模型。"

就像瀏覽器一樣——Safari、Firefox、Chrome 功能差不多,你不會同時打開三個瀏覽器對比同一個網頁。你用習慣的那個,直到它出問題。

Lex 提了一個尖鋭的問題:我們三個都沒提中國模型。這說明什麼?

Sebastian 認為這是平台和模型的脱節——中國開源模型更多是作為權重被下載使用,而不是通過產品界面。Nathan 補充:美國用戶願意為邊際智能付費,而中國公司還沒找到讓美國用戶付費的方式。

"簡單說,美國模型目前更好,我們就用它們。"

圖片

最佳編程 AI

Lex 說他一半用 Cursor,一半用 Claude Code,因為它們是"根本不同的體驗"。

Sebastian 用 Cursor(VS Code 插件版),因為方便——一個聊天窗口直接訪問代碼庫。他還沒準備好讓 AI 完全接管項目。"也許我是個控制狂,但我還是喜歡看到正在發生什麼。"

Nathan 做了一個有趣的對比測試建議:同時打開 Claude Code、Cursor、VS Code,選同樣的模型,問同樣的問題。結果會很不一樣。

"Claude Code 在這個領域好太多了,真的很驚人。"

Lex 解釋他用 Claude Code 的原因:"培養用英語編程的能力"。這是一種完全不同的思維方式——不是盯着代碼細節和差異對比,而是用自然語言在宏觀層面指導,像做設計。

Sebastian 提了一個值得思考的問題:如果大語言模型隨時可用,你還會去"掙扎"嗎?

資深開發者用 AI 更多,可能是因為他們更會用、更會審查。但新人如果從不經歷掙扎,怎麼成為專家?"我是通過自己嘗試來學習的。如果大語言模型一直在那兒,你還會願意掙扎嗎?"

圖片

開源與閉源大模型

Lex 讓兩人即興列舉能想到的開源模型。

Nathan 開始報名:DeepSeek、Kimi、MiniMax、01.AI、月之暗面……

Sebastian 接力:Mistral、Gemma、GPT-o1(OpenAI 的開源模型)、英偉達的 Nemotron-3、通義千問……

"你能至少說出 10 箇中國的,至少 10 個西方的。"

Nathan 提到一個關鍵區別:中國開源模型通常是大型 MoE(混合專家模型,即模型內部有多個"專家"子網絡,每次只激活一部分)架構,峯值性能更高;美國偏好的 Gemma、Nemotron 等往往是較小的稠密模型(所有參數每次都參與計算)。但這正在改變——Mistral Large 2 就是一個巨型混合專家模型。

Sebastian 指出中國模型許可證的優勢:幾乎無限制。而 Llama、Gemma 有用戶數量上限等條款。對於想基於開源模型做商業化的公司,中國模型限制更少。

為什麼要開源?Nathan 列了幾個原因:

  1. 1. 獲取用戶——很多人不會付費訂閲 API,但願意在本地跑模型
  2. 2. 獲取分發——OpenAI 都 GPU 不夠用,開源可以用用戶的 GPU
  3. 3. 數據隱私——有些數據你不想發到雲端
  4. 4. 定製需求——企業可以在開源模型上做專屬微調

Sebastian 補充:開源還解決了教育和人才問題。如果只有閉源模型,你只能加入公司後才能學習,但怎麼識別和招聘人才呢?"開源是培養下一代研究者的唯一方式。"

圖片

Transformer 架構:從 2019 年到現在的演進

Lex 問了一個基礎但重要的問題:從 GPT-2 到今天,架構到底變了多少?

Sebastian 的回答可能讓很多人意外:

"從根本上說,架構還是一樣的。"

具體變化可以列出來:

  • • 混合專家模型(MoE):不是 DeepSeek 發明的,但他們用得很好
  • • 多頭潛在注意力(MLA):DeepSeek 的注意力機制變體
  • • 分組查詢注意力(GQA):比 MLA 更早出現,很多模型在用
  • • 滑動窗口注意力:OLMo-2 在用
  • • RMSNorm 替代 LayerNorm(兩種歸一化方法)
  • • 非線性激活函數的微調

"你可以從一個模型轉換到另一個,只需要添加這些改動。"

Sebastian 在他的書裏就是這麼做的:從 GPT-2 出發,增量修改得到 OLMo、Llama 3 等。

Nathan 補充了另一個變化維度:系統層面。FP8、FP4 訓練(低精度浮點數),更高效的 GPU 通信,更快的每秒每 GPU 生成詞元數。這些不改變架構,但讓實驗速度大幅提升。

"你現在訓練一個 GPT-MoE 8x7B 的實際耗時可能比當年訓 GPT-2 還快。"

Sebastian 提到一些替代架構正在冒頭:文本擴散模型、Mamba(狀態空間模型)。但它們有各自的權衡取捨。如果追求最先進的效果,自迴歸 Transformer 仍然是首選。

圖片

規模定律:死了還是活着?

這是個敏感話題。"預訓練規模定律已死"這句話在圈內流傳很廣。

Nathan 先給了技術定義:規模定律是計算量/數據量(x 軸)和預測準確率(y 軸)之間的冪律關係。這個關係仍然存在。問題是:用戶能從中得到什麼?

現在有三種擴展方式:

  1. 1. 預訓練擴展:模型大小 + 數據量
  2. 2. 強化學習擴展:RL 訓練時間
  3. 3. 推理時擴展:生成更多詞元

"我還是比較樂觀的。這三種方式都還在起作用,只是容易摘的果子已經被摘得差不多了。"

Nathan 解釋預訓練變貴的原因:訓練一個萬億參數模型意味着你要向用戶提供一個巨型模型,服務成本極高。DeepSeek 預訓練成本約 500 萬美元聽起來不多,但服務百萬用戶的推理成本是"真正數十億美元"的開銷。

Sebastian 的觀點更平衡:"我不會說預訓練擴展已死,只是現在有其他更有吸引力的擴展方式。"

在理想世界裏,你會同時做預訓練、中訓、後訓、推理時擴展——如果有無限計算資源的話。現實是你要選擇把錢花在哪裏。

GPT-4.5 就是一個例子:預訓練一個更大的模型,性價比不如用 o1 這樣的推理時擴展。

Nathan 預測 2026 年會出現 2000 美元/月的訂閲服務——是現在 200 美元的 10 倍。新的 Blackwell 計算集羣正在上線,實驗室會有更多訓練計算資源。

圖片

訓練流程詳解:預訓練、中訓、後訓練

Sebastian 給了清晰的定義:

預訓練:經典的下一個詞預測,在海量互聯網數據、書籍、論文上訓練。現在不只是扔原始數據進去,還包括合成數據——把維基百科文章改寫成問答格式,用光學字符識別提取 PDF 文本,清理和重組數據。

"更高質量的數據讓模型訓練更快。如果語法和標點都正確,它直接學到正確的方式,而不是先學錯再糾正。"

中訓:類似預訓練但更聚焦,比如專門針對長上下文文檔。為什麼單獨拎出來?因為長上下文文檔本來就少,而且神經網絡有"災難性遺忘"問題——學新東西會忘舊東西。中訓是一種選擇性的、高質量的階段。

後訓練:所有微調階段,包括 SFT(監督微調,用人類標註的問答對訓練)、DPO(直接偏好優化)、RLVR(可驗證獎勵強化學習,用可驗證的正確答案作為獎勵)、RLHF(人類反饋強化學習)。這裏不是教模型新知識,而是"解鎖"它已有的能力。

Nathan 補充了數據規模的概念:小型模型的預訓練數據集是 5-10 萬億詞元,通義千問據說到 50 萬億,閉源實驗室傳言達到 100 萬億。但這只是原始數據,實際訓練的是篩選後的一小部分。

關於合成數據,兩人都強調:這不等於"AI 編造的數據"。它包括光學字符識別提取、格式轉換、數據清洗——很多是技術處理而非憑空生成。

圖片

後訓練前沿:RLVR 與 RLHF

Nathan 說 2025 年後訓練最大的突破是 RLVR(可驗證獎勵強化學習)。

機制很簡單:模型嘗試解題,驗證答案正確性,正確性作為強化學習的獎勵信號。這讓模型能學習工具使用、代碼執行、自我糾錯等行為。

"推理時擴展和 RLVR 訓練之間有一種完美的耦合。"

Sebastian 做了一個實驗:用 RLVR 對通義千問 2.5 基礎模型訓練僅 50 步,MATH-500 準確率從 15% 跳到 50%。

"你不可能在 50 步裏真的學會數學。知識早就在預訓練階段存在了,RLVR 只是解鎖它。"

關於 DeepSeek R1 論文裏著名的"頓悟時刻"——模型自發說"啊,我做錯了,讓我再試一次"——Nathan 持懷疑態度:

"這些'頓悟時刻'可能是假的。"

他的理由是:預訓練數據中肯定包含類似內容——數學講座轉錄、教學視頻字幕,裏面充滿了老師的自我糾錯。RLVR 不是發明新行為,是放大已有模式。

Sebastian 補充:這就是為什麼蒸餾能奏效。如果模型真的在 RLVR 過程中學到全新的數學能力,蒸餾應該不可能。

RLVR 與 RLHF 的關鍵區別

Nathan:RLHF 有天然上限。偏好是主觀的、可平均的,訓練到一定程度後繼續投入計算沒有意義。歷史上的 RLHF 規模定律論文標題是《獎勵模型過擬合的規模定律》——講的是過擬合問題,不是持續提升。

但 RLVR 不同。OpenAI 的 o1 論文展示了真正的規模定律:計算量對數增長,性能線性增長。DeepSeek 復現了這個結果。

"你可以讓最好的 RLVR 訓練多跑 10 倍,獲得更好的性能。但 RLHF 做不到。"

這將定義這個領域。

圖片

入行建議:如何進入 AI 研發

Sebastian 的建議:從零實現一個小模型。

"目標不是做一個日常使用的個人助手,而是理解大語言模型裏面到底有什麼。"

在你的筆記本上跑,理解預訓練、注意力機制、微調。然後你會遇到瓶頸——大規模訓練的複雜性:參數分片、鍵值緩存實現細節、分佈式系統。

"書裏的代碼是為了理解,不是為了生產。一旦你有了基礎,你就能讀懂生產級代碼。"

一個實用技巧:從 Hugging Face Transformers 庫加載預訓練權重,然後在你自己的架構實現裏跑。如果輸出一致,你的實現就是對的。

Nathan 的建議更偏向職業路徑:

對於零計算資源的研究者,最有影響力的路徑是:創建讓前沿模型失敗的評測基準。如果你的基準被 Claude 或 GPT 下一版在博客裏引用,職業生涯起飛。

"你可能需要花幾周時間真正理解一個狹窄的領域。但一旦你做到,可能全世界只有 2-3 個人在深度關注這個問題。找到他們,給他們發郵件。"

他舉了一個例子:一個牛津學生聯繫他,對"角色訓練"感興趣——如何讓模型變得幽默、諷刺或嚴肅。Nathan 指導了他,論文已經發表。當時全球可能只有 2-3 個人在深度關注這個話題。

另一條路是加入前沿實驗室。Nathan 說,如果你進了 OpenAI,最有影響力的貢獻方式可能不是"發明下一個 o1",而是:找到更好的數據,或讓團隊實驗速度提升 5%。

"花哨的算法工作是最性感的想法,但大多數貢獻是讓數據更好,或讓基礎設施更好。"

圖片

AI 工作文化:996 與幸福感

Lex 提到 996——早 9 晚 9,一週 6 天。這原本是中國科技公司的文化,現在已經滲透硅谷 AI 實驗室。

Sebastian 說他在學術界時也是這種狀態——教授要寫科研經費申請、教課、做研究,三份工作合一。但現在看來,前沿實驗室的壓力可能更大。

Nathan 的觀察更直接:

"我那些當教授的朋友,平均來看比在前沿實驗室工作的朋友更幸福。"

OpenAI 平均每位員工每年獲得超過 100 萬美元股票薪酬。但高薪不等於幸福。

教授有學生輔導帶來的成就感,有穩定的研究方向,有明確的使命感。而實驗室的節奏是無止境的競爭——模型在互相追趕,沒有終點。

Nathan 提到帕特里克·麥基的書《蘋果在中國》:蘋果在中國建供應鏈時有"拯救婚姻項目"的代號——當工程師必須回家挽救婚姻時,同事會進入緊急接替狀態。

"有人因這種程度的過度工作死亡。"

Sebastian 補充:很多時候不是被強迫的,是太熱愛這件事了。他自己也有過過度工作導致的身體問題——背痛、頸椎問題。"不是因為有人逼我,是因為我想工作,因為這東西太激動人心了。"

圖片

硅谷泡沫

Lex 提到他和各種各樣的人交流,能清楚看到各種"泡沫"和"回聲室"。硅谷毫無疑問是一個。

"泡沫實際上可以非常有用和有效。"它像喬布斯的現實扭曲場——你們互相說服突破即將到來,然後突破真的就來了。

Nathan 提到伯恩·霍巴特的泡沫分類:金融投機型(壞的)和基礎設施建設型(好的)。AI 目前處於後者,但有轉向前者的風險。

一個極端例子是"永久下層階級"這個梗,意思是 2025 年下半年是唯一能在 AI 創業中創造持久價值的窗口,否則所有價值都將被現有公司捕獲,你就會變窮。

"這是舊金山 AI 圈文化走向極端的例子。"

Lex 的建議:如果你要進入這個泡沫——它確實有價值——也要出來。讀歷史書,讀文學,去世界其他地方看看。推特和 Substack 不是整個世界。

圖片

新研究方向:文本擴散模型

Sebastian 介紹了一個正在冒頭的替代架構:文本擴散模型。

原理類似圖像生成的 Stable Diffusion——從隨機噪聲開始,迭代去噪。但應用到文本上,不是一個詞元一個詞元生成,而是並行填充多個位置。

優勢是可能更快。但權衡在於某些任務本質上是串行的,比如需要中間結果的推理任務、需要調用工具的場景。

Nathan 提到一個實際用例:代碼創業公司用文本擴散生成超長的代碼差異,因為自迴歸模型生成這種東西需要幾分鐘,用戶流失嚴重。

谷歌宣佈推出 Gemini Diffusion,定位是 Nano-2 模型同等質量但更快。

Sebastian 的判斷:文本擴散不會取代自迴歸 Transformer,但會成為"廉價快速選項"——也許是免費層級的選擇。

圖片

工具使用

Sebastian 強調 GPT-o1(OpenAI 的開源模型)是第一個真正為工具使用設計訓練的公開模型。這是一個範式轉變。

"大語言模型最常見的抱怨是幻覺。解決幻覺最好的方式之一是:不要試圖記憶一切。數學問題?用 Python 計算器。歷史問題?做網絡搜索。"

但開源生態對工具使用的支持仍然滯後。部分原因是信任問題:你不想讓大語言模型在你電腦上有執行任意命令的權限。需要容器化、沙箱等基礎設施。

Nathan 指出開源和閉源模型在工具使用上的不同處境:

閉源模型(ChatGPT、Claude)可以深度集成特定工具——搜索、代碼執行、文件系統。用戶體驗是無縫的。

開源模型需要兼容各種用戶自定義的工具配置。你用 OpenRouter 可能想接不同的搜索後端,這就需要模型更通用、更靈活,但也更難優化。

Sebastian 提到一篇 2024 年底的論文《遞歸語言模型》:將長上下文任務分解為子任務,遞歸調用大語言模型解決每個子任務,每個子任務可以調用工具。

"你不是把所有東西塞進一個長上下文,而是分解成多個小調用。這樣節省內存,準確率還更高。"

圖片

持續學習

這是 AGI 討論中的關鍵缺失能力。

Nathan 解釋:當前大語言模型無法像人類員工那樣從反饋中快速學習。你告訴一個編輯他犯了錯,好編輯下次不會再犯。但大語言模型做不到,它的權重是固定的。

如果我們想要一個能"替代遠程工作者"的系統,它需要能從在職學習中快速適應。

但 Nathan 對"必須更新權重"持懷疑態度:

"我對語言模型通過很好的上下文就能快速學習比較樂觀。你可以寫詳細的文檔——'這是我寫過的所有博客,我的風格基於這些'。但很多人不提供這些給模型。"

也許不需要真正的持續學習,只需要足夠好的上下文工程。

Sebastian 補充了障礙:為每個用戶更新權重太昂貴了。即使是 OpenAI 的規模,為每個用戶定製模型也不現實。

可能的突破口是設備端模型,比如蘋果智能,成本由消費者的硬件承擔。

圖片

長上下文

Nathan 說業界普遍認為長上下文是計算和數據問題。你可以用架構變體(混合注意力模型)來降低計算成本,但這些不是免費的——需要配合大量計算和正確的數據。

"100 萬詞元的序列在世界上有多少?這些數據從哪來?訓練成本很高。"

目前已經很快到達 100 萬詞元窗口。Nathan 預計今年會增長到 200 萬或 500 萬,但 1 億詞元不太可能很快實現。

關於後訓練的有趣方向:讓代理自己管理上下文。

Claude 用戶都知道"壓縮"的痛苦,當對話太長時,Claude 會把整個歷史壓縮成要點列表。Nathan 說下一代模型可能會訓練"壓縮作為一種動作",模型自己決定何時壓縮、如何壓縮,目標是最小詞元數保持最大性能。

Sebastian 提到 DeepSeek-V3 的稀疏注意力機制,用輕量級索引器選擇"實際需要注意的詞元",而不是注意全部。這是在全注意力和壓縮之間尋找平衡。

圖片

機器人

Lex 說他最近腦子裏一直在想機器人。這是一個幾乎沒在播客裏討論的領域。

Nathan 對這個領域的投資很興奮,大語言模型的基礎設施正在惠及機器人領域。Hugging Face 可能會成為機器人模型的開源生態中心——下載模型、微調、共享數據集。

但他對消費級家用學習型機器人非常悲觀。

"我對自動駕駛非常樂觀,對工業自動化非常樂觀——比如亞馬遜專門為機器人設計的配送中心。但家用機器人?"

家庭環境太複雜了。每個人的家都不一樣,機器人需要在現場快速適應,回到持續學習的瓶頸。

Lex 提了一個幾乎沒人討論的問題:安全。

"學習機器人的所有有趣複雜性,我們討論的所有失敗模式,在大語言模型領域這都是好玩的。但在機器人領域,在人們家裏,在數百萬分鐘和數十億次交互中,你幾乎不允許任何失敗。"

圖片

AGI 時間線

Nathan 說 AGI(通用人工智能)和 ASI(超級人工智能)的定義爭議很大,但"能替代大多數遠程工作者"是一個相對合理的標準。

AI 2027 報告(原《態勢感知》)的預測已從 2027-28 年推遲到 2031 年(均值預測)。

Lex 的判斷更保守,"甚至比 2031 還要遠"。

Nathan 的核心論點是 AI 能力是"鋸齒狀的",某些事情非常擅長,某些事情很差。

"這些模型在傳統機器學習、前端方面非常出色。但分佈式機器學習訓練?模型實際上相當差,因為這方面的訓練數據太少了。"

他不相信"自動化軟件工程師"會完全實現,因為這意味着在所有領域都達到超人水平。更可能的是,模型在某些代碼領域已經超人,人類填補它們的弱點,兩者配合快速前進。

"到今年年底,被自動化的軟件量將非常高。但像用多組 GPU 通信訓練強化學習模型這樣的事仍然很難,可能一兩年後會容易很多。"

圖片

程序員會被取代嗎?

Nathan 的判斷:軟件工程會變得更偏向系統設計和結果導向。

"人們從說'AI 代理是垃圾貨(slop)'到'軟件的工業化,任何人都能用自己的指紋創建軟件',只花了幾周時間。"

一個驚人的細節:Cursor 的 Composer 模型(基於中國大型混合專家模型微調——有時用中文回覆可以判斷出來)"每 90 分鐘根據真實用戶反饋更新模型權重"。

"這是我見過的最接近現實世界強化學習的實踐。"

Sebastian 提了一個務實的問題:需求規格。

"問題是你還得告訴大語言模型你想要什麼。大語言模型可以寫代碼,但你需要告訴它目標是什麼。"

Lex 認為這是人類技能問題。很多程序員對 AI 工具持懷疑態度,可能部分是因為他們沒學會如何正確使用——清晰的規格、足夠的上下文、正確的期望。

Nathan 補充:失敗模式目前很蠢。"Claude,你試了 14 次我沒裝的命令行工具,然後我發給你要運行的命令。"從建模角度看,這是可修復的問題。

圖片

AGI 夢想是否在死去?

Nathan 說了一句大膽的話:

"'一個模型統治一切'的夢想正在死去。"

他的理由是:Claude 雖然是通用模型,但它越來越依賴集成——搜索、代碼執行、文件系統。真正的用法是 Claude + 工具,不是純 Claude。

未來可能是多個代理處理不同任務,互相協調。不是一個超級大腦,是一羣專家組成的團隊。

Sebastian 同意但提了一個反問:那這真的是 AGI 嗎?"我們正在專業化。這和以前的專用算法有什麼本質區別?"

他認為真正的突破是有了"基礎模型可以專業化"——這是新的。但如果 AGI 的實現方式是一堆專用系統的組合,那這個詞的含義需要重新思考。

圖片

AI 如何賺錢?

Sebastian 提到廣告是必然的。

"我幾年前就提過:如果你問推薦跑鞋,耐克先出現是巧合嗎?"

Nathan 說問題是競爭,只要有一家不放廣告,用戶就會流向那裏。目前大家都在用風投的錢補貼,沒人想先動。

但他認為廣告可以是好的:"如果我是一個做世界上最好牛排刀的小公司,我想讓需要的人找到我。AI 如果能讓這種匹配更好,對世界是好事。"

壞的是讓人上癮的信息流以展示更多廣告。

他預測 10 年後的格局:靠廣告收入可以補貼更好的研發、訓練更好的模型。YouTube 就是這個邏輯,廣告收入讓它主導視頻市場。

圖片

2026 年大收購

Nathan 預計 200 億美元級別的收購會變得常見。Groq 被收購(傳聞約 200 億),Scale AI 估值近 300 億。

但他擔心一種新型交易結構:授權協議而不是真正的收購。這對硅谷生態有害,不是全員受益的收購,而是隻帶走頂尖人才。

"如果你加入創業公司,即使它不那麼成功,公司被收購時你的股權會變現。但這種授權協議只帶走高管。"

關於首次公開募股:只要融資容易,這些公司不會上市。公開市場會帶來壓力。但 MiniMax 和智譜 AI 已經在中國提交了上市申請。

圖片

各大公司前景

OpenAI:總是看起來混亂,但總能落地。GPT-5 的路由功能可能幫他們省了很多 GPU 成本。

Anthropic:文化上最不混亂,在企業和軟件市場持續成功。

谷歌:規模優勢,自研芯片不用付英偉達的利潤空間,數據中心先發優勢。如果有新範式,最可能來自 OpenAI;如果是規模競爭,谷歌更有利。

Meta/Llama:完蛋了。Nathan 預測不會有開源的 Llama 5。

"內部政治鬥爭、激勵錯位、研究者追求最佳模型與管理層追求公關的衝突。"

扎克伯格 2024 年 7 月寫了"可能是當時最好的開源 AI 案例"博文,2025 年 7 月就說"我們正在重新評估與開源的關係"。

Sebastian 補充:開源社區對 Llama 的批評可能太苛刻了。"我們作為開源開發者可能有點太嚴厲了。他們試圖做好事,給我們開源模型,然後我們說負面的話,他們的反應是'好吧,那我們就改變主意'。"

ATOM 項目

Nathan 發起了 ATOM(美國真正開放模型),目標是讓美國建立最佳開源模型。

"這些中國開源模型正在積累影響力。如果最好的研究發生在使用中國模型的基礎上,價值就流向那裏了。"

美國國家科學基金會給 AI2 提供了 1 億美元 4 年撥款——基金會史上最大的計算機科學撥款。英偉達也在加大 Nemotron 等開源模型的投入。

但他強調:任何開源模型都是有價值的模型。他不是要"禁止中國模型",而是要美國在開源領域有競爭力。

圖片

AI 曼哈頓計劃

Lex 提到 AI 2027 報告的一個敍事:隨着 AI 變強,國家安全擔憂會導致集中化——實驗室合併、保密加強、軍方介入,變成中美之間的競賽。

Sebastian 不同意這會在 2025-27 年發生:

"你可以對計算機說同樣的話——'計算機太強大了,不能讓公眾擁有'。或芯片。看看華為現在在造芯片。你無法控制知識的傳播。"

Nathan 提了一個有趣的反向思路:開源模型的"曼哈頓計劃"成本其實不高。

"一億美元左右就能訓一個前沿開源模型。對這些公司來說這不算什麼。"

圖片

英偉達與計算未來

Sebastian 說英偉達的真正護城河不是 GPU,是 CUDA 生態系統,二十年積累的軟件棧。

"即使 15 年前我做生物物理模擬時,我們就用 Tesla GPU。他們在這上面投資了很久。"

Nathan 說只要黃仁勳還這麼深度參與運營,英偉達就會持續創新。"他的投入程度和其他大公司很不一樣。"

關於太空數據中心的想法:問題不是能源(太陽能充足),是散熱,太空沒有空氣散熱,還會接收太陽輻射。但有大量空間可以放集羣,工程上可能可以解決。

圖片

人類文明的未來

Lex 問:100 年後,歷史學家會怎麼看我們這個時代的技術突破?

Sebastian:可能不會記得"AI"或"Transformer"。會記得的是"計算",就像我們說"工業革命"而不是"蒸汽機"。

Nathan 補充:"深度學習"這個詞大概率會留下來。

關於人類與機器的關係,Sebastian 說他不擔心 AI"接管":

"我們人類決定我們想做什麼。AI 在當前實現中——你必須告訴它做什麼。它不會自己獲得代理權。你仍然是負責人。"

Nathan 對未來幾年的預測:

"物理商品和線下活動的價值會急劇上升。垃圾內容只會更多。接下來幾年會有更多、更多樣的 AI 生成垃圾內容。"

他希望社會"淹沒在垃圾內容中然後醒悟",意識到數字內容太多、太廉價,然後物理存在變成稀缺品。

Sebastian 說即使是現在,如果他知道一篇文章明顯是 AI 生成的,他就不想讀了。"算了,不適合我。"

Lex 最後問:有什麼讓你們對人類文明的未來抱有希望?

Nathan 的回答:

"人類總能找到辦法。這就是人類生來要做的——建立社區,想辦法解決問題。這就是我們走到今天的方式。"

Sebastian 的回答:

"完全同意。如果有什麼會出錯,那是因為有東西被明確編程去做有害的事。AI 本身不會'接管'。"

Lex 的結尾:

"如果是人類和機器的後奇點、後末日戰爭,我認為人類會贏。我們太聰明瞭。很難解釋我們怎麼會想出辦法,但我們會的。而且我們可能會用本地大語言模型、開源大語言模型來幫助對抗機器。"

圖片

這場 4 小時的對話覆蓋了 AI 的幾乎所有維度:技術細節、商業邏輯、人才市場、社會影響、哲學思考。兩位嘉賓都是真正在一線的人,他們的判斷不一定對,但至少是基於真實經驗。

如果要提煉一個核心主題:AI 正在快速進步,但不是以人們想象的方式。架構沒怎麼變,"突破"很多是工程優化,AGI 可能不是"一個模型",而人類的位置仍然是核心的、不可替代的。