在字節跳動做了一年大模型，他說中美AI差距正在拉大

作者：有限進步Seven

日期：2026年4月27日上午3:26

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

前字節研究員Zhang Chi指出，中美AI差距因系統性激勵追趕而非探索而持續擴大

整理版摘要

呢篇文章係由前字節跳動Seed部門研究員Zhang Chi嘅播客訪談整理出嚟。佢喺2025年加入字節，專攻大模型數學推理，參與咗衝擊IMO金牌嘅項目。做咗一年之後，佢選擇離開，返去北京大學做助理教授。佢嘅核心判斷係：中美AI嘅差距唔係喺縮小，而係喺拉大。呢個判斷唔係空口講白話，而係基於佢親身經歷嘅系統性問題。

佢描述咗字節內部嘅「Benchmaxxing」文化——團隊嘅表現直接同基準測試分數掛鈎，導致大家集中精力刷榜，而唔係提升模型嘅真實能力。佢話紙面上中國大廠嘅模型都可以「追平」美國前沿模型，但實際上使用體驗遠唔夠好。呢個現象唔係字節獨有，成個中國AI行業都係咁樣。另一個更大嘅問題係蒸餾依賴：好多公司直接用Claude、ChatGPT等API嘅回答嚟做訓練數據，快係快，但學到嘅只係答案，而唔係產生答案嘅思維過程。呢種「抄作業」嘅做法形成咗依賴，令到天花板永遠係被抄嘅對象。算力方面，佢證實咗字節主要用Nvidia H20，最新芯片留俾核心團隊，國產芯片就未有團隊願意用。關鍵係迭代速度嘅差距：Google每三個月可以完成一輪完整訓練，字節要半年。呢個差距喺基礎設施層面更加明顯，佢比較過Google同字節，Google嘅開發環境絲滑好多。呢啲問題加埋一齊，形成咗一個結構性困局：美國模型有全球用戶基礎，可以收集大量反饋數據，形成飛輪效應；而中國模型起步唔夠好，用戶唔願意用佢做重要嘅事，反饋數據質素差，模型迭代缺乏養分，繼續唔…

結論：中美AI真實差距正在拉大，主因係系統激勵追趕而非探索
方法失誤：普遍採用Benchmaxxing刷分和蒸餾依賴，犧牲真實能力換取短期分數
差異對比：Google每3個月完成一次迭代，字節需半年；美國模型有全球用戶飛輪效應
啟發：蒸餾只能複製答案，無法複製思維過程；基礎設施差距不僅在芯片，也在開發環境
可行動點：提升推理效率（算法改進）和利用製造業優勢係突圍路徑

整理重點

刷分文化：Benchmaxxing 嘅困局

Zhang Chi喺字節嘅日子唔算緊繃，但壓力係隱性嘅。每個團隊負責特定基準測試分數，評價直接同分數掛鈎。

佢話紙面上中國大廠模型都能追平美國，但實際使用並唔夠好。呢個問題唔係字節獨有，成個中國AI行業都係咁。

Benchmaxxing 刷榜文化

整理重點

蒸餾依賴：走捷徑嘅代價

訓練數據嘅獲取方式有兩種：自己標註或蒸餾API回答。好多中國公司揀咗蒸餾。

蒸餾依賴

蒸餾本質係抄作業，學到答案但學唔到思維過程，形成咗依賴。

抄作業

自己標註：費時費錢但質素高
蒸餾API：快、平、批量，但天花板係抄嘅對象

整理重點

算力焦慮：迭代速度同基礎設施嘅差距

算力方面，字節主要用Nvidia H20，最先進芯片留俾核心團隊。國產芯片未有團隊願意用。

Google每三個月完成一輪完整迭代，字節需半年
迭代速度差距導致試錯次數差一倍
基礎設施差距：Google開發環境絲滑，字節差距大

迭代速度

基礎設施

整理重點

飛輪效應：追趕者嘅結構性困境

美國模型有全球用戶基礎，形成飛輪效應；中國模型起步唔夠好，用戶唔願意用，反饋質素差。

飛輪效應

全球用戶基礎

喺Agentic AI賽道上，差距更明顯。佢自己用Claude Code，但中國模型「並不實用」。

Agentic AI 差距

整理重點

突圍路徑：推理效率同硬件壁壘

Zhang Chi並唔完全悲觀。佢返北大做推理效率算法改進，認為提升推理效率對商業化意義重大。

推理效率

另一個中國優勢係製造業，當AI進入物理世界時，硬件製造係壁壘。但智能未真正注入機器人。

製造業優勢

最終結論：中國AI嘅問題係系統激勵追趕而非探索。佢選擇返大學，賭下一突破出現喺敢於走不同路嘅實驗室。

追趕而非探索

喺字節跳動做咗一年大模型，佢話中美AI差距仲喺度拉大

前幾日，一段播客訪問喺AI圈引起熱議。

受訪者Zhang Chi，2025年初加入字節跳動Seed部門，專攻大模型數學推理方向，參與咗衝擊IMO金牌嘅項目。一年後，佢選擇離開，返去北京大學做助理教授。

令到呢段訪問爆紅嘅，唔係佢講咗乜嘢內幕八卦，而係佢講咗一句好多人唔敢講嘅嘢：

「"中美AI嘅差距唔係喺度縮窄，而係喺度拉大。"」

呢句說話出自一個曾經身處中國頭部AI實驗室嘅人口中，分量就唔同曬。

一、"Benchmaxxing"：刷分遊戲嘅困局

Zhang Chi喺字節嘅日子過得唔算緊張——朝早10:30到公司，中午兩個鐘午休，夜晚9:30收工仲有免費搭車返屋企。每個禮拜得一次組會，冇人喺你耳邊嗌"打敗OpenAI"。

但壓力係隱形嘅。

每個團隊負責特定嘅基準測試分數，你嘅評價直接同分數掛鈎。呢套系統有個名，叫「Benchmaxxing」——刷榜。

"紙面上，中國每間大廠嘅模型都可以'追平'美國前沿模型，"Zhang Chi話，"但我自己用落，並唔覺得佢哋夠好。"

呢種矛盾其實唔難理解。刷分係一種優化策略，但佢優化嘅係"考試成績"而唔係"真實能力"。就好似一個學生做咗一千套模擬卷可以攞高分，但真正遇到未見過嘅題型時，就會露餡。

更值得警惕嘅係，呢個唔係字節一家嘅問題。Zhang Chi嘅判斷係：「成個中國AI行業都喺度做同一件事」。

二、蒸餾依賴：走捷徑嘅代價

如果話刷分係戰術層面嘅問題，咁數據質量就係戰略層面嘅病灶。

訓練大模型需要高質量嘅數據。獲取方式有兩種：

第一種係"笨辦法"——請專業標註員，叫佢哋寫出詳盡嘅推理過程、解題步驟、正確答案。呢種方法又曬時間又曬錢，但數據質量高。

第二種係"聰明辦法"——直接調用Claude、ChatGPT、Gemini嘅API，將佢哋嘅回答抄落嚟做訓練數據。呢個就係所謂嘅「蒸餾（distillation）」。快、平、大量生產。

"好多中國公司揀咗第二條路，"Zhang Chi直言，"我哋可能擁有全球頂級嘅蒸餾技術，但呢樣嘢並唔可以轉化為真正嘅優勢。"

蒸餾嘅本質係"抄功課"。你學到咗答案，但學唔到產生答案嘅思維過程。更致命嘅係，佢形成咗一種依賴——你嘅天花板永遠係你抄嗰個對象。當Claude自己進化到下一代時，蒸餾者仲停留喺上一個版本嘅復刻品上。

Claude官方之前公開話"檢測到大量蒸餾行為"。Zhang Chi冇點名邊啲公司，但佢嘅暗示已經夠清楚。

三、算力焦慮：唔止係芯片嘅問題

講到芯片，Zhang Chi證實咗幾個公開嘅秘密：

字節主要用Nvidia H20（對華合規版本），最新進嘅芯片留畀預訓練同後訓練呢啲核心團隊；
公司喺度採購B300等更新嘅芯片，可能經海外渠道；
國產芯片確實存在，但「冇任何追求迭代速度嘅團隊肯用佢哋嚟做訓練」。

但係算力差距嘅影響遠大過"訓練慢啲"咁簡單。

Zhang Chi透露咗一個關鍵數據對比：「Google可以每三個月完成一輪完整嘅模型訓練迭代（包括預訓練同後訓練），而字節大概需要半年。」

迭代速度嘅差距意味住啲乜？意味住喺同一個時間窗口入面，Google可以試錯兩次，你只可以試錯一次。AI競賽唔係百米衝刺，而係一場邊個先揾到正確方向嘅迷宮賽——跑得快嘅人，每次撞牆之後可以更快轉彎。

而且差距唔止喺芯片本身，仲喺「基礎設施」。Zhang Chi喺Google實習過，對兩間公司嘅基礎設施差距印象好深："喺Google，你用圖形界面寫代碼，唔使理底層基礎設施係點樣，跑起上嚟就好順。字節同佢嘅差距好大。"

四、飛輪效應：追趕者嘅結構性困境

喺Zhang Chi嚟睇，以上所有問題匯聚成咗一個更深層嘅困局——「飛輪效應嘅缺失」。

美國前沿模型有一個中國公司好難複製嘅優勢：全球用戶基礎。

用戶越多 → 反饋數據越多 → 模型越好 → 用戶越多。呢個係一個自我強化嘅正循環。

而中國模型嘅起點就"唔夠好"，用戶唔肯用佢嚟做真正重要嘅事，反饋數據質量跟唔上，模型迭代缺乏養分，於是繼續"唔夠好"。

"Claude、Gemini、GPT有豐富嘅全球用戶互動，"Zhang Chi話，"佢哋有辦法叫用戶標註回答質量，呢啲反饋可以作為額外訓練數據，持續改進模型。呢個係一個巨大嘅優勢。"

呢個解釋咗點解喺「Agentic AI」（智能體AI）呢個新賽道上，差距體感變得更加明顯。Zhang Chi自己而家用Claude Code同Codex嚟做研究——甚至講笑話"唔想帶博士生啦，用AI就得"——但換成中國模型，"就唔實用"。

一個有啲諷刺嘅事實係：**中國公司正在用美國嘅編程智能體嚟構建自己嘅大模型。**Zhang Chi證實，字節嘅海外部門可以用Cursor（底層調用Claude），即係中國大模型嘅部分代碼，係Claude寫嘅。

五、一個冇咁悲觀嘅出口

Zhang Chi唔係一個徹底嘅悲觀主義者。

佢離開字節之後喺北大做嘅方向——「LLM推理效率嘅算法改進」——正正指向咗一種可能嘅突圍路徑。佢嘅邏輯係：訓練成本大，但推理成本更大。如果喺算法層面將推理效率提升哪怕5%，對商業化嘅意義都好大。

呢個思路同DeepSeek嘅路徑類似——唔係死拼算力，而係喺效率上做文章。

另一個Zhang Chi認為係中國優勢嘅地方在於「製造業」。當AI需要走出屏幕、進入物理世界時，機械人嘅硬件製造（好似宇樹嘅電機技術）係實實在在嘅壁壘。但佢都承認，"智能"仲未真正注入呢啲機械——大部分所謂嘅機械人表演，都係預先編程嘅動作，唔係AI驅動嘅自主決策。

返去嗰個令人唔舒服嘅問題

Zhang Chi嘅坦誠令人敬佩，亦令人唔安。

佢講嘅唔係"我哋唔得"，而係"我哋冇做啱嘅事"——刷分代替真實能力，蒸餾代替原創數據，堆卡代替算法創新。每一個捷徑都喺短期內縮窄咗紙面差距，但長期拉大咗真實差距。

當然，佢嘅觀點代表嘅係一個研究者嘅視角，而唔係管理層嘅全局判斷。但正正係呢種一線研究者嘅體感，往往比PPT上面嘅benchmark數字更加接近真相。

「中國AI嘅問題唔係冇聰明人，唔係冇資源，而係成個系統激勵緊'追趕'而唔係'探索'。」

當所有人都喺同一條路上追趕時，冇人喺度揾新路。而真正嘅超越，從來唔係追趕者喺同一條賽道上加速，而係揾到一條人哋睇唔到嘅路。

Zhang Chi從字節跳動辭職，返去大學做研究，某種意義上就係用腳投票——佢賭嘅係：「下一個突破唔會誕生喺追趕者嘅流水線上，而會誕生喺某個敢行唔同路嘅實驗室入面。」

你覺得呢？

❝
原文連結：https://www.buzzsprout.com/2546300/episodes/19057945-a-year-inside-bytedance-s-ai-lab
❞

在字節跳動做了一年大模型，他說中美AI差距正在拉大

前幾天，一段播客訪談在AI圈引發熱議。

受訪者Zhang Chi，2025年初加入字節跳動Seed部門，專攻大模型數學推理方向，參與了衝擊IMO金牌的項目。一年後，他選擇離開，回到北京大學擔任助理教授。

讓這段訪談炸開鍋的，不是他講了什麼內幕八卦，而是他說了一句很多人不敢說的話：

「"中美AI的差距不是在縮小，而是在拉大。"」

這話從一個曾經身處中國頭部AI實驗室的人嘴裏說出來，分量不一樣。

一、"Benchmaxxing"：刷分遊戲的困局

Zhang Chi在字節的日子過得並不緊繃——早上10:30到公司，中午兩小時午休，晚上9:30下班還有免費打車回家。每週只有一次組會，沒人在你耳邊喊"打敗OpenAI"。

但壓力是隱性的。

每個團隊負責特定的基準測試分數，你的評價直接和分數掛鈎。這套體系有個名字，叫「Benchmaxxing」——刷榜。

"紙面上，中國每家大廠的模型都能'追平'美國前沿模型，"Zhang Chi說，"但我自己用下來，並不覺得它們夠好。"

這種矛盾並不難理解。刷分是一種優化策略，但它優化的是"考試成績"而非"真實能力"。就像一個學生做了一千套模擬卷能拿高分，但真正遇到沒見過的題型時，就露怯了。

更值得警惕的是，這不是字節一家的問題。Zhang Chi的判斷是：「整個中國AI行業都在做同一件事」。

二、蒸餾依賴：走捷徑的代價

如果說刷分是戰術層面的問題，那數據質量就是戰略層面的病灶。

訓練大模型需要高質量的數據。獲取方式有兩種：

第一種是"笨辦法"——僱專業標註員，讓他們寫出詳盡的推理過程、解題步驟、正確答案。這種方式費時費錢，但數據質量高。

第二種是"聰明辦法"——直接調用Claude、ChatGPT、Gemini的API，把它們的回答複製下來當訓練數據。這就是所謂的「蒸餾（distillation）」。快、便宜、批量生產。

"很多中國公司選了第二條路，"Zhang Chi直言，"我們可能擁有全球頂級的蒸餾技術，但這並不能轉化為真正的優勢。"

蒸餾的本質是"抄作業"。你學到了答案，但學不到產生答案的思維過程。更致命的是，它形成了一種依賴——你的天花板永遠是你抄的那個對象。當Claude自己進化到下一代時，蒸餾者還停留在上一個版本的復刻品上。

Claude官方此前公開表示"檢測到大量蒸餾行為"。Zhang Chi沒有點名哪些公司，但他的暗示已經足夠清晰。

三、算力焦慮：不只是芯片的問題

談到芯片，Zhang Chi證實了幾個公開的秘密：

字節主要使用Nvidia H20（對華合規版本），最先進的芯片留給預訓練和後訓練等核心團隊；
公司在採購B300等更新芯片，可能通過海外渠道；
國產芯片確實存在，但「沒有任何追求迭代速度的團隊願意用它們做訓練」。

但算力差距的影響遠不止"訓練慢一點"這麼簡單。

Zhang Chi透露了一個關鍵數據對比：「Google可以每三個月完成一輪完整的模型訓練迭代（包括預訓練和後訓練），而字節大概需要半年。」

迭代速度的差距意味着什麼？意味着在同樣的時間窗口裏，Google能試錯兩次，你只能試錯一次。AI競賽不是百米衝刺，而是一場誰先找到正確方向的迷宮賽——跑得快的人，每次撞牆後能更快轉彎。

而且差距不只在芯片本身，還在「基礎設施」。Zhang Chi在Google實習過，對兩家公司的基礎設施差距記憶猶新："在Google，你用圖形界面寫代碼，不用管底層基礎設施長什麼樣，跑起來就是絲滑的。字節和它的差距很大。"

四、飛輪效應：追趕者的結構性困境

在Zhang Chi看來，以上所有問題匯聚成了一個更深層的困局——「飛輪效應的缺失」。

美國前沿模型有一箇中國公司很難複製的優勢：全球用戶基礎。

用戶越多 → 反饋數據越多 → 模型越好 → 用戶越多。這是一個自我強化的正循環。

而中國模型的起點就"不夠好"，用戶不願意拿它做真正重要的事，反饋數據質量跟不上，模型迭代缺乏養分，於是繼續"不夠好"。

"Claude、Gemini、GPT有豐富的全球用戶互動，"Zhang Chi說，"他們有辦法讓用戶標註回答質量，這些反饋可以作為額外訓練數據，持續改進模型。這是一個巨大的優勢。"

這解釋了為什麼在「Agentic AI」（智能體AI）這個新賽道上，差距體感變得更明顯。Zhang Chi自己現在用Claude Code和Codex做研究——甚至開玩笑說"不想帶博士生了，用AI就行"——但換成中國模型，"並不實用"。

一個頗具諷刺意味的事實是：**中國公司正在用美國的編程智能體來構建自己的大模型。**Zhang Chi證實，字節的海外部門可以使用Cursor（底層調用Claude），這意味着中國大模型的部分代碼，是Claude寫的。

五、一個不那麼悲觀的出口

Zhang Chi並不是一個徹底的悲觀主義者。

他離開字節後在北大做的方向——「LLM推理效率的算法改進」——恰恰指向了一種可能的突圍路徑。他的邏輯是：訓練成本大，但推理成本更大。如果能在算法層面把推理效率提升哪怕5%，對商業化的意義都是巨大的。

這個思路和DeepSeek的路徑類似——不硬拼算力，而是在效率上做文章。

另一個Zhang Chi認為的中國優勢在於「製造業」。當AI需要走出屏幕、進入物理世界時，機器人的硬件製造（如宇樹的電機技術）是實實在在的壁壘。但他也坦承，"智能"還沒有真正注入這些機器——大部分所謂的機器人表演，還是預編程的動作，不是AI驅動的自主決策。

回到那個不舒服的問題

Zhang Chi的坦誠令人敬佩，也令人不安。

他說的不是"我們不行"，而是"我們沒有在做正確的事"——刷分代替真實能力，蒸餾代替原創數據，堆卡代替算法創新。每一個捷徑都在短期內縮小了紙面差距，卻在長期拉大了真實差距。

當然，他的觀點代表的是一個研究者的視角，而非管理層的全局判斷。但正是這種一線研究者的體感，往往比PPT上的benchmark數字更接近真相。

「中國AI的問題不是沒有聰明人，不是沒有資源，而是整個系統激勵着"追趕"而非"探索"。」

當所有人都在同一條路上追趕時，沒有人在尋找新路。而真正的超越，從來不是追趕者在同一條賽道上加速，而是找到一條別人沒看到的路。

Zhang Chi從字節跳動辭職，回到大學做研究，某種意義上就是在用腳投票——他賭的是：「下一個突破不會誕生在追趕者的流水線上，而會誕生在某個敢於走不同路的實驗室裏。」

你覺得呢？

❝
原文連結：https://www.buzzsprout.com/2546300/episodes/19057945-a-year-inside-bytedance-s-ai-lab
❞