在字節跳動做了一年大模型,他說中美AI差距正在拉大
整理版優先睇
前字節研究員Zhang Chi指出,中美AI差距因系統性激勵追趕而非探索而持續擴大
呢篇文章係由前字節跳動Seed部門研究員Zhang Chi嘅播客訪談整理出嚟。佢喺2025年加入字節,專攻大模型數學推理,參與咗衝擊IMO金牌嘅項目。做咗一年之後,佢選擇離開,返去北京大學做助理教授。佢嘅核心判斷係:中美AI嘅差距唔係喺縮小,而係喺拉大。呢個判斷唔係空口講白話,而係基於佢親身經歷嘅系統性問題。
佢描述咗字節內部嘅「Benchmaxxing」文化——團隊嘅表現直接同基準測試分數掛鈎,導致大家集中精力刷榜,而唔係提升模型嘅真實能力。佢話紙面上中國大廠嘅模型都可以「追平」美國前沿模型,但實際上使用體驗遠唔夠好。呢個現象唔係字節獨有,成個中國AI行業都係咁樣。另一個更大嘅問題係蒸餾依賴:好多公司直接用Claude、ChatGPT等API嘅回答嚟做訓練數據,快係快,但學到嘅只係答案,而唔係產生答案嘅思維過程。呢種「抄作業」嘅做法形成咗依賴,令到天花板永遠係被抄嘅對象。算力方面,佢證實咗字節主要用Nvidia H20,最新芯片留俾核心團隊,國產芯片就未有團隊願意用。關鍵係迭代速度嘅差距:Google每三個月可以完成一輪完整訓練,字節要半年。呢個差距喺基礎設施層面更加明顯,佢比較過Google同字節,Google嘅開發環境絲滑好多。呢啲問題加埋一齊,形成咗一個結構性困局:美國模型有全球用戶基礎,可以收集大量反饋數據,形成飛輪效應;而中國模型起步唔夠好,用戶唔願意用佢做重要嘅事,反饋數據質素差,模型迭代缺乏養分,繼續唔…
- 結論:中美AI真實差距正在拉大,主因係系統激勵追趕而非探索
- 方法失誤:普遍採用Benchmaxxing刷分和蒸餾依賴,犧牲真實能力換取短期分數
- 差異對比:Google每3個月完成一次迭代,字節需半年;美國模型有全球用戶飛輪效應
- 啟發:蒸餾只能複製答案,無法複製思維過程;基礎設施差距不僅在芯片,也在開發環境
- 可行動點:提升推理效率(算法改進)和利用製造業優勢係突圍路徑
刷分文化:Benchmaxxing 嘅困局
Zhang Chi喺字節嘅日子唔算緊繃,但壓力係隱性嘅。每個團隊負責特定基準測試分數,評價直接同分數掛鈎。
佢話紙面上中國大廠模型都能追平美國,但實際使用並唔夠好。呢個問題唔係字節獨有,成個中國AI行業都係咁。
Benchmaxxing 刷榜文化
蒸餾依賴:走捷徑嘅代價
訓練數據嘅獲取方式有兩種:自己標註或蒸餾API回答。好多中國公司揀咗蒸餾。
蒸餾依賴
蒸餾本質係抄作業,學到答案但學唔到思維過程,形成咗依賴。
抄作業
- 自己標註:費時費錢但質素高
- 蒸餾API:快、平、批量,但天花板係抄嘅對象
算力焦慮:迭代速度同基礎設施嘅差距
算力方面,字節主要用Nvidia H20,最先進芯片留俾核心團隊。國產芯片未有團隊願意用。
- Google每三個月完成一輪完整迭代,字節需半年
- 迭代速度差距導致試錯次數差一倍
- 基礎設施差距:Google開發環境絲滑,字節差距大
迭代速度
基礎設施
飛輪效應:追趕者嘅結構性困境
美國模型有全球用戶基礎,形成飛輪效應;中國模型起步唔夠好,用戶唔願意用,反饋質素差。
飛輪效應
全球用戶基礎
喺Agentic AI賽道上,差距更明顯。佢自己用Claude Code,但中國模型「並不實用」。
Agentic AI 差距
突圍路徑:推理效率同硬件壁壘
Zhang Chi並唔完全悲觀。佢返北大做推理效率算法改進,認為提升推理效率對商業化意義重大。
推理效率
另一個中國優勢係製造業,當AI進入物理世界時,硬件製造係壁壘。但智能未真正注入機器人。
製造業優勢
最終結論:中國AI嘅問題係系統激勵追趕而非探索。佢選擇返大學,賭下一突破出現喺敢於走不同路嘅實驗室。
追趕而非探索
喺字節跳動做咗一年大模型,佢話中美AI差距仲喺度拉大
前幾日,一段播客訪問喺AI圈引起熱議。
受訪者Zhang Chi,2025年初加入字節跳動Seed部門,專攻大模型數學推理方向,參與咗衝擊IMO金牌嘅項目。一年後,佢選擇離開,返去北京大學做助理教授。
令到呢段訪問爆紅嘅,唔係佢講咗乜嘢內幕八卦,而係佢講咗一句好多人唔敢講嘅嘢:
「"中美AI嘅差距唔係喺度縮窄,而係喺度拉大。"」
呢句說話出自一個曾經身處中國頭部AI實驗室嘅人口中,分量就唔同曬。
一、"Benchmaxxing":刷分遊戲嘅困局
Zhang Chi喺字節嘅日子過得唔算緊張——朝早10:30到公司,中午兩個鐘午休,夜晚9:30收工仲有免費搭車返屋企。每個禮拜得一次組會,冇人喺你耳邊嗌"打敗OpenAI"。
但壓力係隱形嘅。
每個團隊負責特定嘅基準測試分數,你嘅評價直接同分數掛鈎。呢套系統有個名,叫「Benchmaxxing」——刷榜。
"紙面上,中國每間大廠嘅模型都可以'追平'美國前沿模型,"Zhang Chi話,"但我自己用落,並唔覺得佢哋夠好。"
呢種矛盾其實唔難理解。刷分係一種優化策略,但佢優化嘅係"考試成績"而唔係"真實能力"。就好似一個學生做咗一千套模擬卷可以攞高分,但真正遇到未見過嘅題型時,就會露餡。
更值得警惕嘅係,呢個唔係字節一家嘅問題。Zhang Chi嘅判斷係:「成個中國AI行業都喺度做同一件事」。
二、蒸餾依賴:走捷徑嘅代價
如果話刷分係戰術層面嘅問題,咁數據質量就係戰略層面嘅病灶。
訓練大模型需要高質量嘅數據。獲取方式有兩種:
第一種係"笨辦法"——請專業標註員,叫佢哋寫出詳盡嘅推理過程、解題步驟、正確答案。呢種方法又曬時間又曬錢,但數據質量高。
第二種係"聰明辦法"——直接調用Claude、ChatGPT、Gemini嘅API,將佢哋嘅回答抄落嚟做訓練數據。呢個就係所謂嘅「蒸餾(distillation)」。快、平、大量生產。
"好多中國公司揀咗第二條路,"Zhang Chi直言,"我哋可能擁有全球頂級嘅蒸餾技術,但呢樣嘢並唔可以轉化為真正嘅優勢。"
蒸餾嘅本質係"抄功課"。你學到咗答案,但學唔到產生答案嘅思維過程。更致命嘅係,佢形成咗一種依賴——你嘅天花板永遠係你抄嗰個對象。當Claude自己進化到下一代時,蒸餾者仲停留喺上一個版本嘅復刻品上。
Claude官方之前公開話"檢測到大量蒸餾行為"。Zhang Chi冇點名邊啲公司,但佢嘅暗示已經夠清楚。
三、算力焦慮:唔止係芯片嘅問題
講到芯片,Zhang Chi證實咗幾個公開嘅秘密:
字節主要用Nvidia H20(對華合規版本),最新進嘅芯片留畀預訓練同後訓練呢啲核心團隊; 公司喺度採購B300等更新嘅芯片,可能經海外渠道; 國產芯片確實存在,但「冇任何追求迭代速度嘅團隊肯用佢哋嚟做訓練」。
但係算力差距嘅影響遠大過"訓練慢啲"咁簡單。
Zhang Chi透露咗一個關鍵數據對比:「Google可以每三個月完成一輪完整嘅模型訓練迭代(包括預訓練同後訓練),而字節大概需要半年。」
迭代速度嘅差距意味住啲乜?意味住喺同一個時間窗口入面,Google可以試錯兩次,你只可以試錯一次。AI競賽唔係百米衝刺,而係一場邊個先揾到正確方向嘅迷宮賽——跑得快嘅人,每次撞牆之後可以更快轉彎。
而且差距唔止喺芯片本身,仲喺「基礎設施」。Zhang Chi喺Google實習過,對兩間公司嘅基礎設施差距印象好深:"喺Google,你用圖形界面寫代碼,唔使理底層基礎設施係點樣,跑起上嚟就好順。字節同佢嘅差距好大。"
四、飛輪效應:追趕者嘅結構性困境
喺Zhang Chi嚟睇,以上所有問題匯聚成咗一個更深層嘅困局——「飛輪效應嘅缺失」。
美國前沿模型有一個中國公司好難複製嘅優勢:全球用戶基礎。
用戶越多 → 反饋數據越多 → 模型越好 → 用戶越多。呢個係一個自我強化嘅正循環。
而中國模型嘅起點就"唔夠好",用戶唔肯用佢嚟做真正重要嘅事,反饋數據質量跟唔上,模型迭代缺乏養分,於是繼續"唔夠好"。
"Claude、Gemini、GPT有豐富嘅全球用戶互動,"Zhang Chi話,"佢哋有辦法叫用戶標註回答質量,呢啲反饋可以作為額外訓練數據,持續改進模型。呢個係一個巨大嘅優勢。"
呢個解釋咗點解喺「Agentic AI」(智能體AI)呢個新賽道上,差距體感變得更加明顯。Zhang Chi自己而家用Claude Code同Codex嚟做研究——甚至講笑話"唔想帶博士生啦,用AI就得"——但換成中國模型,"就唔實用"。
一個有啲諷刺嘅事實係:**中國公司正在用美國嘅編程智能體嚟構建自己嘅大模型。**Zhang Chi證實,字節嘅海外部門可以用Cursor(底層調用Claude),即係中國大模型嘅部分代碼,係Claude寫嘅。
五、一個冇咁悲觀嘅出口
Zhang Chi唔係一個徹底嘅悲觀主義者。
佢離開字節之後喺北大做嘅方向——「LLM推理效率嘅算法改進」——正正指向咗一種可能嘅突圍路徑。佢嘅邏輯係:訓練成本大,但推理成本更大。如果喺算法層面將推理效率提升哪怕5%,對商業化嘅意義都好大。
呢個思路同DeepSeek嘅路徑類似——唔係死拼算力,而係喺效率上做文章。
另一個Zhang Chi認為係中國優勢嘅地方在於「製造業」。當AI需要走出屏幕、進入物理世界時,機械人嘅硬件製造(好似宇樹嘅電機技術)係實實在在嘅壁壘。但佢都承認,"智能"仲未真正注入呢啲機械——大部分所謂嘅機械人表演,都係預先編程嘅動作,唔係AI驅動嘅自主決策。
返去嗰個令人唔舒服嘅問題
Zhang Chi嘅坦誠令人敬佩,亦令人唔安。
佢講嘅唔係"我哋唔得",而係"我哋冇做啱嘅事"——刷分代替真實能力,蒸餾代替原創數據,堆卡代替算法創新。每一個捷徑都喺短期內縮窄咗紙面差距,但長期拉大咗真實差距。
當然,佢嘅觀點代表嘅係一個研究者嘅視角,而唔係管理層嘅全局判斷。但正正係呢種一線研究者嘅體感,往往比PPT上面嘅benchmark數字更加接近真相。
「中國AI嘅問題唔係冇聰明人,唔係冇資源,而係成個系統激勵緊'追趕'而唔係'探索'。」
當所有人都喺同一條路上追趕時,冇人喺度揾新路。而真正嘅超越,從來唔係追趕者喺同一條賽道上加速,而係揾到一條人哋睇唔到嘅路。
Zhang Chi從字節跳動辭職,返去大學做研究,某種意義上就係用腳投票——佢賭嘅係:「下一個突破唔會誕生喺追趕者嘅流水線上,而會誕生喺某個敢行唔同路嘅實驗室入面。」
你覺得呢?
❝原文連結:https://www.buzzsprout.com/2546300/episodes/19057945-a-year-inside-bytedance-s-ai-lab
❞
在字節跳動做了一年大模型,他說中美AI差距正在拉大
前幾天,一段播客訪談在AI圈引發熱議。
受訪者Zhang Chi,2025年初加入字節跳動Seed部門,專攻大模型數學推理方向,參與了衝擊IMO金牌的項目。一年後,他選擇離開,回到北京大學擔任助理教授。
讓這段訪談炸開鍋的,不是他講了什麼內幕八卦,而是他說了一句很多人不敢說的話:
「"中美AI的差距不是在縮小,而是在拉大。"」
這話從一個曾經身處中國頭部AI實驗室的人嘴裏說出來,分量不一樣。
一、"Benchmaxxing":刷分遊戲的困局
Zhang Chi在字節的日子過得並不緊繃——早上10:30到公司,中午兩小時午休,晚上9:30下班還有免費打車回家。每週只有一次組會,沒人在你耳邊喊"打敗OpenAI"。
但壓力是隱性的。
每個團隊負責特定的基準測試分數,你的評價直接和分數掛鈎。這套體系有個名字,叫「Benchmaxxing」——刷榜。
"紙面上,中國每家大廠的模型都能'追平'美國前沿模型,"Zhang Chi說,"但我自己用下來,並不覺得它們夠好。"
這種矛盾並不難理解。刷分是一種優化策略,但它優化的是"考試成績"而非"真實能力"。就像一個學生做了一千套模擬卷能拿高分,但真正遇到沒見過的題型時,就露怯了。
更值得警惕的是,這不是字節一家的問題。Zhang Chi的判斷是:「整個中國AI行業都在做同一件事」。
二、蒸餾依賴:走捷徑的代價
如果說刷分是戰術層面的問題,那數據質量就是戰略層面的病灶。
訓練大模型需要高質量的數據。獲取方式有兩種:
第一種是"笨辦法"——僱專業標註員,讓他們寫出詳盡的推理過程、解題步驟、正確答案。這種方式費時費錢,但數據質量高。
第二種是"聰明辦法"——直接調用Claude、ChatGPT、Gemini的API,把它們的回答複製下來當訓練數據。這就是所謂的「蒸餾(distillation)」。快、便宜、批量生產。
"很多中國公司選了第二條路,"Zhang Chi直言,"我們可能擁有全球頂級的蒸餾技術,但這並不能轉化為真正的優勢。"
蒸餾的本質是"抄作業"。你學到了答案,但學不到產生答案的思維過程。更致命的是,它形成了一種依賴——你的天花板永遠是你抄的那個對象。當Claude自己進化到下一代時,蒸餾者還停留在上一個版本的復刻品上。
Claude官方此前公開表示"檢測到大量蒸餾行為"。Zhang Chi沒有點名哪些公司,但他的暗示已經足夠清晰。
三、算力焦慮:不只是芯片的問題
談到芯片,Zhang Chi證實了幾個公開的秘密:
字節主要使用Nvidia H20(對華合規版本),最先進的芯片留給預訓練和後訓練等核心團隊; 公司在採購B300等更新芯片,可能通過海外渠道; 國產芯片確實存在,但「沒有任何追求迭代速度的團隊願意用它們做訓練」。
但算力差距的影響遠不止"訓練慢一點"這麼簡單。
Zhang Chi透露了一個關鍵數據對比:「Google可以每三個月完成一輪完整的模型訓練迭代(包括預訓練和後訓練),而字節大概需要半年。」
迭代速度的差距意味着什麼?意味着在同樣的時間窗口裏,Google能試錯兩次,你只能試錯一次。AI競賽不是百米衝刺,而是一場誰先找到正確方向的迷宮賽——跑得快的人,每次撞牆後能更快轉彎。
而且差距不只在芯片本身,還在「基礎設施」。Zhang Chi在Google實習過,對兩家公司的基礎設施差距記憶猶新:"在Google,你用圖形界面寫代碼,不用管底層基礎設施長什麼樣,跑起來就是絲滑的。字節和它的差距很大。"
四、飛輪效應:追趕者的結構性困境
在Zhang Chi看來,以上所有問題匯聚成了一個更深層的困局——「飛輪效應的缺失」。
美國前沿模型有一箇中國公司很難複製的優勢:全球用戶基礎。
用戶越多 → 反饋數據越多 → 模型越好 → 用戶越多。這是一個自我強化的正循環。
而中國模型的起點就"不夠好",用戶不願意拿它做真正重要的事,反饋數據質量跟不上,模型迭代缺乏養分,於是繼續"不夠好"。
"Claude、Gemini、GPT有豐富的全球用戶互動,"Zhang Chi說,"他們有辦法讓用戶標註回答質量,這些反饋可以作為額外訓練數據,持續改進模型。這是一個巨大的優勢。"
這解釋了為什麼在「Agentic AI」(智能體AI)這個新賽道上,差距體感變得更明顯。Zhang Chi自己現在用Claude Code和Codex做研究——甚至開玩笑說"不想帶博士生了,用AI就行"——但換成中國模型,"並不實用"。
一個頗具諷刺意味的事實是:**中國公司正在用美國的編程智能體來構建自己的大模型。**Zhang Chi證實,字節的海外部門可以使用Cursor(底層調用Claude),這意味着中國大模型的部分代碼,是Claude寫的。
五、一個不那麼悲觀的出口
Zhang Chi並不是一個徹底的悲觀主義者。
他離開字節後在北大做的方向——「LLM推理效率的算法改進」——恰恰指向了一種可能的突圍路徑。他的邏輯是:訓練成本大,但推理成本更大。如果能在算法層面把推理效率提升哪怕5%,對商業化的意義都是巨大的。
這個思路和DeepSeek的路徑類似——不硬拼算力,而是在效率上做文章。
另一個Zhang Chi認為的中國優勢在於「製造業」。當AI需要走出屏幕、進入物理世界時,機器人的硬件製造(如宇樹的電機技術)是實實在在的壁壘。但他也坦承,"智能"還沒有真正注入這些機器——大部分所謂的機器人表演,還是預編程的動作,不是AI驅動的自主決策。
回到那個不舒服的問題
Zhang Chi的坦誠令人敬佩,也令人不安。
他說的不是"我們不行",而是"我們沒有在做正確的事"——刷分代替真實能力,蒸餾代替原創數據,堆卡代替算法創新。每一個捷徑都在短期內縮小了紙面差距,卻在長期拉大了真實差距。
當然,他的觀點代表的是一個研究者的視角,而非管理層的全局判斷。但正是這種一線研究者的體感,往往比PPT上的benchmark數字更接近真相。
「中國AI的問題不是沒有聰明人,不是沒有資源,而是整個系統激勵着"追趕"而非"探索"。」
當所有人都在同一條路上追趕時,沒有人在尋找新路。而真正的超越,從來不是追趕者在同一條賽道上加速,而是找到一條別人沒看到的路。
Zhang Chi從字節跳動辭職,回到大學做研究,某種意義上就是在用腳投票——他賭的是:「下一個突破不會誕生在追趕者的流水線上,而會誕生在某個敢於走不同路的實驗室裏。」
你覺得呢?
❝原文連結:https://www.buzzsprout.com/2546300/episodes/19057945-a-year-inside-bytedance-s-ai-lab
❞