最新!Karpathy:Vibe Coding只是抬高了地板,真正的戰場在這裏

作者:AI寒武紀
日期:2026年4月30日 上午3:50
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

Karpathy 講清 Vibe CodingAgentic Engineering 嘅分別,仲話 LLM 係鬼魂唔係動物

整理版摘要

呢篇文章係 OpenAI 聯合創始人、前 Tesla AI 負責人 Andrej Karpathy 喺 Sequoia Capital 嘅 AI Ascent 2026 同合夥人 Stephanie Zhan 嘅對話整理。Karpathy 喺一年前提出「vibe coding」,但而家佢話自己從未咁落後過,因為真正嘅戰場係 agentic engineering。

Karpathy 解釋咗點解 Software 3.0 令傳統應用變得唔需要,例如佢自己做嘅 MenuGen 應用,用 Gemini 直接將食物圖片渲染到菜單相上,成個中間層應用都唔使。佢又講咗 LLM 嘅「鋸齒狀」能力係因為可驗證性——模型喺數學同代碼呢啲容易驗證嘅領域好叻,但喺日常判斷就好蠢。

整體結論係:vibe coding 抬高咗所有人嘅下限,但專業開發者要掌握 agentic engineering 先可以保持質量標準;人類嘅品味、判斷力同理解力係不可取代嘅,你可以外包思考,但唔可以外包理解。

  • Vibe Coding 係抬高下限,Agentic Engineering 先係真正嘅戰場,要喺唔犧牲質量嘅情況下用 agent 加速開發。
  • Software 3.0 嘅編程行為變成提示詞,神經網絡可以直接處理輸入輸出,成個中間層應用可以消失。
  • LLM 嘅能力好鋸齒狀,取決於實驗室有冇放相關數據落預訓練集,同埋任務係咪可驗證。
  • 人類嘅品味同判斷力變得更加值錢,因為 agent 會犯低級錯誤,例如用 email 去 cross-reference 用戶資金。
  • 你可以將思考外包俾 LLM,但你永遠冇得外包理解,你仍然需要知道自己做緊乜,先至可以做好個導演。
整理重點

由 Vibe Coding 到 Agentic Engineering:Karpathy 點樣睇個轉變

Karpathy 話去年12月係轉折點,佢發現最新模型生成嘅代碼塊直接就對咗,開始越嚟越信任個系統,然後就喺 vibe coding 緊。

佢覺得好多人仲停喺「ChatGPT 平替」嗰個階段,但12月之後,agentic 連貫工作流真係開始跑得通,呢個轉變好劇烈。

另一個極端例子係 MenuGen:佢用 vibe coding 整咗 OCR 加圖像生成嘅 app,但 Software 3.0 嘅做法係直接將菜單相扔俾 Gemini,用 Imagen 將食物圖片覆蓋上去,成個應用根本冇必要存在。

整理重點

點解 AI 咁「鋸齒狀」?可驗證性同數據分佈決定一切

Karpathy 用「可驗證性」解釋 LLM 嘅參差不齊。傳統計算機容易自動化能用代碼描述嘅任務,而 LLM 容易自動化輸出可以被驗證嘅任務——因為訓練係靠強化學習同驗證獎勵。

先進模型可以重構十萬行代碼、發現零日漏洞,但問佢「洗車距離50米,應該開車定行路?」佢會話行路,因為近。

  • 模型喺數學同代碼呢啲容易驗證嘅領域能力激增,因為 RL 獎勵機制。
  • 喺難以驗證嘅領域,能力就粗糙,例如日常常識。
  • GPT-3.5GPT-4,下棋能力大幅提升,係因為 OpenAI 將大量國際象棋數據放入預訓練集。數據喺,能力就在。

結論係:你受制於實驗室放咗乜入去,攞到嘅係一個冇說明書嘅嘢,要自己探索喺邊度用得、邊度會出事。

整理重點

Vibe Coding 同 Agentic Engineering 完全唔係同一回事

Karpathy 清楚區分Vibe Coding 係抬高所有人嘅下限,令每個人都做到更多;Agentic Engineering 係保持專業軟件嘅質量標準,唔可以因為用 vibe coding 就引入安全漏洞。

Karpathy 話「10x 工程師」呢個講法喺呢度被放大好多倍,優秀嘅 agentic engineer 獲得嘅加速遠遠超過 10x。

真正變貴嘅技能係品味、判斷力同審慎嘅監督。佢舉咗個 bug:agent 用 email 地址去 cross-reference StripeGoogle 賬户,但用戶可以用唔同 email 註冊,搞到積分歸屬錯。呢啲判斷仲要靠人。

Karpathy 話 agent 生成嘅代碼有時令佢心驚,因為雖然跑得鬱,但好臃腫、大量 copy-paste、抽象設計脆弱。

整理重點

LLM 係鬼魂,唔係動物——同埋點解理解冇得外包

Karpathy 寫過文章將 LLM 比作鬼魂:動物有內在動機、好奇心,但 LLM 冇,佢只係預訓練統計電路加 RL。你喺佢面前大嗌都唔會有反應。呢個比喻係心態調整,幫自己保持警惕。

Karpathy 話佢對 LLM 知識庫項目好興奮,因為每次從唔同角度睇同一份資訊,佢都獲得新理解——呢個係增強理解嘅工具,唔係繞過理解。

  • 如果唔清楚自己想構建乜,就冇辦法做個好導演。
  • LLM 唔擅長理解,你呢個角色係不可替代。
  • Karpathy 認為未來文檔應該係俾 agent 睇,唔係俾人類睇:佢只想知要複製貼上乜嘢俾 agent。
整理重點

未來基礎設施:agent-native 同神經網絡做主處理器

Karpathy 話而家幾乎所有文檔都係俾人類寫嘅,好煩。佢認為真正 agent-native 嘅標準係:俾 LLM 一個提示詞,MenuGen 呢類應用就自動構建同部署好,完全唔使佢親手搞 DNS 或設置。

更遠期嘅預測:神經網絡會成為主處理器,CPU 退化做協處理器。上世紀五六十年代兩條路未定,而家有機會反轉。

佢對呢個預測嘅態度係方向正確,但會一步一步嚟,具體過渡路徑有待確定。

圖片



↑睇之前記得關注+星標⭐️,😄,每日先可以第一時間收到更新


 

Andrej Karpathy(OpenAI 聯合創始人、前 Tesla AI 負責人、而家 Eureka Labs 創始人)喺 AI Ascent 2026 同紅杉合夥人 Stephanie Zhan 傾偈,講佢提出 "vibe coding" 一年以嚟嘅變化。佢解釋點解作為程序員佢從未試過咁落後,點解 agentic engineering 系 vibe coding 之上形成嘅更嚴謹學科,同埋點解我哋應該將 LLM 視為 "幽靈" 多過 "動物"——呢啲參差唔齊、統計性、召喚出嚟嘅實體需要一種全新嘅品味同判斷力去引導。佢仲講到 Software 3.0、可驗證性嘅限制,同埋點解你可以外包你嘅思考,但永遠唔可以外包你嘅理解。

舊年,Andrej Karpathy 創造咗個詞——vibe coding。

今年,佢話自己從未試過好似而家咁覺得落後。

呢句話出自一個 OpenAI 聯合創始人、Tesla 前 AI 負責人、而家 Eureka Labs 創始人口中,的確值得停低認真諗一諗。

喺 Sequoia Capital 嘅 AI Ascent 2026 上,Karpathy 同 Sequoia 合夥人 Stephanie Zhan 做咗一次深度對談。由 vibe coding 講到 agentic engineering,由 Software 3.0 講到 "鬼魂" 理論,將呢一年佢所見嘅技術轉變講得好透。

原視頻自己搜:Andrej Karpathy: From Vibe Coding to Agentic Engineering

圖片

舊年12月,有啲嘢變咗

Karpathy 話,過去一年佢一直用緊 Cursor 呢類 agentic 工具,"佢喺某個 code block 度表現唔錯,有時會出錯,然後你要去改,整體來講都有用。"

轉折點喺舊年12月。佢正好休假,有多啲時間玩呢啲工具。然後佢發現,最新嘅模型生成嘅 code block,直接就對咗。佢繼續測試多啲,都系啱嘅。佢已經唔記得上次糾正佢系幾時。

佢開始越來越信任呢個系統,然後就喺 vibe coding 喇。

佢覺得呢個轉變非常劇烈:好多人舊年認識 AI 仲停留喺 "ChatGPT 平替" 個階段,但到12月,事情已經根本唔同咗,尤其喺 agentic 連貫工作流呢方面,真系開始行得通喇。


Software 3.0:提示詞就係編程

Karpathy 對 Software 3.0 嘅定義系咁樣:

Software 1.0,你喺寫 code。Software 2.0,你透過整理數據集、訓練神經網絡嚟編程,編程變成咗安排數據同架構。而 Software 3.0,你嘅編程行為變成咗提示詞,上下文窗口裏面放嘅內容,就係你操控 LLM 呢個解釋器嘅槓桿。

佢舉咗兩個例子嚟說明呢種範式轉變。

第一個系 Claude Code 嘅安裝工具方式。按舊思路,安裝一個工具應該系一個 shell script,但係為咗兼容唔同平台,shell script 會越來越臃腫複雜。而 Claude Code 嘅安裝方式系:複製一段文字,貼俾你嘅 agent,佢會自動完成安裝。佢會觀察你嘅環境,執行智能操作,喺循環入面自己 debug。用 Software 3.0 嘅方式,你唔需要精確拼出每一個細節。

第二個例子更極端。Karpathy 自己做咗個叫 MenuGen 嘅 app,功能系影低餐廳菜單,然後俾每個菜式配返張圖,因為菜單上面通常冇圖。佢用 vibe coding 搭咗成套 app,包括 OCR 識別菜名、調用圖像生成器配圖、重新渲染菜單。

然後佢睇到 Software 3.0 嘅做法:將菜單相直接掉俾 Gemini,叫佢用 Imagen 將圖片直接覆蓋到菜單原圖上。Gemini 返回咗一張圖,就係佢影嘅嗰張菜單相,但每道菜隔籬已經渲染咗對應嘅食物圖片。

佢原話系:呢嚇嚇親我,因為我成個 MenuGen app 其實冇必要存在。

嗰套 app 喺舊範式入面運作,而新範式系神經網絡直接做更多嘢,輸入系圖片,輸出系圖片,中間嗰層 app 根本唔需要。


點解 AI 咁 "鋸齒狀"

Karpathy 花咗唔少時間諗 "可驗證性" 呢個概念,嘗試解釋點解呢啲模型咁參差唔齊。

佢嘅框架系:傳統計算機容易自動化嗰啲可以用 code 明確描述嘅任務,而而家嘅 LLM 容易自動化嗰啲輸出可以被驗證嘅任務。

原因在於訓練方式。前沿實驗室喺訓練呢啲模型時,系巨大嘅強化學習環境,模型會得到驗證獎勵,所以佢哋喺可驗證嘅領域能力激增,比如數學同 code。而喺嗰啲難驗證嘅領域,能力就顯得粗糙。

佢俾咗個例子:而家最先進嘅模型,比如 Opus 4.7,可以重構一個十萬行嘅 codebase,可以發現零日漏洞,但如果你問佢 "我要去洗車,洗車鋪距離50米,我應該開車定行路去",佢會叫你行路去,因為好近。

呢件事本身好荒謬,但亦說明咗模型嘅鋸齒特徵:佢喺某啲電路上飛咁快,喺另啲電路上完全失靈。呢部分取決於實驗室嘅訓練方式,部分取決於預訓練數據分佈,邊個喺數據入面,邊個就有能力。

由 GPT-3.5 到 GPT-4,模型喺下棋嘅能力大幅提升,好多人以為系整體能力提升嘅副產品,實際上系 OpenAI 有人決定將大量國際象棋數據放咗入預訓練集。數據喺度,能力就喺度。

所以佢嘅結論系:你其實喺一定程度上受制於實驗室做緊乜,放咗乜嘢入去。你攞到嘅系一個冇說明嘅嘢,你要自己去探索佢喺邊啲地方用得着,邊啲地方會出問題。如果你嘅應用場景啱啱好喺佢嘅 RL 電路入面,就會好用起飛。如果唔喺度,就要考慮自己做 fine-tuning。


Vibe Coding 同 Agentic Engineering 唔系同一回事

呢個系成場對話入面 Karpathy 講得最清楚嘅一個區分。

Vibe Coding 系抬高所有人嘅下限。佢令到每個人都喺軟件層面做到更多嘢,呢個好好,好驚人。

Agentic Engineering 系保持專業軟件原有嘅質量標準。你唔可以因為用咗 vibe coding 就引入安全漏洞。你對自己嘅軟件仍然有同以前一樣嘅責任,但你可唔可以跑得快啲?答案系可以,但點樣正確做到呢一點,就係 agentic engineering 呢門工程學科要解決嘅問題。

呢啲 agents 系尖刺狀嘅實體,有啲脆弱,有啲隨機,但極其強大。點樣協調佢哋唔犧牲質量標準嘅情況底下提速,呢個系 agentic engineering 嘅核心。

佢認為嗰種 "10x 工程師" 嘅講法喺呢度被放大咗好多倍——10x 已經唔夠形容優秀嘅 agentic engineer 所能得到嘅加速。


真正變貴嘅人才技能

如果 agents 做緊越來越多嘅嘢,乜嘢人類技能反而變得更有價值?

Karpathy 嘅答案系:品味、判斷力同審慎嘅監督。

佢舉咗 MenuGen 入面嘅一個 bug。用戶用 Google 賬户註冊,用 Stripe 賬户購買積分,兩者都有 email 地址。佢嘅 agent 喺匹配用戶時,嘗試用 email 地址將 Stripe 同 Google 賬户對應返,但用戶完全可以用唔同嘅 email 註冊兩個賬號,結果就係積分無法正確歸屬。

呢種錯誤嘅核心系:點解要用 email 地址嚟交叉關聯資金?呢個系奇怪嘅決定,應該用固定嘅用戶 ID。呢類判斷,而家仲要靠人嚟把關。

另一個例子:佢喺做 micrograd 項目,嘗試將 LLM 訓練流程簡化到儘可能簡單。佢不斷提示模型 "再簡化啲,再簡化啲",模型就係做唔到。佢形容呢種感覺系:你好明顯超出咗 RL 電路嘅範圍,感覺好似用蠻力拉扯,完全唔系嗰種飛咁快嘅感覺。

佢亦坦承,agent 生成嘅 code 有時令佢有啲心驚,因為佢確實行到,但 code 質量唔得,好臃腫,大量複製粘貼,抽象設計脆弱。佢希望將來模型可以改善呢一點,但話呢個唔系乜嘢根本性障礙,只系實驗室未做而已。

喺 API 細節呢層,佢已經唔記得 PyTorch 入面 reshape 同 permute 嘅分別,亦都唔需要記,因為呢啲嘢可以交俾 agent。但你仍然需要理解 tensor 底層有一個 storage,有時你攞到嘅系 view,有時系獨立嘅 storage,呢個決定咗內存效率。基本原理嘅理解仍然唔可以外包。


LLM 系鬼魂,唔系動物

Karpathy 寫過一篇文章,將 LLM 比喻成鬼魂而唔系動物。

佢嘗試解釋呢個框架嘅出發點:你對一件事有良好嘅心智模型,就可以更有能力地使用佢。

動物有內在動機、好奇心、透過進化得到嘅驅動力。LLM 冇呢啲嘢。佢嘅底層系預訓練嘅統計電路,然後用 RL 疊加上去一啲嘢。如果你對佢大聲嗌,佢唔會有任何反應,亦唔會表現得好啲或者差啲。

佢話呢個更多係一種心態調整,而唔系可以直接推導出五個實操結論嘅理論框架。更多系幫自己保持對佢嘅警惕,同埋搞清楚乜嘢做法可能有效、乜嘢可能無效。


你可以外包思考,但唔可以外包理解

關於教育同學習,Karpathy 引用咗一條令佢每隔幾日就會諗起嘅 tweet,大意系:

你可以外包你嘅思考,但你唔可以外包你嘅理解。

佢話自己仍然系成個系統入面嘅一部分,仍然需要知道我哋做緊乜、點解值得做、點樣指揮自己嘅 agents。某啲嘢必須指導呢一切嘅思考同處理,而呢個嘢歸根究底都系被理解力所約束。

如果你連自己想構建乜都唔清楚,你就冇辦法做一個好嘅導演。LLM 喺呢一點上唔擅長,你係呢件事上無可取代嗰個人。

呢個亦系點解佢對 LLM 知識庫項目非常興奮,因為每次從唔同角度睇同一份信息,佢都感覺自己得到咗新嘅理解。佢讀一篇文章,同時亦喺度將佢納入自己嘅知識庫,不斷向佢提問,以唔同方式重新整理信息。呢個系增強理解嘅工具,而唔系繞過理解。


尾聲

關於未來嘅基礎設施,Karpathy 有一個令佢好煩嘅現狀:幾乎所有文檔仲系寫俾人睇。佢唔想俾人叫佢去邊個 URL、㩒邊個菜單。佢只系想知道應該複製粘貼乜嘢俾佢嘅 agent。

佢認為一個檢驗基礎設施系咪真正 agent-native 嘅標準,系佢可唔可以俾 LLM 一個提示詞,然後 MenuGen 呢類 app 就被構建並部署好,佢完全唔需要動手。部署過程入面要設 DNS、要去各個服務嘅設置度㩒來㩒去,呢啲都太煩,本來唔應該存在。

更長遠嘅預測系:神經網絡成為主處理器,CPU 退化成協處理器。原本嘅 "計算器式計算機" 同 "神經網絡式計算機" 喺上世紀五六十年代仲系兩條未定嘅路,而家似乎有機會迎來一次反轉。

佢對呢個預測嘅態度系:系呢個方向,但會一步一步嚟,具體嘅過渡路徑仲有待確定。


 


--end--


最後記得⭐️我,每日都喺更新:如果覺得文章還不錯嘅話可以點贊轉發推薦評論

/...@作者:你講得完全正確(YAR師)

圖片



↑閲讀之前記得關注+星標⭐️,😄,每天才能第一時間接收到更新


 

Andrej Karpathy(OpenAI 聯合創始人、前特斯拉 AI 負責人、現 Eureka Labs 創始人)在 AI Ascent 2026 上與紅杉合夥人 Stephanie Zhan 對話,談論自他提出 "vibe coding" 一年以來的變化。他解釋了為什麼作為程序員他從未感到如此落後,為什麼 agentic engineering 是在 vibe coding 之上形成的更嚴謹的學科,以及為什麼我們應該把 LLM 視為 "幽靈"而非"動物"——這些參差不齊的、統計性的、召喚出來的實體需要一種全新的品味和判斷力來引導。他還談到了 Software 3.0、可驗證性的侷限性,以及為什麼你可以外包你的思考,但永遠不能外包你的理解。"

去年,Andrej Karpathy造了個詞——vibe coding。

今年,他說自己從沒有像現在這樣感到落後過。

這話從一個OpenAI聯合創始人、特斯拉前AI負責人、現在Eureka Labs創始人口中說出來,確實值得停下來認真想一想。

在Sequoia Capital的AI Ascent 2026上,Karpathy和Sequoia合夥人Stephanie Zhan做了一次深度對談。從vibe coding講到agentic engineering,從Software 3.0講到"鬼魂"理論,把這一年他所看到的技術轉變講了個透。

原視頻自行搜索:Andrej Karpathy: From Vibe Coding to Agentic Engineering

圖片

去年12月,有什麼東西變了

Karpathy說,過去一年他一直在用Cursor這類agentic工具,"它在一些代碼塊上表現不錯,有時候會出錯,然後你得去改,總體還算有用。"

轉折點在去年12月。他正好在休假,有更多時間弄這些工具。然後他發現,最新的模型生成的代碼塊,直接就對了。他繼續更多測試,還是對的。他已經記不清上次糾正它是什麼時候了。

他開始越來越信任這個系統,然後就在vibe coding了。

他覺得這個轉變非常劇烈:很多人去年認識AI還停留在"ChatGPT平替"那個階段,但到12月,事情已經從根本上不同了,尤其是在agentic連貫工作流這塊,真的開始能跑通了。


Software 3.0:提示詞就是編程

Karpathy對Software 3.0的定義是這樣的:

Software 1.0,你在寫代碼。Software 2.0,你通過整理數據集、訓練神經網絡來編程,編程變成了安排數據和架構。而Software 3.0,你的編程行為變成了提示詞,上下文窗口裏放的內容,就是你操控LLM這個解釋器的槓桿。

他舉了兩個例子來說明這種範式轉變。

第一個是Claude Code的安裝工具方式。按老思路,安裝一個工具應該是一個shell腳本,但是為了兼容不同平台,shell腳本會越來越臃腫複雜。而Claude Code的安裝方式是:複製一段文字,粘貼給你的agent,它會自己完成安裝。它會觀察你的環境,執行智能操作,在循環裏自己debug。用Software 3.0的方式,你不需要精確拼出每一個細節。

第二個例子更極端。Karpathy自己做了一個叫MenuGen的應用,功能是拍下餐廳菜單,然後給每個菜品配上圖片,因為菜單上通常沒有圖。他用vibe coding搭了整套應用,包括OCR識別菜名、調用圖像生成器配圖、重新渲染菜單。

然後他看到了Software 3.0的做法:把菜單照片直接扔給Gemini,讓它用Imagen把圖片直接覆蓋到菜單原圖上。Gemini返回了一張圖,就是他拍的那張菜單照片,但每道菜旁邊已經渲染出了對應的食物圖片。

他的原話是:這把我嚇到了,因為我整個MenuGen應用其實沒必要存在。

那套應用在老範式裏工作,而新範式是神經網絡直接做更多的事,輸入是圖片,輸出是圖片,中間那層應用根本不需要。


為什麼AI這麼"鋸齒狀"

Karpathy花了不少時間思考"可驗證性"這個概念,試圖解釋為什麼這些模型如此參差不齊。

他的框架是:傳統計算機容易自動化那些能用代碼明確描述的任務,而現在的LLM容易自動化那些輸出可以被驗證的任務。

原因在於訓練方式。前沿實驗室在訓練這些模型時,是巨大的強化學習環境,模型會獲得驗證獎勵,因此它們在可驗證的領域能力激增,比如數學和代碼。而在那些難以驗證的領域,能力就顯得粗糙。

他給了一個例子:現在最先進的模型,比如Opus 4.7,可以重構一個十萬行的代碼庫,可以發現零日漏洞,但如果你問它"我要去洗車,洗車店距離50米,我是應該開車還是走路去",它會告訴你走着去,因為很近。

這件事本身很荒誕,但也說明了模型的鋸齒狀特徵:它在某些電路上飛速運行,在另一些電路上完全失靈。這部分取決於實驗室的訓練方式,部分取決於預訓練數據分佈,誰在數據裏,誰就有能力。

從GPT-3.5到GPT-4,模型在下棋上的能力大幅提升,很多人以為是整體能力提升的副產品,實際上是OpenAI有人決定把大量國際象棋數據放進了預訓練集。數據在,能力就在。

所以他的結論是:你其實在一定程度上受制於實驗室在做什麼,放了什麼進去。你拿到的是一個沒有說明書的東西,你得自己去探索它在哪些地方能用,哪些地方會出問題。如果你的應用場景恰好在它的RL電路里,就會好用到起飛。如果不在,就得考慮自己做微調。


Vibe Coding和Agentic Engineering不是一回事

這是整場對話裏Karpathy講得最清楚的一個區分。

Vibe Coding是在抬高所有人的下限。它讓每個人都能在軟件層面做成更多事,這很好,很驚人。

Agentic Engineering是在保持專業軟件原有的質量標準。你不能因為用了vibe coding就引入安全漏洞。你對自己的軟件仍然負有跟以前一樣的責任,但你能不能跑得更快?答案是可以,但怎麼正確地做到這一點,就是agentic engineering這門工程學科要解決的問題。

這些agents是尖刺狀的實體,有點脆弱,有點隨機,但極其強大。怎麼協調它們在不犧牲質量標準的情況下提速,這是agentic engineering的核心。

他認為那種"10x工程師"的說法在這裏被放大了很多倍——10x已經不夠描述優秀的agentic engineer能獲得的加速了。


真正變貴的人才技能

如果agents在做越來越多的事,什麼人類技能反而變得更值錢?

Karpathy的答案是:品味、判斷力和審慎的監督。

他舉了MenuGen裏的一個bug。用戶用Google賬户註冊,用Stripe賬户購買積分,兩者都有email地址。他的agent在匹配用戶時,試圖用email地址把Stripe和Google賬户對應起來,但用戶完全可以用不同的email註冊兩個賬號,結果就是積分無法正確歸屬。

這種錯誤的核心是:為什麼要用email地址來交叉關聯資金?這是個奇怪的決定,應該用固定的用戶ID。這類判斷,目前還得靠人來把關。

另一個例子:他在做micrograd項目,試圖把LLM訓練流程簡化到儘可能簡單。他不斷提示模型"再簡化一點,再簡化一點",模型就是做不到。他形容這種感覺是:你很明顯超出了RL電路的範圍,感覺在用蠻力拉扯,完全不是那種飛速運行的感覺。

他也坦承,agent生成的代碼有時讓他有點心驚,因為它確實能跑,但代碼質量不太行,很臃腫,大量複製粘貼,抽象設計脆弱。他希望未來模型能改善這一點,但說這不是什麼根本性障礙,只是實驗室還沒做而已。

在API細節這層,他已經不記得PyTorch裏reshape和permute的區別了,也不需要記,因為這些東西可以交給agent。但你仍然需要理解tensor底層有一個storage,有時候你拿到的是view,有時候是獨立的storage,這決定了內存效率。基礎原理的理解仍然不能外包。


LLM是鬼魂,不是動物

Karpathy寫過一篇文章,把LLM比作鬼魂而不是動物。

他試圖解釋這個框架的出發點:你對一件事有好的心智模型,就能更有能力地使用它。

動物有內在動機、好奇心、通過進化獲得的驅動力。LLM沒有這些。它的底層是預訓練的統計電路,然後用RL往上疊加了一些東西。如果你衝着它大吼,它不會有任何反應,也不會表現得更好或更差。

他說這更多是一種心態調整,而不是能直接推導出五個實操結論的理論框架。更多是幫助自己保持對它的警惕,以及弄清楚什麼做法可能有效、什麼可能無效。


你可以外包思考,但無法外包理解

關於教育和學習,Karpathy引用了一條讓他每隔幾天就會想起來的推文,大意是:

你可以外包你的思考,但你無法外包你的理解。

他說自己仍然是整個系統裏的一部分,仍然需要知道我們在做什麼、為什麼值得做、怎麼去指揮自己的agents。某些東西必須指導這一切的思考和處理,而這個東西歸根結底還是被理解力所約束。

如果你連自己想構建什麼都不清楚,你就沒辦法做一個好的導演。LLM在這一點上不擅長,你是這件事上不可替代的那個人。

這也是為什麼他對LLM知識庫項目非常興奮,因為每次從不同角度看同一份信息,他都感覺自己獲得了新的理解。他讀一篇文章,同時也在把它納入自己的知識庫,不斷向它提問,以不同的方式重新整理信息。這是增強理解的工具,而不是繞過理解。


尾聲

關於未來的基礎設施,Karpathy有一個讓他很煩的現狀:幾乎所有文檔還是給人類寫的。他不想被告知要去找哪個URL、點哪個菜單。他只想知道應該複製粘貼什麼給他的agent。

他認為一個檢驗基礎設施是否真正agent-native的標準,是他能不能給LLM一個提示詞,然後MenuGen這類應用就被構建並部署好了,他完全不需要動手。部署過程裏要配DNS、要去各個服務的設置裏點來點去,這些都太煩了,本來不應該存在。

更遠期的預測是:神經網絡成為主處理器,CPU退化成協處理器。原本的"計算器式計算機"和"神經網絡式計算機"在上世紀五六十年代還是兩條未定的路,現在看來有機會迎來一次反轉。

他對這個預測的態度是:是這個方向,但會一步一步來,具體的過渡路徑還有待確定。


 


--end--


最後記得⭐️我,每天都在更新:如果覺得文章還不錯的話可以點贊轉發推薦評論

/...@作者:你說的完全正確(YAR師)