最新！Karpathy：Vibe Coding只是抬高了地板，真正的戰場在這裏

作者：AI寒武紀

日期：2026年4月30日上午3:50

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

Karpathy 講清 Vibe Coding 同 Agentic Engineering 嘅分別，仲話 LLM 係鬼魂唔係動物

整理版摘要

呢篇文章係 OpenAI 聯合創始人、前 Tesla AI 負責人 Andrej Karpathy 喺 Sequoia Capital 嘅 AI Ascent 2026 同合夥人 Stephanie Zhan 嘅對話整理。Karpathy 喺一年前提出「vibe coding」，但而家佢話自己從未咁落後過，因為真正嘅戰場係 agentic engineering。

Karpathy 解釋咗點解 Software 3.0 令傳統應用變得唔需要，例如佢自己做嘅 MenuGen 應用，用 Gemini 直接將食物圖片渲染到菜單相上，成個中間層應用都唔使。佢又講咗 LLM 嘅「鋸齒狀」能力係因為可驗證性——模型喺數學同代碼呢啲容易驗證嘅領域好叻，但喺日常判斷就好蠢。

整體結論係：vibe coding 抬高咗所有人嘅下限，但專業開發者要掌握 agentic engineering 先可以保持質量標準；人類嘅品味、判斷力同理解力係不可取代嘅，你可以外包思考，但唔可以外包理解。

Vibe Coding 係抬高下限，Agentic Engineering 先係真正嘅戰場，要喺唔犧牲質量嘅情況下用 agent 加速開發。
Software 3.0 嘅編程行為變成提示詞，神經網絡可以直接處理輸入輸出，成個中間層應用可以消失。
LLM 嘅能力好鋸齒狀，取決於實驗室有冇放相關數據落預訓練集，同埋任務係咪可驗證。
人類嘅品味同判斷力變得更加值錢，因為 agent 會犯低級錯誤，例如用 email 去 cross-reference 用戶資金。
你可以將思考外包俾 LLM，但你永遠冇得外包理解，你仍然需要知道自己做緊乜，先至可以做好個導演。

整理重點

由 Vibe Coding 到 Agentic Engineering：Karpathy 點樣睇個轉變

Karpathy 話去年12月係轉折點，佢發現最新模型生成嘅代碼塊直接就對咗，開始越嚟越信任個系統，然後就喺 vibe coding 緊。

佢覺得好多人仲停喺「ChatGPT 平替」嗰個階段，但12月之後，agentic 連貫工作流真係開始跑得通，呢個轉變好劇烈。

另一個極端例子係 MenuGen：佢用 vibe coding 整咗 OCR 加圖像生成嘅 app，但 Software 3.0 嘅做法係直接將菜單相扔俾 Gemini，用 Imagen 將食物圖片覆蓋上去，成個應用根本冇必要存在。

整理重點

點解 AI 咁「鋸齒狀」？可驗證性同數據分佈決定一切

Karpathy 用「可驗證性」解釋 LLM 嘅參差不齊。傳統計算機容易自動化能用代碼描述嘅任務，而 LLM 容易自動化輸出可以被驗證嘅任務——因為訓練係靠強化學習同驗證獎勵。

先進模型可以重構十萬行代碼、發現零日漏洞，但問佢「洗車距離50米，應該開車定行路？」佢會話行路，因為近。

模型喺數學同代碼呢啲容易驗證嘅領域能力激增，因為 RL 獎勵機制。
喺難以驗證嘅領域，能力就粗糙，例如日常常識。
從 GPT-3.5 到 GPT-4，下棋能力大幅提升，係因為 OpenAI 將大量國際象棋數據放入預訓練集。數據喺，能力就在。

結論係：你受制於實驗室放咗乜入去，攞到嘅係一個冇說明書嘅嘢，要自己探索喺邊度用得、邊度會出事。

整理重點

Vibe Coding 同 Agentic Engineering 完全唔係同一回事

Karpathy 清楚區分：Vibe Coding 係抬高所有人嘅下限，令每個人都做到更多；Agentic Engineering 係保持專業軟件嘅質量標準，唔可以因為用 vibe coding 就引入安全漏洞。

Karpathy 話「10x 工程師」呢個講法喺呢度被放大好多倍，優秀嘅 agentic engineer 獲得嘅加速遠遠超過 10x。

真正變貴嘅技能係品味、判斷力同審慎嘅監督。佢舉咗個 bug：agent 用 email 地址去 cross-reference Stripe 同 Google 賬户，但用戶可以用唔同 email 註冊，搞到積分歸屬錯。呢啲判斷仲要靠人。

Karpathy 話 agent 生成嘅代碼有時令佢心驚，因為雖然跑得鬱，但好臃腫、大量 copy-paste、抽象設計脆弱。

整理重點

LLM 係鬼魂，唔係動物——同埋點解理解冇得外包

Karpathy 寫過文章將 LLM 比作鬼魂：動物有內在動機、好奇心，但 LLM 冇，佢只係預訓練統計電路加 RL。你喺佢面前大嗌都唔會有反應。呢個比喻係心態調整，幫自己保持警惕。

Karpathy 話佢對 LLM 知識庫項目好興奮，因為每次從唔同角度睇同一份資訊，佢都獲得新理解——呢個係增強理解嘅工具，唔係繞過理解。

如果唔清楚自己想構建乜，就冇辦法做個好導演。
LLM 唔擅長理解，你呢個角色係不可替代。
Karpathy 認為未來文檔應該係俾 agent 睇，唔係俾人類睇：佢只想知要複製貼上乜嘢俾 agent。

整理重點

未來基礎設施：agent-native 同神經網絡做主處理器

Karpathy 話而家幾乎所有文檔都係俾人類寫嘅，好煩。佢認為真正 agent-native 嘅標準係：俾 LLM 一個提示詞，MenuGen 呢類應用就自動構建同部署好，完全唔使佢親手搞 DNS 或設置。

更遠期嘅預測：神經網絡會成為主處理器，CPU 退化做協處理器。上世紀五六十年代兩條路未定，而家有機會反轉。

佢對呢個預測嘅態度係方向正確，但會一步一步嚟，具體過渡路徑有待確定。

↑睇之前記得關注+星標⭐️，😄，每日先可以第一時間收到更新

Andrej Karpathy（OpenAI 聯合創始人、前 Tesla AI 負責人、而家 Eureka Labs 創始人）喺 AI Ascent 2026 同紅杉合夥人 Stephanie Zhan 傾偈，講佢提出 "vibe coding" 一年以嚟嘅變化。佢解釋點解作為程序員佢從未試過咁落後，點解 agentic engineering 系 vibe coding 之上形成嘅更嚴謹學科，同埋點解我哋應該將 LLM 視為 "幽靈" 多過 "動物"——呢啲參差唔齊、統計性、召喚出嚟嘅實體需要一種全新嘅品味同判斷力去引導。佢仲講到 Software 3.0、可驗證性嘅限制，同埋點解你可以外包你嘅思考，但永遠唔可以外包你嘅理解。

舊年，Andrej Karpathy 創造咗個詞——vibe coding。

今年，佢話自己從未試過好似而家咁覺得落後。

呢句話出自一個 OpenAI 聯合創始人、Tesla 前 AI 負責人、而家 Eureka Labs 創始人口中，的確值得停低認真諗一諗。

喺 Sequoia Capital 嘅 AI Ascent 2026 上，Karpathy 同 Sequoia 合夥人 Stephanie Zhan 做咗一次深度對談。由 vibe coding 講到 agentic engineering，由 Software 3.0 講到 "鬼魂" 理論，將呢一年佢所見嘅技術轉變講得好透。

原視頻自己搜：Andrej Karpathy: From Vibe Coding to Agentic Engineering

舊年12月，有啲嘢變咗

Karpathy 話，過去一年佢一直用緊 Cursor 呢類 agentic 工具，"佢喺某個 code block 度表現唔錯，有時會出錯，然後你要去改，整體來講都有用。"

轉折點喺舊年12月。佢正好休假，有多啲時間玩呢啲工具。然後佢發現，最新嘅模型生成嘅 code block，直接就對咗。佢繼續測試多啲，都系啱嘅。佢已經唔記得上次糾正佢系幾時。

佢開始越來越信任呢個系統，然後就喺 vibe coding 喇。

佢覺得呢個轉變非常劇烈：好多人舊年認識 AI 仲停留喺 "ChatGPT 平替" 個階段，但到12月，事情已經根本唔同咗，尤其喺 agentic 連貫工作流呢方面，真系開始行得通喇。

Software 3.0：提示詞就係編程

Karpathy 對 Software 3.0 嘅定義系咁樣：

Software 1.0，你喺寫 code。Software 2.0，你透過整理數據集、訓練神經網絡嚟編程，編程變成咗安排數據同架構。而 Software 3.0，你嘅編程行為變成咗提示詞，上下文窗口裏面放嘅內容，就係你操控 LLM 呢個解釋器嘅槓桿。

佢舉咗兩個例子嚟說明呢種範式轉變。

第一個系 Claude Code 嘅安裝工具方式。按舊思路，安裝一個工具應該系一個 shell script，但係為咗兼容唔同平台，shell script 會越來越臃腫複雜。而 Claude Code 嘅安裝方式系：複製一段文字，貼俾你嘅 agent，佢會自動完成安裝。佢會觀察你嘅環境，執行智能操作，喺循環入面自己 debug。用 Software 3.0 嘅方式，你唔需要精確拼出每一個細節。

第二個例子更極端。Karpathy 自己做咗個叫 MenuGen 嘅 app，功能系影低餐廳菜單，然後俾每個菜式配返張圖，因為菜單上面通常冇圖。佢用 vibe coding 搭咗成套 app，包括 OCR 識別菜名、調用圖像生成器配圖、重新渲染菜單。

然後佢睇到 Software 3.0 嘅做法：將菜單相直接掉俾 Gemini，叫佢用 Imagen 將圖片直接覆蓋到菜單原圖上。Gemini 返回咗一張圖，就係佢影嘅嗰張菜單相，但每道菜隔籬已經渲染咗對應嘅食物圖片。

佢原話系：呢嚇嚇親我，因為我成個 MenuGen app 其實冇必要存在。

嗰套 app 喺舊範式入面運作，而新範式系神經網絡直接做更多嘢，輸入系圖片，輸出系圖片，中間嗰層 app 根本唔需要。

點解 AI 咁 "鋸齒狀"

Karpathy 花咗唔少時間諗 "可驗證性" 呢個概念，嘗試解釋點解呢啲模型咁參差唔齊。

佢嘅框架系：傳統計算機容易自動化嗰啲可以用 code 明確描述嘅任務，而而家嘅 LLM 容易自動化嗰啲輸出可以被驗證嘅任務。

原因在於訓練方式。前沿實驗室喺訓練呢啲模型時，系巨大嘅強化學習環境，模型會得到驗證獎勵，所以佢哋喺可驗證嘅領域能力激增，比如數學同 code。而喺嗰啲難驗證嘅領域，能力就顯得粗糙。

佢俾咗個例子：而家最先進嘅模型，比如 Opus 4.7，可以重構一個十萬行嘅 codebase，可以發現零日漏洞，但如果你問佢 "我要去洗車，洗車鋪距離50米，我應該開車定行路去"，佢會叫你行路去，因為好近。

呢件事本身好荒謬，但亦說明咗模型嘅鋸齒特徵：佢喺某啲電路上飛咁快，喺另啲電路上完全失靈。呢部分取決於實驗室嘅訓練方式，部分取決於預訓練數據分佈，邊個喺數據入面，邊個就有能力。

由 GPT-3.5 到 GPT-4，模型喺下棋嘅能力大幅提升，好多人以為系整體能力提升嘅副產品，實際上系 OpenAI 有人決定將大量國際象棋數據放咗入預訓練集。數據喺度，能力就喺度。

所以佢嘅結論系：你其實喺一定程度上受制於實驗室做緊乜，放咗乜嘢入去。你攞到嘅系一個冇說明嘅嘢，你要自己去探索佢喺邊啲地方用得着，邊啲地方會出問題。如果你嘅應用場景啱啱好喺佢嘅 RL 電路入面，就會好用起飛。如果唔喺度，就要考慮自己做 fine-tuning。

Vibe Coding 同 Agentic Engineering 唔系同一回事

呢個系成場對話入面 Karpathy 講得最清楚嘅一個區分。

Vibe Coding 系抬高所有人嘅下限。佢令到每個人都喺軟件層面做到更多嘢，呢個好好，好驚人。

Agentic Engineering 系保持專業軟件原有嘅質量標準。你唔可以因為用咗 vibe coding 就引入安全漏洞。你對自己嘅軟件仍然有同以前一樣嘅責任，但你可唔可以跑得快啲？答案系可以，但點樣正確做到呢一點，就係 agentic engineering 呢門工程學科要解決嘅問題。

呢啲 agents 系尖刺狀嘅實體，有啲脆弱，有啲隨機，但極其強大。點樣協調佢哋唔犧牲質量標準嘅情況底下提速，呢個系 agentic engineering 嘅核心。

佢認為嗰種 "10x 工程師" 嘅講法喺呢度被放大咗好多倍——10x 已經唔夠形容優秀嘅 agentic engineer 所能得到嘅加速。

真正變貴嘅人才技能

如果 agents 做緊越來越多嘅嘢，乜嘢人類技能反而變得更有價值？

Karpathy 嘅答案系：品味、判斷力同審慎嘅監督。

佢舉咗 MenuGen 入面嘅一個 bug。用戶用 Google 賬户註冊，用 Stripe 賬户購買積分，兩者都有 email 地址。佢嘅 agent 喺匹配用戶時，嘗試用 email 地址將 Stripe 同 Google 賬户對應返，但用戶完全可以用唔同嘅 email 註冊兩個賬號，結果就係積分無法正確歸屬。

呢種錯誤嘅核心系：點解要用 email 地址嚟交叉關聯資金？呢個系奇怪嘅決定，應該用固定嘅用戶 ID。呢類判斷，而家仲要靠人嚟把關。

另一個例子：佢喺做 micrograd 項目，嘗試將 LLM 訓練流程簡化到儘可能簡單。佢不斷提示模型 "再簡化啲，再簡化啲"，模型就係做唔到。佢形容呢種感覺系：你好明顯超出咗 RL 電路嘅範圍，感覺好似用蠻力拉扯，完全唔系嗰種飛咁快嘅感覺。

佢亦坦承，agent 生成嘅 code 有時令佢有啲心驚，因為佢確實行到，但 code 質量唔得，好臃腫，大量複製粘貼，抽象設計脆弱。佢希望將來模型可以改善呢一點，但話呢個唔系乜嘢根本性障礙，只系實驗室未做而已。

喺 API 細節呢層，佢已經唔記得 PyTorch 入面 reshape 同 permute 嘅分別，亦都唔需要記，因為呢啲嘢可以交俾 agent。但你仍然需要理解 tensor 底層有一個 storage，有時你攞到嘅系 view，有時系獨立嘅 storage，呢個決定咗內存效率。基本原理嘅理解仍然唔可以外包。

LLM 系鬼魂，唔系動物

Karpathy 寫過一篇文章，將 LLM 比喻成鬼魂而唔系動物。

佢嘗試解釋呢個框架嘅出發點：你對一件事有良好嘅心智模型，就可以更有能力地使用佢。

動物有內在動機、好奇心、透過進化得到嘅驅動力。LLM 冇呢啲嘢。佢嘅底層系預訓練嘅統計電路，然後用 RL 疊加上去一啲嘢。如果你對佢大聲嗌，佢唔會有任何反應，亦唔會表現得好啲或者差啲。

佢話呢個更多係一種心態調整，而唔系可以直接推導出五個實操結論嘅理論框架。更多系幫自己保持對佢嘅警惕，同埋搞清楚乜嘢做法可能有效、乜嘢可能無效。

你可以外包思考，但唔可以外包理解

關於教育同學習，Karpathy 引用咗一條令佢每隔幾日就會諗起嘅 tweet，大意系：

你可以外包你嘅思考，但你唔可以外包你嘅理解。

佢話自己仍然系成個系統入面嘅一部分，仍然需要知道我哋做緊乜、點解值得做、點樣指揮自己嘅 agents。某啲嘢必須指導呢一切嘅思考同處理，而呢個嘢歸根究底都系被理解力所約束。

如果你連自己想構建乜都唔清楚，你就冇辦法做一個好嘅導演。LLM 喺呢一點上唔擅長，你係呢件事上無可取代嗰個人。

呢個亦系點解佢對 LLM 知識庫項目非常興奮，因為每次從唔同角度睇同一份信息，佢都感覺自己得到咗新嘅理解。佢讀一篇文章，同時亦喺度將佢納入自己嘅知識庫，不斷向佢提問，以唔同方式重新整理信息。呢個系增強理解嘅工具，而唔系繞過理解。

尾聲

關於未來嘅基礎設施，Karpathy 有一個令佢好煩嘅現狀：幾乎所有文檔仲系寫俾人睇。佢唔想俾人叫佢去邊個 URL、㩒邊個菜單。佢只系想知道應該複製粘貼乜嘢俾佢嘅 agent。

佢認為一個檢驗基礎設施系咪真正 agent-native 嘅標準，系佢可唔可以俾 LLM 一個提示詞，然後 MenuGen 呢類 app 就被構建並部署好，佢完全唔需要動手。部署過程入面要設 DNS、要去各個服務嘅設置度㩒來㩒去，呢啲都太煩，本來唔應該存在。

更長遠嘅預測系：神經網絡成為主處理器，CPU 退化成協處理器。原本嘅 "計算器式計算機" 同 "神經網絡式計算機" 喺上世紀五六十年代仲系兩條未定嘅路，而家似乎有機會迎來一次反轉。

佢對呢個預測嘅態度系：系呢個方向，但會一步一步嚟，具體嘅過渡路徑仲有待確定。

--end--

最後記得⭐️我，每日都喺更新：如果覺得文章還不錯嘅話可以點贊轉發推薦評論

/...@作者：你講得完全正確（YAR師）

↑閲讀之前記得關注+星標⭐️，😄，每天才能第一時間接收到更新

Andrej Karpathy（OpenAI 聯合創始人、前特斯拉 AI 負責人、現 Eureka Labs 創始人）在 AI Ascent 2026 上與紅杉合夥人 Stephanie Zhan 對話，談論自他提出 "vibe coding" 一年以來的變化。他解釋了為什麼作為程序員他從未感到如此落後，為什麼 agentic engineering 是在 vibe coding 之上形成的更嚴謹的學科，以及為什麼我們應該把 LLM 視為 "幽靈"而非"動物"——這些參差不齊的、統計性的、召喚出來的實體需要一種全新的品味和判斷力來引導。他還談到了 Software 3.0、可驗證性的侷限性，以及為什麼你可以外包你的思考，但永遠不能外包你的理解。"

去年，Andrej Karpathy造了個詞——vibe coding。

今年，他說自己從沒有像現在這樣感到落後過。

這話從一個OpenAI聯合創始人、特斯拉前AI負責人、現在Eureka Labs創始人口中說出來，確實值得停下來認真想一想。

在Sequoia Capital的AI Ascent 2026上，Karpathy和Sequoia合夥人Stephanie Zhan做了一次深度對談。從vibe coding講到agentic engineering，從Software 3.0講到"鬼魂"理論，把這一年他所看到的技術轉變講了個透。

原視頻自行搜索：Andrej Karpathy: From Vibe Coding to Agentic Engineering

去年12月，有什麼東西變了

Karpathy說，過去一年他一直在用Cursor這類agentic工具，"它在一些代碼塊上表現不錯，有時候會出錯，然後你得去改，總體還算有用。"

轉折點在去年12月。他正好在休假，有更多時間弄這些工具。然後他發現，最新的模型生成的代碼塊，直接就對了。他繼續更多測試，還是對的。他已經記不清上次糾正它是什麼時候了。

他開始越來越信任這個系統，然後就在vibe coding了。

他覺得這個轉變非常劇烈：很多人去年認識AI還停留在"ChatGPT平替"那個階段，但到12月，事情已經從根本上不同了，尤其是在agentic連貫工作流這塊，真的開始能跑通了。

Software 3.0：提示詞就是編程

Karpathy對Software 3.0的定義是這樣的：

Software 1.0，你在寫代碼。Software 2.0，你通過整理數據集、訓練神經網絡來編程，編程變成了安排數據和架構。而Software 3.0，你的編程行為變成了提示詞，上下文窗口裏放的內容，就是你操控LLM這個解釋器的槓桿。

他舉了兩個例子來說明這種範式轉變。

第一個是Claude Code的安裝工具方式。按老思路，安裝一個工具應該是一個shell腳本，但是為了兼容不同平台，shell腳本會越來越臃腫複雜。而Claude Code的安裝方式是：複製一段文字，粘貼給你的agent，它會自己完成安裝。它會觀察你的環境，執行智能操作，在循環裏自己debug。用Software 3.0的方式，你不需要精確拼出每一個細節。

第二個例子更極端。Karpathy自己做了一個叫MenuGen的應用，功能是拍下餐廳菜單，然後給每個菜品配上圖片，因為菜單上通常沒有圖。他用vibe coding搭了整套應用，包括OCR識別菜名、調用圖像生成器配圖、重新渲染菜單。

然後他看到了Software 3.0的做法：把菜單照片直接扔給Gemini，讓它用Imagen把圖片直接覆蓋到菜單原圖上。Gemini返回了一張圖，就是他拍的那張菜單照片，但每道菜旁邊已經渲染出了對應的食物圖片。

他的原話是：這把我嚇到了，因為我整個MenuGen應用其實沒必要存在。

那套應用在老範式裏工作，而新範式是神經網絡直接做更多的事，輸入是圖片，輸出是圖片，中間那層應用根本不需要。

為什麼AI這麼"鋸齒狀"

Karpathy花了不少時間思考"可驗證性"這個概念，試圖解釋為什麼這些模型如此參差不齊。

他的框架是：傳統計算機容易自動化那些能用代碼明確描述的任務，而現在的LLM容易自動化那些輸出可以被驗證的任務。

原因在於訓練方式。前沿實驗室在訓練這些模型時，是巨大的強化學習環境，模型會獲得驗證獎勵，因此它們在可驗證的領域能力激增，比如數學和代碼。而在那些難以驗證的領域，能力就顯得粗糙。

他給了一個例子：現在最先進的模型，比如Opus 4.7，可以重構一個十萬行的代碼庫，可以發現零日漏洞，但如果你問它"我要去洗車，洗車店距離50米，我是應該開車還是走路去"，它會告訴你走着去，因為很近。

這件事本身很荒誕，但也說明了模型的鋸齒狀特徵：它在某些電路上飛速運行，在另一些電路上完全失靈。這部分取決於實驗室的訓練方式，部分取決於預訓練數據分佈，誰在數據裏，誰就有能力。

從GPT-3.5到GPT-4，模型在下棋上的能力大幅提升，很多人以為是整體能力提升的副產品，實際上是OpenAI有人決定把大量國際象棋數據放進了預訓練集。數據在，能力就在。

所以他的結論是：你其實在一定程度上受制於實驗室在做什麼，放了什麼進去。你拿到的是一個沒有說明書的東西，你得自己去探索它在哪些地方能用，哪些地方會出問題。如果你的應用場景恰好在它的RL電路里，就會好用到起飛。如果不在，就得考慮自己做微調。

Vibe Coding和Agentic Engineering不是一回事

這是整場對話裏Karpathy講得最清楚的一個區分。

Vibe Coding是在抬高所有人的下限。它讓每個人都能在軟件層面做成更多事，這很好，很驚人。

Agentic Engineering是在保持專業軟件原有的質量標準。你不能因為用了vibe coding就引入安全漏洞。你對自己的軟件仍然負有跟以前一樣的責任，但你能不能跑得更快？答案是可以，但怎麼正確地做到這一點，就是agentic engineering這門工程學科要解決的問題。

這些agents是尖刺狀的實體，有點脆弱，有點隨機，但極其強大。怎麼協調它們在不犧牲質量標準的情況下提速，這是agentic engineering的核心。

他認為那種"10x工程師"的說法在這裏被放大了很多倍——10x已經不夠描述優秀的agentic engineer能獲得的加速了。

真正變貴的人才技能

如果agents在做越來越多的事，什麼人類技能反而變得更值錢？

Karpathy的答案是：品味、判斷力和審慎的監督。

他舉了MenuGen裏的一個bug。用戶用Google賬户註冊，用Stripe賬户購買積分，兩者都有email地址。他的agent在匹配用戶時，試圖用email地址把Stripe和Google賬户對應起來，但用戶完全可以用不同的email註冊兩個賬號，結果就是積分無法正確歸屬。

這種錯誤的核心是：為什麼要用email地址來交叉關聯資金？這是個奇怪的決定，應該用固定的用戶ID。這類判斷，目前還得靠人來把關。

另一個例子：他在做micrograd項目，試圖把LLM訓練流程簡化到儘可能簡單。他不斷提示模型"再簡化一點，再簡化一點"，模型就是做不到。他形容這種感覺是：你很明顯超出了RL電路的範圍，感覺在用蠻力拉扯，完全不是那種飛速運行的感覺。

他也坦承，agent生成的代碼有時讓他有點心驚，因為它確實能跑，但代碼質量不太行，很臃腫，大量複製粘貼，抽象設計脆弱。他希望未來模型能改善這一點，但說這不是什麼根本性障礙，只是實驗室還沒做而已。

在API細節這層，他已經不記得PyTorch裏reshape和permute的區別了，也不需要記，因為這些東西可以交給agent。但你仍然需要理解tensor底層有一個storage，有時候你拿到的是view，有時候是獨立的storage，這決定了內存效率。基礎原理的理解仍然不能外包。

LLM是鬼魂，不是動物

Karpathy寫過一篇文章，把LLM比作鬼魂而不是動物。

他試圖解釋這個框架的出發點：你對一件事有好的心智模型，就能更有能力地使用它。

動物有內在動機、好奇心、通過進化獲得的驅動力。LLM沒有這些。它的底層是預訓練的統計電路，然後用RL往上疊加了一些東西。如果你衝着它大吼，它不會有任何反應，也不會表現得更好或更差。

他說這更多是一種心態調整，而不是能直接推導出五個實操結論的理論框架。更多是幫助自己保持對它的警惕，以及弄清楚什麼做法可能有效、什麼可能無效。

你可以外包思考，但無法外包理解

關於教育和學習，Karpathy引用了一條讓他每隔幾天就會想起來的推文，大意是：

你可以外包你的思考，但你無法外包你的理解。

他說自己仍然是整個系統裏的一部分，仍然需要知道我們在做什麼、為什麼值得做、怎麼去指揮自己的agents。某些東西必須指導這一切的思考和處理，而這個東西歸根結底還是被理解力所約束。

如果你連自己想構建什麼都不清楚，你就沒辦法做一個好的導演。LLM在這一點上不擅長，你是這件事上不可替代的那個人。

這也是為什麼他對LLM知識庫項目非常興奮，因為每次從不同角度看同一份信息，他都感覺自己獲得了新的理解。他讀一篇文章，同時也在把它納入自己的知識庫，不斷向它提問，以不同的方式重新整理信息。這是增強理解的工具，而不是繞過理解。

尾聲

關於未來的基礎設施，Karpathy有一個讓他很煩的現狀：幾乎所有文檔還是給人類寫的。他不想被告知要去找哪個URL、點哪個菜單。他只想知道應該複製粘貼什麼給他的agent。

他認為一個檢驗基礎設施是否真正agent-native的標準，是他能不能給LLM一個提示詞，然後MenuGen這類應用就被構建並部署好了，他完全不需要動手。部署過程裏要配DNS、要去各個服務的設置裏點來點去，這些都太煩了，本來不應該存在。

更遠期的預測是：神經網絡成為主處理器，CPU退化成協處理器。原本的"計算器式計算機"和"神經網絡式計算機"在上世紀五六十年代還是兩條未定的路，現在看來有機會迎來一次反轉。

他對這個預測的態度是：是這個方向，但會一步一步來，具體的過渡路徑還有待確定。

--end--

最後記得⭐️我，每天都在更新：如果覺得文章還不錯的話可以點贊轉發推薦評論

/...@作者：你說的完全正確（YAR師）