Karpathy:10x 工程師已經不夠看了
整理版優先睇
AI編程已翻越門檻:工程師嘅價值在理解,唔係執行
呢篇文章係我(Feisky)對Karpathy喺Sequoia AI Ascent 2026對談嘅整理。我本人用Claude Code同Codex超過一年,初期覺得寫代碼快好多,但耐咗反而有種無力感:AI做到嘅嘢愈嚟愈多,自己嘅價值好似縮水。Karpathy都有同樣感受,佢話自己從來未試過咁覺得落伍,即使佢係Vibe Coding呢個詞嘅發明人。
轉折點係去年12月:Karpathy發現Agent輸出嘅代碼默認能用,追加需求都仲係啱,佢已經唔記得上次手動修正係幾時。呢個唔係慢慢變好,而係突然嘅台階。呢個質變令佢區分出Vibe Coding同Agentic Engineering:Vibe Coding抬高下限,俾非程序員做出原型;Agentic Engineering抬高上限,令專業工程師產出遠超10x。能力差距急劇拉大,係佢覺得落伍嘅真正原因。
LLM嘅智能係鋸齒形——喺代碼、數學呢啲可驗證領域好強,但日常常識可能犯低級錯誤,因為訓練數據同RL軌道集中喺商業價值高嘅領域。Karpathy仲指出,好多現有軟件其實唔應該存在,Software 3.0範式下應該直接由大模型端到端完成任務。最終結論係:你可以外包思考,但唔可以外包理解;工程師嘅核心價值仍然係寫Spec、定方向,而唔係執行細節。
- AI工具能力已達「預設可用」水平,工程師嘅核心價值由執行力轉向理解力同方向判斷。
- 要區分Vibe Coding(提高下限)同Agentic Engineering(提高上限),後者令工程師產出遠超10x。
- LLM智能係鋸齒形:喺可驗證領域(代碼、數學)極強,但日常常識可能犯低級錯誤,能力跟數據分佈走。
- 好多現有軟件喺Software 1.0範式係多餘嘅,應該思考直接由大模型端到端完成任務嘅可能性。
- 面試應改為真實項目攻擊測試;工程師應專注寫Spec,將實現細節交畀Agent。
完整對談影片
Karpathy 喺 Sequoia AI Ascent 2026 嘅完整半小時對談
Karpathy 本人嘅要點總結
Karpathy 喺 X 上嘅 thread 總結對談重點
Stephanie Zhan 嘅推文
另一位與會者嘅筆記
Vibe Coding 原推
Karpathy 提出 Vibe Coding 概念嘅原始推文
落伍感:從興奮到無力
我自己用 Claude Code 同 Codex 超過一年,初期好興奮,寫代碼快咗好多。但耐咗反而經常有種說唔清嘅無力感——AI 做到嘅嘢愈嚟愈多,自己嘅價值好似縮水。
Karpathy 喺 Sequoia AI Ascent 2026 嘅對談中都有同感:佢話從來未試過咁覺得自己作為程序員落伍。即使 Vibe Coding 呢個詞係佢發明嘅,佢都覺得自己跟唔上。
轉折點係去年12月——Agent 輸出嘅代碼默認能用,追加需求都仲係啱,佢已經唔記得上次手動修正係幾時。
呢個唔係慢慢變好,而係一個突然嘅台階。從「有時能用」到「默認能用」,中間冇過渡。Karpathy 提醒:如果你12月之後冇重新認真試一次,可能仲用緊一個已經過期嘅心智模型判斷呢啲工具。
Vibe Coding vs Agentic Engineering:下限同上限之別
既然能力有咗質變,對唔同人意味着咩?Karpathy 有個重要區分:Vibe Coding 同 Agentic Engineering 係兩回事。
- Vibe Coding:自然語言描述需求,跑起一個原型,適合非技術人員。
- Agentic Engineering:專業工程師用 Agent 工具,喺生產級質量下將效率拉到之前唔敢想嘅水平。
- 之前講 10x 工程師,而家擅長 Agentic Engineering 嘅人遠超 10x。個人產出上限比以前高得多。
呢個先係佢覺得落伍嘅真正原因——唔係 AI 太強,而係唔同人用 AI 嘅能力差距急劇拉大。好工程師同普通工程師之間嘅槓桿倍數,比以往任何時候都大。
LLM鋸齒形智能:模型擅長咩,唔擅長咩
Karpathy 舉咗個例子:Opus 4.7 可以連貫重構 10 萬行代碼庫,或者發現零日漏洞,但你問佢「洗車店離我 50 米,我應該開車定走路」,佢會答走路——因為距離近。一個發現零日漏洞嘅系統,點可能唔知你唔可以走路去洗車?
LLM 嘅智能係鋸齒形:強項同弱項唔連貫,取決於訓練數據同驗證信號。
- 1 可驗證性:代碼有編譯器同測試,數學有證明,RL 喺呢啲領域效果拉滿;日常常識好難構造驗證環境。
- 2 經濟學:前沿實驗室揀數據入訓練集,取決於商業價值;代碼能力值錢,所以有人花大力氣做。例如 GPT-3.5 到 GPT-4 棋力大升,唔係通用能力進步,而係預訓練數據加咗大量棋譜。
Karpathy 打咗個比方:如果你嘅應用啱好喺 RL 訓練覆蓋嘅軌道上,你會覺得喺飛;如果唔喺,你就係喺叢林拎砍刀開路。呢個判斷對做產品嘅人特別有參考價值。
Software 3.0:好多代碼其實唔需要存在
就算喺模型擅長嘅軌道上,Karpathy 認為好多現有軟件其實唔應該存在。佢用自己嘅 MenuGen 做例子:拍餐廳菜單,OCR 識別,生成圖片,重新渲染——呢個 App 喺 Software 1.0 範式。另一種做法係直接將菜單相片畀 Gemini,叫佢喺原圖上渲染菜品圖片,冇 OCR、冇後端、冇數據庫。
MenuGen 呢個 App 係多餘嘅——Software 3.0 嘅做法係讓大模型直接端到端完成任務。
- OpenClaw 安裝方式:傳統寫 Shell 腳本處理平台差異,新做法係寫自然語言安裝說明,用戶複製畀 Agent,Agent 自動適配系統。用 .md 替代 .sh。
- LLM 知識庫:以前冇任何代碼能將非結構化文章變成有組織嘅 Wiki,但 LLM 做到——呢啲唔係做快咗,而係以前根本做唔到。
可外包思考,不可外包理解
對談尾聲,Karpathy 引用一條推文:你可以外包思考,但唔可以外包理解。佢話呢句幾乎每隔一日就會喺佢腦海浮現。
佢而家覺得自己係系統入面嘅瓶頸——Agent 可以執行、搜索、寫代碼、迭代,但「我哋到底做緊咩」「點解值得做」「方向啱唔啱」呢啲問題 Agent 回答唔到。
佢舉例:PyTorch 同 NumPy 嘅 API 細節佢已經記唔住,keep_dims 定 keepdim,dim 定 axis,呢啲交畀 Agent 就得。但底層 Tensor 嘅存儲模型、View 同 Copy 嘅區別,你一定要懂,唔係你連叫 Agent 做咩都唔知。
呢個觀點對招聘都好有啟發。大部分公司面試仲係考八股文,但 Agentic Engineering 嘅核心能力係唔係解一道算法題,而係能否交付一個經得住考驗嘅系統。Karpathy 提議:叫候選人做一個真實項目(例如 Twitter 克隆),要部署上線、功能完整、安全合格,然後用 10 個 Codex 實例攻擊佢,睇下扛唔扛得住——呢啲先係考驗理解力同判斷力嘅方式。
