Karpathy:10x 工程師已經不夠看了

作者:Feisky
日期:2026年5月6日 下午1:44
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

AI編程已翻越門檻:工程師嘅價值在理解,唔係執行

整理版摘要

呢篇文章係我(Feisky)對KarpathySequoia AI Ascent 2026對談嘅整理。我本人用Claude Code同Codex超過一年,初期覺得寫代碼快好多,但耐咗反而有種無力感:AI做到嘅嘢愈嚟愈多,自己嘅價值好似縮水。Karpathy都有同樣感受,佢話自己從來未試過咁覺得落伍,即使佢係Vibe Coding呢個詞嘅發明人。

轉折點係去年12月Karpathy發現Agent輸出嘅代碼默認能用,追加需求都仲係啱,佢已經唔記得上次手動修正係幾時。呢個唔係慢慢變好,而係突然嘅台階。呢個質變令佢區分出Vibe Coding同Agentic Engineering:Vibe Coding抬高下限,俾非程序員做出原型;Agentic Engineering抬高上限,令專業工程師產出遠超10x。能力差距急劇拉大,係佢覺得落伍嘅真正原因

LLM嘅智能係鋸齒形——喺代碼、數學呢啲可驗證領域好強,但日常常識可能犯低級錯誤,因為訓練數據同RL軌道集中喺商業價值高嘅領域。Karpathy仲指出,好多現有軟件其實唔應該存在,Software 3.0範式下應該直接由大模型端到端完成任務。最終結論係:你可以外包思考,但唔可以外包理解;工程師嘅核心價值仍然係寫Spec、定方向,而唔係執行細節。

  • AI工具能力已達「預設可用」水平,工程師嘅核心價值由執行力轉向理解力同方向判斷。
  • 要區分Vibe Coding(提高下限)同Agentic Engineering(提高上限),後者令工程師產出遠超10x。
  • LLM智能係鋸齒形:喺可驗證領域(代碼、數學)極強,但日常常識可能犯低級錯誤,能力跟數據分佈走。
  • 好多現有軟件喺Software 1.0範式係多餘嘅,應該思考直接由大模型端到端完成任務嘅可能性。
  • 面試應改為真實項目攻擊測試;工程師應專注寫Spec,將實現細節交畀Agent。
值得記低
連結 youtube.com

完整對談影片

Karpathy 喺 Sequoia AI Ascent 2026 嘅完整半小時對談

連結 x.com

Karpathy 本人嘅要點總結

Karpathy 喺 X 上嘅 thread 總結對談重點

連結 x.com

Stephanie Zhan 嘅推文

另一位與會者嘅筆記

連結 x.com

Vibe Coding 原推

Karpathy 提出 Vibe Coding 概念嘅原始推文

整理重點

落伍感:從興奮到無力

我自己用 Claude CodeCodex 超過一年,初期好興奮,寫代碼快咗好多。但耐咗反而經常有種說唔清嘅無力感——AI 做到嘅嘢愈嚟愈多,自己嘅價值好似縮水。

KarpathySequoia AI Ascent 2026 嘅對談中都有同感:佢話從來未試過咁覺得自己作為程序員落伍。即使 Vibe Coding 呢個詞係佢發明嘅,佢都覺得自己跟唔上。

轉折點係去年12月——Agent 輸出嘅代碼默認能用,追加需求都仲係啱,佢已經唔記得上次手動修正係幾時。

呢個唔係慢慢變好,而係一個突然嘅台階。從「有時能用」到「默認能用」,中間冇過渡。Karpathy 提醒:如果你12月之後冇重新認真試一次,可能仲用緊一個已經過期嘅心智模型判斷呢啲工具。

整理重點

Vibe Coding vs Agentic Engineering:下限同上限之別

既然能力有咗質變,對唔同人意味着咩?Karpathy 有個重要區分:Vibe CodingAgentic Engineering 係兩回事。

  • Vibe Coding:自然語言描述需求,跑起一個原型,適合非技術人員。
  • Agentic Engineering:專業工程師用 Agent 工具,喺生產級質量下將效率拉到之前唔敢想嘅水平。
  • 之前講 10x 工程師,而家擅長 Agentic Engineering 嘅人遠超 10x。個人產出上限比以前高得多。

呢個先係佢覺得落伍嘅真正原因——唔係 AI 太強,而係唔同人用 AI 嘅能力差距急劇拉大。好工程師同普通工程師之間嘅槓桿倍數,比以往任何時候都大。

整理重點

LLM鋸齒形智能:模型擅長咩,唔擅長咩

Karpathy 舉咗個例子Opus 4.7 可以連貫重構 10 萬行代碼庫,或者發現零日漏洞,但你問佢「洗車店離我 50 米,我應該開車定走路」,佢會答走路——因為距離近。一個發現零日漏洞嘅系統,點可能唔知你唔可以走路去洗車?

LLM 嘅智能係鋸齒形:強項同弱項唔連貫,取決於訓練數據同驗證信號。

  1. 1 可驗證性:代碼有編譯器同測試,數學有證明,RL 喺呢啲領域效果拉滿;日常常識好難構造驗證環境。
  2. 2 經濟學:前沿實驗室揀數據入訓練集,取決於商業價值;代碼能力值錢,所以有人花大力氣做。例如 GPT-3.5GPT-4 棋力大升,唔係通用能力進步,而係預訓練數據加咗大量棋譜。

Karpathy 打咗個比方:如果你嘅應用啱好喺 RL 訓練覆蓋嘅軌道上,你會覺得喺飛;如果唔喺,你就係喺叢林拎砍刀開路。呢個判斷對做產品嘅人特別有參考價值。

整理重點

Software 3.0:好多代碼其實唔需要存在

就算喺模型擅長嘅軌道上,Karpathy 認為好多現有軟件其實唔應該存在。佢用自己嘅 MenuGen 做例子:拍餐廳菜單,OCR 識別,生成圖片,重新渲染——呢個 App 喺 Software 1.0 範式。另一種做法係直接將菜單相片畀 Gemini,叫佢喺原圖上渲染菜品圖片,冇 OCR、冇後端、冇數據庫。

MenuGen 呢個 App 係多餘嘅——Software 3.0 嘅做法係讓大模型直接端到端完成任務。

  • OpenClaw 安裝方式:傳統寫 Shell 腳本處理平台差異,新做法係寫自然語言安裝說明,用戶複製畀 Agent,Agent 自動適配系統。用 .md 替代 .sh。
  • LLM 知識庫:以前冇任何代碼能將非結構化文章變成有組織嘅 Wiki,但 LLM 做到——呢啲唔係做快咗,而係以前根本做唔到。
整理重點

可外包思考,不可外包理解

對談尾聲,Karpathy 引用一條推文:你可以外包思考,但唔可以外包理解。佢話呢句幾乎每隔一日就會喺佢腦海浮現。

佢而家覺得自己係系統入面嘅瓶頸——Agent 可以執行、搜索、寫代碼、迭代,但「我哋到底做緊咩」「點解值得做」「方向啱唔啱」呢啲問題 Agent 回答唔到。

佢舉例PyTorchNumPyAPI 細節佢已經記唔住,keep_dims 定 keepdim,dim 定 axis,呢啲交畀 Agent 就得。但底層 Tensor 嘅存儲模型、View 同 Copy 嘅區別,你一定要懂,唔係你連叫 Agent 做咩都唔知。

呢個觀點對招聘都好有啟發。大部分公司面試仲係考八股文,但 Agentic Engineering 嘅核心能力係唔係解一道算法題,而係能否交付一個經得住考驗嘅系統。Karpathy 提議:叫候選人做一個真實項目(例如 Twitter 克隆),要部署上線、功能完整、安全合格,然後用 10 個 Codex 實例攻擊佢,睇下扛唔扛得住——呢啲先係考驗理解力同判斷力嘅方式。

Claude Code 同 Codex 出咗呢年幾,我幾乎每日都用。初初上手嗰陣好興奮,寫 code 的確快咗唔少。但係用耐咗,反而成日有種講唔出嘅無力感。

模型進步嘅速度比想像中快好多。以前以為要練幾年先有嘅功夫,俾 Agent 行一次,出嚟嘅 output 成日仲靚過自己寫。重構一個陌生嘅 module 又好,睇明人哋啲舊 code 又好,捉一個間歇性出現嘅 bug 都好,Agent 預設就搞得掂。

慢慢就有種感覺:自己做到嘅嘢 AI 都做到,咁我做工程師嘅價值仲喺邊?

呢兩日睇 Karpathy 喺 Sequoia AI Ascent 2026 嘅對談,發現佢都有同樣感覺:佢從來冇好似而家咁,覺得自己做 programmer 有啲 out 咗。

舊年 2 月佢整咗 Vibe Coding 呢個詞,意思係憑感覺寫 code,唔糾結細節,等 AI 幫你搞掂。呢個詞火足成年,幾乎變咗 AI 編程嘅代名詞。點知發明呢個詞嘅人,自己覺得 out 咗。

一開始我以為佢只係謙虛。睇完半粒鐘完整對談,先發現佢係認真嘅,而且將呢種感覺拆得幾清楚。內容密度好高,我將最有價值嘅部分整理咗分享俾你。

Karpathy 嘅 out 感唔係冇端端嚟㗎,轉折點係舊年 12 月。

佢用 Agent 寫 code 已經一段時間,之前體驗時好時壞,模型 output 成日要手動改。但到咗 12 月,佢發現 code 直接攞嚟用得,再加要求繼續改,output 都係啱嘅。後尾佢都唔記得上次手動修正係幾時。

呢個唔係慢慢變好,而係一個突然嘅跳級。由「間中用到」變咗「預設用到」,中間冇過渡。

呢樣嘢同我開頭講嘅感受其實一樣。當 AI 預設就搞得掂以前要花心機先做到嘅嘢,無力感自然就嚟。

所以 Karpathy 都提咗一件事:如果你 12 月之後冇重新認真試一次,可能仲用緊一個已經過期嘅心智模型去判斷呢啲工具。

下限同上限係兩回事

既然能力有咗質變,咁對唔同人嚟講代表啲乜?Karpathy 喺呢度有個幾重要嘅區分:Vibe Coding 同 Agentic Engineering 係兩樣嘢。

Vibe Coding 提升嘅係下限。非 programmer 都可以用自然語言描述需求,整到一個行得嘅嘢出嚟。

但 Agentic Engineering 提升嘅係上限。佢面向嘅係專業工程師,解決嘅問題係:點樣用 Agent 工具更快咁交貨,同時唔犧牲安全性、可靠性同 code 質量。

呢兩條路完全唔同。Vibe Coding 令唔識寫 code 嘅人整到行得嘅 prototype;Agentic Engineering 令一個工程師喺生產級質量嘅前提下,將效率推到以前唔敢諗嘅水平。

之前大家講 10x 工程師,而家擅長 Agentic Engineering 嘅人遠遠超過 10x。個人產出嘅上限比以前高得太多了。

呢個先係佢覺得 out 嘅真正原因。唔係 AI 太強,而係唔同人用 AI 嘅能力差距正喺度急劇拉大。好工程師同普通工程師之間嘅槓桿倍數,比以前任何時候都大。

同一個模型,同時係天才同白痴

不過,能力差距拉大嘅前提係,你要知道模型擅長啲乜。對談入面我覺得最有意思就係呢段:LLM 嘅鋸齒形智能。

Karpathy 舉咗個例子:最新嘅 Opus 4.7 可以連貫咁重構一個 10 萬行嘅 codebase,或者發現 zero-day 漏洞。但你問佢「洗車舖離我 50 米,我應該揸車定行路」,佢會話你行路去,因為距離好近。

一個可以發現 zero-day 漏洞嘅系統,點可能會唔知你唔可以行路去洗車?

Karpathy 俾咗兩個解釋。

第一個係可驗證性。LLM 嘅訓練靠 reinforcement learning,RL 需要驗證信號。Code 有 compiler 同 test,數學有 proof,呢啲領域天生就係可驗證嘅,RL 喺上面效果好好。但日常常識好難整到驗證環境,落唔到條軌道。

第二個更有趣,係經濟學。前沿 lab 揀邊啲 data 入訓練集,取決於商業價值同 TAM。Code 能力值錢,所以有人花好多心機去做。Karpathy 仲舉咗個例:由 GPT-3.5 到 GPT-4,棋力大幅提升,好多人以為係通用能力進步,實際上係因為有人決定喺 pre-training data 入面加咗大量棋譜。能力提升唔係均勻發生㗎,係跟住 data distribution 走嘅。

佢打咗個比喻:如果你嘅應用啱啱好喺 RL training 覆蓋嘅軌道上,你會覺得自己喺度飛;如果唔係,你其實係喺叢林入面揸住把刀開路。

呢個判斷對做產品嘅人特別有參考價值。開始一個 Agent project 之前,先問自己:我嘅 task 喺唔喺模型 training 嘅軌道上?喺嘅話就可以直接用;唔喺嘅話,就要準備 fine-tuning,或者換個方向。

你寫嘅 code 可能根本唔應該存在

講完模型能力嘅邊界,Karpathy 拋咗一個更激進嘅觀點:就算喺模型擅長嘅軌道上,好多現有嘅 software 其實都唔應該存在。

佢用自己做嘅 MenuGen 做例子。呢個 app 影一張餐廳 menu 嘅相,用 OCR 認出菜名,叫 image generator 為每道菜整幅圖,然後重新 render 個 menu。佢用 Vibe Coding 寫出嚟,deploy 咗上 Vercel,效果幾好。

然後佢見到另一種做法:直接將 menu 張相 send 俾 Gemini,叫佢用 Nanobanana 喺原圖上面 render 返啲菜式圖片。輸入一張相,輸出一張相。冇 OCR,冇 backend,冇 database。

佢話自己成個 MenuGen 應用都係多餘㗎。佢仲停留喺 Software 1.0 嘅 paradigm,而 Software 3.0 嘅做法係叫大模型直接完成端到端嘅 task。

另一個例子係 OpenClaw 嘅安裝方式。傳統做法係寫一個 Shell script 處理各種 platform 差異。OpenClaw 嘅做法係寫一段自然語言嘅安裝說明,叫用戶 copy 俾自己嘅 Agent。Agent 會讀你嘅環境,適應你嘅系統,中間有問題自己 debug。

呢個等於係用 .md 替代了 .sh

第三個例子係 LLM 知識庫。以前係冇任何 code 可以將一堆非結構化嘅文章變成一個有組織嘅 Wiki。呢個唔係做得快,而係以前根本做唔到。

Karpathy 話,每次 paradigm shift,人第一時間做嘅總係將新工具用嚟加速舊 workflow。但真正有趣嘅唔係加速,而係以前根本冇可能做到嘅新嘢。

可以外判思考,但唔可以外判理解

頭先講嘅都係工具同能力層面。Karpathy 喺對談差唔多完嘅時候,講咗一個更根本嘅問題。

佢引用咗一條 tweet:你可以外判你嘅思考,但唔可以外判你嘅理解。

圖片

佢話呢句說話幾乎隔日就會喺佢個腦入面彈出嚟。

佢而家覺得自己係系統入面嘅 bottleneck。Agent 可以執行、搜索、寫 code、迭代,但「我哋到底做緊啲乜」、「點解值得做」、「個方向啱唔啱」,呢啲問題 Agent 解答唔到。

佢甚至唔係好鍾意 Plan Mode 呢個概念。佢覺得準確啲嘅講法係:人負責寫 Spec,Agent 負責實現。Spec 係你嘅設計意圖,係你對系統 invariants 嘅理解,係你對用戶場景嘅判斷。Agent 負責嘅係 API 細節、code 實現、格式規範呢啲可以查 manual 嘅嘢。

佢舉咗自己嘅例子:PyTorch 同 NumPy 嘅 API 細節佢已經唔記得曬,keep_dims 還是 keepdimdim 還是 axisreshape 還是 permute呢啲交俾 Agent 就得。但底層 Tensor 嘅 storage model、View 同 Copy 嘅分別,呢啲你一定要明,如果唔係你連自己叫 Agent 做緊乜都唔知。

招聘仲未跟上嚟

如果理解力同判斷力先係核心競爭力,咁而家嘅招聘方式就有啲尷尬。Karpathy 都講咗呢個問題。

大部分公司 interview 仲係考緊八股文。但 Agentic Engineering 嘅核心能力唔係解唔解到一條 algorithm 題,而係做唔做到一個經得起考驗嘅系統。

佢俾咗一個幾有趣嘅 interview 思路:叫 candidate 做一個真實 project,例如一個 Twitter clone,要求 deploy 上線、功能完整、安全合格。然後用 10 個 Codex instance 去攻擊呢個系統,睇佢頂唔頂得住。

呢種 interview 考嘅唔係 algorithm 能力,而係你喺有 Agent tool 輔助嘅情況下,能唔能夠整到一個可靠嘅、上線之後唔會出事嘅 product。

返去開頭嗰個問題

返去開頭嗰個問題:自己做到嘅嘢 AI 都做到,咁我做工程師嘅價值仲喺邊?

睇完呢個對談,答案大概清楚曬:工具可以外判,但理解唔得。你仍然係系統嘅掌控者,資訊仍然要入你個腦,你仍然需要搞清楚發生緊乜嘢先至俾到正確嘅方向。

所以與其焦慮俾 AI 取代,不如將呢種無力感當作一個校正信號。工程師嘅能力上限喺度快速上移,以前嘅 10x 工程師,可能只係新標尺之下嘅 2x。真正值得關注嘅唔係 AI 做到啲乜,而係你能唔能夠將理解力跟上呢個新嘅槓桿倍數。


相關資源:

  • • 完整對談影片:https://www.youtube.com/watch?v=96jN2OCOfLs
  • • Karpathy 本人嘅重點總結:https://x.com/karpathy/status/2049903821095354523
  • • Stephanie Zhan 嘅 tweet:https://x.com/i/status/2049518659513852109
  • • Vibe Coding 原 tweet:https://x.com/karpathy/status/1886192184808149383

好,今日就講到呢度。如果你都喺度用 Claude Code、Codex 呢啲 AI 編程工具,歡迎關注我嘅公眾號 Feisky,我會定期分享實踐入面嘅發現同踩坑經驗。

Claude Code 和 Codex 出來這一年多,我幾乎每天都在用。剛上手那陣非常興奮,寫代碼確實快了不少。但用的時間越長,反而越經常冒出一種說不清的無力感。

模型變強的速度比預想中快得多。以前覺得花了幾年才練出來的本事,讓 Agent 跑一下,輸出經常比自己手寫還乾淨。重構一個陌生模塊也好,讀懂別人的老代碼也好,定位一個偶發的 bug 也好,Agent 默認就能做對。

慢慢就有種感覺:自己能幹的事 AI 都能幹,那作為工程師我的價值到底還剩什麼?

這兩天看 Karpathy 在 Sequoia AI Ascent 2026 上的對談,發現他也是同樣的感覺:他從來沒有像現在這樣,覺得自己作為程序員落伍了。

去年 2 月他造了 Vibe Coding 這個詞,意思是憑感覺寫代碼,不糾結細節,讓 AI 替你搞定。這詞火了一整年,幾乎成了 AI 編程的代名詞。結果發明這詞的人,自己覺得落伍了。

一開始我以為他只是謙虛。看完半小時完整對談,才發現他是認真的,而且把這種感覺拆得挺清楚。內容密度很高,我把最有價值的部分整理了分享給你。

Karpathy 的落伍感不是憑空來的,轉折發生在去年 12 月。

他用 Agent 寫代碼已經有一段時間了,之前體驗時好時壞,模型輸出經常要手動改。但到了 12 月,他發現代碼直接拿來就能用,追加需求繼續改,輸出還是對的。到後來他都記不清上一次手動修正是什麼時候了。

這不是慢慢變好,是一個突然的台階。從“有時候能用”到“默認能用”,中間沒有過渡。

這跟我開頭說的感受其實是一回事。當 AI 默認就能搞定那些以前需要費勁做的事,無力感自然就來了。

所以 Karpathy 也提醒了一件事:如果你 12 月之後沒有重新認真試一次,可能還在用一個已經過期的心智模型判斷這些工具。

下限和上限是兩回事

既然能力有了質變,這對不同的人意味着什麼?Karpathy 在這裏有個挺重要的區分:Vibe Coding 和 Agentic Engineering 不是一回事。

Vibe Coding 抬的是下限。非程序員也能用自然語言描述需求,跑起來一個東西。

但 Agentic Engineering 抬的是上限。它面向的是專業工程師,解決的問題是:怎麼用 Agent 工具更快地交付,同時不犧牲安全性、可靠性和代碼質量。

這是兩條完全不同的路。Vibe Coding 讓不會寫代碼的人做出能跑的原型;Agentic Engineering 讓一個工程師在生產級質量的前提下,把效率拉到之前不敢想的水平。

之前大家說 10x 工程師,現在擅長 Agentic Engineering 的人遠超 10x。個人產出的上限比以前高得太多。

這才是他覺得落伍的真正原因。不是 AI 太強,而是不同人用 AI 的能力差距正在急劇拉大。好工程師和普通工程師之間的槓桿倍數,比以前任何時候都大。

同一個模型,同時天才和白痴

不過,能力差距拉大的前提是,你得知道模型到底擅長什麼。對談裏我覺得最有意思的就是這一段:LLM 的鋸齒形智能。

Karpathy 舉了個例子:最先進的 Opus 4.7 可以連貫地重構一個 10 萬行的代碼庫,或者發現零日漏洞。但你問它“洗車店離我 50 米,我應該開車還是走路”,它會告訴你走路去,因為距離很近。

一個能發現零日漏洞的系統,怎麼可能不知道你不能走路去洗車?

Karpathy 給了兩個解釋。

第一個是可驗證性。LLM 的訓練靠強化學習,強化學習需要驗證信號。代碼有編譯器和測試,數學有證明,這些領域天然可驗證,RL 在這上面效果拉滿。但日常常識很難構造驗證環境,落不到軌道上。

第二個更有意思,是經濟學。前沿實驗室選什麼數據進訓練集,取決於商業價值和 TAM。代碼能力值錢,所以有人花大力氣做了。Karpathy 還舉了個例子:從 GPT-3.5 到 GPT-4,棋力大幅提升,很多人以為是通用能力進步,實際上是因為有人決定往預訓練數據里加了大量棋譜。能力的提升不是均勻發生的,是跟着數據分佈走的。

他打了個比方:如果你的應用恰好在 RL 訓練覆蓋的軌道上,你會覺得在飛;如果不在,你就是在叢林裏拿砍刀開路。

這個判斷對做產品的人特別有參考價值。開始一個 Agent 項目之前,先問自己:我的任務在不在模型訓練的軌道上?在的話就能直接用;不在的話,要麼準備 fine-tuning,要麼換個思路。

你寫的代碼可能不該存在

說完模型能力的邊界,Karpathy 拋出了一個更激進的觀點:就算在模型擅長的軌道上,很多現有的軟件其實也不應該存在。

他用自己做的 MenuGen 舉例。這個應用拍一張餐廳菜單的照片,用 OCR 識別菜名,調用圖像生成器給每道菜生成圖片,然後重新渲染菜單。他用 Vibe Coding 寫出來,部署在 Vercel 上,效果挺好。

然後他看到了另一種做法:直接把菜單照片發給 Gemini,讓它用 Nanobanana 在原圖上渲染菜品圖片。輸入一張圖,輸出一張圖。沒有 OCR,沒有後端,沒有數據庫。

他說自己的整個 MenuGen 應用都是多餘的。它還停在 Software 1.0 的範式裏,而 Software 3.0 的做法是讓大模型直接完成端到端的任務。

另一個例子是 OpenClaw 的安裝方式。傳統做法是寫一個 Shell 腳本處理各種平台差異。OpenClaw 的做法是寫一段自然語言的安裝說明,讓用戶複製給自己的 Agent。Agent 讀你的環境,適配你的系統,中間出問題自己調試。

這等於是用 .md 替代了 .sh

第三個例子是 LLM 知識庫。以前沒有任何代碼能把一堆非結構化的文章變成一個有組織的 Wiki。這不是做得快了,而是以前根本做不了。

Karpathy 說,每次範式轉換,人們最先做的總是把新工具用來加速舊工作流。但真正有意思的不是加速,是那些以前根本不可能的新東西。

能外包思考,不能外包理解

前面說的都是工具和能力層面。Karpathy 在對談快結束時,聊到了一個更根本的問題。

他引用了一條推文:你可以外包你的思考,但你不能外包你的理解。

圖片

他說這句話幾乎每隔一天就會在他腦子裏冒出來。

他現在覺得自己是系統裏的瓶頸。Agent 可以執行、搜索、寫代碼、迭代,但“我們到底在做什麼”“為什麼值得做”“方向對不對”,這些問題 Agent 回答不了。

他甚至不太喜歡 Plan Mode 這個概念。在他看來更準確的說法是:人負責寫 Spec,Agent 負責實現。Spec 是你的設計意圖,是你對系統不變量的理解,是你對用戶場景的判斷。Agent 負責的是 API 細節、代碼實現、格式規範這些可以查手冊的事。

他舉了自己的例子:PyTorch 和 NumPy 的 API 細節他已經記不住了,keep_dims 還是 keepdimdim 還是 axisreshape 還是 permute。這些交給 Agent 就行。但底層 Tensor 的存儲模型、View 和 Copy 的區別,這些你必須懂,不然你都不知道自己在讓 Agent 做什麼。

招聘還沒跟上來

如果理解力和判斷力才是核心競爭力,現在的招聘方式就有點尷尬了。Karpathy 也聊到了這個問題。

大部分公司面試還在考察八股文。但 Agentic Engineering 的核心能力不是能不能解一道算法題,而是能不能交付一個經得住考驗的系統。

他給了一個挺有意思的面試思路:讓候選人做一個真實項目,比如一個 Twitter 克隆,要求部署上線、功能完整、安全合格。然後用 10 個 Codex 實例去攻擊這個系統,看它能不能扛住。

這種面試考的不是算法能力,而是你在有 Agent 工具輔助的情況下,能不能做出一個可靠的、上線後不會出事的產品。

回到開頭那個問題

回到開頭那個問題:自己能幹的事 AI 都能幹,那作為工程師我的價值還剩什麼?

看完這個對談,答案大概清楚了:工具可以外包,理解不能。你仍然是系統的掌控者,信息仍然要進入你的大腦,你仍然需要搞清楚正在發生什麼才能給出正確的方向。

所以與其焦慮被 AI 替代,不如把這種無力感當作一個校準信號。工程師的能力上限在快速上移,之前的 10x 工程師,可能只是新標尺下的 2x。真正值得關注的不是 AI 能做什麼,而是你能不能把理解力跟上這個新的槓桿倍數。


相關資源:

  • • 完整對談視頻:https://www.youtube.com/watch?v=96jN2OCOfLs
  • • Karpathy 本人的要點總結:https://x.com/karpathy/status/2049903821095354523
  • • Stephanie Zhan 的推文:https://x.com/i/status/2049518659513852109
  • • Vibe Coding 原推:https://x.com/karpathy/status/1886192184808149383

好了,今天就聊到這兒。如果你也在用 Claude Code、Codex 這些 AI 編程工具,歡迎關注我的公眾號 Feisky,我會定期分享實踐中的發現和踩坑經驗。