OpenAI Codex 產品負責人:代碼不再由人類編寫,但我們會有更多構建者(Builder)

作者:寶玉AI
日期:2026年2月23日 上午4:27
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

AI編碼已從輔助轉到委託,工程師角色變為構建者,通用Agent才是終局

整理版摘要

呢篇文章係OpenAI Codex產品負責人Alexander Embiricos嘅專訪。佢之前做過結對編程創業,後來俾OpenAI收購。佢親身經歷AI編程工具由輔助補全變到全權委託嘅轉變,而家OpenAI內部大多數人已經唔打開IDE,代碼絕大部分由AI寫。

文章核心觀點係AI編碼嘅瓶頸已經由模型轉向人機交互。人類打字同驗證係AGI嘅關鍵樽頸,因為而家AI應該每日幫助人類數萬次,但即使重度用戶都只用幾十次。產品化同降低使用門檻係當前最重要嘅工作。

整體結論係通用Agent會打敗垂直Agent,未來可能只有少數幾家Agent提供商捕獲大部分價值。開放標準(例如agents.md)短期降低粘性,但長期建立生態信任。OpenAI嘅策略係開放標準加最強模型加最大分發,目標成為通用Agent入口。

  • AI編碼已跨越拐點,OpenAI內部大多數人不再打開IDE,代碼由AI編寫。
  • 人類係瓶頸:每日使用AI次數太少,需要產品化降低門檻,令Agent自動介入。
  • 通用Agent贏過垂直Agent:就像Slack打敗Dropbox文檔評論,效率低但引力效應強。
  • 開放標準(agents.md)受業界跟進,但Claude Code用自家格式,長期建立信任。
  • 畀CS學生建議:主動構建並分享項目,展現主動性、品味同質量。
值得記低
連結 youtube.com

完整訪談影片

20VC with Harry Stebbings,2026年2月21日

整理重點

背景同核心觀點

呢篇文章係OpenAI Codex產品負責人Alexander Embiricos嘅專訪。佢以前喺Dropbox做產品經理,創辦咗協作工具Multi(前身Remotion),做咗五年結對編程創業,2024年俾OpenAI收購。佢親歷AI編程從輔助到委託嘅轉變,而家Codex自2025年8月增長咗20倍,啱啱喺2026年2月發佈macOS獨立App、GPT-5.3模型、超級碗廣告,仲向免費用戶開放。

Codex自2025年8月以來增長咗20倍

大多數人已經唔打開IDE

人才棧在壓縮,工程師越來越全棧化

整理重點

AI編碼現狀同人類瓶頸

Embiricos認為AI該每日幫人類數萬次,但即使重度用戶都只用幾十次,樽頸喺人類打字同驗證速度,唔係模型。OpenAI內部工程師覺得Codex一直開住先唔浪費,但管理Agent同諗出AI可以點幫手仍然好花精神。

AI應該每日幫助人類數萬次

  1. 1 第一階段:讓Agent喺軟件工程同編碼領域做好,因為LLM擅長呢個。
  2. 2 第二階段:Agent要操作計算機,代碼係最好方式,所以「所有Agent本質上都係編碼Agent」。
  3. 3 第三階段:觀察有效做法後,做高度產品化功能,降低使用門檻。

所有Agent本質上都係編碼Agent

先畀人工具,再談自動化

整理重點

開放標準同競爭策略

Codex核心運行框架係開源嘅,佢哋設定agents.md呢個中性配置文件,任何Agent都可以讀,而家超過6萬個開源項目採用,GitHub Copilot都支援。但AnthropicClaude Code用自己嘅CLAUDE.md,冇跟隨。

agents.md開放標準,超過6萬個開源項目採用

  • OpenAI主動推動標準化,降低用戶轉移成本。
  • 短期粘性低,但長期增加生態信任。
  • Claude Code缺席,令開發者要處理唔同配置。

所有人都跟進了——除了嗰個慣犯

OpenAI嘅策略係開放標準加最強模型加最大分發

整理重點

Agent市場終局同未來建議

通用Agent會打敗垂直Agent,因為用戶唔會熟練用12個Agent,但一個通用Agent會成為工作重心。ChatGPT有天然優勢,已經係好多人嘅通用AI入口。

通用Agent贏過垂直Agent,因為引力效應

  • 用戶形成肌肉記憶後會主動分享技巧,舉辦黑客馬拉松。
  • 創業方式變咗:先揾一個Agent叫佢開始構建,再加更多Agent,最後先揾聯合創辦人。
  • 畀CS學生:構建嘢然後分享出去,展示主動性、品味同質量。

構建東西從未如此容易,變得稀缺嘅係主動性、品味同質量

AI最令人興奮嘅未來係每個人都覺得自己似超人


Alexander Embiricos 係 OpenAI Codex 嘅產品負責人。加入 OpenAI 之前,佢喺 Dropbox 做過產品經理,之後創辦咗協作工具 Multi(前身係 Remotion),做咗五年結對編程方向嘅創業,2024 年被 OpenAI 收購。佢親身經歷咗 AI 編程工具由「輔助補全」到「全權委託」嘅轉變。Codex 自 2025 年 8 月以嚟增長咗 20 倍,啱啱喺 2026 年 2 月嘅一週內密集發佈咗 macOS 獨立應用、GPT-5.3 模型、超級碗廣告,並向免費用戶開放。

呢期訪談覆蓋咗幾個核心話題:AI 編碼嘅現狀與工程師嘅未來、人類點解係 AGI 嘅真正瓶頸、OpenAI 內部點樣用 Codex、開放標準與競爭策略,以及 SaaS 行業同 Agent 市場嘅終局。

來源:20VC with Harry Stebbings,2026 年 2 月 21 日
原始視頻:https://www.youtube.com/watch?v=S1rQngjpUdI

圖片

要點速覽

  • • OpenAI 內部大多數人已經唔再打開 IDE,代碼嘅絕大部分由 AI 編寫,拐點發生喺 GPT-5.2 Codex
  • • AI 應該每日幫人類幾萬次,但而家即使係重度用戶都只用幾十次,瓶頸唔喺模型而喺人機交互
  • • 「所有 Agent 本質上都係編碼 Agent」,因為代碼係 Agent 操作電腦嘅最佳方式
  • • OpenAI 自認工作唔係「Codex 嘅成功」而係 「智能嘅分發」,訓練模型然後服務俾競爭對手
  • • 通用 Agent 會打敗垂直 Agent,未來可能得返少數幾家 Agent 提供商捕獲大部分價值

【1】編碼唔會消亡,但編碼嘅含義會改變

馬斯克話編碼係最先被大規模自動化嘅職業之一。你身處前線,同意呢個判斷嗎?

Embiricos 同意 LLM 喺編碼領域確實好勁,但 「自動化」係一個好重嘅講法佢舉咗幾個歷史類比:當我哋從組合語言轉向高級語言時,冇人話「編碼被自動化咗」,我哋只係可以寫更多代碼,結果係對代碼嘅需求反而爆炸咗,需要更多軟件工程師。

圖片

佢又提到「computer」一詞嘅起源。喺 Bletchley Park(二戰時期英國嘅密碼破譯中心),有大量人力負責打孔卡、做製表運算。最早嘅電子表格軟件都係源自類似場景:一間辦公室入面,枱按網格排列,每個人做一部分計算,然後將工作表傳俾下一個人。呢啲具體任務都被自動化咗,但每次自動化之後,對產出嘅需求都出現爆炸式增長

【注:Embiricos 對“computer”一詞起源嘅描述唔完全準確——「computer」作為人類職位嘅稱呼早過 Bletchley Park,最早可追溯到 17 世紀,後來 NASA 嘅女性數學計算員都被稱為 computers。】

「You still need software engineers today. You still need designers. I'm a PM. Do you need PMs? I don't think you need them.」
(你而家仍然需要軟件工程師、設計師。我係 PM。你需要 PM 嗎?我覺得唔需要。)

五年後會有更多工程師定更少?Embiricos 話會有更多「構建者」。但佢觀察到一個趨勢:人才棧喺壓縮幾年前前端同後端仲係兩種人,而家至少喺 Codex 團隊內部,工程師越嚟越全棧化。

至於 PM 呢個自嘲式嘅判斷,佢解釋話 PM 嘅角色本質上係「顯式未定義嘅」,目標係適應團隊或業務嘅任何需要。但呢啲功能都可以由一個思考產品嘅工程負責人或設計師嚟承擔。所以 PM 有用,但喺團隊好大之前,你可能唔需要咁多。

【2】AI 嘅瓶頸係人類打字速度,唔係模型

你講過人類打字速度同驗證工作係 AGI 嘅關鍵瓶頸,可以詳細講下嗎?

Embiricos 冇直接回答,反而反問。佢先問 Harry 每日用 AI 幾多次,答案係 30 幾次。然後問如果零成本使用,AI 每日可以幫你幾多次?答案係無限。

「I think AI should be helping us tens of thousands of times per day.」
(我認為 AI 應該每日幫助我哋幾萬次。)

佢話喺 OpenAI 內部,工程師已經到咗「Codex 一直開住,如果開會時佢冇喺度跑任務,就覺得浪費咗時間」嘅狀態。但管理呢啲 Agent、確保佢哋一直喺度做嘢,本身就係大量工作。

而且即使係佢自己呢個日日做呢樣嘢嘅人,都「太懶」諗到 AI 可以幫手嘅所有方式,最後每日嘅使用次數同普通人差唔多。當佢用 AI 做咗啲新鮮事(例如準備今次播客),仲會覺得「幾自豪㗎」。

咁理想嘅未來係點?唔需要學識點樣 prompt,唔需要自己發現 AI 可以幫你嘅場景,AI 自動連接你嘅上下文,喺合適嘅時機介入。

Harry 追問:咁 productize(產品化)呢啲 prompt 同人類動作嚟移除瓶頸,係你哋嘅工作嗎?

Embiricos 認為係,但唔係即刻就做到。佢畀咗一個三階段路線圖

第一階段,等 Agent 喺軟件工程同編碼領域先做好,因為 LLM 啱啱擅長呢個。

第二階段,意識到 Agent 要更廣泛咁有用,就需要可以操作電腦,而代碼正正係 Agent 操作電腦嘅最佳方式。

「All agents are actually coding agents because coding is just the best way for an agent to use a computer.」
(所有 Agent 本質上都係編碼 Agent,因為代碼係 Agent 操作電腦嘅最佳方式。)

圖片

第三階段,觀察咩有效之後,做高度產品化嘅功能。佢話「我哋會喺接下來幾個月內快速跑完呢三個階段」。

佢特別提到 Claude Code 最初推出時做啱咗一件事:畀你一個終端裏面嘅超級簡單工具,等用戶自己去探索各種使用場景。佢認為 OpenAI 都應該優先做呢種開放式工具,而唔係只係為特定行業做定製化產品。

Harry 指出咗矛盾:如果你做開放工具而唔係垂直產品,咪即係將責任推返俾用戶?呢個正好回到「人類係瓶頸」嘅原點。Embiricos 承認呢個確實係瓶頸,所以三個階段嘅設計就係漸進式咁降低門檻。

【注:Claude Code 係 Anthropic 喺 2025 年 2 月推出嘅命令行 AI 編程工具,喺開發者羣體中迅速走紅。佢都提到 Claude 嘅產品化做得好,例如 Claude for Legal、Claude in Excel,呢啲係 Anthropic 推出嘅垂直場景應用,令特定行業用戶可以唔寫 prompt 就用 AI。】

【3】先畀人工具,再講自動化——企業 AI 部署嘅路徑之爭

企業 AI 部署嘅數據安全、權限配置問題好難,唔需要實施工程師嗎?

Embiricos 承認如果要由零到一部署一個完整嘅 workflow 自動化系統,確實需要實施工程師嚟打通安全合規同各種數據系統。但佢嘅核心觀點係:由上而下部署嘅結果往往係「嚴重低估咗 AI 喺呢間公司嘅潛力」

佢打咗個比方:想像你係客服人員,AI 正喺度自動化你嘅大部分工作,但你自己從來冇用過 ChatGPT。喺呢種情況下你對 AI 完全冇直覺,面對自動化只會覺得無力。但如果你同時間用 ChatGPT 處理日常工作,你會對 AI 嘅能力有理解,亦更有掌控感。

圖片

咁數據安全問題點算?佢指出,每個工具、每個 workflow 最終都落到某個員工嘅瀏覽器或本地文件系統上。呢個就係點解 OpenAI 喺起 Atlas 瀏覽器

【注:ChatGPT Atlas 係 OpenAI 喺 2025 年 10 月推出嘅瀏覽器,基於 Chromium 構建,內置 ChatGPT 功能。佢可以理解用戶正在瀏覽嘅網頁內容,並支援 Agent 模式喺瀏覽器中直接執行任務。】

透過自建瀏覽器並端到端控制,OpenAI 可以為企業構建安全嘅 Agent 瀏覽體驗,令 Agent 可以訪問那些未俾實施工程師打通嘅系統。

「For me the most exciting future with AI is one where everyone just feels like a superhuman, just like empowered by AI.」
(對我嚟講,AI 最令人興奮嘅未來係每個人都覺得自己好似超人,被 AI 賦予咗力量。)

【4】從配對編程到委託——OpenAI 內部嘅工作方式變革

OpenAI 內部有幾多代碼係由 Codex 生成嘅?

Embiricos 冇畀具體百分比,但話大多數佢認識嘅人已經唔再打開編輯器

「The code itself is not being written by humans anymore.」
(代碼本身已經唔再由人類嚟寫。)

「The vast majority of code is written by AI and I would say that now probably most people are not even opening IDEs.」
(代碼嘅絕大部分由 AI 編寫,而且我認為而家大多數人甚至唔打開 IDE 喇。)

呢個變化係階躍式嘅。拐點發生喺 2025 年 12 月嘅 GPT-5.2 Codex:模型喺長時間運行、端到端處理任務、管理上下文同遵循指令方面有咗巨大提升。

【注:GPT-5.2 Codex 喺 2025 年 12 月發佈。2026 年 2 月 5 日,OpenAI 又發佈咗 GPT-5.3 Codex,號稱係「迄今為止最強嘅 Agent 編碼模型」,比前代快 25%,亦係第一個被用嚟參與自身訓練同部署嘅模型。】

圖片

喺 GPT-5.2 之前,AI 編碼輔助主要係 tab 補全或配對編程,你要坐喺電腦前,手放喺鍵盤上。GPT-5.2 之後,工作方式變成咗:同 Agent 討論一個計劃,確認 spec(規格),然後「let it cook」(放手等佢做)。

呢個亦係點解佢哋做咗 Codex App,一個專門為「委託而非配對」設計嘅界面。App 有管理多個 Agent 嘅工具、審查變更嘅功能、突出嘅 Skills(開放標準嘅 Agent 能力擴展),但有意冇文本編輯功能。

【注:Codex App 喺 2026 年 2 月 2 日發佈 macOS 版,支援多 Agent 並行工作。同一周 OpenAI 仲喺超級碗投放咗廣告(標語:「You can just build things」),並臨時向免費同 Go 用戶開放 Codex 功能。】

講到代碼審查,Embiricos 話計劃審查(plan review)變得比以往更重要Codex 有一個 Plan Mode:Agent 先以唯讀方式研究代碼庫,提出一個詳細方案,問你同意先開始執行。呢個好似新員工喺動手前先同團隊提 RFC(Request for Comments,徵求意見稿)。

至於代碼本身嘅審查,佢話 OpenAI 幾乎所有代碼喺推送到 repo 時都會被 Codex 自動審查。Codex 被專門訓練為低誤報率嘅審查者,佢畀出嘅批評大多有價值,所以你可以信佢嘅反饋。佢仲提到:有人叫 Codex 審查其他模型生成嘅代碼,然後意識到「我可能應該直接用 Codex 嚟寫代碼」。

【5】開放標準——「除咗 Claude,所有家都採用咗 agents.md」

用戶喺唔同編碼工具之間切換好容易,你點睇黏性?

Embiricos 話佢哋反而刻意令用戶更容易切換。Codex 嘅核心 harness(運行框架)係開源嘅。舊年 Codex 首發時,佢哋建立咗 agents.md 呢個約定,一個任何 Agent 都可以讀取嘅配置文件,故意冇叫 codex.md。上星期佢哋又推動將 Skills(Agent 嘅能力擴展腳本)存放喺名為 agents/ 嘅中性文件夾入面,而唔係 codex/ 呢類。

「所有人都跟進咗——除咗嗰個慣犯。」佢冇指名,但顯然係講 Anthropic 嘅 Claude Code,佢用自己嘅 CLAUDE.md 格式。

【注:agents.md 係一個跨工具嘅 AI Agent 配置標準。OpenAI 推出咗 agents.md(複數),Amp/Sourcegraph 推出咗 agent.md(單數),後來 Quinn Slack 喺社交媒體上提議統一命名,促成咗行業標準化。到 2025 年底已有超過 6 萬個開源項目採用,GitHub Copilot 都宣佈支援。該標準已由 Linux 基金會旗下嘅 Agentic AI Foundation 管理。Claude Code 則使用自有嘅 CLAUDE.md 格式。】

圖片

但佢都指出,呢種容易切換嘅狀態係暫時嘅。而家嘅編碼任務係「單集式」(episodic)嘅:你有一個通用嘅 agents 文件,任何 Agent 都可以讀;Agent 寫代碼,產出一個 patch(補丁),進入 git。任務嘅兩端都係廠商中性嘅。

一旦 Agent 開始對接外部系統,例如同 Sentry(錯誤監控服務)對話或操作 Google Docs,黏性就會大幅增加令企業信任一個 Agent 有權訪問呢啲系統、同時確保有安全嘅沙箱同控制措施,呢個係一個唔想重複做嘅決定。

Embiricos 話佢哋正正係基於呢個預判嚟構建 Codex 嘅。Codex 採用咗最保守嘅沙箱機制,用 OS 級別嘅控制嚟限定 Agent 可以做啲乜。

【6】「我哋嘅工作唔係 Codex 嘅成功,而係智能嘅分發」

點樣確保用戶留喺 Codex 而唔係走去 Cursor 或 Claude Code?

Harry 用 Hamilton Helmer《七種力量》嘅框架追問點樣建立競爭壁壘。Embiricos 話 OpenAI 嘅使命係「確保安全咁將 AGI 嘅好處帶俾全人類」,Codex 團隊嘅工作本質上唔係 Codex 嘅成功,而係 「智能嘅分發」

「We put all this effort into training these models and then we serve these models to our competitors.」
(我哋投入巨大精力訓練呢啲模型,然後將模型提供俾我哋嘅競爭對手。)

Harry 直接話:「呢個對我嚟作為風險投資人嚟講太難理解喇。」

Embiricos 解釋話呢個係長期博弈競爭對手變好,OpenAI 都可以學習。即使競爭對手係閉源嘅(暗指 Anthropic),都可以從競品嘅產品設計同創意中獲得靈感。佢舉例話自己當日朝早仲喺 Twitter 上轉發咗 Warp(一款終端工具)嘅新功能,入面有關於「Agent 同時喺雲端同本地工作」嘅好諗法。成個行業「都喺無可避免咁達到相同嘅結論」。

圖片

咁 Codex 嘅真正優勢係咩?佢列咗幾個:ChatGPT 嘅巨大分發優勢、自研模型喺自家 harness 中嘅能力優勢(冇人可以提前拿到佢哋嘅新模型),以及模型同產品嘅協同優化

從公司層面嚟睇,最重要嘅係計算優勢同最好嘅模型,為此需要建立商業嚟產生收入,而且有趣嘅係,Codex 呢種產品團隊反過嚟亦喺加速模型改進。從產品層面嚟睇,最重要嘅係做出個人用戶鍾意嘅產品。

佢都承認咗企業側嘅教訓:唔可以只係「我哋嚟咗,隨便用啦」,需要大量教育、配置支援、同開發者體驗負責人對接。

【7】速度、指標與產品起伏

推理速度對開發者有幾重要?

Embiricos 話「非常重要」。佢哋同 Cerebras 合作正正係為瞭解決延遲問題。佢暗示合作方面好快有新消息。

【注:2026 年 2 月 12 日,OpenAI 發佈咗 GPT-5.3-Codex-Spark,呢個係同 Cerebras 合作嘅首個成果。Spark 係 GPT-5.3 Codex 嘅輕量版,運行喺 Cerebras 嘅 Wafer Scale Engine 3 晶片上,推理速度超過 1000 tokens/秒,目標係實現近乎即時嘅編碼交互。】

不過佢唔認為推理會形成壟斷,競爭壓力會催生多種方案。GPT-5.3 Codex 本身就比前代模型高效好多。佢哋仲喺 API 層面做咗優化,模型推理速度快咗 40%,Codex 用戶端快咗 25%

Harry 轉述咗 Jason Lemkin(SaaStr 創辦人)嘅一個判斷:「AI 算力係新嘅銷售同營銷」呢句話嘅意思係:過去企業花錢請銷售團隊、投廣告嚟獲客;未來企業花錢買 AI 算力(inference,即運行模型嘅計算成本),令用戶上手就可以體驗到產品價值,自己就轉化咗——本質上係 PLG(Product-Led Growth,產品驅動增長)嘅 AI 版本,銷售團隊可能唔再需要。

Embiricos 唔太認同。佢話喺一個人人都可以構建產品嘅世界入面,市場上嘅選擇只會更多,同客戶保持良好關係、真正理解佢哋需要啲乜,反而比以前更難咗銷售同營銷解決嘅正正係呢個問題,唔會被取代。

你哋嘅核心指標係咩?

主要是周活躍用戶(WAU),唔係收入。Harry 追問:如果 Codex 真係喺取代 IDE,唔應該睇日活嗎?Embiricos 當場認可咗呢個批評:「你講得啱,我哋可能應該轉向日活。」

佢話目標係令用戶嘅第一反應變成 「有任何事先問 Agent」,就好似 Google 搜尋對信息嘅作用、ChatGPT 對知識嘅作用一樣,下一階段應該係「任何任務都先揾 Agent」。

舊年首發嘅雲端 Agent 諗法好好,畀 Agent 自己嘅雲端電腦、可以並行處理多個任務,但「老實講效果不如後來發佈嘅版本」。2025 年 8 月 GPT-5 之後佢哋轉向交互式編碼,進入咗競爭最激烈嘅市場,增長咗 20 倍。2025 年 12 月 GPT-5.2 Codex 上線成為又一個轉折點,「12 月到而家又翻咗一倍」。

圖片

然後係 2026 年 2 月嘅集中爆發:GPT-5.3 Codex 鞏固咗模型智能嘅領先;Codex App 發佈(首周超百萬下載)解決咗用戶體驗嘅短板;超級碗廣告做咗品牌宣傳;向免費用戶開放擴大咗覆蓋。

「Even our biggest critics are converted.」
(連我哋最大嘅批評者都轉變咗。)

佢仲唔忘調侃競爭對手:有個模型比我哋早發佈咗大約 20 分鐘——「咁講可能有點毒舌,但佢只係當咗 20 分鐘嘅 SOTA(state of the art,最先進水平)。」

【注:2026 年 2 月 5 日 GPT-5.3 Codex 發佈時,Anthropic 幾乎同時間發佈咗 Claude Opus 4.6。2 月 8 日超級碗期間,OpenAI 同 Anthropic 各自播出咗廣告,OpenAI 嘅口號係「You Can Just Build Things」,Anthropic 則諷刺 OpenAI 喺 ChatGPT 中植入廣告。兩家公司喺社交媒體上公開交鋒。】

最想做得唔同嘅事有兩件。第一,重新回到雲端產品。 之前從雲端轉到本地交互係因為時機唔啱,如果用戶仲未熟你嘅工具就直接做工作流自動化,等於搭咗空中樓閣。但而家用戶基礎已經建立咗,應該將雲端同本地產品緊密整合。

第二,投入更多精力解決代碼審查同質量控制呢類「被低估嘅瓶頸」。代碼生成已經「基本上變得唔值一提喇」,但點樣知道代碼質量好唔好、方向啱唔啱,呢個先係難題。目標係令 Agent 擁有完整嘅迭代能力,包括收集用戶反饋並自行改進,唔再需要人類審查。

【8】聊天係萬能入口,但需要搭配專業 GUI

聊天會係 AI 嘅持久界面嗎?

Harry 引用咗 a16z 合夥人 Anish Akarya 嘅反對觀點:聊天界面係 Sam Altman 同 Elon Musk 呢類高效人士設計嘅產物,但地球上大多數人其實更想要瀏覽器式嘅、可以點擊發現嘅圖形界面。

Embiricos 嘅回答係「係,但要分兩層睇」。佢話科幻電影係好好嘅未來預測器——科幻裏面嘅 AI 通常好簡單,就係一個你可以隨便聊天嘅實體,唔需要切換到「編碼 AI」再切換到「銷售 AI」。科幻之所以係好預測器,正正因為佢係講故仔嘅,而簡單嘅嘢通常係啱嘅

所以第一層係:聊天或語音作為通用入口,你可以同佢傾任何事,亦可以將佢加到任何羣組入面,等佢自己發現點樣幫你。

但第二層同樣重要:專業用戶唔想所有事都透過同另一個「人」對話嚟完成。佢打咗個比方——想像你有個行政助理,但你只可以透過同佢對話嚟工作,唔可以自己睇文件、自己編輯。咁會好煩,有時候你就是想直接打開文檔自己改。

所以未來嘅模式係:聊天做通用入口,搭配針對特定領域嘅功能性 GUI佢自己用聊天做播客準備,但睇代碼仲係要打開 Codex App 深入研究。營銷人員用聊天問產品問題,但睇廣告數據要用專門嘅分析界面——佢哋唔會為咗問個產品問題去下載 Codex App。

圖片

佢仲提到一個有意思嘅發現:喺構建 Codex 嘅過程中,佢哋發現對 Agent 最好用嘅界面,往往亦係對人類最好用嘅界面例如測試框架默認會輸出所有測試結果,人類要喺成千上萬行入面揾到失敗嘅嗰個,好痛苦;AI 都一樣痛苦。但如果你只輸出失敗嘅測試,對人同 Agent 都更好。呢個意味住 Agent 同人類之間嘅交接點可以共用同一套界面設計。

【9】Agent 市場終局——少數通用 Agent 會贏

呢個市場最終係雙頭壟斷定三分天下?

Harry 用投資人嘅視角問咗呢個問題:Agent 市場嘅終局,係好似 Uber 同 Lyft 咁兩家瓜分(Codex 攞大頭),定係好似 AWS、Azure、Google Cloud 咁三分天下?

Embiricos 認為最終只有少數提供商會捕獲大部分價值。佢嘅邏輯鏈係咁樣:

回看過去一年,舊年好多人以為 Agent 會喺多個領域揾到 PMF(Product Market Fit,產品市場契合),但實際上只有編碼 Agent 真正跑通咗,客戶支援等其他領域仲好初期。不過呢個係暫時嘅,未來 Agent 可以做任何事。

到咗嗰個時候,你唔會想喺公司入面擺 12 個 Agent,等員工自己揾啱嗰個——因為佢哋唔會對任何一個達到「熟練」狀態。唔熟練就唔會主動將自動化拉入自己嘅工作流程。 但如果得一個 Agent,入職培訓就係「有任何問題揾佢」,人們會形成肌肉記憶,佢會成為工作嘅重心。團隊之間會分享使用技巧、搞黑客松嚟探索新用法,成個組織圍繞佢運轉。

圖片

呢個同佢喺 Dropbox 見到嘅一模一樣。Slack 崛起之前,Dropbox 嘅文檔協作功能其實更高效——你可以喺視頻嘅精確時間戳上留言,喺文檔嘅特定段落上標註。但人們就係湧向 Slack。冇人想去文檔上寫評論,大家只想喺 Slack 入面直接 @ 你。效率更低,但引力效應更強。 Agent 市場會重演同樣嘅故事。

佢認為 ChatGPT 做呢件事有天然優勢,佢已經係好多嘅通用 AI 入口。

【10】數據護城河喺邊度:編程數據夠咗,知識工作數據先稀缺

編程數據護城河喺邊個手度?Anthropic 係咪已經拎曬所有數據?

呢個問題來自 Harry 喺 LinkedIn 上徵集嘅讀者提問。Harry 用「佛地魔」嚟形容提問者所在嘅公司——「『嗰個唔可以講名嘅公司』嘅一位優秀投資人」,然後補咗句「我唔想俾 Sam 殺咗我」。大概率係 Anthropic 嘅投資人喺問:你哋嘅編碼數據護城河到底喺唔喺?

Embiricos 嘅回答好直接:編程數據已經夠咗。佢哋「有足夠多嘅數據嚟構建非常好嘅編碼模型」,呢個唔係瓶頸。

圖片

真正有意思嘅數據缺口喺知識工作領域點解?

因為編碼有一個天然嘅數據寶庫,GitHub 上海量嘅開源代碼,代碼點寫、點改、點審查,全部有跡可循。但知識工作完全唔同:冇人將自己點樣處理一封電郵、點樣準備一場會議、點樣做一個決策嘅完整過程記錄落嚟擺上網。呢類數據喺互聯網上幾乎唔存在,而且知識工作任務嘅分佈比編碼複雜好多,編碼任務相對標準化,但知識工作千人千面。

獲取呢類數據嘅路徑需要創新。Embiricos 提咗兩個思路:
一是畀錢請人模擬做任務,記錄完整嘅操作軌跡作為訓練數據;
二是收購一啲唔再營運但積累咗大量工作流數據嘅創業公司佢舉嘅例子係「例如某個 Slack 類嘅產品」,呢啲產品入面存住大量真實嘅團隊協作、決策溝通嘅記錄。

Harry 問到同外部數據公司(Turing、Invisible 等)嘅合作會唔會加大投入。Embiricos 話佢哋追求嘅係盡快推進,自建數據採集團隊對小團隊嚟講太嘥時間,大規模數據採集通常會揾外部公司合作。

【11】SaaS 唔會死,但「中間商」公司有麻煩

有人話大型 SaaS 公司嘅收入可持續性為零,SaaS 已死。你點睇?

Embiricos 話關鍵問題係:呢間 SaaS 公司到底擁有啲乜?

佢畀咗兩個判斷標準:

  1. 1. 第一,佢係咪擁有同人類嘅關係——用戶離唔開佢,係因為習慣咗同佢打交道。
  2. 2. 第二,佢係咪擁有重要嘅記錄系統(system of record)——企業嘅核心數據存在佢嗰度。

如果佔咗其中一樣,佢可能唔會消亡,甚至呢兩樣嘢喺 AI 時代比以往更重要。

圖片

但如果一間 SaaS 公司只係一個 「glue layer」(膠水層),夾喺用戶同數據之間做連接同搬運,既唔擁有客戶關係又唔擁有核心數據,咁就比較危險喇。呢類公司本質上係「中間商」,而 AI Agent 天然擅長嘅就係打通系統、搬運數據,正好取代佢哋嘅核心功能。

Harry 做咗更具體嘅推演:Salesforce、ServiceNow 股價大跌但係過度恐慌咗;Dropbox 確實處境艱難;Monday.com 呢種畀大量中小企用嘅待辦工具,用戶理論上可以用 vibe coding(憑感覺編程)做一個,但考慮到定製同維護成本,大多數人都會繼續用。佢認為客戶支援類別最危險

Embiricos 補充咗一個關於創始人類型嘅判斷:之前有一段時間,投資「會做好產品嘅人」就夠,因為做好產品太難。但而家做產品變容易咗,你應該返去投資 「識分發、有行業經驗、諗清楚客戶係邊個」嘅創辦人

咩領域唔會被模型提供商侵佔?

Embiricos 話「我唔知,呢個係一個好難做投資嘅時期」。

Harry 畀咗自己嘅答案:有物理基礎設施嘅(例如能源供應),以及有複雜金融關係嘅(例如同東南亞銀行建立嘅 500 個合作關係)。

Embiricos 同意:進入一個關係同行業知識決定一切嘅複雜市場,仍然係好投資。

【12】工程師嘅黃金時代——稀缺嘅係品味同主動性

俾 CS 學生咩建議?

Harry 替即將進入職場嘅 CS 學生問咗呢個問題:點樣喺 AI 時代保持自己嘅價值?

Embiricos 嘅回答出乎意料咁樂觀。佢話從未有比現在更好嘅時機做工程師。AI 工具令你可以做得更多,上手一個複雜代碼庫嘅速度前所未有,你可以直接問 AI 關於代碼庫嘅問題,等佢規劃本來要花你幾日研究嘅變更。過去新人加入一個大型項目,光是理解現有代碼結構可能就要花幾星期,而家呢個過程被大幅壓縮咗。

但佢話鋒一轉:對能力應該樂觀,但真正嘅問題係點樣拎到嗰份工構建變容易之後,稀缺嘅嘢變咗。

「Because it's never been easier to build things, the thing that becomes scarcer is agency, taste, and quality.」
(因為構建嘢從未如此容易,變得稀缺嘅係主動性、品味同質量。)

  • • Agency(主動性):唔係等人話你知做咩,而係自己發現問題、主動去解決。
  • • Taste(品味):喺無數種實現方式中選擇最優雅嘅嗰個,知道咩應該做咩唔應該做。
  • • Quality(質量):當 AI 可以幫所有人寫出 80 分嘅代碼,你靠咩脱穎而出?靠嗰最後 20 分嘅打磨。
圖片

佢嘅具體建議係:構建嘢,然後分享出去OpenAI 收到大量嘅求職申請,無論係透過官網投遞定社交媒體私訊。但真正可以引起佢注意嘅,唔係一份靚嘅履歷,而係有人帶住有趣嘅諗法同一個項目連結嚟揾佢呢個項目本身就可以展示你嘅主動性、品味同質量,比任何學歷背景都有說服力。

【13】Dropbox 嘅教訓——人們會湧向佢哋鍾意用嘅工具

從 Dropbox 學到嘅最大教訓?

Harry 提到 Dropbox 校友羣體喺矽谷嘅影響力好大,問 Embiricos 從嗰段經歷中學到咗啲咩。Embiricos 話呢個問題唔使諗就知道答案。

核心教訓:工具係 「參與系統」(system of engagement),如果人們唔鍾意用你嘅工具,佢哋就唔會用。

佢講咗一個親身經歷嘅故仔。喺 Slack 崛起之前,Dropbox 內部一直喺度討論一個問題:用戶到底應該喺 Dropbox 入面俾文檔寫評論,定係去 Slack 入面討論文檔?從效率角度睇,答案好明顯:喺 Dropbox 入面直接評論更優,你可以喺視頻嘅精確時間戳上留言,喺文檔嘅特定段落上標註,信息同內容綁定喺一齊,上下文完整。

但現實係:人們就係湧向咗 Slack。 冇人想去文檔上寫評論,大家只想喺 Slack 入面直接 @ 你。效率更低,但 Slack 係人們交流嘅重心,引力效應太強喇。Dropbox 嘅協作功能就咁被碾壓咗。

圖片

佢將呢個教訓直接應用咗喺 Codex 嘅產品策略上:如果 Agent 只做 workflow 自動化(工作流程自動化),推廣就好似「拔牙」咁痛苦,你要請 Accenture 呢啲顧問公司入場,部署實施工程師(FTEE),一套流程落嚟又慢又貴。

但如果你做出一個人們真心鍾意用嘅工具,就算一開始只係用佢完成部分任務,用戶會越嚟越擅長用佢。隨住使用加深,工具會逐漸連接更多系統,自動化就自然而然地被拉入工作流,唔係你推俾用戶嘅,係用戶自己拉入嚟嘅。呢個就係「參與系統」同「由上而下部署」嘅根本區別。

至於 Dropbox 今日點樣做?Embiricos 話 Dropbox 嘅獨特優勢係桌面軟件,呢個係佢哋多年積累嘅核心能力。所有知識工作最終發生喺用戶嘅電腦上,要麼喺瀏覽器入面,要麼喺本地應用入面。

Agent 帶來嘅第一波生產力提升,一定係從用戶嘅電腦端開始,先用用戶手邊已經有嘅嘢工作,唔需要任何前期部署。如果佢係 Dropbox,會利用桌面軟件專長嚟做生產力 Agent,喺用戶嘅電腦上構建一個協作層。

【14】快問快答

圖片

人才競爭有幾激烈? Embiricos 話極其激烈。OpenAI 品牌強大,可以吸引好多人才,但即使如此都要花大力氣說服心儀嘅候選人加入。對於 PM 崗位,佢哋極度挑剔,如果唔係完美匹配,可能弊大於利。

利潤率重要嗎? Embiricos 認為推理成本會顯著下降,但今年係 Agent 大規模接入企業系統嘅關鍵年,一旦連接建立就好有黏性。所以今年係一場競賽,為咗贏呢場競賽,可以接受一定嘅利潤率損失。

過去 12 個月最大嘅認知轉變: 加入 OpenAI 時以為好快就會有基於視頻同音頻嘅多模態 Agent,大家可以同電腦屏幕共享式協作。結果多模態模型進展比預期慢,透過代碼操作電腦先係正道呢個係佢對「點樣將 AI 嘅好處帶俾普通人」嘅思路嘅徹底重構。

最尊敬嘅競爭對手: Amp,來自 Sourcegraph。唔只因為產品口碑超出體量,更因為佢哋發起咗 agents.md 標準化。Amp 嘅 Quinn Slack 發咗條 Twitter 話「你哋買咗 agents.md 呢個域名的話,我哋就統一到你哋嘅命名」,呢個看似微小嘅舉動啟動咗成個行業嘅標準化。

【注:Amp 係 Sourcegraph 孵化嘅編碼 Agent 工具,2026 年初已從 Sourcegraph 分拆為獨立公司。聯合創辦人係 Quinn Slack 同 Beyang Liu。】

對 Anthropic 廣告嘅回應: 一間公司對未來好悲觀,另一間,「即係我哋 OpenAI」,喺度話俾人知你可以構建嘢、去追夢。佢認為呢個回應「好精彩」。

【注:2026 年超級碗廣告季,Anthropic 投放咗一支廣告,被認為喺批評 OpenAI 喺 ChatGPT 免費版中引入廣告嘅做法。OpenAI 嘅 Codex 廣告標語係「You can just build things」(你就是可以構建嘢)。】

最痛苦嘅產品決策: Codex Cloud 一度提供無限使用(只需要 ChatGPT 訂閲就得),後來改為有限額度,引發咗激烈嘅用戶反彈。雖然係好細部分用戶喺抱怨,但社交媒體上嘅噪音影響咗所有地方。教訓:唔可以令嘢免費太耐。

5 年後回望會覺得荒謬嘅事: 手動編輯代碼。仲有手動管理部署同監控。未來創業嘅方式可能係:先揾一個 Agent,等佢構建嘢,再加更多 Agent,然後先加入聯合創辦人。你嘅主要溝通工具可能就係 Agent 溝通工具,而唔係手動管理 CI(持續集成)同部署流程。

「The way you start a company is you start by getting an agent and just asking it to build things.」
(創業嘅方式係先揾一個 Agent,叫佢開始構建。)

10 年內最期待嘅事(佢話可能唔使 10 年):令 AI 幫到所有人,唔只係科技圈嘅人。佢話加入 OpenAI 時就覺得模型嘅能力遠超產品化嘅程度,好似佢咁嘅人比佢阿婆從 AI 中獲益多好多。佢嘅願景係將 Agent 加入家庭 WhatsApp 羣組,佢就自然而然地開始幫手,唔需要任何人多想。


Embiricos 喺呢場訪談中展現咗一個相對完整嘅產品世界觀,三個核心判斷貫穿始終:

第一,編程 Agent 只係起點,通用 Agent 先係終局。 AI 編碼嘅瓶頸已經從模型轉向人機交互,產品化同降低使用門檻係當前最重要嘅工作。

第二,由下而上賦予個人用戶 AI 能力,比由上而下嘅企業部署更有價值。 先令人哋用上工具、建立直覺,再講自動化。

第三,開放標準短期降低黏性,但長期建立生態信任。 OpenAI 嘅策略係開放標準加最強模型加最大分發嘅組合,服務於成為通用 Agent 入口嘅目標。

值得持續關注嘅幾個信號:

  • • Codex 免費開放策略是否可持續(佢哋已經食過一次「無限變限量」嘅虧)
  • • Codex 雲端產品嘅回歸進度(Embiricos 話想重新做好呢塊)
  • • Atlas 瀏覽器能否成為企業 AI 落地嘅關鍵入口
  • • AI 代碼審查同質量控制嘅進展(佢認為呢個係而家被低估嘅瓶頸)
  • • 「所有 Agent 都係編碼 Agent」呢個判斷喺非技術領域是否成立
  • • agents.md 等開放標準能否真正成為行業共識,目前 Claude Code 仍然係最大嘅缺席者

完整訪談視頻:https://www.youtube.com/watch?v=S1rQngjpUdI


Alexander Embiricos 是 OpenAI Codex 的產品負責人。在加入 OpenAI 之前,他在 Dropbox 做過產品經理,後來創辦了協作工具 Multi(前身為 Remotion),做了五年結對編程方向的創業,2024 年被 OpenAI 收購。他親歷了 AI 編程工具從“輔助補全”到“全權委託”的轉變。Codex 自 2025 年 8 月以來增長了 20 倍,剛在 2026 年 2 月的一週內密集發佈了 macOS 獨立應用、GPT-5.3 模型、超級碗廣告,並向免費用戶開放。

這期訪談覆蓋了幾個核心話題:AI 編碼的現狀與工程師的未來、人類為什麼是 AGI 的真正瓶頸、OpenAI 內部怎麼用 Codex、開放標準與競爭策略,以及 SaaS 行業和 Agent 市場的終局。

來源:20VC with Harry Stebbings,2026 年 2 月 21 日
原始視頻:https://www.youtube.com/watch?v=S1rQngjpUdI

圖片

要點速覽

  • • OpenAI 內部大多數人已不再打開 IDE,代碼的絕大部分由 AI 編寫,拐點發生在 GPT-5.2 Codex
  • • AI 應該每天幫助人類數萬次,但當前即使是重度用戶也只用幾十次,瓶頸不在模型而在人機交互
  • • “所有 Agent 本質上都是編碼 Agent”,因為代碼是 Agent 操作計算機的最佳方式
  • • OpenAI 自認工作不是“Codex 的成功”而是 “智能的分發”,訓練模型然後服務給競爭對手
  • • 通用 Agent 會打敗垂直 Agent,未來可能只有少數幾家 Agent 提供商捕獲大部分價值

【1】編碼不會消亡,但編碼的含義會改變

馬斯克說編碼是最先被大規模自動化的職業之一。你身處前線,同意這個判斷嗎?

Embiricos 同意 LLM 在編碼領域確實很強,但 “自動化”是個很重的說法。他舉了幾個歷史類比:當我們從彙編語言轉向高級語言時,沒人說“編碼被自動化了”,我們只是能寫更多代碼,結果是對代碼的需求反而爆炸了,需要更多軟件工程師。

圖片

他又提到了”computer”一詞的起源。在 Bletchley Park(二戰時期英國的密碼破譯中心),有大量人力負責打孔卡、做製表運算。最早的電子表格軟件也脱胎於類似場景:一間辦公室裏,桌子按網格排列,每個人做一部分計算,然後把工作表傳給下一個人。這些具體任務都被自動化了,但每次自動化之後,對產出的需求都出現爆炸式增長

【注:Embiricos 對“computer”一詞起源的描述不完全準確——“computer”作為人類職位的稱呼早於 Bletchley Park,最早可追溯到 17 世紀,後來 NASA 的女性數學計算員也被稱為 computers。】

“You still need software engineers today. You still need designers. I'm a PM. Do you need PMs? I don't think you need them.”
(你現在仍然需要軟件工程師、設計師。我是 PM。你需要 PM 嗎?我覺得不需要。)

五年後會有更多工程師還是更少?Embiricos 說會有更多“構建者”。但他觀察到一個趨勢:人才棧在壓縮。幾年前前端和後端還是兩種人,現在至少在 Codex 團隊內部,工程師越來越全棧化。

至於 PM 這個自嘲式的判斷,他解釋說 PM 的角色本質上是“顯式未定義的”,目標是適應團隊或業務的任何需要。但這些功能也可以由一個思考產品的工程負責人或設計師來承擔。所以 PM 有用,但在團隊很大之前,你可能不需要太多。

【2】AI 的瓶頸是人類打字速度,不是模型

你說過人類打字速度和驗證工作是 AGI 的關鍵瓶頸,能展開說說嗎?

Embiricos 沒有直接回答,而是反問。他先問 Harry 每天用 AI 多少次,答案是 30 多次。然後問如果零成本使用,AI 每天能幫你多少次?答案是無限。

“I think AI should be helping us tens of thousands of times per day.”
(我認為 AI 應該每天幫助我們數萬次。)

他說在 OpenAI 內部,工程師已經到了“Codex 一直開着,如果開會時它沒在跑任務,就覺得浪費了時間”的狀態。但管理這些 Agent、確保它們一直在幹活,本身就是大量工作。

而且即使是他自己這種天天做這個的人,也“太懶”去想出 AI 能幫忙的所有方式,最後每天的使用次數跟普通人差不多。當他用 AI 做了什麼新鮮事(比如準備這次播客),還會覺得“挺自豪的”。

那理想的未來是什麼?不需要學會怎麼 prompt,不需要自己發現 AI 能幫你的場景,AI 自動連接你的上下文,在合適的時機介入。

Harry 追問:那 productize(產品化)這些 prompt 和人類動作來移除瓶頸,是你們的工作嗎?

Embiricos 認為是,但不是馬上就做到。他給出了一個三階段路線圖

第一階段,讓 Agent 在軟件工程和編碼領域先做好,因為 LLM 恰好擅長這個。

第二階段,意識到 Agent 要更廣泛地有用,就需要能操作計算機,而代碼恰恰是 Agent 操作計算機的最佳方式。

“All agents are actually coding agents because coding is just the best way for an agent to use a computer.”
(所有 Agent 本質上都是編碼 Agent,因為代碼是 Agent 操作計算機的最佳方式。)

圖片

第三階段,觀察什麼有效後,做高度產品化的功能。他說“我們會在接下來幾個月內快速跑完這三個階段”。

他特別提到 Claude Code 最初推出時做對了一件事:給你一個終端裏的超簡單工具,讓用戶自己去探索各種使用場景。他認為 OpenAI 也應該優先做這種開放式工具,而不是隻為特定行業做定製化產品。

Harry 指出了矛盾:如果你做開放工具而不是垂直產品,不就是把責任推回給用戶了嗎?這正好回到了“人類是瓶頸”的原點。Embiricos 承認這確實是瓶頸,所以三個階段的設計就是漸進式地降低門檻。

【注:Claude Code 是 Anthropic 於 2025 年 2 月推出的命令行 AI 編程工具,在開發者羣體中迅速走紅。他也提到 Claude 的產品化做得好,比如 Claude for Legal、Claude in Excel,這些是 Anthropic 推出的垂直場景應用,讓特定行業用戶可以不寫 prompt 就使用 AI。】

【3】先給人工具,再談自動化——企業 AI 部署的路徑之爭

企業 AI 部署的數據安全、權限配置問題很難,不需要實施工程師嗎?

Embiricos 承認如果要從零到一部署一個完整的 workflow 自動化系統,確實需要實施工程師來打通安全合規和各種數據系統。但他的核心觀點是:自上而下部署的結果往往是“嚴重低估了 AI 在這家公司的潛力”

他打了個比方:想象你是客服人員,AI 正在自動化你的大部分工作,但你自己從來沒用過 ChatGPT。在這種情況下你對 AI 完全沒有直覺,面對自動化只會感到無力。但如果你同時在用 ChatGPT 處理日常工作,你會對 AI 的能力有理解,也更有掌控感。

圖片

那數據安全問題怎麼辦?他指出,每個工具、每個 workflow 最終都落到某個員工的瀏覽器或本地文件系統上。這就是為什麼 OpenAI 在建 Atlas 瀏覽器

【注:ChatGPT Atlas 是 OpenAI 於 2025 年 10 月推出的瀏覽器,基於 Chromium 構建,內置 ChatGPT 功能。它可以理解用戶正在瀏覽的網頁內容,並支持 Agent 模式在瀏覽器中直接執行任務。】

通過自建瀏覽器並端到端控制,OpenAI 可以為企業構建安全的 Agent 瀏覽體驗,讓 Agent 訪問那些尚未被實施工程師打通的系統。

“For me the most exciting future with AI is one where everyone just feels like a superhuman, just like empowered by AI.”
(對我來說,AI 最令人興奮的未來是每個人都覺得自己像個超人,被 AI 賦予了力量。)

【4】從配對編程到委託——OpenAI 內部的工作方式變革

OpenAI 內部有多少代碼是由 Codex 生成的?

Embiricos 沒給具體百分比,但說大多數他認識的人已經不再打開編輯器

“The code itself is not being written by humans anymore.”
(代碼本身已經不再由人類來寫了。)

“The vast majority of code is written by AI and I would say that now probably most people are not even opening IDEs.”
(代碼的絕大部分由 AI 編寫,而且我認為現在大多數人甚至不打開 IDE 了。)

這個變化是階躍式的。拐點發生在 2025 年 12 月的 GPT-5.2 Codex:模型在長時間運行、端到端處理任務、管理上下文和遵循指令方面有了巨大提升。

【注:GPT-5.2 Codex 於 2025 年 12 月發佈。2026 年 2 月 5 日,OpenAI 又發佈了 GPT-5.3 Codex,號稱是“迄今為止最強的 Agent 編碼模型”,比前代快 25%,也是第一個被用來參與自身訓練和部署的模型。】

圖片

在 GPT-5.2 之前,AI 編碼輔助主要是 tab 補全或配對編程,你得坐在電腦前,手放在鍵盤上。GPT-5.2 之後,工作方式變成了:跟 Agent 討論一個計劃,確認 spec(規格),然後“let it cook”(放手讓它幹)。

這也是為什麼他們做了 Codex App,一個專門為“委託而非配對”設計的界面。App 有管理多個 Agent 的工具、審查變更的功能、突出的 Skills(開放標準的 Agent 能力擴展),但有意沒有文本編輯功能。

【注:Codex App 於 2026 年 2 月 2 日發佈 macOS 版,支持多 Agent 並行工作。同一周 OpenAI 還在超級碗投放了廣告(標語:“You can just build things”),並臨時向免費和 Go 用戶開放 Codex 功能。】

談到代碼審查,Embiricos 說計劃審查(plan review)變得比以往更重要。Codex 有一個 Plan Mode:Agent 先以只讀方式研究代碼庫,提出一個詳細方案,問你是否同意再開始執行。這就像新員工在動手前先給團隊提 RFC(Request for Comments,徵求意見稿)。

至於代碼本身的審查,他說 OpenAI 幾乎所有代碼在推送到 repo 時都會被 Codex 自動審查。Codex 被專門訓練為低誤報率的審查者,它給出的批評大多有價值,所以你可以信任它的反饋。他還提到:有人讓 Codex 審查其他模型生成的代碼,然後意識到“我可能應該直接用 Codex 來寫代碼”。

【5】開放標準——“除了 Claude,所有家都採用了 agents.md”

用戶在不同編碼工具間切換很容易,你怎麼看粘性?

Embiricos 說他們反而刻意讓用戶更容易切換。Codex 的核心 harness(運行框架)是開源的。去年 Codex 首發時,他們建立了 agents.md 這個約定,一個任何 Agent 都能讀取的配置文件,故意沒叫 codex.md。上週他們又推動把 Skills(Agent 的能力擴展腳本)存放在名為 agents/ 的中性文件夾裏,而不是 codex/ 之類的。

“所有人都跟進了——除了那個慣犯。”他沒點名,但顯然在說 Anthropic 的 Claude Code,它使用自己的 CLAUDE.md 格式。

【注:agents.md 是一個跨工具的 AI Agent 配置標準。OpenAI 推出了 agents.md(複數),Amp/Sourcegraph 推出了 agent.md(單數),後來 Quinn Slack 在社交媒體上提出統一命名,促成了行業標準化。到 2025 年底已有超過 6 萬個開源項目採用,GitHub Copilot 也宣佈支持。該標準已由 Linux 基金會旗下的 Agentic AI Foundation 管理。Claude Code 則使用自有的 CLAUDE.md 格式。】

圖片

但他也指出,這種容易切換的狀態是暫時的。當前的編碼任務是“單集式”(episodic)的:你有一個通用的 agents 文件,任何 Agent 都能讀;Agent 寫代碼,產出一個 patch(補丁),進入 git。任務的兩端都是廠商中性的。

一旦 Agent 開始對接外部系統,比如跟 Sentry(錯誤監控服務)對話或操作 Google Docs,粘性就會大幅增加。讓企業信任一個 Agent 有權訪問這些系統、同時確保有安全的沙箱和控制措施,這是一個不想重複做的決定。

Embiricos 說他們正是基於這個預判來構建 Codex 的。Codex 採用了最保守的沙箱機制,用 OS 級別的控制來限定 Agent 能做什麼。

【6】“我們的工作不是 Codex 的成功,而是智能的分發”

怎麼確保用戶留在 Codex 而不是跑去 Cursor 或 Claude Code?

Harry 用 Hamilton Helmer《七種力量》的框架追問如何建立競爭壁壘。Embiricos 說 OpenAI 的使命是“確保安全地將 AGI 的好處帶給全人類”,Codex 團隊的工作本質上不是 Codex 的成功,而是 “智能的分發”

“We put all this effort into training these models and then we serve these models to our competitors.”
(我們投入巨大精力訓練這些模型,然後把模型提供給我們的競爭對手。)

Harry 直接說:“這對我作為風險投資人來說太難理解了。”

Embiricos 解釋說這是長期博弈。競爭對手變好,OpenAI 也能學習。即使競爭對手是閉源的(暗指 Anthropic),也能從競品的產品設計和創意中獲得靈感。他舉例說自己當天早上還在推特上轉發了 Warp(一款終端工具)的新功能,裏面有關於“Agent 同時在雲端和本地工作”的好想法。整個行業“都在不可避免地達到相同的結論”。

圖片

那 Codex 的真正優勢是什麼?他列了幾個:ChatGPT 的巨大分發優勢、自研模型在自家 harness 中的能力優勢(沒人能提前拿到他們的新模型),以及模型和產品的協同優化

從公司層面看,最重要的是計算優勢和最好的模型,為此需要建商業來產生收入,而且有趣的是,Codex 這種產品團隊反過來也在加速模型改進。從產品層面看,最重要的是做出個人用戶喜歡的產品。

他也承認了企業側的教訓:不能只是“我們來了,隨便用吧”,需要大量教育、配置支持、跟開發者體驗負責人對接。

【7】速度、指標與產品起伏

推理速度對開發者有多重要?

Embiricos 說“非常重要”。他們跟 Cerebras 合作正是為了解決延遲問題。他暗示合作方面很快會有新消息。

【注:2026 年 2 月 12 日,OpenAI 發佈了 GPT-5.3-Codex-Spark,這是與 Cerebras 合作的首個成果。Spark 是 GPT-5.3 Codex 的輕量版,運行在 Cerebras 的 Wafer Scale Engine 3 芯片上,推理速度超過 1000 tokens/秒,目標是實現近乎即時的編碼交互。】

不過他不認為推理會形成壟斷,競爭壓力會催生多種方案。GPT-5.3 Codex 本身就比前代模型高效得多。他們還在 API 層面做了優化,模型推理速度快了 40%,Codex 用戶端快了 25%

Harry 轉述了 Jason Lemkin(SaaStr 創始人)的一個判斷:”AI 算力是新的銷售和營銷”。這句話的意思是:過去企業花錢僱銷售團隊、投廣告來獲客;未來企業花錢買 AI 算力(inference,即運行模型的計算成本),讓用戶上手就能體驗到產品價值,自己就轉化了——本質上是 PLG(Product-Led Growth,產品驅動增長)的 AI 版本,銷售團隊可能不再需要。

Embiricos 不太認同。他說在一個人人都能構建產品的世界裏,市場上的選擇只會更多,跟客戶保持良好關係、真正理解他們需要什麼,反而比以前更難了。銷售和營銷解決的正是這個問題,不會被取代。

你們的核心指標是什麼?

主要是周活躍用戶(WAU),不是收入。Harry 追問:如果 Codex 真的在替代 IDE,不應該看日活嗎?Embiricos 當場認可了這個批評:“你說得對,我們可能應該轉向日活。”

他說目標是讓用戶的第一反應變成 “有任何事都先問 Agent”,就像 Google 搜索對信息的作用、ChatGPT 對知識的作用一樣,下一階段應該是“任何任務都先找 Agent”。

去年首發的雲端 Agent 想法很好,給 Agent 自己的雲端電腦、可以並行處理多個任務,但“說實話效果不如後來發佈的版本”。2025 年 8 月 GPT-5 之後他們轉向交互式編碼,進入了競爭最激烈的市場,增長了 20 倍。2025 年 12 月 GPT-5.2 Codex 上線成為又一個轉折點,“12 月到現在又翻了一倍”。

圖片

然後是 2026 年 2 月的集中爆發:GPT-5.3 Codex 鞏固了模型智能的領先;Codex App 發佈(首周超百萬下載)解決了用戶體驗的短板;超級碗廣告做了品牌宣傳;向免費用戶開放擴大了覆蓋。

“Even our biggest critics are converted.”
(連我們最大的批評者都轉變了。)

他還不忘調侃競爭對手:有個模型比我們早發佈了大約 20 分鐘——“說這話可能有點毒舌,但它只當了 20 分鐘的 SOTA(state of the art,最先進水平)。”

【注:2026 年 2 月 5 日 GPT-5.3 Codex 發佈時,Anthropic 幾乎同時發佈了 Claude Opus 4.6。2 月 8 日超級碗期間,OpenAI 和 Anthropic 各自播出了廣告,OpenAI 的口號是“You Can Just Build Things”,Anthropic 則諷刺 OpenAI 在 ChatGPT 中植入廣告。兩家公司在社交媒體上公開交鋒。】

最想做不同的事情有兩件。第一,重新回到雲端產品。 之前從雲端轉到本地交互是因為時機不對,如果用戶還沒熟悉你的工具就直接做工作流自動化,等於搭了空中樓閣。但現在用戶基礎已經建立起來了,該把雲端和本地產品緊密整合了。

第二,投入更多精力解決代碼審查和質量控制這類“被低估的瓶頸”。代碼生成已經“基本上變得不值一提了”,但怎麼知道代碼質量好不好、方向對不對,這才是難題。目標是讓 Agent 擁有完整的迭代能力,包括收集用戶反饋並自行改進,不再需要人類審查。

【8】聊天是萬能入口,但需要搭配專業 GUI

聊天會是 AI 的持久界面嗎?

Harry 引用了 a16z 合夥人 Anish Akarya 的反對觀點:聊天界面是 Sam Altman 和 Elon Musk 這類高效人士設計的產物,但地球上大多數人其實更想要瀏覽器式的、可以點擊發現的圖形界面。

Embiricos 的回答是”是,但要分兩層看”。他說科幻電影是很好的未來預測器——科幻裏的 AI 通常很簡單,就是一個你可以隨便聊天的實體,不需要切換到”編碼 AI”再切換到”銷售 AI”。科幻之所以是好預測器,恰恰因為它是講故事的,而簡單的東西通常是對的

所以第一層是:聊天或語音作為通用入口,你可以跟它聊任何事,也可以把它加到任何羣聊裏,讓它自己發現怎麼幫你。

但第二層同樣重要:專業用戶不想所有事都通過跟另一個”人”對話來完成。他打了個比方——想象你有個行政助理,但你只能通過跟他對話來工作,不能自己看文件、自己編輯。這太煩了,有時候你就是想直接打開文檔自己改。

所以未來的模式是:聊天做通用入口,搭配針對特定領域的功能性 GUI。他自己用聊天做播客準備,但看代碼還是要打開 Codex App 深入研究。營銷人員用聊天問產品問題,但看廣告數據要用專門的分析界面——他們不會為了問個產品問題去下載 Codex App。

圖片

他還提到一個有意思的發現:在構建 Codex 的過程中,他們發現對 Agent 最好用的界面,往往也是對人類最好用的界面。比如測試框架默認會輸出所有測試結果,人類要在成千上萬行裏找到失敗的那一個,很痛苦;AI 也一樣痛苦。但如果你只輸出失敗的測試,對人和 Agent 都更好。這意味着 Agent 和人類之間的交接點可以共用同一套界面設計。

【9】Agent 市場終局——少數通用 Agent 會贏

這個市場最終是雙頭壟斷還是三分天下?

Harry 用投資人的視角問了這個問題:Agent 市場的終局,是像 Uber 和 Lyft 那樣兩家瓜分(Codex 拿大頭),還是像 AWS、Azure、Google Cloud 那樣三分天下?

Embiricos 認為最終只有少數提供商會捕獲大部分價值。他的邏輯鏈是這樣的:

回看過去一年,去年很多人以為 Agent 會在多個領域找到 PMF(Product Market Fit,產品市場契合),但實際上只有編碼 Agent 真正跑通了,客戶支持等其他領域還很初期。不過這是暫時的,未來 Agent 能做任何事。

到了那個時候,你不會想在公司裏配 12 個 Agent,讓員工自己去找對的那個——因為他們不會對任何一個達到”熟練”狀態。不熟練就不會主動把自動化拉入自己的工作流。 但如果只有一個 Agent,入職培訓就是”有任何問題找它”,人們會形成肌肉記憶,它會成為工作的重心。團隊之間會分享使用技巧、辦黑客馬拉松來探索新用法,整個組織圍繞它運轉。

圖片

這跟他在 Dropbox 看到的一模一樣。Slack 崛起之前,Dropbox 的文檔協作功能其實更高效——你可以在視頻的精確時間戳上留言,在文檔的特定段落上標註。但人們就是湧向 Slack。沒人想去文檔上寫評論,大家只想在 Slack 裏直接 @ 你。效率更低,但引力效應更強。 Agent 市場會重演同樣的故事。

他認為 ChatGPT 做這件事有天然優勢,它已經是很多人的通用 AI 入口。

【10】數據護城河在哪裏:編程數據夠了,知識工作數據才稀缺

編程數據護城河在誰手裏?Anthropic 是不是已經拿到所有數據了?

這個問題來自 Harry 在 LinkedIn 上徵集的讀者提問。Harry 用”伏地魔”來形容提問者所在的公司——“'那個不能說名字的公司'的一位優秀投資人”,然後補了一句”我不想讓 Sam 殺了我”。大概率是 Anthropic 的投資人在問:你們的編碼數據護城河到底在不在?

Embiricos 的回答很直接:編程數據已經夠了。他們”有足夠多的數據來構建非常好的編碼模型”,這不是瓶頸。

圖片

真正有意思的數據缺口在知識工作領域。為什麼?

因為編碼有一個天然的數據寶庫,GitHub 上海量的開源代碼,代碼怎麼寫、怎麼改、怎麼審查,全都有跡可循。但知識工作完全不同:沒有人把自己怎麼處理一封郵件、怎麼準備一場會議、怎麼做一個決策的完整過程記錄下來放到網上。這類數據在互聯網上幾乎不存在,而且知識工作任務的分佈比編碼複雜得多,編碼任務相對標準化,但知識工作千人千面。

獲取這類數據的路徑需要創新。Embiricos 提了兩個思路:
一是付錢請人模擬做任務,記錄完整的操作軌跡作為訓練數據;
二是收購一些不再運營但積累了大量工作流數據的創業公司,他舉的例子是”比如某個 Slack 類的產品”,這些產品裏存着大量真實的團隊協作、決策溝通的記錄。

Harry 問到跟外部數據公司(Turing、Invisible 等)的合作會不會加大投入。Embiricos 說他們追求的是儘快推進,自建數據採集團隊對小團隊來說太耗時間,大規模數據採集通常會找外部公司合作。

【11】SaaS 不會死,但"中間商"公司有麻煩

有人說大型 SaaS 公司的收入可持續性為零,SaaS 已死。你怎麼看?

Embiricos 說關鍵問題是:這家 SaaS 公司到底擁有什麼?

他給出了兩個判斷標準:

  1. 1. 第一,它是否擁有跟人類的關係——用戶離不開它,是因為習慣了跟它打交道。
  2. 2. 第二,它是否擁有重要的記錄系統(system of record)——企業的核心數據存在它那裏。

如果佔了其中一樣,它可能不會消亡,甚至這兩樣東西在 AI 時代比以往更重要。

圖片

但如果一家 SaaS 公司只是個 "glue layer"(膠水層),夾在用戶和數據之間做連接和搬運,既不擁有客戶關係也不擁有核心數據,那就比較危險了。這類公司本質上是"中間商",而 AI Agent 天然擅長的就是打通系統、搬運數據,正好替代它們的核心功能。

Harry 做了更具體的推演:Salesforce、ServiceNow 股價大跌但被過度恐慌了;Dropbox 確實處境艱難;Monday.com 這種給大量中小企業用的待辦工具,用戶理論上可以用 vibe coding(憑感覺編程)做一個,但考慮到定製和維護成本,大多數人還是會繼續用。他認為客戶支持類別最危險

Embiricos 補充了一個關於創始人類型的判斷:之前有一段時間,投資“會做好產品的人”就夠了,因為做好產品太難了。但現在做產品變容易了,你應該回到投資 “懂分發、有行業經驗、想清楚客戶是誰”的創始人

那什麼領域不會被模型提供商侵佔?

Embiricos 說“我不知道,這是個很難做投資的時期”。

Harry 給了自己的答案:有物理基礎設施的(比如能源供應),以及有複雜金融關係的(比如跟東南亞銀行建立的 500 個合作關係)。

Embiricos 同意:進入一個關係和行業知識決定一切的複雜市場,仍然是好投資。

【12】工程師的黃金時代——稀缺的是品味和主動性

給 CS 學生什麼建議?

Harry 替即將進入職場的 CS 學生問了這個問題:怎麼在 AI 時代保持自己的價值?

Embiricos 的回答出乎意料地樂觀。他說從未有比現在更好的時機做工程師。AI 工具讓你能做得更多,上手一個複雜代碼庫的速度前所未有,你可以直接問 AI 關於代碼庫的問題,讓它規劃本來要花你幾天研究的變更。過去新人加入一個大型項目,光是理解現有代碼結構可能就要花幾周,現在這個過程被大幅壓縮了。

但他話鋒一轉:對能力應該樂觀,但真正的問題是怎麼拿到那份工作。構建變容易後,稀缺的東西變了。

“Because it's never been easier to build things, the thing that becomes scarcer is agency, taste, and quality.”
(因為構建東西從未如此容易,變得稀缺的是主動性、品味和質量。)

  • • Agency(主動性):不是等別人告訴你做什麼,而是自己發現問題、主動去解決。
  • • Taste(品味):在無數種實現方式中選擇最優雅的那個,知道什麼該做什麼不該做。
  • • Quality(質量):當 AI 能幫所有人寫出 80 分的代碼,你靠什麼脱穎而出?靠那最後 20 分的打磨。
圖片

他的具體建議是:構建東西,然後分享出去。OpenAI 收到大量的求職申請,無論是通過官網投遞還是社交媒體私信。但真正能引起他注意的,不是一份漂亮的簡歷,而是有人帶着有趣的想法和一個項目連結來找他。這個項目本身就能展示你的主動性、品味和質量,比任何學歷背景都有說服力。

【13】Dropbox 的教訓——人們會湧向他們喜歡使用的工具

從 Dropbox 學到的最大教訓?

Harry 提到 Dropbox 校友羣體在硅谷的影響力很大,問 Embiricos 從那段經歷中學到了什麼。Embiricos 說這個問題不用想就知道答案。

核心教訓:工具是 ”參與系統”(system of engagement),如果人們不喜歡用你的工具,他們就不會用。

他講了一個親歷的故事。在 Slack 崛起之前,Dropbox 內部一直在討論一個問題:用戶到底應該在 Dropbox 裏給文檔寫評論,還是去 Slack 裏討論文檔?從效率角度看,答案很明顯:在 Dropbox 裏直接評論更優,你可以在視頻的精確時間戳上留言,在文檔的特定段落上標註,信息跟內容綁定在一起,上下文完整。

但現實是:人們就是湧向了 Slack。 沒人想去文檔上寫評論,大家只想在 Slack 裏直接 @ 你。效率更低,但 Slack 是人們交流的重心,引力效應太強了。Dropbox 的協作功能就這樣被碾壓了。

圖片

他把這個教訓直接應用到了 Codex 的產品策略上:如果 Agent 只做 workflow 自動化(工作流程自動化),推廣就像”拔牙”一樣痛苦,你得僱 Accenture 這樣的諮詢公司進場,部署實施工程師(FTEE),一套流程走下來既慢又貴。

但如果你做出一個人們真心喜歡用的工具,哪怕一開始只用它完成部分任務,用戶會越來越擅長使用它。隨着使用加深,工具會逐漸連接更多系統,自動化就自然而然地被拉入工作流,不是你推給用戶的,是用戶自己拉進來的。這就是”參與系統”和”自上而下部署”的根本區別。

至於 Dropbox 今天怎麼做?Embiricos 說 Dropbox 的獨特優勢是桌面軟件,這是他們多年積累的核心能力。所有知識工作最終發生在用戶的電腦上,要麼在瀏覽器裏,要麼在本地應用裏。

Agent 帶來的第一波生產力提升,一定是從用戶的電腦端開始,先用用戶手邊已有的東西工作,不需要任何前期部署。如果他是 Dropbox,會利用桌面軟件專長來做生產力 Agent,在用戶的電腦上構建一個協作層。

【14】快問快答

圖片

人才競爭有多激烈? Embiricos 說極其激烈。OpenAI 品牌強大,能吸引很多人才,但即使如此也要花大力氣說服心儀的候選人加入。對於 PM 崗位,他們極度挑剔,如果不是完美匹配,可能弊大於利。

利潤率重要嗎? Embiricos 認為推理成本會顯著下降,但今年是 Agent 大規模接入企業系統的關鍵年,一旦連接建立就很有粘性。所以今年是一場競賽,為了贏這場競賽,可以接受一定的利潤率損失。

過去 12 個月最大的認知轉變: 加入 OpenAI 時以為很快就會有基於視頻和音頻的多模態 Agent,大家可以跟電腦屏幕共享式協作。結果多模態模型進展比預期慢,通過代碼操作計算機才是正道。這是他對“如何把 AI 的好處帶給普通人”的思路的徹底重構。

最尊敬的競爭對手: Amp,來自 Sourcegraph。不只是因為產品口碑超出體量,更因為他們發起了 agents.md 標準化。Amp 的 Quinn Slack 發了條推特說“你們買了 agents.md 這個域名的話,我們就統一到你們的命名”,這個看似微小的舉動啓動了整個行業的標準化。

【注:Amp 是 Sourcegraph 孵化的編碼 Agent 工具,2026 年初已從 Sourcegraph 分拆為獨立公司。聯合創始人是 Quinn Slack 和 Beyang Liu。】

對 Anthropic 廣告的回應: 一家公司對未來很悲觀,另一家,“也就是我們 OpenAI”,在告訴人們你可以構建東西、去追夢。他認為這個回應“很精彩”。

【注:2026 年超級碗廣告季,Anthropic 投放了一支廣告,被認為在批評 OpenAI 在 ChatGPT 免費版中引入廣告的做法。OpenAI 的 Codex 廣告標語是“You can just build things”(你就是可以構建東西)。】

最痛苦的產品決策: Codex Cloud 一度提供無限使用(只需要 ChatGPT 訂閲就行),後來改為有限額度,引發了激烈的用戶反彈。雖然是很小一部分用戶在抱怨,但社交媒體上的噪音影響了所有地方。教訓:不能讓東西免費太久。

5 年後回看會覺得荒謬的事: 手動編輯代碼。還有手動管理部署和監控。未來創業的方式可能是:先找一個 Agent,讓它構建東西,再加更多 Agent,然後才加入聯合創始人。你的主要溝通工具可能就是 Agent 溝通工具,而不是手動管理 CI(持續集成)和部署流程。

“The way you start a company is you start by getting an agent and just asking it to build things.”
(創業的方式是先找一個 Agent,讓它開始構建。)

10 年內最期待的事(他說可能用不了 10 年):讓 AI 幫到所有人,不只是科技圈的人。他說加入 OpenAI 時就覺得模型的能力遠超產品化的程度,像他這樣的人比他奶奶從 AI 中獲益多得多。他的願景是把 Agent 加入家庭 WhatsApp 羣,它就自然而然地開始幫忙,不需要任何人多想。


Embiricos 在這場訪談中展現了一個相對完整的產品世界觀,三個核心判斷貫穿始終:

第一,編程 Agent 只是起點,通用 Agent 才是終局。 AI 編碼的瓶頸已經從模型轉向人機交互,產品化和降低使用門檻是當前最重要的工作。

第二,自下而上賦予個人用戶 AI 能力,比自上而下的企業部署更有價值。 先讓人們用上工具、建立直覺,再談自動化。

第三,開放標準短期降低粘性,但長期建立生態信任。 OpenAI 的策略是開放標準加最強模型加最大分發的組合,服務於成為通用 Agent 入口的目標。

值得持續關注的幾個信號:

  • • Codex 免費開放策略是否可持續(他們已經吃過一次“無限變限量”的虧)
  • • Codex 雲端產品的迴歸進度(Embiricos 說想重新做好這塊)
  • • Atlas 瀏覽器能否成為企業 AI 落地的關鍵入口
  • • AI 代碼審查和質量控制的進展(他認為這是當前被低估的瓶頸)
  • • “所有 Agent 都是編碼 Agent”這個判斷在非技術領域是否成立
  • • agents.md 等開放標準能否真正成為行業共識,目前 Claude Code 仍然是最大的缺席者

完整訪談視頻:https://www.youtube.com/watch?v=S1rQngjpUdI