OpenAI 應用 CTO 和 Codex 負責人:AI 正在重塑構建軟件的方式

作者:寶玉AI
日期:2026年2月21日 下午6:41
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

AI編碼工具Codex已成隊友OpenAI內部工程實踐的未來藍圖

整理版摘要

呢篇文章係由OpenAI嘅應用CTO Vijaye Raji同Codex工程負責人Thibault Sottiaux喺Pragmatic Summit上嘅訪談整理出嚟。兩位分享咗OpenAI內部用Codex嘅真實狀況,指出AI編碼工具已經由輔助工具進化成交付任務嘅「隊友」,工程師可以將工作交俾Codex,然後去開會,返嚟就搞掂。整體結論係:AI正以前所未有嘅速度重塑軟件開發方式,瓶頸持續轉移,角色邊界模糊,未來六個月速度再快十倍。

具體變化包括:設計師寫代碼嘅產出比六個月前嘅工程師仲要多;Codex可以喺夜間自主運行QA測試、訓練模型並寫報告,形成「AI改進AI」嘅循環;團隊用並行探索代替傳統設計文檔決策,直接實現多個方案然後揀最好嗰個。瓶頸由代碼生成移到審查,再到部署,最後到需求理解,每個環節都用Agent加速。OpenAI仲招收咗約100名應屆生,認為「AI原生」一代將有獨特優勢。

未來預測方面,Thibault認為六個月內速度再提升一個數量級,多Agent協作網絡可以實現「24小時從零重建瀏覽器」,代碼會被抽象化,人類要關注系統屬性而唔係逐行睇碼。Vijaye就話從業25年從未見過咁快嘅變化,但同時指出當系統夠複雜時,除錯會變得好睏難。呢啲問題仲未有確切答案,但已經清楚見到變化嘅方向同速度。

  • Codex已由工具進化為「隊友」:工程師可以委託任務,合上電腦去開會,返嚟工作已經完成。
  • 瓶頸持續轉移:解決代碼生成後,審查、部署、需求理解依次成為新瓶頸,團隊要不停識別同解決最卡嘅環節。
  • 角色邊界模糊:設計師寫嘅代碼比六個月前嘅工程師仲多;PM用Codex將自己變成50倍效率嘅項目經理。
  • 夜間自主運行Codex可以通宵做QA測試、訓練模型同寫PDF報告,形成「AI改進AI」嘅自我改進循環。
  • 未來六個月再快10倍:多Agent協作網絡將實現大規模任務,代碼會被抽象化,人類要專注系統設計同驗證。
整理重點

Codex從工具進化為隊友

呢個係訪談最震撼嘅部分:VJ話過去6個月,Codex由工具變擴展、變Agent、而家變成隊友。佢仲話預期工程師會幫自己嘅Agent改名,當佢哋係團隊成員。

Codex已由輔助工具進化成交付任務嘅「隊友

內部數據顯示,頂級工程師每週消耗數千億token,而且唔係單一個Agent喺度做嘢。新功能「Codex Boxes」可以喺服務器端預留開發環境,工程師喺自己電腦編排任務後合上電腦去開會,返嚟時所有工作已並行完成。

整理重點

瓶頸轉移:從生成到理解

TiboCodex團隊幾乎每週重新發明工作方式,核心方法係識別瓶頸然後解決,但瓶頸會不斷轉移。

  1. 1 最初瓶頸係代碼生成,Codex解決咗之後變成代碼審查。
  2. 2 審查解決咗之後,集成同部署(CI/CD)成為新瓶頸。
  3. 3 而家最新瓶頸係:點樣更快理解用戶需求、分類工單、從社交媒體綜合反饋形成產品策略。

面試者開始問「喺OpenAI做產品會得到幾多算力?」,顯示工程師都開始關注人均算力配額,槓桿率前所未有。

產品直覺仍然係核心,但瓶頸已轉到需求理解

整理重點

新工程實踐:並行探索與夜間自動化

Tibo分享咗幾個新實踐。第一個係並行探索:過去遇到複雜技術選型會寫設計文檔開會討論,而家同時用Codex實現多個方案,然後睇邊個實際效果更好。

決策從「討論後擇一」變成「實現後比較

第二個係夜間自動運行Codex團隊搭建環境,讓Codex通宵做QA測試循環,持續運行並標記迴歸問題,工程師第二日睇結果。

  • 一位研究員發現Codex可以獨立訓練模型,仲會寫PDF報告包含自己嘅發現同洞察。
  • 呢個「AI改進AI」循環Codex訓練模型→輸出報告→人類篩選方向→Codex繼續迭代。

Codex可以通宵完成QA測試同訓練模型,並輸出書面報告

仲有數據分析會當場開Codex線程,20分鐘後答案出爐,一場會處理5-6個問題。事故響應都用Codex診斷問題同最快恢復路徑。

整理重點

角色融合:設計師、PM與應屆生

角色邊界變得模糊。VJ話「我哋嘅設計師而家產出嘅代碼比六個月前工程師嘅產出仲多」,因為模型代碼質量已夠好可以直接合併。

設計師寫代碼產出超越六個月前嘅工程師

PM方面,Codex團隊只得一個產品經理Alexander,佢用Codex喺bug bash後自動彙總反饋、輸出到Notion、拆成bug報告錄入Linear、分配俾工程師,仲跟進進度。

Alexander通過AI將自己變成50倍效率嘅項目經理

OpenAI正大量招聘應屆生,今年夏天約100人。Tibo話「AI原生」一代從第一天就用AI做默認工具,效果驚人。新人入職第一個工具就係Codex,用佢問問題、瀏覽代碼庫、接收日報。

AI原生新人將有獨特優勢

  • 基礎仍然極重要,但關鍵係環境設計:代碼庫結構好、護欄設置得當,新人就能發揮驚人生產力。
  • Tibo管理33人直接下屬,因為層級管理會成為瓶頸。
整理重點

未來預測與抽象化

對於兩年後,Tibo笑話兩年太耐,只敢預測6個月:速度將再提升一個數量級,多Agent協作網絡可以實現「24小時從零重建瀏覽器」,代碼量超出人類理解。

未來六個月速度再快10倍

佢認為會出現圍繞代碼嘅「護欄」,用形式化驗證或安全約束,人類唔需要睇代碼本身,只關注輸入輸出。代碼會被抽象化,真正重要嘅係系統屬性。

代碼將被抽象化,人類關注系統屬性

VJ從歷史角度補充,軟件抽象層級一直提升,但今次速度前所未有。佢擔心當系統夠複雜時,除錯會變得好睏難,未來工程師可能似醫生診斷病人靠「症狀」定位問題。

除錯將成為新挑戰,工程師要似醫生診斷

Tibo仲預測年內會出現個人助理層,一個總控助理代表所有後台Agent,人類只需同呢個助理對話。

個人助理層整合多Agent


OpenAI 應用 CTO 同 Codex 工程負責人,喺 The Pragmatic Summit 度傾咗 OpenAI 內部工程師嘅真實工作狀態。而家 Codex 已經唔係剩係寫 code 嘅工具,進化到變成「隊友」喇。工程師閂埋 notebook 去開會,返嚟發現啲嘢已經做曬。設計師寫嘅 code 仲多過六個月前嘅工程師。一個 PM 靠 Codex 將自己變成生產力高 50 倍嘅項目經理。

兩位受訪者: Vijaye Raji(以下簡稱 VJ),OpenAI 應用 CTO(CTO of Applications),負責 ChatGPT 同 Codex 嘅產品工程,之前創辦咗產品實驗平台 Statsig,2025 年 9 月俾 OpenAI 用 11 億美元收購,喺微軟同 Meta 有超過 20 年經驗;Thibault Sottiaux(以下簡稱 Tibo),OpenAI Codex 工程負責人,之前喺 DeepMind 同 Google 做嘢,而家直接管理 33 人嘅 Codex 團隊。

主持人 Gergely Orosz 係科技行業最有影響力嘅工程管理類 newsletter The Pragmatic Engineer 嘅作者。今次訪問係嚟自佢舉辦嘅首屆 Pragmatic Summit(2026 年 2 月 11 日,舊金山),大約 500 位工程領導者同實踐者參加。

圖片

重點快速睇:

  • • OpenAI 內部,Codex 喺 6 個月內由「輔助工具」進化成「隊友」,頂級工程師每個星期消耗幾千億 token,工程師可以將任務交俾伺服器端嘅 Codex 然後去開會
  • • 瓶頸不斷咁轉移:code 生成解決咗,code 審查就變成新瓶頸,下一步係整合部署,團隊要不斷追下一個卡住嘅位
  • • 設計師寫嘅 code 仲多過六個月前嘅工程師,面試嘅人開始問「你哋俾幾多算力我」,職能界線正喺度消失
  • • Codex 可以喺夜晚自動行 QA 測試、獨立訓練模型仲寫 PDF 報告,研究員多次發現自己低估咗 Codex 嘅能力
  • • 今年夏天 OpenAI 會接收大約 100 個應屆畢業生,團隊認為「AI 原生」新人會有獨特優勢
  • • 6 個月內預計再快一個數量級,多 Agent 協作網絡可以實現「24 小時由零開始重建一個瀏覽器」

【1】Codex 已經唔係工具,係隊友

Gergely 開波直接問 VJ:OpenAI 內部發生緊啲乜?

VJ 話,過去 6 個月佢親眼見到一條好清晰嘅演進路線:Codex 由工具,變成功能擴展,再變成 Agent(智能體),而家已經係隊友喇。

圖片

“I fully expect engineers to name their agents now and call themselves as their teammates.”
(我完全預期工程師們會幫自己嘅 Agent 改名,當佢哋係自己嘅隊友。)

佢補充咗一啲內部數據:OpenAI 有使用排行榜,一啲工程師每個星期消耗嘅 token 達到幾千億級別。而且呢個唔係得一個 Agent 做緊嘢。就喺上個星期,團隊內部上線咗一個叫 Codex Boxes 嘅功能,可以喺伺服器端預留開發環境,工程師喺自己部 notebook 度編排任務指令,然後閂咗 notebook 去開會,返嚟時所有工作已經並行完成咗。

“People shut down their laptop, go to a meeting, come back and then all of the work has been done.”
(啲人閂埋 notebook,去開個會,返嚟時所有工作都已經做曬。)

VJ 認為呢種工作方式會喺幾個月內成為行業常態。

【注】 Codex 係 OpenAI 嘅 AI 編程工具,2025 年 5 月第一次發佈,既有雲端版(喺隔離容器入面獨立運行任務),亦有命令列版(Codex CLI,喺本地終端運行)。而家支援 VS Code 擴充、桌面應用、Web 應用等多個入口。截至 2025 年底,大約 95% 嘅 OpenAI 工程師用緊 Codex,每個星期合併嘅 PR 增加咗 70%。

不過 Gergely 補充咗一個重要嘅現實:佢同 OpenAI 內部好多工程師私下傾過,唔係所有人都 100% 用 Codex 寫 code,使用程度有差異。但有一個團隊的確行得最前——Codex 團隊自己

【2】瓶頸不斷轉移:由 code 生成到用戶需求理解

Gergely 接着問 Tibo:Codex 團隊具體係點樣做嘢嘅?

Tibo 話團隊幾乎每個星期都重新發明自己嘅工作方式。核心方法係揾出瓶頸,然後解決佢,但瓶頸會不斷轉移。最初係 code 生成,然後係 code 審查,而家變成:點樣快啲理解用戶需求?點樣分類工單?點樣由 Twitter、Reddit 等渠道綜合 feedback,形成產品策略?每個環節都嘗試用 Agent 嚟加速。

佢講咗一個有趣嘅細節:最近有人想加入 Codex 團隊,喺面試時問咗一個問題。

“How much compute am I going to get to build products at OpenAI?”
(喺 OpenAI 做產品,你哋俾幾多算力我?)

Tibo 話自己呆咗一呆。以前呢種問題得訓練大模型嘅研究員先會問。而家工程師都開始關注「人均算力配額」了。

呢個變化說明咗啲乜?Tibo 認為,如果你有好品味、好諗頭、識得點樣做軟件,而家嘅槓桿比率係前所未有咁高

圖片

放返喺成個 OpenAI 嚟睇,VJ 補充話,產品直覺仍然係核心。佢自己都有用 Codex 寫 code,但發現好多時候瓶頸唔係喺 code 本身,而係諗「產品應該係乜嘢樣」。呢部分仍然要靠人類嚟做——除非將來我哋開始為 Agent 而唔係人類整軟件。

VJ 仲講咗個小故事:佢喺飛機上用 Codex 寫 code,空服員叫佢熄電腦,佢將 notebook 半閂咗放低,唔想中斷 Agent 嘅運行。佢話而家每個人都半開住 notebook 周圍走。

佢覺得呢個其實令寫軟件變得更加有趣——反饋週期大幅縮短,見到產品成形、測試驗證、再返去 Codex 迭代,滿足感嚟得更快。

【3】新嘅工程實踐:並行探索、設計師寫 code、夜晚自動測試

Gergely 追問:有啲乜新嘅、唔同嘅、甚至「奇怪」嘅工程實踐開始出現?

Tibo 提咗幾個變化。

第一個係並行探索。 以前遇到複雜嘅技術選擇,團隊會寫設計文檔(design doc),開會討論,排除其他方案。而家佢哋會同時叫 Codex 實現多個方案,然後睇邊個實際效果更好。決策由「討論後揀一個」變成「實現後比較」

第二個仲令人意外:角色界線模糊咗。

“Our designers are shipping more code than engineers were shipping six months ago.”
(我哋嘅設計師而家寫出嘅 code,比起六個月前嘅工程師仲要多。)

呢個係因為模型嘅 code 質素已經好到可以直接合併。

VJ 補充咗一個小場景:Codex 團隊做影片處理,成日要用 ffmpeg(一個功能強大但命令參數極之複雜嘅影片處理工具)。冇人記得曬啲命令列參數,而家直接同 Codex 講「我要做啲乜」,佢就生成正確嘅命令並執行。

VJ 仲指出咗一個更大嘅圖畫:瓶頸轉移係連鎖反應。你解決咗編碼問題,每個工程師嘅 code 產出就翻咗五倍。code 多咗,code 審查就變成新瓶頸。審查解決咗,整合同部署(CI/CD,持續整合/持續部署)又會變成瓶頸。團隊要不斷去解決下一層問題。

圖片

Gergely 接着問咗一個佢覺得「好似科幻」嘅實踐:通宵運行

Tibo 解釋話,好多人對 AI 編程嘅印象仲停留喺「加強版自動補完,10 分鐘搞掂一個小功能」。但實際上模型嘅能力遠超呢個範圍,俾佢一個大任務,佢可以連續行幾個鐘。

Codex 團隊搭建咗完整嘅環境同技能配置,令 Codex 喺夜晚自動進行 QA(品質保證)測試循環,持續運行並標記迴歸問題。工程師第二日嚟睇結果就得。

然後 Tibo 提到團隊入面一位負責訓練模型嘅研究員嘅感受,令佢自己都覺得「又興奮又有啲沮喪」:

“Every time I think I'm more capable than Codex, I figure out I'm wrong and I just didn't prompt it right.”
(每次我以為自己比 Codex 叻,最後都發現係我錯,只係提示詞未寫啱。)

呢位研究員發現 Codex 已經可以獨立訓練一個模型,訓練完之後仲會寫一份 PDF 報告,包含自己嘅發現同洞察。團隊拎到報告後揾出最有價值嘅方向,再將新任務輸入 Codex 繼續迭代。

【注】 呢段描述咗一個「AI 改進 AI」嘅循環:Codex 訓練模型 → 輸出報告 → 人類篩選方向 → Codex 繼續迭代。呢個喺 AI 研究中叫做「自我改進循環」(self-improvement loop)。

Gergely 仲提到另一個實踐:Codex 團隊每個星期開數據分析會時,會即場啟動 Codex 線程。Tibo 描述咗具體流程:會議開始時,大家提出儀錶板上冇現成答案嘅問題。數據分析師即刻啟動 Codex 線程,叫佢喺後台處理。20 分鐘後答案就出咗嚟,會議最後 10 分鐘討論結果。一場會議同時處理 5-6 個問題。

“It's like having little consultants working for us in the background.”
(好似有一班小顧問喺後台幫我哋做嘢。)

線上事故應對都係一樣。Codex 幫手診斷問題所在、揾最快嘅恢復路徑,資訊收集同問題定位嘅速度明顯提升。

【4】100 個應屆生即將入職,「AI 原生」一代嚟喇

行業入面一直有個爭論:AI 編程時代,初級工程師仲有冇價值?Gergely 提到佢同 OpenAI 嘅工程負責人傾過,知道 OpenAI 正喺度招聘早期職業工程師,叫兩位受訪者講多少少。

VJ 話,OpenAI 正喺度大量招聘應屆畢業生,今年夏天嘅實習計劃亦擴大咗,呢一批大約有 100 人。佢認為新一代軟件工程師將會係「AI 原生」(AI native) 嘅,由第一日就將 AI 當做默認工具。俾機會佢哋喺呢種環境下成長,效果會好驚人。

Tibo 從組織角度補充咗佢嘅做法:Codex 團隊係極度扁平嘅,佢一個人就有 33 個直接下屬。佢解釋話,當個人生產力因為 AI 大幅提升時,傳統嘅層級管理結構好容易變成瓶頸。一個人卡住所有決定,喺呢個速度下明顯行唔通。

新人入職第一個用嘅工具就係 Codex 本身。用佢嚟問問題、瀏覽 code base、瞭解同事做緊乜、接收日報。而負責入職培訓嘅人,正正就係最近先入職嗰班——因為佢哋對「點樣上手」嘅記憶最新鮮。

圖片

Tibo 提到咗一個具體嘅人:一個叫 Ahmed 嘅應屆生,6 個月前加入團隊,表現非常出色。

“My brain is probably already in decline... this person Ahmed's brain is just absolute peak.”
(我個腦可能已經開始走下坡……Ahmed 個腦就係絕對嘅巔峯。)

呢句自嘲背後有一個觀察:新人冇需要覆蓋嘅舊習慣,精力同學習速度都係優勢。

Gergely 扮演咗一回「魔鬼代言人」:在場好多資深工程師都見證過新人由菜鳥成長為優秀工程師嘅過程,而呢個過程中基礎訓練好重要。如果新一代由一開始就用 AI 寫 code,跳過咗前輩們經歷過嘅基本功訓練,佢哋嘅基礎夠唔夠?

Tibo 嘅回答係:基礎依然極之重要。團隊花大量精力設計整體 code 架構,做 code 審查,唔係將所有嘢掉俾 Codex 然後閂眼。關鍵在於環境設計——如果你嘅 code base 結構好、護欄(guard rails)設置得當,新人就能喺呢個框架下發揮出驚人嘅生產力。

【5】25 年行業變遷:由 IntelliSense 到 AI,每一代都被質疑

Gergely 問 VJ,軟件工程師嘅日常角色到底變成點樣?

VJ 先講咗一句總原則:基礎永遠唔會過時。然後佢拉開咗時間線。佢喺呢行做咗 25 年,經歷過好多範式轉變。喺微軟時期,佢參與開發咗 Visual Studio 嘅編輯器同語言服務(Language Services)。

【注】 VJ 喺微軟做咗差唔多十年,參與咗 Visual Studio 編輯器、Windows 應用框架、SQL Server 建模工具等核心項目嘅開發。佢都係 Small Basic(一種簡化版 BASIC 語言)嘅創造者。

佢回憶第一次見到 IntelliSense(Visual Studio 嘅 code 自動補完功能)時嘅感覺:你打一個點號,選項就彈出嚟,感覺好型。

Gergely 接咗一句:我入行嗰陣,周圍嘅開發者話「用 IntelliSense 嘅唔係真正嘅開發者」。

VJ 笑住話,係,再之前仲有人話唔寫 assembly 就唔係真正嘅工程師,然後係 C++,然後係 JavaScript。每一層抽象提升時,都有人質疑

圖片

佢嘅結論係:呢啲都唔重要。重要嘅係你有紮實嘅基礎,有產品直覺,能夠喺技術棧上上落落咁解決問題。呢啲能力唔會過時。

【6】一個 PM 用 Codex 將自己變成生產力高 50 倍嘅項目經理

Gergely 問咗產品經理同設計師嘅角色變化。

VJ 嘅核心觀點係:只要我哋仲係為人類整產品,就需要人類嘅設計師同產品經理。產品感覺(product sense)同設計感覺(design sense)係冇替代品。但呢啲角色都變得更有效率——PM 寫緊 code,設計師寫緊 code,設計師將設計直接變成可行嘅原型,揾工程師之前就做咗驗證。PM 都用 Codex 做 PowerPoint 同 Excel 插件。

Tibo 補充咗內部嘅知識分享機制:Slack 入面嘅 Codex 頻道同「hot tips」頻道非常活躍,團隊定期舉辦 hackathon 同 show and tell,盡量令好嘅 AI 使用方法快速擴散。

然後 Tibo 講咗一個具體案例。Codex 團隊得一個產品經理,叫 Alexander Embiricos。呢一個人點樣管一個 33 人嘅工程團隊?

答案係 Codex 本身。Tibo 描述咗佢最近一次 bug bash(集中揾 bug 嘅活動)嘅流程:一個鐘內大家行勻即將發佈嘅功能並提交 feedback,完咗之後 Alexander 叫 Codex 匯總 feedback、輸出到 Notion 文檔,再叫 Codex 將問題拆分成 bug report 同功能改進請求、入落 Linear(項目管理工具)、分配俾對應嘅工程師,之後仲用 Codex 跟進每個人嘅進度。

“He's becoming like a 10x, like 50x program manager just by leveraging AI.”
(佢透過 AI 將自己變成生產力高 10 倍、甚至 50 倍嘅項目經理。)

圖片

【注】 Alexander Embiricos 係 Codex 嘅產品負責人(Product Lead),之前創辦過面向工程師嘅 pair programming 產品,加入 OpenAI 之前喺 AI 輔助開發領域有多年經驗。

VJ 補充話,佢參加過好多 Demo Day(內部演示日),留意到一個趨勢:演示項目嘅深度持續增加。唔再淨係「睇嚇呢個做到啲乜」嘅表面展示,好多項目已經處理咗各種邊角情況,係真正可用嘅產品。

【7】Token 成本:唔好問用咗幾多 token,問隊友值幾多錢

Gergely 先做咗一個重要嘅前提說明:OpenAI 內部所有人都有無限 token,冇成本限制。觀眾席上好多人笑咗——呢個的確係一個大特權。外面世界成本仍然係一個實際問題。對於資源有限嘅團隊,兩位有冇建議?

VJ 話,成本係 OpenAI 持續喺度諗嘅問題。一方面係持續令模型更強更平。另一方面,佢認為思維方式需要轉變:想像你有一個 24 小時做嘢嘅隊友,你可以分配 Linear 任務或者 Jira 任務俾佢,完全期望佢可以獨立完成。咁個問題就變成「你願意為呢個隊友俾幾多錢」,而唔係「用咗幾多 token」。如果按每個工程師配備四五個 AI 隊友嚟衡量生產力,成本就更容易計得清楚。

Tibo 由另一個角度補充:要睇 AI 取代咗啲乜成本。例如以前需要 15 個工程師花時間篩查成個功能 backlog(待辦列表),揾出邊啲可以容易實現,而家呢樣嘢幾乎免費。雖然唔係每個公司都可以提供無限推理資源,但過早限制推理用量係一個風險。佢嘅建議係:至少俾公司入面最優秀嘅人提供充足嘅推理資源。

圖片

【8】未來預測:6 個月內再快 10 倍,code 將被抽象化

最後一個問題:兩年後,軟件工程同工程管理會係點樣?

Tibo 先笑咗一聲話,兩年太耐喇。佢只敢預測 6 個月:速度將再提升一個數量級另一個肯定會實現嘅係多 Agent 協作網絡,大量 Agent 可以協同完成好大嘅目標。例如 Cursor 曾經演示過嘅「由零開始重建一個瀏覽器」,24 小時後就可以得到一個數百萬行 code 嘅產物。呢種 code 量已經超出人類能夠理解嘅範圍。

【注】 Tibo 提到嘅 Cursor 演示,係指 AI 編程工具 Cursor 展示嘅大規模 code 生成能力。

所以 Tibo 預測,接下來會出現圍繞 code 嘅「護欄」:你唔需要再睇 code 本身,而係透過某種方式證明佢係正確嘅(形式化驗證),或者確保佢被限制喺安全範圍內,只關注輸入同輸出。code 將被抽象化,真正重要嘅係系統嘅屬性。

VJ 由歷史角度做咗補充:軟件嘅抽象層級一直喺度提升,令我哋可以用更少嘅 code 整更大嘅產品。而家呢個趨勢嘅加速度本身仲增加緊。但佢都提咗一個擔憂:當系統夠複雜時,除錯會變得極之困難。未來嘅工程師可能更加似醫生診斷病人——靠「病徵」嚟定位問題,工具都會向呢個方向進化。

Tibo 最後加咗一個近期預測:年內就會出現個人助理層。你唔需要再監控一百兩百個獨立嘅小 Agent,而係有一個總控嘅個人助理,佢代表所有後台 Agent 嘅工作,你只需要同呢一個助理對話。

圖片

VJ 對整體變化速度做咗一個判斷:佢喺行入面 25 年,經歷過互聯網泡沫、Y2K、移動革命、社交網絡革命。今次完全唔同。

“I don't think I've ever seen anything like this. Some of these charts don't make sense.”
(我覺得我從來未見過咁嘅嘢。有啲增長曲線根本講唔通。)

規模更大,速度更快。


呢場對話透露嘅核心信號有三個。

第一,AI 編碼喺 OpenAI 內部已經唔係「輔助」,而係「協作」甚至「委託」。

第二,瓶頸持續轉移——每解決一層就暴露下一層,由 code 生成到審查到部署到需求理解。

第三,「基礎」嘅定義喺悄悄改變:識寫 code 正變得不咁稀有,而產品直覺、系統思維同喺抽象層之間靈活移動嘅能力變得更稀有。

未有答案嘅問題係:

  • • 無限 Token 環境下催生嘅工作方式,可唔可以喺成本敏感嘅現實世界中重現?
  • • 當 code 被抽象到唔需要人睇時,安全性同可審計性點算?
  • • AI 原生嘅新一代工程師,長遠嚟睇到底係更強定係基礎更弱?

呢啲問題冇人俾到確定答案,但呢場對話至少令我哋見到變化正在發生嘅速度同方向。


OpenAI 應用 CTO 和 Codex 工程負責人,在 The Pragmatic Summit 上聊了 OpenAI 內部工程師的真實工作狀態。Codex 不再只是寫代碼的工具,已經進化成了“隊友”。工程師合上筆記本去開會,回來發現活已經幹完了。設計師寫的代碼比六個月前的工程師還多。一個 PM 靠 Codex 把自己變成了 50 倍效率的項目經理。

兩位受訪者: Vijaye Raji(以下簡稱 VJ),OpenAI 應用 CTO(CTO of Applications),負責 ChatGPT 和 Codex 的產品工程,此前創辦了產品實驗平台 Statsig,2025 年 9 月被 OpenAI 以 11 億美元收購,在微軟和 Meta 有超過 20 年經驗;Thibault Sottiaux(以下簡稱 Tibo),OpenAI Codex 工程負責人,此前在 DeepMind 和 Google 工作,現直接管理 33 人的 Codex 團隊。

主持人 Gergely Orosz 是科技行業最有影響力的工程管理類 newsletter The Pragmatic Engineer 的作者。本次訪談來自他舉辦的首屆 Pragmatic Summit(2026 年 2 月 11 日,舊金山),約 500 名工程領導者和實踐者參加。

圖片

要點速覽:

  • • OpenAI 內部,Codex 在 6 個月內從“輔助工具”進化成“隊友”,頂級工程師每週消耗數千億 token,工程師可以把任務派給服務器端的 Codex 然後去開會
  • • 瓶頸在不斷轉移:代碼生成解決了,代碼審查就成了新瓶頸,接下來是集成部署,團隊需要持續追蹤下一個卡點
  • • 設計師寫的代碼比六個月前的工程師還多,面試者開始問“你們給我多少算力”,職能邊界正在消融
  • • Codex 能在夜間自主運行 QA 測試、獨立訓練模型並寫 PDF 報告,研究員多次發現自己低估了 Codex 的能力
  • • 今年夏天 OpenAI 將接收約 100 名應屆生,團隊認為“AI 原生”新人將有獨特優勢
  • • 6 個月內預計再提速一個數量級,多 Agent 協作網絡將可實現“24 小時從零重建一個瀏覽器”

【1】Codex 已經不是工具,是隊友

Gergely 開場直接問 VJ:OpenAI 內部正在發生什麼?

VJ 說,過去 6 個月他親眼看到了一條清晰的演進路線:Codex 從工具,變成功能擴展,再變成 Agent(智能體),現在已經是隊友了。

圖片

“I fully expect engineers to name their agents now and call themselves as their teammates.”
(我完全預期工程師們會給自己的 Agent 起名字,把它們當作自己的隊友。)

他補充了一些內部數據:OpenAI 有使用排行榜,一些工程師每週消耗的 token 達到數千億級別。而且這不是一個 Agent 在工作。就在上週,團隊內部上線了一個叫 Codex Boxes 的功能,可以在服務器端預留開發環境,工程師在自己的筆記本上編排任務指令,然後把筆記本合上去開會,回來時所有工作已經並行完成了。

“People shut down their laptop, go to a meeting, come back and then all of the work has been done.”
(人們合上筆記本,去開個會,回來時所有工作都已經做完了。)

VJ 認為這種工作方式會在幾個月內成為行業常態。

【注】 Codex 是 OpenAI 的 AI 編程工具,2025 年 5 月首次發佈,既有云端版(在隔離容器中獨立運行任務),也有命令行版(Codex CLI,在本地終端運行)。目前支持 VS Code 擴展、桌面應用、Web 應用等多個入口。截至 2025 年底,約 95% 的 OpenAI 工程師在使用 Codex,每週合併的 PR 增加了 70%。

不過 Gergely 補充了一個重要的現實:他和 OpenAI 內部很多工程師私下聊過,並非所有人都 100% 用 Codex 寫代碼,使用程度存在差異。但有一個團隊確實走在最前面——Codex 團隊自身

【2】瓶頸不斷轉移:從代碼生成到用戶需求理解

Gergely 接着問 Tibo:Codex 團隊具體是怎麼工作的?

Tibo 說團隊幾乎每週都在重新發明自己的工作方式。核心方法論是識別瓶頸,然後解決它,但瓶頸會不斷轉移。最初是代碼生成,然後是代碼審查,現在變成了:怎麼更快理解用戶需求?怎麼分類工單?怎麼從 Twitter、Reddit 等渠道綜合反饋,形成產品策略?每個環節都在嘗試用 Agent 來加速。

他講了一個有趣的細節:最近有人想加入 Codex 團隊,在面試時問了一個問題。

“How much compute am I going to get to build products at OpenAI?”
(在 OpenAI 做產品,你們能給我多少算力?)

Tibo 說自己愣了一下。過去這種問題只有訓練大模型的研究員才會問。現在工程師也開始關注“人均算力配額”了。

這個變化說明了什麼?Tibo 認為,如果你有好品味、好想法、懂得怎麼做軟件,現在的槓桿率是前所未有的

圖片

放到整個 OpenAI 來看,VJ 補充說,產品直覺仍然是核心。他自己也在用 Codex 寫代碼,但發現很多時候瓶頸不在於代碼本身,而在於想象“產品應該長什麼樣”。這部分依然需要人類來做——除非將來我們開始為 Agent 而非人類構建軟件。

VJ 還講了個小故事:他在飛機上用 Codex 寫代碼,空乘過來讓關電腦,他把筆記本半合着放下去,不想中斷 Agent 的運行。他說現在每個人都半開着筆記本到處走。

他覺得這其實讓寫軟件變得更有意思了——反饋週期大幅縮短,看到產品成型、測試驗證、再回到 Codex 迭代,成就感來得更快。

【3】新的工程實踐:並行探索、設計師寫代碼、夜間自動測試

Gergely 追問:有哪些新的、不同的、甚至“奇怪的”工程實踐開始出現?

Tibo 提到了幾個變化。

第一個是並行探索。 過去遇到複雜的技術選型,團隊會寫設計文檔(design doc),開會討論,排除備選方案。現在他們會同時讓 Codex 實現多個方案,然後看哪個實際效果更好。決策從“討論後擇一”變成了“實現後比較”

第二個更讓人意外:角色邊界模糊了。

“Our designers are shipping more code than engineers were shipping six months ago.”
(我們的設計師現在產出的代碼,比六個月前工程師的產出還多。)

這是因為模型的代碼質量已經好到可以直接合並。

VJ 補充了一個小場景:Codex 團隊做視頻處理,經常需要用 ffmpeg(一個功能強大但命令參數極其複雜的視頻處理工具)。沒人記得住那些命令行參數,現在直接告訴 Codex“我要做什麼”,它就生成正確的命令並執行。

VJ 還指出了一個更大的圖景:瓶頸轉移是連鎖反應。你解決了編碼問題,每個工程師的代碼產出就翻了五倍。代碼多了,代碼審查就成了新瓶頸。審查解決了,集成和部署(CI/CD,持續集成/持續部署)又會成為瓶頸。團隊需要不斷去解決下一層問題。

圖片

Gergely 接着問了一個他覺得”像科幻”的實踐:通宵運行

Tibo 解釋說,很多人對 AI 編程的印象還停留在“加強版自動補全,10 分鐘搞定一個小功能”。但實際上模型的能力遠超這個範圍,給它一個大任務,它可以連續運行好幾個小時。

Codex 團隊搭建了完整的環境和技能配置,讓 Codex 在夜間自主進行 QA(質量保證)測試循環,持續運行並標記迴歸問題。工程師第二天來看結果就行。

然後 Tibo 提到團隊裏一位負責訓練模型的研究員的感受,讓他自己都覺得“既興奮又有點沮喪”:

“Every time I think I'm more capable than Codex, I figure out I'm wrong and I just didn't prompt it right.”
(每次我以為自己比 Codex 強,最後都發現是我錯了,只是提示詞沒寫對。)

這位研究員發現 Codex 已經能夠獨立訓練一個模型,訓練完成後還會寫一份 PDF 報告,包含自己的發現和洞察。團隊拿到報告後找出最有價值的方向,再把新任務輸入 Codex 繼續迭代。

【注】 這段描述了一個“AI 改進 AI”的循環:Codex 訓練模型 → 輸出報告 → 人類篩選方向 → Codex 繼續迭代。這在 AI 研究中被稱為“自我改進循環”(self-improvement loop)。

Gergely 還提到另一個實踐:Codex 團隊每週開數據分析會時,會當場啓動 Codex 線程。Tibo 描述了具體流程:會議開始時,大家提出儀表盤上沒有現成答案的問題。數據分析師馬上啓動 Codex 線程,讓它在後台處理。20 分鐘後答案就出來了,會議最後 10 分鐘討論結果。一場會議同時處理 5-6 個問題。

“It's like having little consultants working for us in the background.”
(就像有一羣小顧問在後台幫你幹活。)

線上事故響應也是一樣。Codex 幫忙診斷問題所在、找到最快的恢復路徑,信息收集和問題定位的速度明顯提升。

【4】100 名應屆生即將入職,“AI 原生”一代來了

行業裏一直有個爭論:AI 編程時代,初級工程師還有價值嗎?Gergely 提到他和 OpenAI 的工程負責人聊過,得知 OpenAI 正在招收早期職業工程師,讓兩位受訪者展開說說。

VJ 說,OpenAI 正在大量招聘應屆畢業生,今年夏天的實習項目也在擴大,這一批大約有 100 人。他認為新一代軟件工程師將是“AI 原生”(AI native) 的,從第一天起就把 AI 當作默認工具。給他們機會在這樣的環境中成長,效果會很驚人。

Tibo 從組織角度補充了他的做法:Codex 團隊是極度扁平化的,他一個人有 33 個直接下屬。他解釋說,當個體的生產力因 AI 大幅提升時,傳統的層級管理結構很容易成為瓶頸。一個人卡住所有決策,在這個速度下顯然行不通了。

新人入職的第一個工具就是 Codex 本身。用它問問題、瀏覽代碼庫、瞭解同事在做什麼、接收日報。而負責入職培訓的人,恰恰是最近才剛入職的人——因為他們對”怎麼上手”的記憶最新鮮。

圖片

Tibo 提到了一個具體的人:一個叫 Ahmed 的應屆生,6 個月前加入團隊,表現非常出色。

“My brain is probably already in decline... this person Ahmed's brain is just absolute peak.”
(我的大腦估計已經開始走下坡路了……Ahmed 的大腦正值巔峯。)

這句自嘲背後是一個觀察:新人沒有需要覆蓋的舊習慣,精力和學習速度都是優勢。

Gergely 扮演了一回“魔鬼代言人”:在場很多資深工程師都見證過新人從菜鳥成長為優秀工程師的過程,而這個過程中基礎訓練至關重要。如果新一代從一開始就用 AI 寫代碼,跳過了前輩們經歷的那些基本功訓練,他們的基礎夠嗎?

Tibo 的回答是:基礎依然極其重要。團隊花大量精力設計整體代碼架構,做代碼審查,不是把一切都扔給 Codex 然後閉上眼睛。關鍵在於環境設計——如果你的代碼庫結構好、護欄(guard rails)設置得當,新人就能在這個框架下發揮出驚人的生產力。

【5】25 年行業變遷:從 IntelliSense 到 AI,每一代都被質疑

Gergely 問 VJ,軟件工程師的日常角色到底變成了什麼樣?

VJ 先說了一句總原則:基礎永遠不會過時。然後他拉開了時間線。他在這個行業幹了 25 年,經歷過很多範式轉變。在微軟時期,他參與開發了 Visual Studio 的編輯器和語言服務(Language Services)。

【注】 VJ 在微軟工作近十年,參與了 Visual Studio 編輯器、Windows 應用框架、SQL Server 建模工具等核心項目的開發。他也是 Small Basic(一種簡化版 BASIC 語言)的創造者。

他回憶第一次看到 IntelliSense(Visual Studio 的代碼自動補全功能)時的感受:你打一個點號,選項就彈出來了,那感覺很酷。

Gergely 接了一句:我入行的時候,周圍的開發者說“用 IntelliSense 的不是真正的開發者”。

VJ 笑着說,對,再往前還有人說不寫彙編就不是真正的工程師,然後是 C++,然後是 JavaScript。每一層抽象提升時,都有人質疑

圖片

他的結論是:這些都不重要。重要的是你有紮實的基礎,有產品直覺,能夠在技術棧上上下下地解決問題。這些能力不會過時。

【6】一個 PM 用 Codex 把自己變成了 50 倍效率的項目經理

Gergely 問了產品經理和設計師的角色變化。

VJ 的核心觀點是:只要我們還在為人類構建產品,就需要人類的設計師和產品經理。產品感覺(product sense)和設計感覺(design sense)沒有替代品。但這些角色也在變得更高效——PM 在寫代碼,設計師在寫代碼,設計師把設計直接帶入可運行的原型,在找工程師之前就先做了驗證。PM 也在用 Codex 做幻燈片和 Excel 插件。

Tibo 補充了內部的知識分享機制:Slack 裏的 Codex 頻道和“hot tips”頻道非常活躍,團隊定期舉辦 hackathon 和 show and tell,儘量讓好的 AI 使用方法快速擴散。

然後 Tibo 講了一個具體案例。Codex 團隊只有一個產品經理,叫 Alexander Embiricos。這一個人怎麼管一個 33 人的工程團隊?

答案是 Codex 本身。Tibo 描述了他最近一次 bug bash(集中找 bug 的活動)的流程:一個小時內大家走查即將發佈的功能並提交反饋,結束後 Alexander 讓 Codex 彙總反饋、輸出到 Notion 文檔,再讓 Codex 把問題拆分成 bug 報告和功能改進請求、錄入 Linear(項目管理工具)、分配給對應的工程師,之後還用 Codex 跟進每個人的進展。

“He's becoming like a 10x, like 50x program manager just by leveraging AI.”
(他通過 AI 把自己變成了 10 倍、50 倍效率的項目經理。)

圖片

【注】 Alexander Embiricos 是 Codex 的產品負責人(Product Lead),此前曾創辦過面向工程師的結對編程產品,在加入 OpenAI 之前在 AI 輔助開發領域有多年經驗。

VJ 補充說,他參加過很多 Demo Day(內部演示日),注意到一個趨勢:演示項目的深度持續增加。不再只是“看看這個能做什麼”的表面展示,很多項目已經處理了各種邊角情況,是真正可用的產品。

【7】Token 成本:別問用了多少 token,問隊友值多少錢

Gergely 先做了一個重要的前提說明:OpenAI 內部所有人都有無限 token,沒有成本限制。觀眾席上很多人笑了——這確實是個大特權。外部世界成本仍然是個實際問題。對於受限環境下的團隊,兩位有什麼建議?

VJ 說,成本是 OpenAI 持續在思考的問題。一方面是持續讓模型更強更便宜。另一方面,他認為思維方式需要轉變:想象你有一個 24 小時工作的隊友,你可以給它分配 Linear 任務或 Jira 任務,完全期望它能獨立完成。那麼問題就變成了“你願意為這個隊友付多少錢”,而不是“用了多少 token”。如果按每個工程師配備四五個 AI 隊友來衡量生產力,成本就更容易算清楚了。

Tibo 從另一個角度補充:要看 AI 替代了什麼成本。比如過去需要 15 個工程師花時間篩查整個功能 backlog(待辦列表),找出哪些可以輕鬆實現,現在這件事幾乎免費。雖然不是每個公司都能提供無限推理資源,但過早限制推理用量是一個風險。他的建議是:至少給公司裏最優秀的人提供充足的推理資源。

圖片

【8】未來預測:6 個月內再快 10 倍,代碼將被抽象化

最後一個問題:兩年後,軟件工程和工程管理會是什麼樣?

Tibo 先笑了一聲說,兩年太久了。他只敢預測 6 個月:速度將再提升一個數量級。另一個確定會實現的是多 Agent 協作網絡,大量 Agent 可以協同完成非常大的目標。比如 Cursor 曾演示過的“從零重建一個瀏覽器”,24 小時後就能得到一個數百萬行代碼的產物。這種代碼量已經超出人類能理解的範圍了。

【注】 Tibo 提到的 Cursor 演示,指的是 AI 編程工具 Cursor 展示的大規模代碼生成能力。

所以 Tibo 預測,接下來會出現圍繞代碼的“護欄”:你不需要再看代碼本身,而是通過某種方式證明它是正確的(形式化驗證),或者確保它被約束在安全範圍內,只關注輸入和輸出。代碼將被抽象化,真正重要的是系統的屬性。

VJ 從歷史角度做了補充:軟件的抽象層級一直在提升,讓我們能用更少的代碼構建更大的產品。現在這個趨勢的加速度本身在增加。但他也提了一個擔憂:當系統足夠複雜時,調試會變得極其困難。未來的工程師可能更像醫生診斷病人——靠“症狀”來定位問題,工具也會朝這個方向進化。

Tibo 最後加了一個近期預測:年內就會出現個人助理層。你不再需要監控一百兩百個獨立的小 Agent,而是有一個總控的個人助理,它代表所有後台 Agent 的工作,你只需要和這一個助理對話。

圖片

VJ 對整體變化速度做了一個判斷:他在行業裏 25 年,經歷過互聯網泡沫、Y2K、移動革命、社交網絡革命。這一次完全不同。

“I don't think I've ever seen anything like this. Some of these charts don't make sense.”
(我覺得我從來沒有見過這樣的事情。有些增長曲線根本說不通。)

規模更大,速度更快。


這場對話透露的核心信號有三個。

第一,AI 編碼在 OpenAI 內部已經不是“輔助”,而是“協作”甚至“委託”。

第二,瓶頸在持續轉移——每解決一層就暴露下一層,從代碼生成到審查到部署到需求理解。

第三,“基礎”的定義在悄然變化:會寫代碼正在變得不那麼稀缺,而產品直覺、系統思維和在抽象層之間靈活移動的能力正在變得更稀缺。

懸而未決的問題是:

  • • 無限 Token 環境下催生的工作方式,能否在成本敏感的現實世界中復現?
  • • 當代碼被抽象到不需要人看時,安全性和可審計性怎麼辦?
  • • AI 原生的新一代工程師,長遠來看到底是更強還是基礎更薄弱?

這些問題沒有人能給出確定答案,但這場對話至少讓我們看到了變化正在發生的速度和方向。