OpenAI 應用 CTO 和 Codex 負責人：AI 正在重塑構建軟件的方式

作者：寶玉AI

日期：2026年2月21日下午6:41

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

AI編碼工具Codex已成隊友：OpenAI內部工程實踐的未來藍圖

整理版摘要

呢篇文章係由OpenAI嘅應用CTO Vijaye Raji同Codex工程負責人Thibault Sottiaux喺Pragmatic Summit上嘅訪談整理出嚟。兩位分享咗OpenAI內部用Codex嘅真實狀況，指出AI編碼工具已經由輔助工具進化成交付任務嘅「隊友」，工程師可以將工作交俾Codex，然後去開會，返嚟就搞掂。整體結論係：AI正以前所未有嘅速度重塑軟件開發方式，瓶頸持續轉移，角色邊界模糊，未來六個月速度再快十倍。

具體變化包括：設計師寫代碼嘅產出比六個月前嘅工程師仲要多；Codex可以喺夜間自主運行QA測試、訓練模型並寫報告，形成「AI改進AI」嘅循環；團隊用並行探索代替傳統設計文檔決策，直接實現多個方案然後揀最好嗰個。瓶頸由代碼生成移到審查，再到部署，最後到需求理解，每個環節都用Agent加速。OpenAI仲招收咗約100名應屆生，認為「AI原生」一代將有獨特優勢。

未來預測方面，Thibault認為六個月內速度再提升一個數量級，多Agent協作網絡可以實現「24小時從零重建瀏覽器」，代碼會被抽象化，人類要關注系統屬性而唔係逐行睇碼。Vijaye就話從業25年從未見過咁快嘅變化，但同時指出當系統夠複雜時，除錯會變得好睏難。呢啲問題仲未有確切答案，但已經清楚見到變化嘅方向同速度。

Codex已由工具進化為「隊友」：工程師可以委託任務，合上電腦去開會，返嚟工作已經完成。
瓶頸持續轉移：解決代碼生成後，審查、部署、需求理解依次成為新瓶頸，團隊要不停識別同解決最卡嘅環節。
角色邊界模糊：設計師寫嘅代碼比六個月前嘅工程師仲多；PM用Codex將自己變成50倍效率嘅項目經理。
夜間自主運行：Codex可以通宵做QA測試、訓練模型同寫PDF報告，形成「AI改進AI」嘅自我改進循環。
未來六個月再快10倍：多Agent協作網絡將實現大規模任務，代碼會被抽象化，人類要專注系統設計同驗證。

整理重點

Codex從工具進化為隊友

呢個係訪談最震撼嘅部分：VJ話過去6個月，Codex由工具變擴展、變Agent、而家變成隊友。佢仲話預期工程師會幫自己嘅Agent改名，當佢哋係團隊成員。

Codex已由輔助工具進化成交付任務嘅「隊友」

內部數據顯示，頂級工程師每週消耗數千億token，而且唔係單一個Agent喺度做嘢。新功能「Codex Boxes」可以喺服務器端預留開發環境，工程師喺自己電腦編排任務後合上電腦去開會，返嚟時所有工作已並行完成。

整理重點

瓶頸轉移：從生成到理解

Tibo話Codex團隊幾乎每週重新發明工作方式，核心方法係識別瓶頸然後解決，但瓶頸會不斷轉移。

1 最初瓶頸係代碼生成，Codex解決咗之後變成代碼審查。
2 審查解決咗之後，集成同部署（CI/CD）成為新瓶頸。
3 而家最新瓶頸係：點樣更快理解用戶需求、分類工單、從社交媒體綜合反饋形成產品策略。

面試者開始問「喺OpenAI做產品會得到幾多算力？」，顯示工程師都開始關注人均算力配額，槓桿率前所未有。

產品直覺仍然係核心，但瓶頸已轉到需求理解

整理重點

新工程實踐：並行探索與夜間自動化

Tibo分享咗幾個新實踐。第一個係並行探索：過去遇到複雜技術選型會寫設計文檔開會討論，而家同時用Codex實現多個方案，然後睇邊個實際效果更好。

決策從「討論後擇一」變成「實現後比較」

第二個係夜間自動運行：Codex團隊搭建環境，讓Codex通宵做QA測試循環，持續運行並標記迴歸問題，工程師第二日睇結果。

一位研究員發現Codex可以獨立訓練模型，仲會寫PDF報告包含自己嘅發現同洞察。
呢個「AI改進AI」循環：Codex訓練模型→輸出報告→人類篩選方向→Codex繼續迭代。

Codex可以通宵完成QA測試同訓練模型，並輸出書面報告

仲有數據分析會當場開Codex線程，20分鐘後答案出爐，一場會處理5-6個問題。事故響應都用Codex診斷問題同最快恢復路徑。

整理重點

角色融合：設計師、PM與應屆生

角色邊界變得模糊。VJ話「我哋嘅設計師而家產出嘅代碼比六個月前工程師嘅產出仲多」，因為模型代碼質量已夠好可以直接合併。

設計師寫代碼產出超越六個月前嘅工程師

PM方面，Codex團隊只得一個產品經理Alexander，佢用Codex喺bug bash後自動彙總反饋、輸出到Notion、拆成bug報告錄入Linear、分配俾工程師，仲跟進進度。

Alexander通過AI將自己變成50倍效率嘅項目經理

OpenAI正大量招聘應屆生，今年夏天約100人。Tibo話「AI原生」一代從第一天就用AI做默認工具，效果驚人。新人入職第一個工具就係Codex，用佢問問題、瀏覽代碼庫、接收日報。

AI原生新人將有獨特優勢

基礎仍然極重要，但關鍵係環境設計：代碼庫結構好、護欄設置得當，新人就能發揮驚人生產力。
Tibo管理33人直接下屬，因為層級管理會成為瓶頸。

整理重點

未來預測與抽象化

對於兩年後，Tibo笑話兩年太耐，只敢預測6個月：速度將再提升一個數量級，多Agent協作網絡可以實現「24小時從零重建瀏覽器」，代碼量超出人類理解。

未來六個月速度再快10倍

佢認為會出現圍繞代碼嘅「護欄」，用形式化驗證或安全約束，人類唔需要睇代碼本身，只關注輸入輸出。代碼會被抽象化，真正重要嘅係系統屬性。

代碼將被抽象化，人類關注系統屬性

VJ從歷史角度補充，軟件抽象層級一直提升，但今次速度前所未有。佢擔心當系統夠複雜時，除錯會變得好睏難，未來工程師可能似醫生診斷病人靠「症狀」定位問題。

除錯將成為新挑戰，工程師要似醫生診斷

Tibo仲預測年內會出現個人助理層，一個總控助理代表所有後台Agent，人類只需同呢個助理對話。

個人助理層整合多Agent

OpenAI 應用 CTO 同 Codex 工程負責人，喺 The Pragmatic Summit 度傾咗 OpenAI 內部工程師嘅真實工作狀態。而家 Codex 已經唔係剩係寫 code 嘅工具，進化到變成「隊友」喇。工程師閂埋 notebook 去開會，返嚟發現啲嘢已經做曬。設計師寫嘅 code 仲多過六個月前嘅工程師。一個 PM 靠 Codex 將自己變成生產力高 50 倍嘅項目經理。

兩位受訪者： Vijaye Raji（以下簡稱 VJ），OpenAI 應用 CTO（CTO of Applications），負責 ChatGPT 同 Codex 嘅產品工程，之前創辦咗產品實驗平台 Statsig，2025 年 9 月俾 OpenAI 用 11 億美元收購，喺微軟同 Meta 有超過 20 年經驗；Thibault Sottiaux（以下簡稱 Tibo），OpenAI Codex 工程負責人，之前喺 DeepMind 同 Google 做嘢，而家直接管理 33 人嘅 Codex 團隊。

主持人 Gergely Orosz 係科技行業最有影響力嘅工程管理類 newsletter The Pragmatic Engineer 嘅作者。今次訪問係嚟自佢舉辦嘅首屆 Pragmatic Summit（2026 年 2 月 11 日，舊金山），大約 500 位工程領導者同實踐者參加。

重點快速睇：

• OpenAI 內部，Codex 喺 6 個月內由「輔助工具」進化成「隊友」，頂級工程師每個星期消耗幾千億 token，工程師可以將任務交俾伺服器端嘅 Codex 然後去開會
• 瓶頸不斷咁轉移：code 生成解決咗，code 審查就變成新瓶頸，下一步係整合部署，團隊要不斷追下一個卡住嘅位
• 設計師寫嘅 code 仲多過六個月前嘅工程師，面試嘅人開始問「你哋俾幾多算力我」，職能界線正喺度消失
• Codex 可以喺夜晚自動行 QA 測試、獨立訓練模型仲寫 PDF 報告，研究員多次發現自己低估咗 Codex 嘅能力
• 今年夏天 OpenAI 會接收大約 100 個應屆畢業生，團隊認為「AI 原生」新人會有獨特優勢
• 6 個月內預計再快一個數量級，多 Agent 協作網絡可以實現「24 小時由零開始重建一個瀏覽器」

【1】Codex 已經唔係工具，係隊友

Gergely 開波直接問 VJ：OpenAI 內部發生緊啲乜？

VJ 話，過去 6 個月佢親眼見到一條好清晰嘅演進路線：Codex 由工具，變成功能擴展，再變成 Agent（智能體），而家已經係隊友喇。

“I fully expect engineers to name their agents now and call themselves as their teammates.”
（我完全預期工程師們會幫自己嘅 Agent 改名，當佢哋係自己嘅隊友。）

佢補充咗一啲內部數據：OpenAI 有使用排行榜，一啲工程師每個星期消耗嘅 token 達到幾千億級別。而且呢個唔係得一個 Agent 做緊嘢。就喺上個星期，團隊內部上線咗一個叫 Codex Boxes 嘅功能，可以喺伺服器端預留開發環境，工程師喺自己部 notebook 度編排任務指令，然後閂咗 notebook 去開會，返嚟時所有工作已經並行完成咗。

“People shut down their laptop, go to a meeting, come back and then all of the work has been done.”
（啲人閂埋 notebook，去開個會，返嚟時所有工作都已經做曬。）

VJ 認為呢種工作方式會喺幾個月內成為行業常態。

【注】 Codex 係 OpenAI 嘅 AI 編程工具，2025 年 5 月第一次發佈，既有雲端版（喺隔離容器入面獨立運行任務），亦有命令列版（Codex CLI，喺本地終端運行）。而家支援 VS Code 擴充、桌面應用、Web 應用等多個入口。截至 2025 年底，大約 95% 嘅 OpenAI 工程師用緊 Codex，每個星期合併嘅 PR 增加咗 70%。

不過 Gergely 補充咗一個重要嘅現實：佢同 OpenAI 內部好多工程師私下傾過，唔係所有人都 100% 用 Codex 寫 code，使用程度有差異。但有一個團隊的確行得最前——Codex 團隊自己。

【2】瓶頸不斷轉移：由 code 生成到用戶需求理解

Gergely 接着問 Tibo：Codex 團隊具體係點樣做嘢嘅？

Tibo 話團隊幾乎每個星期都重新發明自己嘅工作方式。核心方法係揾出瓶頸，然後解決佢，但瓶頸會不斷轉移。最初係 code 生成，然後係 code 審查，而家變成：點樣快啲理解用戶需求？點樣分類工單？點樣由 Twitter、Reddit 等渠道綜合 feedback，形成產品策略？每個環節都嘗試用 Agent 嚟加速。

佢講咗一個有趣嘅細節：最近有人想加入 Codex 團隊，喺面試時問咗一個問題。

“How much compute am I going to get to build products at OpenAI?”
（喺 OpenAI 做產品，你哋俾幾多算力我？）

Tibo 話自己呆咗一呆。以前呢種問題得訓練大模型嘅研究員先會問。而家工程師都開始關注「人均算力配額」了。

呢個變化說明咗啲乜？Tibo 認為，如果你有好品味、好諗頭、識得點樣做軟件，而家嘅槓桿比率係前所未有咁高。

放返喺成個 OpenAI 嚟睇，VJ 補充話，產品直覺仍然係核心。佢自己都有用 Codex 寫 code，但發現好多時候瓶頸唔係喺 code 本身，而係諗「產品應該係乜嘢樣」。呢部分仍然要靠人類嚟做——除非將來我哋開始為 Agent 而唔係人類整軟件。

VJ 仲講咗個小故事：佢喺飛機上用 Codex 寫 code，空服員叫佢熄電腦，佢將 notebook 半閂咗放低，唔想中斷 Agent 嘅運行。佢話而家每個人都半開住 notebook 周圍走。

佢覺得呢個其實令寫軟件變得更加有趣——反饋週期大幅縮短，見到產品成形、測試驗證、再返去 Codex 迭代，滿足感嚟得更快。

【3】新嘅工程實踐：並行探索、設計師寫 code、夜晚自動測試

Gergely 追問：有啲乜新嘅、唔同嘅、甚至「奇怪」嘅工程實踐開始出現？

Tibo 提咗幾個變化。

第一個係並行探索。 以前遇到複雜嘅技術選擇，團隊會寫設計文檔（design doc），開會討論，排除其他方案。而家佢哋會同時叫 Codex 實現多個方案，然後睇邊個實際效果更好。決策由「討論後揀一個」變成「實現後比較」。

第二個仲令人意外：角色界線模糊咗。

“Our designers are shipping more code than engineers were shipping six months ago.”
（我哋嘅設計師而家寫出嘅 code，比起六個月前嘅工程師仲要多。）

呢個係因為模型嘅 code 質素已經好到可以直接合併。

VJ 補充咗一個小場景：Codex 團隊做影片處理，成日要用 ffmpeg（一個功能強大但命令參數極之複雜嘅影片處理工具）。冇人記得曬啲命令列參數，而家直接同 Codex 講「我要做啲乜」，佢就生成正確嘅命令並執行。

VJ 仲指出咗一個更大嘅圖畫：瓶頸轉移係連鎖反應。你解決咗編碼問題，每個工程師嘅 code 產出就翻咗五倍。code 多咗，code 審查就變成新瓶頸。審查解決咗，整合同部署（CI/CD，持續整合/持續部署）又會變成瓶頸。團隊要不斷去解決下一層問題。

Gergely 接着問咗一個佢覺得「好似科幻」嘅實踐：通宵運行。

Tibo 解釋話，好多人對 AI 編程嘅印象仲停留喺「加強版自動補完，10 分鐘搞掂一個小功能」。但實際上模型嘅能力遠超呢個範圍，俾佢一個大任務，佢可以連續行幾個鐘。

Codex 團隊搭建咗完整嘅環境同技能配置，令 Codex 喺夜晚自動進行 QA（品質保證）測試循環，持續運行並標記迴歸問題。工程師第二日嚟睇結果就得。

然後 Tibo 提到團隊入面一位負責訓練模型嘅研究員嘅感受，令佢自己都覺得「又興奮又有啲沮喪」：

“Every time I think I'm more capable than Codex, I figure out I'm wrong and I just didn't prompt it right.”
（每次我以為自己比 Codex 叻，最後都發現係我錯，只係提示詞未寫啱。）

呢位研究員發現 Codex 已經可以獨立訓練一個模型，訓練完之後仲會寫一份 PDF 報告，包含自己嘅發現同洞察。團隊拎到報告後揾出最有價值嘅方向，再將新任務輸入 Codex 繼續迭代。

【注】 呢段描述咗一個「AI 改進 AI」嘅循環：Codex 訓練模型 → 輸出報告 → 人類篩選方向 → Codex 繼續迭代。呢個喺 AI 研究中叫做「自我改進循環」（self-improvement loop）。

Gergely 仲提到另一個實踐：Codex 團隊每個星期開數據分析會時，會即場啟動 Codex 線程。Tibo 描述咗具體流程：會議開始時，大家提出儀錶板上冇現成答案嘅問題。數據分析師即刻啟動 Codex 線程，叫佢喺後台處理。20 分鐘後答案就出咗嚟，會議最後 10 分鐘討論結果。一場會議同時處理 5-6 個問題。

“It's like having little consultants working for us in the background.”
（好似有一班小顧問喺後台幫我哋做嘢。）

線上事故應對都係一樣。Codex 幫手診斷問題所在、揾最快嘅恢復路徑，資訊收集同問題定位嘅速度明顯提升。

【4】100 個應屆生即將入職，「AI 原生」一代嚟喇

行業入面一直有個爭論：AI 編程時代，初級工程師仲有冇價值？Gergely 提到佢同 OpenAI 嘅工程負責人傾過，知道 OpenAI 正喺度招聘早期職業工程師，叫兩位受訪者講多少少。

VJ 話，OpenAI 正喺度大量招聘應屆畢業生，今年夏天嘅實習計劃亦擴大咗，呢一批大約有 100 人。佢認為新一代軟件工程師將會係「AI 原生」（AI native） 嘅，由第一日就將 AI 當做默認工具。俾機會佢哋喺呢種環境下成長，效果會好驚人。

Tibo 從組織角度補充咗佢嘅做法：Codex 團隊係極度扁平嘅，佢一個人就有 33 個直接下屬。佢解釋話，當個人生產力因為 AI 大幅提升時，傳統嘅層級管理結構好容易變成瓶頸。一個人卡住所有決定，喺呢個速度下明顯行唔通。

新人入職第一個用嘅工具就係 Codex 本身。用佢嚟問問題、瀏覽 code base、瞭解同事做緊乜、接收日報。而負責入職培訓嘅人，正正就係最近先入職嗰班——因為佢哋對「點樣上手」嘅記憶最新鮮。

Tibo 提到咗一個具體嘅人：一個叫 Ahmed 嘅應屆生，6 個月前加入團隊，表現非常出色。

“My brain is probably already in decline... this person Ahmed's brain is just absolute peak.”
（我個腦可能已經開始走下坡……Ahmed 個腦就係絕對嘅巔峯。）

呢句自嘲背後有一個觀察：新人冇需要覆蓋嘅舊習慣，精力同學習速度都係優勢。

Gergely 扮演咗一回「魔鬼代言人」：在場好多資深工程師都見證過新人由菜鳥成長為優秀工程師嘅過程，而呢個過程中基礎訓練好重要。如果新一代由一開始就用 AI 寫 code，跳過咗前輩們經歷過嘅基本功訓練，佢哋嘅基礎夠唔夠？

Tibo 嘅回答係：基礎依然極之重要。團隊花大量精力設計整體 code 架構，做 code 審查，唔係將所有嘢掉俾 Codex 然後閂眼。關鍵在於環境設計——如果你嘅 code base 結構好、護欄（guard rails）設置得當，新人就能喺呢個框架下發揮出驚人嘅生產力。

【5】25 年行業變遷：由 IntelliSense 到 AI，每一代都被質疑

Gergely 問 VJ，軟件工程師嘅日常角色到底變成點樣？

VJ 先講咗一句總原則：基礎永遠唔會過時。然後佢拉開咗時間線。佢喺呢行做咗 25 年，經歷過好多範式轉變。喺微軟時期，佢參與開發咗 Visual Studio 嘅編輯器同語言服務（Language Services）。

【注】 VJ 喺微軟做咗差唔多十年，參與咗 Visual Studio 編輯器、Windows 應用框架、SQL Server 建模工具等核心項目嘅開發。佢都係 Small Basic（一種簡化版 BASIC 語言）嘅創造者。

佢回憶第一次見到 IntelliSense（Visual Studio 嘅 code 自動補完功能）時嘅感覺：你打一個點號，選項就彈出嚟，感覺好型。

Gergely 接咗一句：我入行嗰陣，周圍嘅開發者話「用 IntelliSense 嘅唔係真正嘅開發者」。

VJ 笑住話，係，再之前仲有人話唔寫 assembly 就唔係真正嘅工程師，然後係 C++，然後係 JavaScript。每一層抽象提升時，都有人質疑。

佢嘅結論係：呢啲都唔重要。重要嘅係你有紮實嘅基礎，有產品直覺，能夠喺技術棧上上落落咁解決問題。呢啲能力唔會過時。

【6】一個 PM 用 Codex 將自己變成生產力高 50 倍嘅項目經理

Gergely 問咗產品經理同設計師嘅角色變化。

VJ 嘅核心觀點係：只要我哋仲係為人類整產品，就需要人類嘅設計師同產品經理。產品感覺（product sense）同設計感覺（design sense）係冇替代品。但呢啲角色都變得更有效率——PM 寫緊 code，設計師寫緊 code，設計師將設計直接變成可行嘅原型，揾工程師之前就做咗驗證。PM 都用 Codex 做 PowerPoint 同 Excel 插件。

Tibo 補充咗內部嘅知識分享機制：Slack 入面嘅 Codex 頻道同「hot tips」頻道非常活躍，團隊定期舉辦 hackathon 同 show and tell，盡量令好嘅 AI 使用方法快速擴散。

然後 Tibo 講咗一個具體案例。Codex 團隊得一個產品經理，叫 Alexander Embiricos。呢一個人點樣管一個 33 人嘅工程團隊？

答案係 Codex 本身。Tibo 描述咗佢最近一次 bug bash（集中揾 bug 嘅活動）嘅流程：一個鐘內大家行勻即將發佈嘅功能並提交 feedback，完咗之後 Alexander 叫 Codex 匯總 feedback、輸出到 Notion 文檔，再叫 Codex 將問題拆分成 bug report 同功能改進請求、入落 Linear（項目管理工具）、分配俾對應嘅工程師，之後仲用 Codex 跟進每個人嘅進度。

“He's becoming like a 10x, like 50x program manager just by leveraging AI.”
（佢透過 AI 將自己變成生產力高 10 倍、甚至 50 倍嘅項目經理。）

【注】 Alexander Embiricos 係 Codex 嘅產品負責人（Product Lead），之前創辦過面向工程師嘅 pair programming 產品，加入 OpenAI 之前喺 AI 輔助開發領域有多年經驗。

VJ 補充話，佢參加過好多 Demo Day（內部演示日），留意到一個趨勢：演示項目嘅深度持續增加。唔再淨係「睇嚇呢個做到啲乜」嘅表面展示，好多項目已經處理咗各種邊角情況，係真正可用嘅產品。

【7】Token 成本：唔好問用咗幾多 token，問隊友值幾多錢

Gergely 先做咗一個重要嘅前提說明：OpenAI 內部所有人都有無限 token，冇成本限制。觀眾席上好多人笑咗——呢個的確係一個大特權。外面世界成本仍然係一個實際問題。對於資源有限嘅團隊，兩位有冇建議？

VJ 話，成本係 OpenAI 持續喺度諗嘅問題。一方面係持續令模型更強更平。另一方面，佢認為思維方式需要轉變：想像你有一個 24 小時做嘢嘅隊友，你可以分配 Linear 任務或者 Jira 任務俾佢，完全期望佢可以獨立完成。咁個問題就變成「你願意為呢個隊友俾幾多錢」，而唔係「用咗幾多 token」。如果按每個工程師配備四五個 AI 隊友嚟衡量生產力，成本就更容易計得清楚。

Tibo 由另一個角度補充：要睇 AI 取代咗啲乜成本。例如以前需要 15 個工程師花時間篩查成個功能 backlog（待辦列表），揾出邊啲可以容易實現，而家呢樣嘢幾乎免費。雖然唔係每個公司都可以提供無限推理資源，但過早限制推理用量係一個風險。佢嘅建議係：至少俾公司入面最優秀嘅人提供充足嘅推理資源。

【8】未來預測：6 個月內再快 10 倍，code 將被抽象化

最後一個問題：兩年後，軟件工程同工程管理會係點樣？

Tibo 先笑咗一聲話，兩年太耐喇。佢只敢預測 6 個月：速度將再提升一個數量級另一個肯定會實現嘅係多 Agent 協作網絡，大量 Agent 可以協同完成好大嘅目標。例如 Cursor 曾經演示過嘅「由零開始重建一個瀏覽器」，24 小時後就可以得到一個數百萬行 code 嘅產物。呢種 code 量已經超出人類能夠理解嘅範圍。

【注】 Tibo 提到嘅 Cursor 演示，係指 AI 編程工具 Cursor 展示嘅大規模 code 生成能力。

所以 Tibo 預測，接下來會出現圍繞 code 嘅「護欄」：你唔需要再睇 code 本身，而係透過某種方式證明佢係正確嘅（形式化驗證），或者確保佢被限制喺安全範圍內，只關注輸入同輸出。code 將被抽象化，真正重要嘅係系統嘅屬性。

VJ 由歷史角度做咗補充：軟件嘅抽象層級一直喺度提升，令我哋可以用更少嘅 code 整更大嘅產品。而家呢個趨勢嘅加速度本身仲增加緊。但佢都提咗一個擔憂：當系統夠複雜時，除錯會變得極之困難。未來嘅工程師可能更加似醫生診斷病人——靠「病徵」嚟定位問題，工具都會向呢個方向進化。

Tibo 最後加咗一個近期預測：年內就會出現個人助理層。你唔需要再監控一百兩百個獨立嘅小 Agent，而係有一個總控嘅個人助理，佢代表所有後台 Agent 嘅工作，你只需要同呢一個助理對話。

VJ 對整體變化速度做咗一個判斷：佢喺行入面 25 年，經歷過互聯網泡沫、Y2K、移動革命、社交網絡革命。今次完全唔同。

“I don't think I've ever seen anything like this. Some of these charts don't make sense.”
（我覺得我從來未見過咁嘅嘢。有啲增長曲線根本講唔通。）

規模更大，速度更快。

呢場對話透露嘅核心信號有三個。

第一，AI 編碼喺 OpenAI 內部已經唔係「輔助」，而係「協作」甚至「委託」。

第二，瓶頸持續轉移——每解決一層就暴露下一層，由 code 生成到審查到部署到需求理解。

第三，「基礎」嘅定義喺悄悄改變：識寫 code 正變得不咁稀有，而產品直覺、系統思維同喺抽象層之間靈活移動嘅能力變得更稀有。

未有答案嘅問題係：

• 無限 Token 環境下催生嘅工作方式，可唔可以喺成本敏感嘅現實世界中重現？
• 當 code 被抽象到唔需要人睇時，安全性同可審計性點算？
• AI 原生嘅新一代工程師，長遠嚟睇到底係更強定係基礎更弱？

呢啲問題冇人俾到確定答案，但呢場對話至少令我哋見到變化正在發生嘅速度同方向。

OpenAI 應用 CTO 和 Codex 工程負責人，在 The Pragmatic Summit 上聊了 OpenAI 內部工程師的真實工作狀態。Codex 不再只是寫代碼的工具，已經進化成了“隊友”。工程師合上筆記本去開會，回來發現活已經幹完了。設計師寫的代碼比六個月前的工程師還多。一個 PM 靠 Codex 把自己變成了 50 倍效率的項目經理。

兩位受訪者： Vijaye Raji（以下簡稱 VJ），OpenAI 應用 CTO（CTO of Applications），負責 ChatGPT 和 Codex 的產品工程，此前創辦了產品實驗平台 Statsig，2025 年 9 月被 OpenAI 以 11 億美元收購，在微軟和 Meta 有超過 20 年經驗；Thibault Sottiaux（以下簡稱 Tibo），OpenAI Codex 工程負責人，此前在 DeepMind 和 Google 工作，現直接管理 33 人的 Codex 團隊。

主持人 Gergely Orosz 是科技行業最有影響力的工程管理類 newsletter The Pragmatic Engineer 的作者。本次訪談來自他舉辦的首屆 Pragmatic Summit（2026 年 2 月 11 日，舊金山），約 500 名工程領導者和實踐者參加。

要點速覽：

• OpenAI 內部，Codex 在 6 個月內從“輔助工具”進化成“隊友”，頂級工程師每週消耗數千億 token，工程師可以把任務派給服務器端的 Codex 然後去開會
• 瓶頸在不斷轉移：代碼生成解決了，代碼審查就成了新瓶頸，接下來是集成部署，團隊需要持續追蹤下一個卡點
• 設計師寫的代碼比六個月前的工程師還多，面試者開始問“你們給我多少算力”，職能邊界正在消融
• Codex 能在夜間自主運行 QA 測試、獨立訓練模型並寫 PDF 報告，研究員多次發現自己低估了 Codex 的能力
• 今年夏天 OpenAI 將接收約 100 名應屆生，團隊認為“AI 原生”新人將有獨特優勢
• 6 個月內預計再提速一個數量級，多 Agent 協作網絡將可實現“24 小時從零重建一個瀏覽器”

【1】Codex 已經不是工具，是隊友

Gergely 開場直接問 VJ：OpenAI 內部正在發生什麼？

VJ 說，過去 6 個月他親眼看到了一條清晰的演進路線：Codex 從工具，變成功能擴展，再變成 Agent（智能體），現在已經是隊友了。

“I fully expect engineers to name their agents now and call themselves as their teammates.”
（我完全預期工程師們會給自己的 Agent 起名字，把它們當作自己的隊友。）

他補充了一些內部數據：OpenAI 有使用排行榜，一些工程師每週消耗的 token 達到數千億級別。而且這不是一個 Agent 在工作。就在上週，團隊內部上線了一個叫 Codex Boxes 的功能，可以在服務器端預留開發環境，工程師在自己的筆記本上編排任務指令，然後把筆記本合上去開會，回來時所有工作已經並行完成了。

“People shut down their laptop, go to a meeting, come back and then all of the work has been done.”
（人們合上筆記本，去開個會，回來時所有工作都已經做完了。）

VJ 認為這種工作方式會在幾個月內成為行業常態。

【注】 Codex 是 OpenAI 的 AI 編程工具，2025 年 5 月首次發佈，既有云端版（在隔離容器中獨立運行任務），也有命令行版（Codex CLI，在本地終端運行）。目前支持 VS Code 擴展、桌面應用、Web 應用等多個入口。截至 2025 年底，約 95% 的 OpenAI 工程師在使用 Codex，每週合併的 PR 增加了 70%。

不過 Gergely 補充了一個重要的現實：他和 OpenAI 內部很多工程師私下聊過，並非所有人都 100% 用 Codex 寫代碼，使用程度存在差異。但有一個團隊確實走在最前面——Codex 團隊自身。

【2】瓶頸不斷轉移：從代碼生成到用戶需求理解

Gergely 接着問 Tibo：Codex 團隊具體是怎麼工作的？

Tibo 說團隊幾乎每週都在重新發明自己的工作方式。核心方法論是識別瓶頸，然後解決它，但瓶頸會不斷轉移。最初是代碼生成，然後是代碼審查，現在變成了：怎麼更快理解用戶需求？怎麼分類工單？怎麼從 Twitter、Reddit 等渠道綜合反饋，形成產品策略？每個環節都在嘗試用 Agent 來加速。

他講了一個有趣的細節：最近有人想加入 Codex 團隊，在面試時問了一個問題。

“How much compute am I going to get to build products at OpenAI?”
（在 OpenAI 做產品，你們能給我多少算力？）

Tibo 說自己愣了一下。過去這種問題只有訓練大模型的研究員才會問。現在工程師也開始關注“人均算力配額”了。

這個變化說明了什麼？Tibo 認為，如果你有好品味、好想法、懂得怎麼做軟件，現在的槓桿率是前所未有的。

放到整個 OpenAI 來看，VJ 補充說，產品直覺仍然是核心。他自己也在用 Codex 寫代碼，但發現很多時候瓶頸不在於代碼本身，而在於想象“產品應該長什麼樣”。這部分依然需要人類來做——除非將來我們開始為 Agent 而非人類構建軟件。

VJ 還講了個小故事：他在飛機上用 Codex 寫代碼，空乘過來讓關電腦，他把筆記本半合着放下去，不想中斷 Agent 的運行。他說現在每個人都半開着筆記本到處走。

他覺得這其實讓寫軟件變得更有意思了——反饋週期大幅縮短，看到產品成型、測試驗證、再回到 Codex 迭代，成就感來得更快。

【3】新的工程實踐：並行探索、設計師寫代碼、夜間自動測試

Gergely 追問：有哪些新的、不同的、甚至“奇怪的”工程實踐開始出現？

Tibo 提到了幾個變化。

第一個是並行探索。 過去遇到複雜的技術選型，團隊會寫設計文檔（design doc），開會討論，排除備選方案。現在他們會同時讓 Codex 實現多個方案，然後看哪個實際效果更好。決策從“討論後擇一”變成了“實現後比較”。

第二個更讓人意外：角色邊界模糊了。

“Our designers are shipping more code than engineers were shipping six months ago.”
（我們的設計師現在產出的代碼，比六個月前工程師的產出還多。）

這是因為模型的代碼質量已經好到可以直接合並。

VJ 補充了一個小場景：Codex 團隊做視頻處理，經常需要用 ffmpeg（一個功能強大但命令參數極其複雜的視頻處理工具）。沒人記得住那些命令行參數，現在直接告訴 Codex“我要做什麼”，它就生成正確的命令並執行。

VJ 還指出了一個更大的圖景：瓶頸轉移是連鎖反應。你解決了編碼問題，每個工程師的代碼產出就翻了五倍。代碼多了，代碼審查就成了新瓶頸。審查解決了，集成和部署（CI/CD，持續集成/持續部署）又會成為瓶頸。團隊需要不斷去解決下一層問題。

Gergely 接着問了一個他覺得”像科幻”的實踐：通宵運行。

Tibo 解釋說，很多人對 AI 編程的印象還停留在“加強版自動補全，10 分鐘搞定一個小功能”。但實際上模型的能力遠超這個範圍，給它一個大任務，它可以連續運行好幾個小時。

Codex 團隊搭建了完整的環境和技能配置，讓 Codex 在夜間自主進行 QA（質量保證）測試循環，持續運行並標記迴歸問題。工程師第二天來看結果就行。

然後 Tibo 提到團隊裏一位負責訓練模型的研究員的感受，讓他自己都覺得“既興奮又有點沮喪”：

“Every time I think I'm more capable than Codex, I figure out I'm wrong and I just didn't prompt it right.”
（每次我以為自己比 Codex 強，最後都發現是我錯了，只是提示詞沒寫對。）

這位研究員發現 Codex 已經能夠獨立訓練一個模型，訓練完成後還會寫一份 PDF 報告，包含自己的發現和洞察。團隊拿到報告後找出最有價值的方向，再把新任務輸入 Codex 繼續迭代。

【注】 這段描述了一個“AI 改進 AI”的循環：Codex 訓練模型 → 輸出報告 → 人類篩選方向 → Codex 繼續迭代。這在 AI 研究中被稱為“自我改進循環”（self-improvement loop）。

Gergely 還提到另一個實踐：Codex 團隊每週開數據分析會時，會當場啓動 Codex 線程。Tibo 描述了具體流程：會議開始時，大家提出儀表盤上沒有現成答案的問題。數據分析師馬上啓動 Codex 線程，讓它在後台處理。20 分鐘後答案就出來了，會議最後 10 分鐘討論結果。一場會議同時處理 5-6 個問題。

“It's like having little consultants working for us in the background.”
（就像有一羣小顧問在後台幫你幹活。）

線上事故響應也是一樣。Codex 幫忙診斷問題所在、找到最快的恢復路徑，信息收集和問題定位的速度明顯提升。

【4】100 名應屆生即將入職，“AI 原生”一代來了

行業裏一直有個爭論：AI 編程時代，初級工程師還有價值嗎？Gergely 提到他和 OpenAI 的工程負責人聊過，得知 OpenAI 正在招收早期職業工程師，讓兩位受訪者展開說說。

VJ 說，OpenAI 正在大量招聘應屆畢業生，今年夏天的實習項目也在擴大，這一批大約有 100 人。他認為新一代軟件工程師將是“AI 原生”（AI native） 的，從第一天起就把 AI 當作默認工具。給他們機會在這樣的環境中成長，效果會很驚人。

Tibo 從組織角度補充了他的做法：Codex 團隊是極度扁平化的，他一個人有 33 個直接下屬。他解釋說，當個體的生產力因 AI 大幅提升時，傳統的層級管理結構很容易成為瓶頸。一個人卡住所有決策，在這個速度下顯然行不通了。

新人入職的第一個工具就是 Codex 本身。用它問問題、瀏覽代碼庫、瞭解同事在做什麼、接收日報。而負責入職培訓的人，恰恰是最近才剛入職的人——因為他們對”怎麼上手”的記憶最新鮮。

Tibo 提到了一個具體的人：一個叫 Ahmed 的應屆生，6 個月前加入團隊，表現非常出色。

“My brain is probably already in decline... this person Ahmed's brain is just absolute peak.”
（我的大腦估計已經開始走下坡路了……Ahmed 的大腦正值巔峯。）

這句自嘲背後是一個觀察：新人沒有需要覆蓋的舊習慣，精力和學習速度都是優勢。

Gergely 扮演了一回“魔鬼代言人”：在場很多資深工程師都見證過新人從菜鳥成長為優秀工程師的過程，而這個過程中基礎訓練至關重要。如果新一代從一開始就用 AI 寫代碼，跳過了前輩們經歷的那些基本功訓練，他們的基礎夠嗎？

Tibo 的回答是：基礎依然極其重要。團隊花大量精力設計整體代碼架構，做代碼審查，不是把一切都扔給 Codex 然後閉上眼睛。關鍵在於環境設計——如果你的代碼庫結構好、護欄（guard rails）設置得當，新人就能在這個框架下發揮出驚人的生產力。

【5】25 年行業變遷：從 IntelliSense 到 AI，每一代都被質疑

Gergely 問 VJ，軟件工程師的日常角色到底變成了什麼樣？

VJ 先說了一句總原則：基礎永遠不會過時。然後他拉開了時間線。他在這個行業幹了 25 年，經歷過很多範式轉變。在微軟時期，他參與開發了 Visual Studio 的編輯器和語言服務（Language Services）。

【注】 VJ 在微軟工作近十年，參與了 Visual Studio 編輯器、Windows 應用框架、SQL Server 建模工具等核心項目的開發。他也是 Small Basic（一種簡化版 BASIC 語言）的創造者。

他回憶第一次看到 IntelliSense（Visual Studio 的代碼自動補全功能）時的感受：你打一個點號，選項就彈出來了，那感覺很酷。

Gergely 接了一句：我入行的時候，周圍的開發者說“用 IntelliSense 的不是真正的開發者”。

VJ 笑着說，對，再往前還有人說不寫彙編就不是真正的工程師，然後是 C++，然後是 JavaScript。每一層抽象提升時，都有人質疑。

他的結論是：這些都不重要。重要的是你有紮實的基礎，有產品直覺，能夠在技術棧上上下下地解決問題。這些能力不會過時。

【6】一個 PM 用 Codex 把自己變成了 50 倍效率的項目經理

Gergely 問了產品經理和設計師的角色變化。

VJ 的核心觀點是：只要我們還在為人類構建產品，就需要人類的設計師和產品經理。產品感覺（product sense）和設計感覺（design sense）沒有替代品。但這些角色也在變得更高效——PM 在寫代碼，設計師在寫代碼，設計師把設計直接帶入可運行的原型，在找工程師之前就先做了驗證。PM 也在用 Codex 做幻燈片和 Excel 插件。

Tibo 補充了內部的知識分享機制：Slack 裏的 Codex 頻道和“hot tips”頻道非常活躍，團隊定期舉辦 hackathon 和 show and tell，儘量讓好的 AI 使用方法快速擴散。

然後 Tibo 講了一個具體案例。Codex 團隊只有一個產品經理，叫 Alexander Embiricos。這一個人怎麼管一個 33 人的工程團隊？

答案是 Codex 本身。Tibo 描述了他最近一次 bug bash（集中找 bug 的活動）的流程：一個小時內大家走查即將發佈的功能並提交反饋，結束後 Alexander 讓 Codex 彙總反饋、輸出到 Notion 文檔，再讓 Codex 把問題拆分成 bug 報告和功能改進請求、錄入 Linear（項目管理工具）、分配給對應的工程師，之後還用 Codex 跟進每個人的進展。

“He's becoming like a 10x, like 50x program manager just by leveraging AI.”
（他通過 AI 把自己變成了 10 倍、50 倍效率的項目經理。）

【注】 Alexander Embiricos 是 Codex 的產品負責人（Product Lead），此前曾創辦過面向工程師的結對編程產品，在加入 OpenAI 之前在 AI 輔助開發領域有多年經驗。

VJ 補充說，他參加過很多 Demo Day（內部演示日），注意到一個趨勢：演示項目的深度持續增加。不再只是“看看這個能做什麼”的表面展示，很多項目已經處理了各種邊角情況，是真正可用的產品。

【7】Token 成本：別問用了多少 token，問隊友值多少錢

Gergely 先做了一個重要的前提說明：OpenAI 內部所有人都有無限 token，沒有成本限制。觀眾席上很多人笑了——這確實是個大特權。外部世界成本仍然是個實際問題。對於受限環境下的團隊，兩位有什麼建議？

VJ 說，成本是 OpenAI 持續在思考的問題。一方面是持續讓模型更強更便宜。另一方面，他認為思維方式需要轉變：想象你有一個 24 小時工作的隊友，你可以給它分配 Linear 任務或 Jira 任務，完全期望它能獨立完成。那麼問題就變成了“你願意為這個隊友付多少錢”，而不是“用了多少 token”。如果按每個工程師配備四五個 AI 隊友來衡量生產力，成本就更容易算清楚了。

Tibo 從另一個角度補充：要看 AI 替代了什麼成本。比如過去需要 15 個工程師花時間篩查整個功能 backlog（待辦列表），找出哪些可以輕鬆實現，現在這件事幾乎免費。雖然不是每個公司都能提供無限推理資源，但過早限制推理用量是一個風險。他的建議是：至少給公司裏最優秀的人提供充足的推理資源。

【8】未來預測：6 個月內再快 10 倍，代碼將被抽象化

最後一個問題：兩年後，軟件工程和工程管理會是什麼樣？

Tibo 先笑了一聲說，兩年太久了。他只敢預測 6 個月：速度將再提升一個數量級。另一個確定會實現的是多 Agent 協作網絡，大量 Agent 可以協同完成非常大的目標。比如 Cursor 曾演示過的“從零重建一個瀏覽器”，24 小時後就能得到一個數百萬行代碼的產物。這種代碼量已經超出人類能理解的範圍了。

【注】 Tibo 提到的 Cursor 演示，指的是 AI 編程工具 Cursor 展示的大規模代碼生成能力。

所以 Tibo 預測，接下來會出現圍繞代碼的“護欄”：你不需要再看代碼本身，而是通過某種方式證明它是正確的（形式化驗證），或者確保它被約束在安全範圍內，只關注輸入和輸出。代碼將被抽象化，真正重要的是系統的屬性。

VJ 從歷史角度做了補充：軟件的抽象層級一直在提升，讓我們能用更少的代碼構建更大的產品。現在這個趨勢的加速度本身在增加。但他也提了一個擔憂：當系統足夠複雜時，調試會變得極其困難。未來的工程師可能更像醫生診斷病人——靠“症狀”來定位問題，工具也會朝這個方向進化。

Tibo 最後加了一個近期預測：年內就會出現個人助理層。你不再需要監控一百兩百個獨立的小 Agent，而是有一個總控的個人助理，它代表所有後台 Agent 的工作，你只需要和這一個助理對話。

VJ 對整體變化速度做了一個判斷：他在行業裏 25 年，經歷過互聯網泡沫、Y2K、移動革命、社交網絡革命。這一次完全不同。

“I don't think I've ever seen anything like this. Some of these charts don't make sense.”
（我覺得我從來沒有見過這樣的事情。有些增長曲線根本說不通。）

規模更大，速度更快。

這場對話透露的核心信號有三個。

第一，AI 編碼在 OpenAI 內部已經不是“輔助”，而是“協作”甚至“委託”。

第二，瓶頸在持續轉移——每解決一層就暴露下一層，從代碼生成到審查到部署到需求理解。

第三，“基礎”的定義在悄然變化：會寫代碼正在變得不那麼稀缺，而產品直覺、系統思維和在抽象層之間靈活移動的能力正在變得更稀缺。

懸而未決的問題是：

• 無限 Token 環境下催生的工作方式，能否在成本敏感的現實世界中復現？
• 當代碼被抽象到不需要人看時，安全性和可審計性怎麼辦？
• AI 原生的新一代工程師，長遠來看到底是更強還是基礎更薄弱？

這些問題沒有人能給出確定答案，但這場對話至少讓我們看到了變化正在發生的速度和方向。