OpenAI Codex 官方最佳實踐和最新六大關鍵能力升級
整理版優先睇
Codex 最佳效能來自前置配置,而非單次提示詞精雕細琢
呢篇文章係 OpenAI 官方發佈嘅 Codex 最佳實踐指南,仲有最新六大關鍵能力升級。作者想解決嘅問題係:點樣先至令 Codex 真正融入軟件開發生命週期,由一次性工具變成團隊成員。整體結論係:最大效能來自將臨時性交互轉化為可複用嘅工程基礎設施。
作者強調,對 Codex 嘅時間投資應該前置到配置階段,而唔係消耗喺反覆糾錯嘅對話入面。透過 AGENTS.md 建立上下文契約,用 Skills 固化重複工作流,用 Automations 實現規模化執行,再用 MCP 打通外部系統邊界,就可以令 Codex 由被查詢工具重新配置為可嵌入規劃、編碼、測試、審查、知識沉澱嘅協作節點。呢份指南提供嘅唔係提示詞技巧,而係人機協作嘅工程化框架。
- Codex 最大效能來自將臨時交互轉化為可複用工程基礎設施,而非提示詞技巧。
- 透過 AGENTS.md、Skills、Automations、MCP 建立完整人機協作架構。
- 前置配置投入可減少後續假設與方差,實現跨會話一致性輸出。
- 規劃階段成本遠低於返工成本,複雜任務必須先規劃後編碼。
- 即時行動:為主要倉庫建立 AGENTS.md,包含運行測試命令與關鍵目錄說明。
OpenAI Codex 官方最佳實踐
官方最佳實踐指南,提供完整的人機協作架構與配置方法。
Codex for (almost) everything
官方發布六大關鍵能力升級的文章。
核心哲學:由工具到隊友
開篇確立關鍵認知轉變:Codex 唔係搜索引擎,亦唔係一次性助手,而係需要持續配置同改進嘅協作智能體。呢個哲學貫穿全文,決定所有最佳實踐嘅設計邏輯——投入時間做前置配置,換取後續重複任務嘅效率躍升。
任務啟動:結構化提示與規劃先行
對於複雜代碼庫,有效提示詞應包含四個明確維度:Goal、Context、Constraints、Done when。呢個框架嘅價值在於限制智能體嘅假設空間。
- 1 Goal:要構建或修改咩
- 2 Context:相關文件、文檔、報錯信息(可通過 @ 引用)
- 3 Constraints:架構標準、安全要求、團隊規範
- 4 Done when:測試通過、行為變更、Bug 消除等可驗證狀態
另外,Codex 提供多級推理能力,建議按任務複雜度匹配。複雜任務應先用/plan 模式規劃,再進入編碼——先規劃後編碼係減少返工嘅關鍵。
知識沉澱:AGENTS.md 層級體系
AGENTS.md 被定義為面向智能體嘅開放式 README,設計遵循就近優先原則:個人、倉庫、子目錄層級覆蓋。一個高質量嘅 AGENTS.md 應包含倉庫結構、運行方式、工程規範、約束與禁忌等。
- ~/.codex/AGENTS.md:個人全局默認值
- ./AGENTS.md:倉庫級共享標準
- ./子目錄/AGENTS.md:局部特定規則(優先級最高)
質量閉環與工作流固化
Codex 不應止於代碼生成,而應構成完整質量閉環。關鍵動作包括編寫測試、運行測試套件、執行 lint、確認行為符合預期、審查 diff。工具層面提供/review 命令,支援 PR 式審查。
當工作流反覆使用時,應封裝為 Skills,每個 Skill 單一職責,從一個代表性任務開始。Automation 則定義時間表,令穩定工作流定時執行。
- 技能(Skills):將指令、上下文和支持邏輯打包進 SKILL.md 文件,實現跨平台複用
- 自動化(Automations):透過定時後台執行,適用於近期提交摘要、Bug 掃描、發佈說明起草等場景
六大關鍵能力升級
Codex 最新發布六大關鍵能力升級,令佢成為貫穿整個軟件開發生命週期嘅主動型夥伴。
- 1 桌面級電腦使用:具備 Mac 完整視覺感知與操作能力,可後台並行執行
- 2 原生瀏覽器集成:網頁批註與視覺指令,聚焦前端和遊戲開發調試
- 3 圖像生成與迭代:集成 gpt-image-1.5,實現設計與開發閉環
- 4 開發者工作流深度整合:支援PR 評論處理、多終端與遠端開發、富媒體預覽
- 5 自動化與長期任務:保留對話線程上下文,支援定時任務調度
- 6 記憶與主動建議:持久記錄偏好與歷史糾正,基於上下文主動提出工作建議
OpenAI Codex 官方最佳實踐同六大關鍵能力升級
OpenAI 官方發佈嘅 Codex Best practices 畀我哋一個最大嘅提示:Codex 嘅最大效能唔係來自單次提示詞嘅精雕細琢,而係取決於能否將臨時性交互轉化為可複用嘅工程基礎設施。
OpenAI Codex 提出咗一套完整嘅人機協作架構——通過 AGENTS.md 建立上下文契約,通過 Skills 固化重複工作流,通過 Automations 實現規模化執行,再通過 MCP 打通外部系統邊界。佢嘅本質係將 Codex 從「畀人查嘅問答工具」重新配置為「可以嵌入軟件工程全生命週期(規劃、編碼、測試、審查、知識沉澱)嘅協作節點」。
最佳實踐嘅關鍵認知轉變在於:對 Codex 嘅時間投資應該放喺配置階段,而唔係消耗喺反覆糾錯嘅交互度。佢強調將已經驗證有效嘅提示模式、審查標準同執行流程,從對話層下沉到文件層(AGENTS.md、Skill 定義、配置模板),令 Codex 喺每次會話開始時就具備穩定嘅上下文理解、質量標準同工具接入,從而減少假設、降低方差、實現跨會話嘅一致性輸出。
Codex Best practices
https://developers.openai.com/codex/learn/best-practices[1]
而 Codex 最新發佈嘅六個關鍵能力升級,更加令佢成為貫穿成個軟件開發生命週期嘅主動型夥伴,官方口號似乎要成真Codex for (almost) everything.
Codex for (almost) everything
https://openai.com/index/codex-for-almost-everything/[2]
核心哲學:由工具變隊友
開頭就確立咗一個關鍵認知轉變:Codex 唔係搜索引擎,亦唔係一次性助手,而係需要持續配置同改進嘅協作智能體。呢個哲學貫穿全文,決定咗所有後續最佳實踐嘅設計邏輯——投入時間做前置配置(AGENTS.md、Skills、Automations),換取後續重複任務嘅效率躍升。
任務啟動:上下文工程
1. 提示詞嘅四要素框架
對於複雜代碼庫,有效嘅提示詞應該包含四個明確維度:
- Goal(目標):要構建或者修改啲乜
- Context(上下文):相關文件、文檔、報錯信息(可以通過 @ 引用)
- Constraints(約束):架構標準、安全要求、團隊規範
- Done when(完成標準):測試通過、行為變更、Bug 消除等可驗證狀態
呢個框架嘅價值在於限制智能體嘅假設空間。喺大型代碼庫入面,缺乏明確邊界嘅任務好易產生「幻覺式」實現。
2. 推理級別嘅動態選擇
Codex 提供多級推理能力(Low / Medium / High / Extra High),建議按任務複雜度匹配:
- Low:邊界清晰、範圍明確嘅快速任務
- Medium / High:複雜變更或者調試場景
- Extra High:長週期、多步驟、需要深度推理嘅 Agentic 任務
複雜任務:先規劃,後編碼
針對模糊或者複雜需求,指南提供咗三條互補路徑:
- Plan 模式(
/plan):最推薦嘅默認選項。Codex 喺呢個模式下會先收集上下文、提出澄清問題、構建執行計劃,然後先進入編碼階段。 - 訪談模式:當用戶得個模糊諗法嗰陣,可以要求 Codex 主動挑戰假設,將模糊需求轉化為具體規格。
- PLANS.md 模板:針對高級工作流,可以定義結構化嘅執行計劃模板,用喺多步驟長期任務。
呢一節嘅關鍵洞察係:喺軟件工程入面,規劃階段嘅成本遠低過返工成本。Codex 作為智能體都係跟返呢條定律。
知識沉澱:AGENTS.md 嘅層級體系
呢個係全文最具工程價值嘅部分之一。AGENTS.md 被定義為「面向智能體嘅開放式 README」,佢嘅設計跟隨就近優先原則:
~/.codex/AGENTS.md ← 個人全局默認值
./AGENTS.md ← 倉庫級共享標準
./子目錄/AGENTS.md ← 局部特定規則(優先級最高)
一個高質量嘅 AGENTS.md 應該包含:
- 倉庫結構同關鍵目錄
- 項目運行方式
- 構建、測試、lint 命令
- 工程規範同 PR 期望
- 約束同禁忌(Constraints and do-not rules)
- 「完成」嘅定義同驗證方式
維護建議極具實操性:保持簡短準確,只係喺觀察到重複錯誤嗰陣先追加新規則;當文件太大嗰陣,將特定主題(好似規劃、代碼審查、架構)拆分做獨立 markdown 文件並由主文件引用。
環境配置:一致性基礎設施
配置體系採用三層架構:
~/.codex/config.toml:個人持久偏好(模型選擇、MCP 服務器等).codex/config.toml:倉庫特定行為- 命令行覆蓋:只用喺一次性場景
特別強調咗沙盒同審批模式嘅安全設計:
- Approval mode:控制 Codex 幾時請求權限執行命令
- Sandbox mode:控制文件系統讀寫範圍
建議新手從默認嚴格權限開始,只有喺明確需求出現嗰陣先對可信倉庫放寬限制。
質量閉環:測試、驗證同審查
Codex 唔應該只係停喺代碼生成,而係要構成完整嘅質量閉環。關鍵動作包括:
- 為變更編寫/更新測試
- 運行相關測試套件
- 執行 lint、格式化、類型檢查
- 確認最終行為符合預期
- 審查 diff 裏面嘅 Bug、迴歸或風險模式
工具層面提供咗 /review 命令,支援:
- 基於基準分支嘅 PR 式審查
- 未提交變更審查
- 提交級審查
- 自定義審查指令
進階用法係引入 code_review.md 文件並喺 AGENTS.md 中引用,令到審查行為喺團隊層面保持一致。OpenAI 內部實踐係 Codex 審查 100% 嘅 PR。
外部系統集成:MCP 協議
Model Context Protocol(MCP)係連接 Codex 同外部系統嘅開放標準,適用於以下場景:
- 所需上下文喺倉庫之外(例如數據庫、API 文檔、監控系統)
- 數據成日變,貼靜態指令唔可行
- 需要可複用嘅跨項目集成
Codex 支援 STDIO 同 Streamable HTTP 兩種服務器模式,以及 OAuth 認證。
實施建議:由 1-2 個可以消除高頻手動循環嘅工具開始,避免過度集成。
工作流固化:由提示到 Skill
當某個工作流成日重複使用嗰陣,應該將佢封裝做 Skills。Skills 嘅本質係將指令、上下文同支援邏輯打包入 SKILL.md 文件,實現跨平台(CLI、IDE、App)複用。
Skill 設計原則:
- 單一職責:每個 Skill 只處理一類工作
- 觸發詞導向:描述入面應該包含用戶實際會用嘅觸發短語
- 逐漸完善:由 1 個代表性任務開始,而唔係試圖覆蓋曬所有邊界情況
典型適用場景:
- 日誌分類(Log triage)
- 發佈說明起草
- PR 審查(基於檢查清單)
- 遷移規劃
- 遙測/事件摘要
- 標準調試流程
儲存位置:
- 個人 Skill:
$HOME/.agents/skills - 團隊共享 Skill:倉庫內
.agents/skills(方便新人上手)
規模化執行:Automation 自動化
當工作流夠穩定之後,可以通過 Automation 實現定時背景執行。關鍵配置維度包括:
- 目標項目
- 執行提示詞(可以調用 Skills)
- 運行頻率
- 執行環境(專用 git worktree 或者本地環境)
適用場景:
- 近期提交摘要
- 潛在 Bug 掃描
- 發佈說明起草
- CI 失敗檢查
- 站會摘要生成
- 定時分析工作流
核心法則:Skill 定義「方法」,自動化定義「時間表」。如果工作流仲需要大量人手幹預,先 Skill 化;只有當佢可以預測嗰陣,自動化先會產生槓桿效應。
會話管理:線程即工作上下文
Codex 會話唔單止係聊天記錄,更加係累積上下文、決策同動作嘅工作線程。有效管理直接影響輸出質量:
關鍵命令/操作:
/plan:切換規劃模式/resume:恢復已保存嘅對話/fork:建立新線程並保留原始記錄/compact:線程太長嗰陣壓縮早期上下文(系統亦會自動壓縮)/agent:喺並行智能體之間切換
組織原則:
- 保持單線程單任務:同一問題嘅後續工作應該留喺原線程以保留推理鏈條
- 只係喺工作真正分支嗰陣先 Fork
- 利用**子智能體(Subagents)**將邊界明確嘅任務(好似探索、測試、分類)從主線程卸載
常見錯誤:反模式清單
指南最後列出咗新手易犯嘅八類錯誤,可以歸納為三個維度:
認知層面:
- 將 Codex 當做需要逐步監督嘅工具,而唔係可以並行協作嘅隊友
- 對高權限缺乏警覺(未理解工作流之前就畀曬成部電腦嘅權限)
工程層面:
- 將持久規則塞入單次提示,而唔係寫入
AGENTS.md或者 Skill - 冇提供構建/測試命令,令到智能體無法驗證自己嘅工作
- 跳過多步驟任務嘅規劃階段
- 喺自動化未手動跑通之前就嘗試定時執行
上下文層面:
- 同一項目用單一線程,導致上下文膨脹同結果質量下降
- 喺冇 git worktree 嘅情況下並行運行多個實時線程操作同一個文件
Codex 六個關鍵能力升級
1. 桌面級電腦使用(Computer Use)
Codex 而家已經具備對 Mac 嘅完整視覺感知同操作能力:
- 視覺感知同 GUI 操控:通過視覺理解界面元素,獨立完成點擊、輸入等操作,可以運行本地任何應用
- 背景並行運行:支援多個智能體喺背景同時工作,唔會干擾用戶當前操作
- 填補 API 缺口:可以操作冇開放 API 嘅 GUI 應用(例如特定設計軟件、Legacy 系統等)
- 典型場景:自動喺瀏覽器測試前端頁面、喺 Figma 檢查設計稿、操作數據庫管理工具等
2. 原生瀏覽器集成
- 網頁批註同視覺指令:內置瀏覽器支援直接喺網頁上批註同評論,為智能體提供精確嘅視覺反饋
- 能力邊界:當前集中喺前端同遊戲開發調試,將來會擴展到完全控制瀏覽器(超越本地開發服務器限制)
3. 圖像生成同迭代(gpt-image-1.5)
Codex 而家已經集成圖像生成能力,實現設計同開發閉環:
- 生成範圍:產品概念圖、UI Mockup、遊戲素材等
- 工作流整合:結合屏幕截圖同代碼,喺同一個上下文中完成「編碼→預覽→生成視覺素材」嘅迭代
- 版本前瞻:gpt-image-2 目前已經進入測試階段
4. 開發者工作流深度整合
針對專業開發者場景嘅核心增強:
- PR 評論處理:可以直接回應並處理 GitHub Pull Request 嘅 Review Comments
- 多終端同遠程開發:支援多終端標籤頁;可以通過 SSH 連接遠程開發環境(Alpha 階段)
- 富媒體預覽:側邊欄支援直接預覽 PDF、表格、幻燈片同文檔
- 摘要面板:提供智能體執行計劃、引用來源同生成產物嘅集中追蹤視圖
5. 自動化同長期任務(Autonomy)
Codex 具備跨會話嘅持續工作能力:
- 對話線程複用:保留並複用歷史對話嘅上下文信息,避免重複建立背景
- 定時任務調度:可以為自己安排未來工作,喺幾日或者幾星期後自動醒來執行
- 典型應用:自動跟進未合併嘅 PR、監控 Slack/Gmail/Notion 動態並生成匯總報告
6. 記憶同主動建議(Memory + Proactive)
- 持久記憶:記錄用戶個人偏好、歷史糾正同已收集嘅上下文信息,避免重複說明
- 主動建議:基於項目上下文、插件數據同記憶,主動提出工作建議。例如識別 Google Docs 入面嘅待處理評論,自動從 Slack、Notion 同代碼庫拉相關上下文,生成有優先級嘅待辦清單
總結:實施路徑建議
根據以上框架,建議按以下優先級落地:
- 立即:為當前主要倉庫建立基本嘅
AGENTS.md,包含運行、測試、lint 命令同關鍵目錄說明 - 短期:複雜任務之前強制使用
/plan模式,養成規劃習慣;為高頻重複任務寫第一個 Skill - 中期:配置
config.toml統一模組同權限偏好;引入 1-2 個 MCP 工具消除信息孤島 - 長期:建立
code_review.md規範;將穩定嘅 Skill 轉化為 Automation;通過子智能體實現工作流並行化
呢份指南嘅終極價值在於:佢提供嘅唔係提示詞技巧,而係人機協作嘅工程化框架。越早將 Codex 視為需要基礎設施投入嘅團隊成員,就越早可以獲得規模化嘅效率回報。
推薦 OpenAI Codex 參考文章
OpenAI Codex 核心成員訪談:Codex 團隊點樣用 Codex 做研發工作,對 AI Native 團隊又有咩重要啟發?
OpenAI Codex 最佳實踐指南——8個步驟完整閉環、5個實操結論同7個典型誤區
Codex + GPT-5.4 vs. Claude Code + Opus 4.6,Codex 除咗慢幾乎全面佔優、自主性強、適合企業開發,CC 速度快同迭代快適閤中小型開發
OpenAI Codex 官方最佳實踐和六大關鍵能力升級
OpenAI 官方發佈的 Codex Best practices 給我們一個最大的提示:Codex 的最大效能並非來自單次提示詞的精雕細琢,而取決於能否將臨時性交互轉化為可複用的工程基礎設施。
OpenAI Codex 提出了一套完整的人機協作架構——通過 AGENTS.md 建立上下文契約,通過 Skills 固化重複工作流,通過 Automations 實現規模化執行,再通過 MCP 打通外部系統邊界。其本質是將 Codex 從"被查詢的問答工具"重新配置為"可嵌入軟件工程全生命週期(規劃、編碼、測試、審查、知識沉澱)的協作節點"。
最佳實踐的關鍵認知轉變在於:對 Codex 的時間投資應當前置到配置階段,而非消耗在反覆糾錯的交互中。它強調把已經驗證有效的提示模式、審查標準和執行流程,從對話層下沉到文件層(AGENTS.md、Skill 定義、配置模板),讓 Codex 在每次會話開始時即具備穩定的上下文理解、質量標準和工具接入,從而減少假設、降低方差、實現跨會話的一致性輸出。
Codex Best practices
https://developers.openai.com/codex/learn/best-practices[1]
而 Codex 最新發布的六個關鍵能力升級,更是讓它成為了貫穿整個軟件開發生命週期的主動型夥伴,官方口號要成真了Codex for (almost) everything.
Codex for (almost) everything
https://openai.com/index/codex-for-almost-everything/[2]
核心哲學:從工具到隊友
開篇即確立了一個關鍵認知轉變:Codex 不是搜索引擎,也不是一次性助手,而是需要持續配置和改進的協作智能體。這一哲學貫穿全文,決定了所有後續最佳實踐的設計邏輯——投入時間做前置配置(AGENTS.md、Skills、Automations),換取後續重複任務中的效率躍升。
任務啓動:上下文工程
1. 提示詞的四要素框架
對於複雜代碼庫,有效的提示詞應包含四個明確維度:
- Goal(目標):要構建或修改什麼
- Context(上下文):相關文件、文檔、報錯信息(可通過 @ 引用)
- Constraints(約束):架構標準、安全要求、團隊規範
- Done when(完成標準):測試通過、行為變更、Bug 消除等可驗證狀態
這一框架的價值在於限制智能體的假設空間。在大型代碼庫中,缺乏明確邊界的任務極易產生"幻覺式"實現。
2. 推理級別的動態選擇
Codex 提供多級推理能力(Low / Medium / High / Extra High),建議按任務複雜度匹配:
- Low:邊界清晰、範圍明確的快速任務
- Medium / High:複雜變更或調試場景
- Extra High:長週期、多步驟、需要深度推理的 Agentic 任務
複雜任務:先規劃,後編碼
針對模糊或複雜需求,指南提供了三條互補路徑:
- Plan 模式(
/plan):最推薦的默認選項。Codex 在此模式下會先收集上下文、提出澄清問題、構建執行計劃,再進入編碼階段。 - 訪談模式:當用戶只有模糊想法時,可要求 Codex 主動挑戰假設,將模糊需求轉化為具體規格。
- PLANS.md 模板:針對高級工作流,可定義結構化的執行計劃模板,用於多步驟長期任務。
這一節的關鍵洞察是:在軟件工程中,規劃階段的成本遠低於返工成本。Codex 作為智能體同樣遵循這一定律。
知識沉澱:AGENTS.md 的層級體系
這是全文最具工程價值的部分之一。AGENTS.md 被定義為"面向智能體的開放式 README",其設計遵循就近優先原則:
~/.codex/AGENTS.md ← 個人全局默認值
./AGENTS.md ← 倉庫級共享標準
./子目錄/AGENTS.md ← 局部特定規則(優先級最高)
一個高質量的 AGENTS.md 應包含:
- 倉庫結構與關鍵目錄
- 項目運行方式
- 構建、測試、lint 命令
- 工程規範與 PR 期望
- 約束與禁忌(Constraints and do-not rules)
- "完成"的定義與驗證方式
維護建議極具實操性:保持簡短準確,僅在觀察到重複錯誤時才追加新規則;當文件過大時,將特定主題(如規劃、代碼審查、架構)拆分為獨立 markdown 文件並由主文件引用。
環境配置:一致性基礎設施
配置體系採用三層架構:
~/.codex/config.toml:個人持久偏好(模型選擇、MCP 服務器等).codex/config.toml:倉庫特定行為- 命令行覆蓋:僅用於一次性場景
特別強調了沙盒與審批模式的安全設計:
- Approval mode:控制 Codex 何時請求權限執行命令
- Sandbox mode:控制文件系統讀寫範圍
建議新手從默認嚴格權限開始,僅在明確需求出現時才對可信倉庫放寬限制。
質量閉環:測試、驗證與審查
Codex 不應止於代碼生成,而應構成完整的質量閉環。關鍵動作包括:
- 為變更編寫/更新測試
- 運行相關測試套件
- 執行 lint、格式化、類型檢查
- 確認最終行為符合預期
- 審查 diff 中的 Bug、迴歸或風險模式
工具層面提供了 /review 命令,支持:
- 基於基準分支的 PR 式審查
- 未提交變更審查
- 提交級審查
- 自定義審查指令
進階用法是引入 code_review.md 文件並在 AGENTS.md 中引用,使審查行為在團隊層面保持一致。OpenAI 內部實踐是 Codex 審查 100% 的 PR。
外部系統集成:MCP 協議
Model Context Protocol(MCP)是連接 Codex 與外部系統的開放標準,適用於以下場景:
- 所需上下文在倉庫之外(如數據庫、API 文檔、監控系統)
- 數據頻繁變化,粘貼靜態指令不可行
- 需要可複用的跨項目集成
Codex 支持 STDIO 和 Streamable HTTP 兩種服務器模式,以及 OAuth 認證。
實施建議:從 1-2 個能消除高頻手動循環的工具開始,避免過度集成。
工作流固化:從提示到 Skill
當某個工作流被反覆使用時,應將其封裝為 Skills。Skills 的本質是將指令、上下文和支持邏輯打包進 SKILL.md 文件,實現跨平台(CLI、IDE、App)複用。
Skill 設計原則:
- 單一職責:每個 Skill 只處理一類工作
- 觸發詞導向:描述中應包含用戶實際會使用的觸發短語
- 漸進完善:從 1 個代表性任務開始,而非試圖覆蓋所有邊界情況
典型適用場景:
- 日誌分類(Log triage)
- 發佈說明起草
- PR 審查(基於檢查清單)
- 遷移規劃
- 遙測/事件摘要
- 標準調試流程
存儲位置:
- 個人 Skill:
$HOME/.agents/skills - 團隊共享 Skill:倉庫內
.agents/skills(便於新人上手)
規模化執行:Automation 自動化
當工作流足夠穩定後,可通過 Automation 實現定時後台執行。關鍵配置維度包括:
- 目標項目
- 執行提示詞(可調用 Skills)
- 運行頻率
- 執行環境(專用 git worktree 或本地環境)
適用場景:
- 近期提交摘要
- 潛在 Bug 掃描
- 發佈說明起草
- CI 失敗檢查
- 站會摘要生成
- 定時分析工作流
核心法則:Skill 定義"方法",自動化定義"時間表"。如果工作流仍需大量人工干預,先 Skill 化;只有當它可預測時,自動化才能產生槓桿效應。
會話管理:線程即工作上下文
Codex 會話不僅是聊天記錄,更是累積上下文、決策和動作的工作線程。有效管理直接影響輸出質量:
關鍵命令/操作:
/plan:切換規劃模式/resume:恢復保存的對話/fork:創建新線程並保留原始記錄/compact:線程過長時壓縮早期上下文(系統也會自動壓縮)/agent:在並行智能體間切換
組織原則:
- 保持單線程單任務:同一問題的後續工作應留在原線程以保留推理鏈條
- 僅在工作真正分支時才 Fork
- 利用**子智能體(Subagents)**將邊界明確的任務(如探索、測試、分類)從主線程卸載
常見錯誤:反模式清單
指南最後列出了新手易犯的八類錯誤,可歸納為三個維度:
認知層面:
- 將 Codex 當作需要逐步監督的工具,而非可並行協作的隊友
- 對高權限缺乏警惕(未理解工作流前給予完整計算機權限)
工程層面:
- 將持久規則塞進單次提示,而非寫入
AGENTS.md或 Skill - 未提供構建/測試命令,導致智能體無法驗證自身工作
- 跳過多步驟任務的規劃階段
- 在自動化尚未手動跑通前就嘗試定時執行
上下文層面:
- 同一項目使用單一線程,導致上下文膨脹和結果質量下降
- 在無 git worktree 的情況下並行運行多個實時線程操作相同文件
Codex 六個關鍵能力升級
1. 桌面級計算機使用(Computer Use)
Codex 現已具備對 Mac 的完整視覺感知與操作能力:
- 視覺感知與 GUI 操控:通過視覺理解界面元素,獨立完成點擊、輸入等操作,可運行本地任意應用
- 後台並行運行:支持多個智能體在後台同時工作,不干擾用戶當前操作
- 填補 API 缺口:能夠操作無開放 API 的 GUI 應用(如特定設計軟件、Legacy 系統等)
- 典型場景:自動在瀏覽器中測試前端頁面、在 Figma 中檢查設計稿、操作數據庫管理工具等
2. 原生瀏覽器集成
- 網頁批註與視覺指令:內置瀏覽器支持直接在網頁上批註和評論,為智能體提供精確的視覺反饋
- 能力邊界:當前聚焦前端和遊戲開發調試,未來將擴展至完全控制瀏覽器(超越本地開發服務器限制)
3. 圖像生成與迭代(gpt-image-1.5)
Codex 現已集成圖像生成能力,實現設計與開發閉環:
- 生成範圍:產品概念圖、UI Mockup、遊戲素材等
- 工作流整合:結合屏幕截圖與代碼,在同一上下文中完成"編碼→預覽→生成視覺素材"的迭代
- 版本前瞻:gpt-image-2 目前已進入測試階段
4. 開發者工作流深度整合
針對專業開發者場景的核心增強:
- PR 評論處理:可直接響應並處理 GitHub Pull Request 中的 Review Comments
- 多終端與遠程開發:支持多終端標籤頁;可通過 SSH 連接遠程開發環境(Alpha 階段)
- 富媒體預覽:側邊欄支持直接預覽 PDF、表格、幻燈片及文檔
- 摘要面板:提供智能體執行計劃、引用來源和生成產物的集中追蹤視圖
5. 自動化與長期任務(Autonomy)
Codex 具備跨會話的持續工作能力:
- 對話線程複用:保留並複用歷史對話的上下文信息,避免重複建立背景
- 定時任務調度:能夠為自身安排未來工作,在數天或數週後自動喚醒執行
- 典型應用:自動跟進未合併的 PR、監控 Slack/Gmail/Notion 動態並生成彙總報告
6. 記憶與主動建議(Memory + Proactive)
- 持久記憶:記錄用戶個人偏好、歷史糾正和已收集的上下文信息,避免重複說明
- 主動建議:基於項目上下文、插件數據和記憶,主動提出工作建議。例如識別 Google Docs 中的待處理評論,自動從 Slack、Notion 和代碼庫拉取相關上下文,生成帶優先級的待辦清單
總結:實施路徑建議
基於以上框架,建議按以下優先級落地:
- 立即:為當前主要倉庫創建基礎的
AGENTS.md,包含運行、測試、lint 命令和關鍵目錄說明 - 短期:在複雜任務前強制使用
/plan模式,養成規劃習慣;為高頻重複任務編寫首個 Skill - 中期:配置
config.toml統一模型與權限偏好;引入 1-2 個 MCP 工具消除信息孤島 - 長期:建立
code_review.md規範;將穩定的 Skill 轉化為 Automation;通過子智能體實現工作流並行化
這份指南的終極價值在於:它提供的不是提示詞技巧,而是人機協作的工程化框架。越早將 Codex 視為需要基礎設施投入的團隊成員,就能越早獲得規模化的效率回報。
推薦 OpenAI Codex 參考文章
OpenAI Codex 核心成員訪談:Codex 團隊如何用 Codex 做研發工作,對 AI Native 團隊又有哪些重要啓發?
OpenAI Codex 最佳實踐指南——8個步驟完整閉環、5個實操結論和7個典型誤區
Codex + GPT-5.4 vs. Claude Code + Opus 4.6,Codex 除了慢幾乎全面佔優、自主性強、適合企業開發,CC 速度和迭代快適閤中小型開發