OpenAI Codex 官方最佳實踐和最新六大關鍵能力升級

作者:AI 啓蒙小夥伴
日期:2026年4月18日 上午2:00
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

Codex 最佳效能來自前置配置,而非單次提示詞精雕細琢

整理版摘要

呢篇文章係 OpenAI 官方發佈嘅 Codex 最佳實踐指南,仲有最新六大關鍵能力升級。作者想解決嘅問題係:點樣先至令 Codex 真正融入軟件開發生命週期,由一次性工具變成團隊成員。整體結論係:最大效能來自將臨時性交互轉化為可複用嘅工程基礎設施。

作者強調,對 Codex 嘅時間投資應該前置到配置階段,而唔係消耗喺反覆糾錯嘅對話入面。透過 AGENTS.md 建立上下文契約,用 Skills 固化重複工作流,用 Automations 實現規模化執行,再用 MCP 打通外部系統邊界,就可以令 Codex 由被查詢工具重新配置為可嵌入規劃、編碼、測試、審查、知識沉澱嘅協作節點。呢份指南提供嘅唔係提示詞技巧,而係人機協作嘅工程化框架。

  • Codex 最大效能來自將臨時交互轉化為可複用工程基礎設施,而非提示詞技巧。
  • 透過 AGENTS.md、Skills、AutomationsMCP 建立完整人機協作架構。
  • 前置配置投入可減少後續假設與方差,實現跨會話一致性輸出。
  • 規劃階段成本遠低於返工成本,複雜任務必須先規劃後編碼。
  • 即時行動:為主要倉庫建立 AGENTS.md,包含運行測試命令與關鍵目錄說明。
值得記低
連結 developers.openai.com

OpenAI Codex 官方最佳實踐

官方最佳實踐指南,提供完整的人機協作架構與配置方法。

連結 openai.com

Codex for (almost) everything

官方發布六大關鍵能力升級的文章。

整理重點

核心哲學:由工具到隊友

開篇確立關鍵認知轉變Codex 唔係搜索引擎,亦唔係一次性助手,而係需要持續配置同改進嘅協作智能體。呢個哲學貫穿全文,決定所有最佳實踐嘅設計邏輯——投入時間做前置配置,換取後續重複任務嘅效率躍升。

整理重點

任務啟動:結構化提示與規劃先行

對於複雜代碼庫,有效提示詞應包含四個明確維度:GoalContextConstraintsDone when。呢個框架嘅價值在於限制智能體嘅假設空間。

  1. 1 Goal:要構建或修改咩
  2. 2 Context:相關文件、文檔、報錯信息(可通過 @ 引用)
  3. 3 Constraints:架構標準、安全要求、團隊規範
  4. 4 Done when:測試通過、行為變更、Bug 消除等可驗證狀態

另外,Codex 提供多級推理能力,建議按任務複雜度匹配。複雜任務應先用/plan 模式規劃,再進入編碼——先規劃後編碼係減少返工嘅關鍵。

整理重點

知識沉澱:AGENTS.md 層級體系

AGENTS.md 被定義為面向智能體嘅開放式 README,設計遵循就近優先原則:個人、倉庫、子目錄層級覆蓋。一個高質量嘅 AGENTS.md 應包含倉庫結構、運行方式、工程規範、約束與禁忌等。

  • ~/.codex/AGENTS.md:個人全局默認值
  • ./AGENTS.md:倉庫級共享標準
  • ./子目錄/AGENTS.md:局部特定規則(優先級最高)
整理重點

質量閉環與工作流固化

Codex 不應止於代碼生成,而應構成完整質量閉環。關鍵動作包括編寫測試、運行測試套件、執行 lint、確認行為符合預期、審查 diff。工具層面提供/review 命令,支援 PR 式審查。

當工作流反覆使用時,應封裝為 Skills,每個 Skill 單一職責,從一個代表性任務開始。Automation 則定義時間表,令穩定工作流定時執行。

  • 技能(Skills):將指令、上下文和支持邏輯打包進 SKILL.md 文件,實現跨平台複用
  • 自動化(Automations):透過定時後台執行,適用於近期提交摘要、Bug 掃描、發佈說明起草等場景
整理重點

六大關鍵能力升級

Codex 最新發布六大關鍵能力升級,令佢成為貫穿整個軟件開發生命週期嘅主動型夥伴。

  1. 1 桌面級電腦使用:具備 Mac 完整視覺感知與操作能力,可後台並行執行
  2. 2 原生瀏覽器集成:網頁批註與視覺指令,聚焦前端和遊戲開發調試
  3. 3 圖像生成與迭代:集成 gpt-image-1.5,實現設計與開發閉環
  4. 4 開發者工作流深度整合:支援PR 評論處理、多終端與遠端開發、富媒體預覽
  5. 5 自動化與長期任務:保留對話線程上下文,支援定時任務調度
  6. 6 記憶與主動建議:持久記錄偏好與歷史糾正,基於上下文主動提出工作建議

OpenAI Codex 官方最佳實踐同六大關鍵能力升級

OpenAI 官方發佈嘅 Codex Best practices 畀我哋一個最大嘅提示:Codex 嘅最大效能唔係來自單次提示詞嘅精雕細琢,而係取決於能否將臨時性交互轉化為可複用嘅工程基礎設施。

OpenAI Codex 提出咗一套完整嘅人機協作架構——通過 AGENTS.md 建立上下文契約,通過 Skills 固化重複工作流,通過 Automations 實現規模化執行,再通過 MCP 打通外部系統邊界。佢嘅本質係將 Codex 從「畀人查嘅問答工具」重新配置為「可以嵌入軟件工程全生命週期(規劃、編碼、測試、審查、知識沉澱)嘅協作節點」。

最佳實踐嘅關鍵認知轉變在於:對 Codex 嘅時間投資應該放喺配置階段,而唔係消耗喺反覆糾錯嘅交互度。佢強調將已經驗證有效嘅提示模式、審查標準同執行流程,從對話層下沉到文件層(AGENTS.md、Skill 定義、配置模板),令 Codex 喺每次會話開始時就具備穩定嘅上下文理解、質量標準同工具接入,從而減少假設、降低方差、實現跨會話嘅一致性輸出。

Codex Best practices

https://developers.openai.com/codex/learn/best-practices[1]

而 Codex 最新發佈嘅六個關鍵能力升級,更加令佢成為貫穿成個軟件開發生命週期嘅主動型夥伴,官方口號似乎要成真Codex for (almost) everything.

Codex for (almost) everything

https://openai.com/index/codex-for-almost-everything/[2]


核心哲學:由工具變隊友

開頭就確立咗一個關鍵認知轉變:Codex 唔係搜索引擎,亦唔係一次性助手,而係需要持續配置同改進嘅協作智能體。呢個哲學貫穿全文,決定咗所有後續最佳實踐嘅設計邏輯——投入時間做前置配置(AGENTS.md、Skills、Automations),換取後續重複任務嘅效率躍升。


任務啟動:上下文工程

1. 提示詞嘅四要素框架

對於複雜代碼庫,有效嘅提示詞應該包含四個明確維度:

  • Goal(目標):要構建或者修改啲乜
  • Context(上下文):相關文件、文檔、報錯信息(可以通過 @ 引用)
  • Constraints(約束):架構標準、安全要求、團隊規範
  • Done when(完成標準):測試通過、行為變更、Bug 消除等可驗證狀態

呢個框架嘅價值在於限制智能體嘅假設空間。喺大型代碼庫入面,缺乏明確邊界嘅任務好易產生「幻覺式」實現。

2. 推理級別嘅動態選擇

Codex 提供多級推理能力(Low / Medium / High / Extra High),建議按任務複雜度匹配:

  • Low:邊界清晰、範圍明確嘅快速任務
  • Medium / High:複雜變更或者調試場景
  • Extra High:長週期、多步驟、需要深度推理嘅 Agentic 任務

複雜任務:先規劃,後編碼

針對模糊或者複雜需求,指南提供咗三條互補路徑:

  1. Plan 模式/plan):最推薦嘅默認選項。Codex 喺呢個模式下會先收集上下文、提出澄清問題、構建執行計劃,然後先進入編碼階段。
  2. 訪談模式:當用戶得個模糊諗法嗰陣,可以要求 Codex 主動挑戰假設,將模糊需求轉化為具體規格。
  3. PLANS.md 模板:針對高級工作流,可以定義結構化嘅執行計劃模板,用喺多步驟長期任務。

呢一節嘅關鍵洞察係:喺軟件工程入面,規劃階段嘅成本遠低過返工成本。Codex 作為智能體都係跟返呢條定律。


知識沉澱:AGENTS.md 嘅層級體系

呢個係全文最具工程價值嘅部分之一。AGENTS.md 被定義為「面向智能體嘅開放式 README」,佢嘅設計跟隨就近優先原則:

~/.codex/AGENTS.md          ← 個人全局默認值
./AGENTS.md                  ← 倉庫級共享標準
./子目錄/AGENTS.md           ← 局部特定規則(優先級最高)

一個高質量嘅 AGENTS.md 應該包含:

  • 倉庫結構同關鍵目錄
  • 項目運行方式
  • 構建、測試、lint 命令
  • 工程規範同 PR 期望
  • 約束同禁忌(Constraints and do-not rules)
  • 「完成」嘅定義同驗證方式

維護建議極具實操性:保持簡短準確,只係喺觀察到重複錯誤嗰陣先追加新規則;當文件太大嗰陣,將特定主題(好似規劃、代碼審查、架構)拆分做獨立 markdown 文件並由主文件引用。


環境配置:一致性基礎設施

配置體系採用三層架構:

  • ~/.codex/config.toml:個人持久偏好(模型選擇、MCP 服務器等)
  • .codex/config.toml:倉庫特定行為
  • 命令行覆蓋:只用喺一次性場景

特別強調咗沙盒同審批模式嘅安全設計:

  • Approval mode:控制 Codex 幾時請求權限執行命令
  • Sandbox mode:控制文件系統讀寫範圍

建議新手從默認嚴格權限開始,只有喺明確需求出現嗰陣先對可信倉庫放寬限制。


質量閉環:測試、驗證同審查

Codex 唔應該只係停喺代碼生成,而係要構成完整嘅質量閉環。關鍵動作包括:

  • 為變更編寫/更新測試
  • 運行相關測試套件
  • 執行 lint、格式化、類型檢查
  • 確認最終行為符合預期
  • 審查 diff 裏面嘅 Bug、迴歸或風險模式

工具層面提供咗 /review 命令,支援:

  • 基於基準分支嘅 PR 式審查
  • 未提交變更審查
  • 提交級審查
  • 自定義審查指令

進階用法係引入 code_review.md 文件並喺 AGENTS.md 中引用,令到審查行為喺團隊層面保持一致。OpenAI 內部實踐係 Codex 審查 100% 嘅 PR


外部系統集成:MCP 協議

Model Context Protocol(MCP)係連接 Codex 同外部系統嘅開放標準,適用於以下場景:

  • 所需上下文喺倉庫之外(例如數據庫、API 文檔、監控系統)
  • 數據成日變,貼靜態指令唔可行
  • 需要可複用嘅跨項目集成

Codex 支援 STDIO 同 Streamable HTTP 兩種服務器模式,以及 OAuth 認證。

實施建議:由 1-2 個可以消除高頻手動循環嘅工具開始,避免過度集成。


工作流固化:由提示到 Skill

當某個工作流成日重複使用嗰陣,應該將佢封裝做 Skills。Skills 嘅本質係將指令、上下文同支援邏輯打包入 SKILL.md 文件,實現跨平台(CLI、IDE、App)複用。

Skill 設計原則:

  • 單一職責:每個 Skill 只處理一類工作
  • 觸發詞導向:描述入面應該包含用戶實際會用嘅觸發短語
  • 逐漸完善:由 1 個代表性任務開始,而唔係試圖覆蓋曬所有邊界情況

典型適用場景:

  • 日誌分類(Log triage)
  • 發佈說明起草
  • PR 審查(基於檢查清單)
  • 遷移規劃
  • 遙測/事件摘要
  • 標準調試流程

儲存位置

  • 個人 Skill:$HOME/.agents/skills
  • 團隊共享 Skill:倉庫內 .agents/skills(方便新人上手)

規模化執行:Automation 自動化

當工作流夠穩定之後,可以通過 Automation 實現定時背景執行。關鍵配置維度包括:

  • 目標項目
  • 執行提示詞(可以調用 Skills)
  • 運行頻率
  • 執行環境(專用 git worktree 或者本地環境)

適用場景:

  • 近期提交摘要
  • 潛在 Bug 掃描
  • 發佈說明起草
  • CI 失敗檢查
  • 站會摘要生成
  • 定時分析工作流

核心法則:Skill 定義「方法」,自動化定義「時間表」。如果工作流仲需要大量人手幹預,先 Skill 化;只有當佢可以預測嗰陣,自動化先會產生槓桿效應。


會話管理:線程即工作上下文

Codex 會話唔單止係聊天記錄,更加係累積上下文、決策同動作嘅工作線程。有效管理直接影響輸出質量:

關鍵命令/操作:

  • /plan:切換規劃模式
  • /resume:恢復已保存嘅對話
  • /fork:建立新線程並保留原始記錄
  • /compact:線程太長嗰陣壓縮早期上下文(系統亦會自動壓縮)
  • /agent:喺並行智能體之間切換

組織原則

  • 保持單線程單任務:同一問題嘅後續工作應該留喺原線程以保留推理鏈條
  • 只係喺工作真正分支嗰陣先 Fork
  • 利用**子智能體(Subagents)**將邊界明確嘅任務(好似探索、測試、分類)從主線程卸載

常見錯誤:反模式清單

指南最後列出咗新手易犯嘅八類錯誤,可以歸納為三個維度:

認知層面

  • 將 Codex 當做需要逐步監督嘅工具,而唔係可以並行協作嘅隊友
  • 對高權限缺乏警覺(未理解工作流之前就畀曬成部電腦嘅權限)

工程層面

  • 將持久規則塞入單次提示,而唔係寫入 AGENTS.md 或者 Skill
  • 冇提供構建/測試命令,令到智能體無法驗證自己嘅工作
  • 跳過多步驟任務嘅規劃階段
  • 喺自動化未手動跑通之前就嘗試定時執行

上下文層面

  • 同一項目用單一線程,導致上下文膨脹同結果質量下降
  • 喺冇 git worktree 嘅情況下並行運行多個實時線程操作同一個文件

Codex 六個關鍵能力升級

1. 桌面級電腦使用(Computer Use)

Codex 而家已經具備對 Mac 嘅完整視覺感知同操作能力:

  • 視覺感知同 GUI 操控:通過視覺理解界面元素,獨立完成點擊、輸入等操作,可以運行本地任何應用
  • 背景並行運行:支援多個智能體喺背景同時工作,唔會干擾用戶當前操作
  • 填補 API 缺口:可以操作冇開放 API 嘅 GUI 應用(例如特定設計軟件、Legacy 系統等)
  • 典型場景:自動喺瀏覽器測試前端頁面、喺 Figma 檢查設計稿、操作數據庫管理工具等

2. 原生瀏覽器集成

  • 網頁批註同視覺指令:內置瀏覽器支援直接喺網頁上批註同評論,為智能體提供精確嘅視覺反饋
  • 能力邊界:當前集中喺前端同遊戲開發調試,將來會擴展到完全控制瀏覽器(超越本地開發服務器限制)

3. 圖像生成同迭代(gpt-image-1.5)

Codex 而家已經集成圖像生成能力,實現設計同開發閉環:

  • 生成範圍:產品概念圖、UI Mockup、遊戲素材等
  • 工作流整合:結合屏幕截圖同代碼,喺同一個上下文中完成「編碼→預覽→生成視覺素材」嘅迭代
  • 版本前瞻:gpt-image-2 目前已經進入測試階段

4. 開發者工作流深度整合

針對專業開發者場景嘅核心增強:

  • PR 評論處理:可以直接回應並處理 GitHub Pull Request 嘅 Review Comments
  • 多終端同遠程開發:支援多終端標籤頁;可以通過 SSH 連接遠程開發環境(Alpha 階段)
  • 富媒體預覽:側邊欄支援直接預覽 PDF、表格、幻燈片同文檔
  • 摘要面板:提供智能體執行計劃、引用來源同生成產物嘅集中追蹤視圖

5. 自動化同長期任務(Autonomy)

Codex 具備跨會話嘅持續工作能力:

  • 對話線程複用:保留並複用歷史對話嘅上下文信息,避免重複建立背景
  • 定時任務調度:可以為自己安排未來工作,喺幾日或者幾星期後自動醒來執行
  • 典型應用:自動跟進未合併嘅 PR、監控 Slack/Gmail/Notion 動態並生成匯總報告

6. 記憶同主動建議(Memory + Proactive)

  • 持久記憶:記錄用戶個人偏好、歷史糾正同已收集嘅上下文信息,避免重複說明
  • 主動建議:基於項目上下文、插件數據同記憶,主動提出工作建議。例如識別 Google Docs 入面嘅待處理評論,自動從 Slack、Notion 同代碼庫拉相關上下文,生成有優先級嘅待辦清單

總結:實施路徑建議

根據以上框架,建議按以下優先級落地:

  1. 立即:為當前主要倉庫建立基本嘅 AGENTS.md,包含運行、測試、lint 命令同關鍵目錄說明
  2. 短期:複雜任務之前強制使用 /plan 模式,養成規劃習慣;為高頻重複任務寫第一個 Skill
  3. 中期:配置 config.toml 統一模組同權限偏好;引入 1-2 個 MCP 工具消除信息孤島
  4. 長期:建立 code_review.md 規範;將穩定嘅 Skill 轉化為 Automation;通過子智能體實現工作流並行化

呢份指南嘅終極價值在於:佢提供嘅唔係提示詞技巧,而係人機協作嘅工程化框架。越早將 Codex 視為需要基礎設施投入嘅團隊成員,就越早可以獲得規模化嘅效率回報。

推薦 OpenAI Codex 參考文章

OpenAI Codex 核心成員訪談:Codex 團隊點樣用 Codex 做研發工作,對 AI Native 團隊又有咩重要啟發?

OpenAI Codex 最佳實踐指南——8個步驟完整閉環、5個實操結論同7個典型誤區

OpenAI Codex 核心指令同配置速查表

Codex + GPT-5.4 vs. Claude Code + Opus 4.6,Codex 除咗慢幾乎全面佔優、自主性強、適合企業開發,CC 速度快同迭代快適閤中小型開發

OpenAI Codex CLI 實用最佳實踐

OpenAI Codex 官方最佳實踐和六大關鍵能力升級

OpenAI 官方發佈的 Codex Best practices 給我們一個最大的提示:Codex 的最大效能並非來自單次提示詞的精雕細琢,而取決於能否將臨時性交互轉化為可複用的工程基礎設施。

OpenAI Codex 提出了一套完整的人機協作架構——通過 AGENTS.md 建立上下文契約,通過 Skills 固化重複工作流,通過 Automations 實現規模化執行,再通過 MCP 打通外部系統邊界。其本質是將 Codex 從"被查詢的問答工具"重新配置為"可嵌入軟件工程全生命週期(規劃、編碼、測試、審查、知識沉澱)的協作節點"。

最佳實踐的關鍵認知轉變在於:對 Codex 的時間投資應當前置到配置階段,而非消耗在反覆糾錯的交互中。它強調把已經驗證有效的提示模式、審查標準和執行流程,從對話層下沉到文件層(AGENTS.md、Skill 定義、配置模板),讓 Codex 在每次會話開始時即具備穩定的上下文理解、質量標準和工具接入,從而減少假設、降低方差、實現跨會話的一致性輸出。

Codex Best practices

https://developers.openai.com/codex/learn/best-practices[1]

而 Codex 最新發布的六個關鍵能力升級,更是讓它成為了貫穿整個軟件開發生命週期的主動型夥伴,官方口號要成真了Codex for (almost) everything.

Codex for (almost) everything

https://openai.com/index/codex-for-almost-everything/[2]


核心哲學:從工具到隊友

開篇即確立了一個關鍵認知轉變:Codex 不是搜索引擎,也不是一次性助手,而是需要持續配置和改進的協作智能體。這一哲學貫穿全文,決定了所有後續最佳實踐的設計邏輯——投入時間做前置配置(AGENTS.md、Skills、Automations),換取後續重複任務中的效率躍升。


任務啓動:上下文工程

1. 提示詞的四要素框架

對於複雜代碼庫,有效的提示詞應包含四個明確維度:

  • Goal(目標):要構建或修改什麼
  • Context(上下文):相關文件、文檔、報錯信息(可通過 @ 引用)
  • Constraints(約束):架構標準、安全要求、團隊規範
  • Done when(完成標準):測試通過、行為變更、Bug 消除等可驗證狀態

這一框架的價值在於限制智能體的假設空間。在大型代碼庫中,缺乏明確邊界的任務極易產生"幻覺式"實現。

2. 推理級別的動態選擇

Codex 提供多級推理能力(Low / Medium / High / Extra High),建議按任務複雜度匹配:

  • Low:邊界清晰、範圍明確的快速任務
  • Medium / High:複雜變更或調試場景
  • Extra High:長週期、多步驟、需要深度推理的 Agentic 任務

複雜任務:先規劃,後編碼

針對模糊或複雜需求,指南提供了三條互補路徑:

  1. Plan 模式/plan):最推薦的默認選項。Codex 在此模式下會先收集上下文、提出澄清問題、構建執行計劃,再進入編碼階段。
  2. 訪談模式:當用戶只有模糊想法時,可要求 Codex 主動挑戰假設,將模糊需求轉化為具體規格。
  3. PLANS.md 模板:針對高級工作流,可定義結構化的執行計劃模板,用於多步驟長期任務。

這一節的關鍵洞察是:在軟件工程中,規劃階段的成本遠低於返工成本。Codex 作為智能體同樣遵循這一定律。


知識沉澱:AGENTS.md 的層級體系

這是全文最具工程價值的部分之一。AGENTS.md 被定義為"面向智能體的開放式 README",其設計遵循就近優先原則:

~/.codex/AGENTS.md          ← 個人全局默認值
./AGENTS.md                  ← 倉庫級共享標準
./子目錄/AGENTS.md           ← 局部特定規則(優先級最高)

一個高質量的 AGENTS.md 應包含:

  • 倉庫結構與關鍵目錄
  • 項目運行方式
  • 構建、測試、lint 命令
  • 工程規範與 PR 期望
  • 約束與禁忌(Constraints and do-not rules)
  • "完成"的定義與驗證方式

維護建議極具實操性:保持簡短準確,僅在觀察到重複錯誤時才追加新規則;當文件過大時,將特定主題(如規劃、代碼審查、架構)拆分為獨立 markdown 文件並由主文件引用。


環境配置:一致性基礎設施

配置體系採用三層架構:

  • ~/.codex/config.toml:個人持久偏好(模型選擇、MCP 服務器等)
  • .codex/config.toml:倉庫特定行為
  • 命令行覆蓋:僅用於一次性場景

特別強調了沙盒與審批模式的安全設計:

  • Approval mode:控制 Codex 何時請求權限執行命令
  • Sandbox mode:控制文件系統讀寫範圍

建議新手從默認嚴格權限開始,僅在明確需求出現時才對可信倉庫放寬限制。


質量閉環:測試、驗證與審查

Codex 不應止於代碼生成,而應構成完整的質量閉環。關鍵動作包括:

  • 為變更編寫/更新測試
  • 運行相關測試套件
  • 執行 lint、格式化、類型檢查
  • 確認最終行為符合預期
  • 審查 diff 中的 Bug、迴歸或風險模式

工具層面提供了 /review 命令,支持:

  • 基於基準分支的 PR 式審查
  • 未提交變更審查
  • 提交級審查
  • 自定義審查指令

進階用法是引入 code_review.md 文件並在 AGENTS.md 中引用,使審查行為在團隊層面保持一致。OpenAI 內部實踐是 Codex 審查 100% 的 PR


外部系統集成:MCP 協議

Model Context Protocol(MCP)是連接 Codex 與外部系統的開放標準,適用於以下場景:

  • 所需上下文在倉庫之外(如數據庫、API 文檔、監控系統)
  • 數據頻繁變化,粘貼靜態指令不可行
  • 需要可複用的跨項目集成

Codex 支持 STDIO 和 Streamable HTTP 兩種服務器模式,以及 OAuth 認證。

實施建議:從 1-2 個能消除高頻手動循環的工具開始,避免過度集成。


工作流固化:從提示到 Skill

當某個工作流被反覆使用時,應將其封裝為 Skills。Skills 的本質是將指令、上下文和支持邏輯打包進 SKILL.md 文件,實現跨平台(CLI、IDE、App)複用。

Skill 設計原則:

  • 單一職責:每個 Skill 只處理一類工作
  • 觸發詞導向:描述中應包含用戶實際會使用的觸發短語
  • 漸進完善:從 1 個代表性任務開始,而非試圖覆蓋所有邊界情況

典型適用場景:

  • 日誌分類(Log triage)
  • 發佈說明起草
  • PR 審查(基於檢查清單)
  • 遷移規劃
  • 遙測/事件摘要
  • 標準調試流程

存儲位置

  • 個人 Skill:$HOME/.agents/skills
  • 團隊共享 Skill:倉庫內 .agents/skills(便於新人上手)

規模化執行:Automation 自動化

當工作流足夠穩定後,可通過 Automation 實現定時後台執行。關鍵配置維度包括:

  • 目標項目
  • 執行提示詞(可調用 Skills)
  • 運行頻率
  • 執行環境(專用 git worktree 或本地環境)

適用場景:

  • 近期提交摘要
  • 潛在 Bug 掃描
  • 發佈說明起草
  • CI 失敗檢查
  • 站會摘要生成
  • 定時分析工作流

核心法則:Skill 定義"方法",自動化定義"時間表"。如果工作流仍需大量人工干預,先 Skill 化;只有當它可預測時,自動化才能產生槓桿效應。


會話管理:線程即工作上下文

Codex 會話不僅是聊天記錄,更是累積上下文、決策和動作的工作線程。有效管理直接影響輸出質量:

關鍵命令/操作:

  • /plan:切換規劃模式
  • /resume:恢復保存的對話
  • /fork:創建新線程並保留原始記錄
  • /compact:線程過長時壓縮早期上下文(系統也會自動壓縮)
  • /agent:在並行智能體間切換

組織原則

  • 保持單線程單任務:同一問題的後續工作應留在原線程以保留推理鏈條
  • 僅在工作真正分支時才 Fork
  • 利用**子智能體(Subagents)**將邊界明確的任務(如探索、測試、分類)從主線程卸載

常見錯誤:反模式清單

指南最後列出了新手易犯的八類錯誤,可歸納為三個維度:

認知層面

  • 將 Codex 當作需要逐步監督的工具,而非可並行協作的隊友
  • 對高權限缺乏警惕(未理解工作流前給予完整計算機權限)

工程層面

  • 將持久規則塞進單次提示,而非寫入 AGENTS.md 或 Skill
  • 未提供構建/測試命令,導致智能體無法驗證自身工作
  • 跳過多步驟任務的規劃階段
  • 在自動化尚未手動跑通前就嘗試定時執行

上下文層面

  • 同一項目使用單一線程,導致上下文膨脹和結果質量下降
  • 在無 git worktree 的情況下並行運行多個實時線程操作相同文件

Codex 六個關鍵能力升級

1. 桌面級計算機使用(Computer Use)

Codex 現已具備對 Mac 的完整視覺感知與操作能力:

  • 視覺感知與 GUI 操控:通過視覺理解界面元素,獨立完成點擊、輸入等操作,可運行本地任意應用
  • 後台並行運行:支持多個智能體在後台同時工作,不干擾用戶當前操作
  • 填補 API 缺口:能夠操作無開放 API 的 GUI 應用(如特定設計軟件、Legacy 系統等)
  • 典型場景:自動在瀏覽器中測試前端頁面、在 Figma 中檢查設計稿、操作數據庫管理工具等

2. 原生瀏覽器集成

  • 網頁批註與視覺指令:內置瀏覽器支持直接在網頁上批註和評論,為智能體提供精確的視覺反饋
  • 能力邊界:當前聚焦前端和遊戲開發調試,未來將擴展至完全控制瀏覽器(超越本地開發服務器限制)

3. 圖像生成與迭代(gpt-image-1.5)

Codex 現已集成圖像生成能力,實現設計與開發閉環:

  • 生成範圍:產品概念圖、UI Mockup、遊戲素材等
  • 工作流整合:結合屏幕截圖與代碼,在同一上下文中完成"編碼→預覽→生成視覺素材"的迭代
  • 版本前瞻:gpt-image-2 目前已進入測試階段

4. 開發者工作流深度整合

針對專業開發者場景的核心增強:

  • PR 評論處理:可直接響應並處理 GitHub Pull Request 中的 Review Comments
  • 多終端與遠程開發:支持多終端標籤頁;可通過 SSH 連接遠程開發環境(Alpha 階段)
  • 富媒體預覽:側邊欄支持直接預覽 PDF、表格、幻燈片及文檔
  • 摘要面板:提供智能體執行計劃、引用來源和生成產物的集中追蹤視圖

5. 自動化與長期任務(Autonomy)

Codex 具備跨會話的持續工作能力:

  • 對話線程複用:保留並複用歷史對話的上下文信息,避免重複建立背景
  • 定時任務調度:能夠為自身安排未來工作,在數天或數週後自動喚醒執行
  • 典型應用:自動跟進未合併的 PR、監控 Slack/Gmail/Notion 動態並生成彙總報告

6. 記憶與主動建議(Memory + Proactive)

  • 持久記憶:記錄用戶個人偏好、歷史糾正和已收集的上下文信息,避免重複說明
  • 主動建議:基於項目上下文、插件數據和記憶,主動提出工作建議。例如識別 Google Docs 中的待處理評論,自動從 Slack、Notion 和代碼庫拉取相關上下文,生成帶優先級的待辦清單

總結:實施路徑建議

基於以上框架,建議按以下優先級落地:

  1. 立即:為當前主要倉庫創建基礎的 AGENTS.md,包含運行、測試、lint 命令和關鍵目錄說明
  2. 短期:在複雜任務前強制使用 /plan 模式,養成規劃習慣;為高頻重複任務編寫首個 Skill
  3. 中期:配置 config.toml 統一模型與權限偏好;引入 1-2 個 MCP 工具消除信息孤島
  4. 長期:建立 code_review.md 規範;將穩定的 Skill 轉化為 Automation;通過子智能體實現工作流並行化

這份指南的終極價值在於:它提供的不是提示詞技巧,而是人機協作的工程化框架。越早將 Codex 視為需要基礎設施投入的團隊成員,就能越早獲得規模化的效率回報。

推薦 OpenAI Codex 參考文章

OpenAI Codex 核心成員訪談:Codex 團隊如何用 Codex 做研發工作,對 AI Native 團隊又有哪些重要啓發?

OpenAI Codex 最佳實踐指南——8個步驟完整閉環、5個實操結論和7個典型誤區

OpenAI Codex 核心指令與配置速查表

Codex + GPT-5.4 vs. Claude Code + Opus 4.6,Codex 除了慢幾乎全面佔優、自主性強、適合企業開發,CC 速度和迭代快適閤中小型開發

OpenAI Codex CLI 實用最佳實踐