OpenAI Codex 官方最佳實踐和最新六大關鍵能力升級

作者：AI 啓蒙小夥伴

日期：2026年4月18日上午2:00

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

Codex 最佳效能來自前置配置，而非單次提示詞精雕細琢

整理版摘要

呢篇文章係 OpenAI 官方發佈嘅 Codex 最佳實踐指南，仲有最新六大關鍵能力升級。作者想解決嘅問題係：點樣先至令 Codex 真正融入軟件開發生命週期，由一次性工具變成團隊成員。整體結論係：最大效能來自將臨時性交互轉化為可複用嘅工程基礎設施。

作者強調，對 Codex 嘅時間投資應該前置到配置階段，而唔係消耗喺反覆糾錯嘅對話入面。透過 AGENTS.md 建立上下文契約，用 Skills 固化重複工作流，用 Automations 實現規模化執行，再用 MCP 打通外部系統邊界，就可以令 Codex 由被查詢工具重新配置為可嵌入規劃、編碼、測試、審查、知識沉澱嘅協作節點。呢份指南提供嘅唔係提示詞技巧，而係人機協作嘅工程化框架。

Codex 最大效能來自將臨時交互轉化為可複用工程基礎設施，而非提示詞技巧。
透過 AGENTS.md、Skills、Automations、MCP 建立完整人機協作架構。
前置配置投入可減少後續假設與方差，實現跨會話一致性輸出。
規劃階段成本遠低於返工成本，複雜任務必須先規劃後編碼。
即時行動：為主要倉庫建立 AGENTS.md，包含運行測試命令與關鍵目錄說明。

值得記低

連結 developers.openai.com

OpenAI Codex 官方最佳實踐

官方最佳實踐指南，提供完整的人機協作架構與配置方法。

連結 openai.com

Codex for (almost) everything

官方發布六大關鍵能力升級的文章。

整理重點

核心哲學：由工具到隊友

開篇確立關鍵認知轉變：Codex 唔係搜索引擎，亦唔係一次性助手，而係需要持續配置同改進嘅協作智能體。呢個哲學貫穿全文，決定所有最佳實踐嘅設計邏輯——投入時間做前置配置，換取後續重複任務嘅效率躍升。

整理重點

任務啟動：結構化提示與規劃先行

對於複雜代碼庫，有效提示詞應包含四個明確維度：Goal、Context、Constraints、Done when。呢個框架嘅價值在於限制智能體嘅假設空間。

1 Goal：要構建或修改咩
2 Context：相關文件、文檔、報錯信息（可通過 @ 引用）
3 Constraints：架構標準、安全要求、團隊規範
4 Done when：測試通過、行為變更、Bug 消除等可驗證狀態

另外，Codex 提供多級推理能力，建議按任務複雜度匹配。複雜任務應先用/plan 模式規劃，再進入編碼——先規劃後編碼係減少返工嘅關鍵。

整理重點

知識沉澱：AGENTS.md 層級體系

AGENTS.md 被定義為面向智能體嘅開放式 README，設計遵循就近優先原則：個人、倉庫、子目錄層級覆蓋。一個高質量嘅 AGENTS.md 應包含倉庫結構、運行方式、工程規範、約束與禁忌等。

~/.codex/AGENTS.md：個人全局默認值
./AGENTS.md：倉庫級共享標準
./子目錄/AGENTS.md：局部特定規則（優先級最高）

整理重點

質量閉環與工作流固化

Codex 不應止於代碼生成，而應構成完整質量閉環。關鍵動作包括編寫測試、運行測試套件、執行 lint、確認行為符合預期、審查 diff。工具層面提供/review 命令，支援 PR 式審查。

當工作流反覆使用時，應封裝為 Skills，每個 Skill 單一職責，從一個代表性任務開始。Automation 則定義時間表，令穩定工作流定時執行。

技能（Skills）：將指令、上下文和支持邏輯打包進 SKILL.md 文件，實現跨平台複用
自動化（Automations）：透過定時後台執行，適用於近期提交摘要、Bug 掃描、發佈說明起草等場景

整理重點

六大關鍵能力升級

Codex 最新發布六大關鍵能力升級，令佢成為貫穿整個軟件開發生命週期嘅主動型夥伴。

1 桌面級電腦使用：具備 Mac 完整視覺感知與操作能力，可後台並行執行
2 原生瀏覽器集成：網頁批註與視覺指令，聚焦前端和遊戲開發調試
3 圖像生成與迭代：集成 gpt-image-1.5，實現設計與開發閉環
4 開發者工作流深度整合：支援PR 評論處理、多終端與遠端開發、富媒體預覽
5 自動化與長期任務：保留對話線程上下文，支援定時任務調度
6 記憶與主動建議：持久記錄偏好與歷史糾正，基於上下文主動提出工作建議

OpenAI Codex 官方最佳實踐同六大關鍵能力升級

OpenAI 官方發佈嘅 Codex Best practices 畀我哋一個最大嘅提示：Codex 嘅最大效能唔係來自單次提示詞嘅精雕細琢，而係取決於能否將臨時性交互轉化為可複用嘅工程基礎設施。

OpenAI Codex 提出咗一套完整嘅人機協作架構——通過 AGENTS.md 建立上下文契約，通過 Skills 固化重複工作流，通過 Automations 實現規模化執行，再通過 MCP 打通外部系統邊界。佢嘅本質係將 Codex 從「畀人查嘅問答工具」重新配置為「可以嵌入軟件工程全生命週期（規劃、編碼、測試、審查、知識沉澱）嘅協作節點」。

最佳實踐嘅關鍵認知轉變在於：對 Codex 嘅時間投資應該放喺配置階段，而唔係消耗喺反覆糾錯嘅交互度。佢強調將已經驗證有效嘅提示模式、審查標準同執行流程，從對話層下沉到文件層（AGENTS.md、Skill 定義、配置模板），令 Codex 喺每次會話開始時就具備穩定嘅上下文理解、質量標準同工具接入，從而減少假設、降低方差、實現跨會話嘅一致性輸出。

Codex Best practices
https://developers.openai.com/codex/learn/best-practices^[1]

而 Codex 最新發佈嘅六個關鍵能力升級，更加令佢成為貫穿成個軟件開發生命週期嘅主動型夥伴，官方口號似乎要成真Codex for (almost) everything.

Codex for (almost) everything
https://openai.com/index/codex-for-almost-everything/^[2]

核心哲學：由工具變隊友

開頭就確立咗一個關鍵認知轉變：Codex 唔係搜索引擎，亦唔係一次性助手，而係需要持續配置同改進嘅協作智能體。呢個哲學貫穿全文，決定咗所有後續最佳實踐嘅設計邏輯——投入時間做前置配置（AGENTS.md、Skills、Automations），換取後續重複任務嘅效率躍升。

任務啟動：上下文工程

1. 提示詞嘅四要素框架

對於複雜代碼庫，有效嘅提示詞應該包含四個明確維度：

Goal（目標）：要構建或者修改啲乜
Context（上下文）：相關文件、文檔、報錯信息（可以通過 @ 引用）
Constraints（約束）：架構標準、安全要求、團隊規範
Done when（完成標準）：測試通過、行為變更、Bug 消除等可驗證狀態

呢個框架嘅價值在於限制智能體嘅假設空間。喺大型代碼庫入面，缺乏明確邊界嘅任務好易產生「幻覺式」實現。

2. 推理級別嘅動態選擇

Codex 提供多級推理能力（Low / Medium / High / Extra High），建議按任務複雜度匹配：

Low：邊界清晰、範圍明確嘅快速任務
Medium / High：複雜變更或者調試場景
Extra High：長週期、多步驟、需要深度推理嘅 Agentic 任務

複雜任務：先規劃，後編碼

針對模糊或者複雜需求，指南提供咗三條互補路徑：

Plan 模式（/plan）：最推薦嘅默認選項。Codex 喺呢個模式下會先收集上下文、提出澄清問題、構建執行計劃，然後先進入編碼階段。
訪談模式：當用戶得個模糊諗法嗰陣，可以要求 Codex 主動挑戰假設，將模糊需求轉化為具體規格。
PLANS.md 模板：針對高級工作流，可以定義結構化嘅執行計劃模板，用喺多步驟長期任務。

呢一節嘅關鍵洞察係：喺軟件工程入面，規劃階段嘅成本遠低過返工成本。Codex 作為智能體都係跟返呢條定律。

知識沉澱：AGENTS.md 嘅層級體系

呢個係全文最具工程價值嘅部分之一。AGENTS.md 被定義為「面向智能體嘅開放式 README」，佢嘅設計跟隨就近優先原則：

~/.codex/AGENTS.md          ← 個人全局默認值
./AGENTS.md                  ← 倉庫級共享標準
./子目錄/AGENTS.md           ← 局部特定規則（優先級最高）

一個高質量嘅 AGENTS.md 應該包含：

倉庫結構同關鍵目錄
項目運行方式
構建、測試、lint 命令
工程規範同 PR 期望
約束同禁忌（Constraints and do-not rules）
「完成」嘅定義同驗證方式

維護建議極具實操性：保持簡短準確，只係喺觀察到重複錯誤嗰陣先追加新規則；當文件太大嗰陣，將特定主題（好似規劃、代碼審查、架構）拆分做獨立 markdown 文件並由主文件引用。

環境配置：一致性基礎設施

配置體系採用三層架構：

~/.codex/config.toml：個人持久偏好（模型選擇、MCP 服務器等）
.codex/config.toml：倉庫特定行為
命令行覆蓋：只用喺一次性場景

特別強調咗沙盒同審批模式嘅安全設計：

Approval mode：控制 Codex 幾時請求權限執行命令
Sandbox mode：控制文件系統讀寫範圍

建議新手從默認嚴格權限開始，只有喺明確需求出現嗰陣先對可信倉庫放寬限制。

質量閉環：測試、驗證同審查

Codex 唔應該只係停喺代碼生成，而係要構成完整嘅質量閉環。關鍵動作包括：

為變更編寫/更新測試
運行相關測試套件
執行 lint、格式化、類型檢查
確認最終行為符合預期
審查 diff 裏面嘅 Bug、迴歸或風險模式

工具層面提供咗 /review 命令，支援：

基於基準分支嘅 PR 式審查
未提交變更審查
提交級審查
自定義審查指令

進階用法係引入 code_review.md 文件並喺 AGENTS.md 中引用，令到審查行為喺團隊層面保持一致。OpenAI 內部實踐係 Codex 審查 100% 嘅 PR。

外部系統集成：MCP 協議

Model Context Protocol（MCP）係連接 Codex 同外部系統嘅開放標準，適用於以下場景：

所需上下文喺倉庫之外（例如數據庫、API 文檔、監控系統）
數據成日變，貼靜態指令唔可行
需要可複用嘅跨項目集成

Codex 支援 STDIO 同 Streamable HTTP 兩種服務器模式，以及 OAuth 認證。

實施建議：由 1-2 個可以消除高頻手動循環嘅工具開始，避免過度集成。

工作流固化：由提示到 Skill

當某個工作流成日重複使用嗰陣，應該將佢封裝做 Skills。Skills 嘅本質係將指令、上下文同支援邏輯打包入 SKILL.md 文件，實現跨平台（CLI、IDE、App）複用。

Skill 設計原則：

單一職責：每個 Skill 只處理一類工作
觸發詞導向：描述入面應該包含用戶實際會用嘅觸發短語
逐漸完善：由 1 個代表性任務開始，而唔係試圖覆蓋曬所有邊界情況

典型適用場景：

日誌分類（Log triage）
發佈說明起草
PR 審查（基於檢查清單）
遷移規劃
遙測/事件摘要
標準調試流程

儲存位置：

個人 Skill：$HOME/.agents/skills
團隊共享 Skill：倉庫內 .agents/skills（方便新人上手）

規模化執行：Automation 自動化

當工作流夠穩定之後，可以通過 Automation 實現定時背景執行。關鍵配置維度包括：

目標項目
執行提示詞（可以調用 Skills）
運行頻率
執行環境（專用 git worktree 或者本地環境）

適用場景：

近期提交摘要
潛在 Bug 掃描
發佈說明起草
CI 失敗檢查
站會摘要生成
定時分析工作流

核心法則：Skill 定義「方法」，自動化定義「時間表」。如果工作流仲需要大量人手幹預，先 Skill 化；只有當佢可以預測嗰陣，自動化先會產生槓桿效應。

會話管理：線程即工作上下文

Codex 會話唔單止係聊天記錄，更加係累積上下文、決策同動作嘅工作線程。有效管理直接影響輸出質量：

關鍵命令/操作：

/plan：切換規劃模式
/resume：恢復已保存嘅對話
/fork：建立新線程並保留原始記錄
/compact：線程太長嗰陣壓縮早期上下文（系統亦會自動壓縮）
/agent：喺並行智能體之間切換

組織原則：

保持單線程單任務：同一問題嘅後續工作應該留喺原線程以保留推理鏈條
只係喺工作真正分支嗰陣先 Fork
利用**子智能體（Subagents）**將邊界明確嘅任務（好似探索、測試、分類）從主線程卸載

常見錯誤：反模式清單

指南最後列出咗新手易犯嘅八類錯誤，可以歸納為三個維度：

認知層面：

將 Codex 當做需要逐步監督嘅工具，而唔係可以並行協作嘅隊友
對高權限缺乏警覺（未理解工作流之前就畀曬成部電腦嘅權限）

工程層面：

將持久規則塞入單次提示，而唔係寫入 AGENTS.md 或者 Skill
冇提供構建/測試命令，令到智能體無法驗證自己嘅工作
跳過多步驟任務嘅規劃階段
喺自動化未手動跑通之前就嘗試定時執行

上下文層面：

同一項目用單一線程，導致上下文膨脹同結果質量下降
喺冇 git worktree 嘅情況下並行運行多個實時線程操作同一個文件

Codex 六個關鍵能力升級

1. 桌面級電腦使用（Computer Use）

Codex 而家已經具備對 Mac 嘅完整視覺感知同操作能力：

視覺感知同 GUI 操控：通過視覺理解界面元素，獨立完成點擊、輸入等操作，可以運行本地任何應用
背景並行運行：支援多個智能體喺背景同時工作，唔會干擾用戶當前操作
填補 API 缺口：可以操作冇開放 API 嘅 GUI 應用（例如特定設計軟件、Legacy 系統等）
典型場景：自動喺瀏覽器測試前端頁面、喺 Figma 檢查設計稿、操作數據庫管理工具等

2. 原生瀏覽器集成

網頁批註同視覺指令：內置瀏覽器支援直接喺網頁上批註同評論，為智能體提供精確嘅視覺反饋
能力邊界：當前集中喺前端同遊戲開發調試，將來會擴展到完全控制瀏覽器（超越本地開發服務器限制）

3. 圖像生成同迭代（gpt-image-1.5）

Codex 而家已經集成圖像生成能力，實現設計同開發閉環：

生成範圍：產品概念圖、UI Mockup、遊戲素材等
工作流整合：結合屏幕截圖同代碼，喺同一個上下文中完成「編碼→預覽→生成視覺素材」嘅迭代
版本前瞻：gpt-image-2 目前已經進入測試階段

4. 開發者工作流深度整合

針對專業開發者場景嘅核心增強：

PR 評論處理：可以直接回應並處理 GitHub Pull Request 嘅 Review Comments
多終端同遠程開發：支援多終端標籤頁；可以通過 SSH 連接遠程開發環境（Alpha 階段）
富媒體預覽：側邊欄支援直接預覽 PDF、表格、幻燈片同文檔
摘要面板：提供智能體執行計劃、引用來源同生成產物嘅集中追蹤視圖

5. 自動化同長期任務（Autonomy）

Codex 具備跨會話嘅持續工作能力：

對話線程複用：保留並複用歷史對話嘅上下文信息，避免重複建立背景
定時任務調度：可以為自己安排未來工作，喺幾日或者幾星期後自動醒來執行
典型應用：自動跟進未合併嘅 PR、監控 Slack/Gmail/Notion 動態並生成匯總報告

6. 記憶同主動建議（Memory + Proactive）

持久記憶：記錄用戶個人偏好、歷史糾正同已收集嘅上下文信息，避免重複說明
主動建議：基於項目上下文、插件數據同記憶，主動提出工作建議。例如識別 Google Docs 入面嘅待處理評論，自動從 Slack、Notion 同代碼庫拉相關上下文，生成有優先級嘅待辦清單

總結：實施路徑建議

根據以上框架，建議按以下優先級落地：

立即：為當前主要倉庫建立基本嘅 AGENTS.md，包含運行、測試、lint 命令同關鍵目錄說明
短期：複雜任務之前強制使用 /plan 模式，養成規劃習慣；為高頻重複任務寫第一個 Skill
中期：配置 config.toml 統一模組同權限偏好；引入 1-2 個 MCP 工具消除信息孤島
長期：建立 code_review.md 規範；將穩定嘅 Skill 轉化為 Automation；通過子智能體實現工作流並行化

呢份指南嘅終極價值在於：佢提供嘅唔係提示詞技巧，而係人機協作嘅工程化框架。越早將 Codex 視為需要基礎設施投入嘅團隊成員，就越早可以獲得規模化嘅效率回報。

OpenAI Codex 官方最佳實踐和六大關鍵能力升級

OpenAI 官方發佈的 Codex Best practices 給我們一個最大的提示：Codex 的最大效能並非來自單次提示詞的精雕細琢，而取決於能否將臨時性交互轉化為可複用的工程基礎設施。

OpenAI Codex 提出了一套完整的人機協作架構——通過 AGENTS.md 建立上下文契約，通過 Skills 固化重複工作流，通過 Automations 實現規模化執行，再通過 MCP 打通外部系統邊界。其本質是將 Codex 從"被查詢的問答工具"重新配置為"可嵌入軟件工程全生命週期（規劃、編碼、測試、審查、知識沉澱）的協作節點"。

最佳實踐的關鍵認知轉變在於：對 Codex 的時間投資應當前置到配置階段，而非消耗在反覆糾錯的交互中。它強調把已經驗證有效的提示模式、審查標準和執行流程，從對話層下沉到文件層（AGENTS.md、Skill 定義、配置模板），讓 Codex 在每次會話開始時即具備穩定的上下文理解、質量標準和工具接入，從而減少假設、降低方差、實現跨會話的一致性輸出。

Codex Best practices
https://developers.openai.com/codex/learn/best-practices^[1]

而 Codex 最新發布的六個關鍵能力升級，更是讓它成為了貫穿整個軟件開發生命週期的主動型夥伴，官方口號要成真了Codex for (almost) everything.

Codex for (almost) everything
https://openai.com/index/codex-for-almost-everything/^[2]

核心哲學：從工具到隊友

開篇即確立了一個關鍵認知轉變：Codex 不是搜索引擎，也不是一次性助手，而是需要持續配置和改進的協作智能體。這一哲學貫穿全文，決定了所有後續最佳實踐的設計邏輯——投入時間做前置配置（AGENTS.md、Skills、Automations），換取後續重複任務中的效率躍升。

任務啓動：上下文工程

1. 提示詞的四要素框架

對於複雜代碼庫，有效的提示詞應包含四個明確維度：

Goal（目標）：要構建或修改什麼
Context（上下文）：相關文件、文檔、報錯信息（可通過 @ 引用）
Constraints（約束）：架構標準、安全要求、團隊規範
Done when（完成標準）：測試通過、行為變更、Bug 消除等可驗證狀態

這一框架的價值在於限制智能體的假設空間。在大型代碼庫中，缺乏明確邊界的任務極易產生"幻覺式"實現。

2. 推理級別的動態選擇

Codex 提供多級推理能力（Low / Medium / High / Extra High），建議按任務複雜度匹配：

Low：邊界清晰、範圍明確的快速任務
Medium / High：複雜變更或調試場景
Extra High：長週期、多步驟、需要深度推理的 Agentic 任務

複雜任務：先規劃，後編碼

針對模糊或複雜需求，指南提供了三條互補路徑：

Plan 模式（/plan）：最推薦的默認選項。Codex 在此模式下會先收集上下文、提出澄清問題、構建執行計劃，再進入編碼階段。
訪談模式：當用戶只有模糊想法時，可要求 Codex 主動挑戰假設，將模糊需求轉化為具體規格。
PLANS.md 模板：針對高級工作流，可定義結構化的執行計劃模板，用於多步驟長期任務。

這一節的關鍵洞察是：在軟件工程中，規劃階段的成本遠低於返工成本。Codex 作為智能體同樣遵循這一定律。

知識沉澱：AGENTS.md 的層級體系

這是全文最具工程價值的部分之一。AGENTS.md 被定義為"面向智能體的開放式 README"，其設計遵循就近優先原則：

~/.codex/AGENTS.md          ← 個人全局默認值
./AGENTS.md                  ← 倉庫級共享標準
./子目錄/AGENTS.md           ← 局部特定規則（優先級最高）

一個高質量的 AGENTS.md 應包含：

倉庫結構與關鍵目錄
項目運行方式
構建、測試、lint 命令
工程規範與 PR 期望
約束與禁忌（Constraints and do-not rules）
"完成"的定義與驗證方式

維護建議極具實操性：保持簡短準確，僅在觀察到重複錯誤時才追加新規則；當文件過大時，將特定主題（如規劃、代碼審查、架構）拆分為獨立 markdown 文件並由主文件引用。

環境配置：一致性基礎設施

配置體系採用三層架構：

~/.codex/config.toml：個人持久偏好（模型選擇、MCP 服務器等）
.codex/config.toml：倉庫特定行為
命令行覆蓋：僅用於一次性場景

特別強調了沙盒與審批模式的安全設計：

Approval mode：控制 Codex 何時請求權限執行命令
Sandbox mode：控制文件系統讀寫範圍

建議新手從默認嚴格權限開始，僅在明確需求出現時才對可信倉庫放寬限制。

質量閉環：測試、驗證與審查

Codex 不應止於代碼生成，而應構成完整的質量閉環。關鍵動作包括：

為變更編寫/更新測試
運行相關測試套件
執行 lint、格式化、類型檢查
確認最終行為符合預期
審查 diff 中的 Bug、迴歸或風險模式

工具層面提供了 /review 命令，支持：

基於基準分支的 PR 式審查
未提交變更審查
提交級審查
自定義審查指令

進階用法是引入 code_review.md 文件並在 AGENTS.md 中引用，使審查行為在團隊層面保持一致。OpenAI 內部實踐是 Codex 審查 100% 的 PR。

外部系統集成：MCP 協議

Model Context Protocol（MCP）是連接 Codex 與外部系統的開放標準，適用於以下場景：

所需上下文在倉庫之外（如數據庫、API 文檔、監控系統）
數據頻繁變化，粘貼靜態指令不可行
需要可複用的跨項目集成

Codex 支持 STDIO 和 Streamable HTTP 兩種服務器模式，以及 OAuth 認證。

實施建議：從 1-2 個能消除高頻手動循環的工具開始，避免過度集成。

工作流固化：從提示到 Skill

當某個工作流被反覆使用時，應將其封裝為 Skills。Skills 的本質是將指令、上下文和支持邏輯打包進 SKILL.md 文件，實現跨平台（CLI、IDE、App）複用。

Skill 設計原則：

單一職責：每個 Skill 只處理一類工作
觸發詞導向：描述中應包含用戶實際會使用的觸發短語
漸進完善：從 1 個代表性任務開始，而非試圖覆蓋所有邊界情況

典型適用場景：

日誌分類（Log triage）
發佈說明起草
PR 審查（基於檢查清單）
遷移規劃
遙測/事件摘要
標準調試流程

存儲位置：

個人 Skill：$HOME/.agents/skills
團隊共享 Skill：倉庫內 .agents/skills（便於新人上手）

規模化執行：Automation 自動化

當工作流足夠穩定後，可通過 Automation 實現定時後台執行。關鍵配置維度包括：

目標項目
執行提示詞（可調用 Skills）
運行頻率
執行環境（專用 git worktree 或本地環境）

適用場景：

近期提交摘要
潛在 Bug 掃描
發佈說明起草
CI 失敗檢查
站會摘要生成
定時分析工作流

核心法則：Skill 定義"方法"，自動化定義"時間表"。如果工作流仍需大量人工干預，先 Skill 化；只有當它可預測時，自動化才能產生槓桿效應。

會話管理：線程即工作上下文

Codex 會話不僅是聊天記錄，更是累積上下文、決策和動作的工作線程。有效管理直接影響輸出質量：

關鍵命令/操作：

/plan：切換規劃模式
/resume：恢復保存的對話
/fork：創建新線程並保留原始記錄
/compact：線程過長時壓縮早期上下文（系統也會自動壓縮）
/agent：在並行智能體間切換

組織原則：

保持單線程單任務：同一問題的後續工作應留在原線程以保留推理鏈條
僅在工作真正分支時才 Fork
利用**子智能體（Subagents）**將邊界明確的任務（如探索、測試、分類）從主線程卸載

常見錯誤：反模式清單

指南最後列出了新手易犯的八類錯誤，可歸納為三個維度：

認知層面：

將 Codex 當作需要逐步監督的工具，而非可並行協作的隊友
對高權限缺乏警惕（未理解工作流前給予完整計算機權限）

工程層面：

將持久規則塞進單次提示，而非寫入 AGENTS.md 或 Skill
未提供構建/測試命令，導致智能體無法驗證自身工作
跳過多步驟任務的規劃階段
在自動化尚未手動跑通前就嘗試定時執行

上下文層面：

同一項目使用單一線程，導致上下文膨脹和結果質量下降
在無 git worktree 的情況下並行運行多個實時線程操作相同文件

Codex 六個關鍵能力升級

1. 桌面級計算機使用（Computer Use）

Codex 現已具備對 Mac 的完整視覺感知與操作能力：

視覺感知與 GUI 操控：通過視覺理解界面元素，獨立完成點擊、輸入等操作，可運行本地任意應用
後台並行運行：支持多個智能體在後台同時工作，不干擾用戶當前操作
填補 API 缺口：能夠操作無開放 API 的 GUI 應用（如特定設計軟件、Legacy 系統等）
典型場景：自動在瀏覽器中測試前端頁面、在 Figma 中檢查設計稿、操作數據庫管理工具等

2. 原生瀏覽器集成

網頁批註與視覺指令：內置瀏覽器支持直接在網頁上批註和評論，為智能體提供精確的視覺反饋
能力邊界：當前聚焦前端和遊戲開發調試，未來將擴展至完全控制瀏覽器（超越本地開發服務器限制）

3. 圖像生成與迭代（gpt-image-1.5）

Codex 現已集成圖像生成能力，實現設計與開發閉環：

生成範圍：產品概念圖、UI Mockup、遊戲素材等
工作流整合：結合屏幕截圖與代碼，在同一上下文中完成"編碼→預覽→生成視覺素材"的迭代
版本前瞻：gpt-image-2 目前已進入測試階段

4. 開發者工作流深度整合

針對專業開發者場景的核心增強：

PR 評論處理：可直接響應並處理 GitHub Pull Request 中的 Review Comments
多終端與遠程開發：支持多終端標籤頁；可通過 SSH 連接遠程開發環境（Alpha 階段）
富媒體預覽：側邊欄支持直接預覽 PDF、表格、幻燈片及文檔
摘要面板：提供智能體執行計劃、引用來源和生成產物的集中追蹤視圖

5. 自動化與長期任務（Autonomy）

Codex 具備跨會話的持續工作能力：

對話線程複用：保留並複用歷史對話的上下文信息，避免重複建立背景
定時任務調度：能夠為自身安排未來工作，在數天或數週後自動喚醒執行
典型應用：自動跟進未合併的 PR、監控 Slack/Gmail/Notion 動態並生成彙總報告

6. 記憶與主動建議（Memory + Proactive）

持久記憶：記錄用戶個人偏好、歷史糾正和已收集的上下文信息，避免重複說明
主動建議：基於項目上下文、插件數據和記憶，主動提出工作建議。例如識別 Google Docs 中的待處理評論，自動從 Slack、Notion 和代碼庫拉取相關上下文，生成帶優先級的待辦清單

總結：實施路徑建議

基於以上框架，建議按以下優先級落地：

立即：為當前主要倉庫創建基礎的 AGENTS.md，包含運行、測試、lint 命令和關鍵目錄說明
短期：在複雜任務前強制使用 /plan 模式，養成規劃習慣；為高頻重複任務編寫首個 Skill
中期：配置 config.toml 統一模型與權限偏好；引入 1-2 個 MCP 工具消除信息孤島
長期：建立 code_review.md 規範；將穩定的 Skill 轉化為 Automation；通過子智能體實現工作流並行化

這份指南的終極價值在於：它提供的不是提示詞技巧，而是人機協作的工程化框架。越早將 Codex 視為需要基礎設施投入的團隊成員，就能越早獲得規模化的效率回報。

核心哲學：由工具到隊友

任務啟動：結構化提示與規劃先行

知識沉澱：AGENTS.md 層級體系

質量閉環與工作流固化

六大關鍵能力升級

OpenAI Codex 官方最佳實踐同六大關鍵能力升級

核心哲學：由工具變隊友

任務啟動：上下文工程

1. 提示詞嘅四要素框架

2. 推理級別嘅動態選擇

複雜任務：先規劃，後編碼

知識沉澱：AGENTS.md 嘅層級體系

環境配置：一致性基礎設施

質量閉環：測試、驗證同審查

外部系統集成：MCP 協議

工作流固化：由提示到 Skill

規模化執行：Automation 自動化

會話管理：線程即工作上下文

常見錯誤：反模式清單

Codex 六個關鍵能力升級

1. 桌面級電腦使用（Computer Use）

2. 原生瀏覽器集成

3. 圖像生成同迭代（gpt-image-1.5）

4. 開發者工作流深度整合

5. 自動化同長期任務（Autonomy）

6. 記憶同主動建議（Memory + Proactive）

總結：實施路徑建議

推薦 OpenAI Codex 參考文章

OpenAI Codex 官方最佳實踐和六大關鍵能力升級

核心哲學：從工具到隊友

任務啓動：上下文工程

1. 提示詞的四要素框架

2. 推理級別的動態選擇

複雜任務：先規劃，後編碼

知識沉澱：AGENTS.md 的層級體系

環境配置：一致性基礎設施

質量閉環：測試、驗證與審查

外部系統集成：MCP 協議

工作流固化：從提示到 Skill

規模化執行：Automation 自動化

會話管理：線程即工作上下文

常見錯誤：反模式清單

Codex 六個關鍵能力升級

1. 桌面級計算機使用（Computer Use）

2. 原生瀏覽器集成

3. 圖像生成與迭代（gpt-image-1.5）

4. 開發者工作流深度整合

5. 自動化與長期任務（Autonomy）

6. 記憶與主動建議（Memory + Proactive）

總結：實施路徑建議

推薦 OpenAI Codex 參考文章