燒了 20 億 token 總結的 Codex 使用指南

作者:Feisky
日期:2026年6月5日 上午8:41
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

作者 Feisky 分享用 Codex 桌面版嘅 20 億 token 實戰經驗,總結 10 個實用心得,強調驗證、工具配置同人機協作嘅重要性。

整理版摘要

呢篇文章係 Feisky 基於自己燒咗 20 幾億 token 嘅 Codex 使用經驗寫成嘅指南。佢發現好多人仲係將 Codex 當成普通 coding agent,但其實桌面客戶端已經進化成通用 Agent 客戶端,支援 Skills、Computer Use、瀏覽器操控、Gmail 插件等,甚至可以用 DeepSeek 等第三方模型。佢想解決嘅問題係:點樣先可以真正用盡 Codex 嘅能力,唔係淨係靠 prompt 亂試。整體結論係要建立系統化嘅用法,而唔係靠單次對話。

Feisky 強調,Codex 最強大嘅地方唔係寫 code,而係可以持續處理複雜任務,前提係要用啱方法。佢提出咗幾個核心原則:先畀足 project 背景同規則(AGENTS.md),等 AI 唔好靠幻覺開工;驗證比生成重要,要帶住清晰嘅驗證指標先開始任務;批量操作前一定要加審查,避免 AI 機械式執行而搞出大頭佛。佢仲提醒,工具配置比模型本身更重要,插件同 Skills 決定咗 AI 可以掂到咩世界,而 Skills 最值錢嘅部分係記錄「踩坑經驗」,唔係流程。

最後,Feisky 認為人唔應該退到系統外面,而係要留喺 loop 入面負責糾偏同驗收。佢推介咗 Side Panel 邊睇邊改、遠程接入、定時自動化等進階用法,仲提醒要將重要嘅決策寫入外部文件,而唔係依賴會話壓縮。總括而言,呢篇係一份非常貼地嘅 Codex 進階使用手冊,適合想由「…

  • 先喺 project 根目錄放 AGENTS.md,等 Codex 每次打開都知背景同規則,避免靠幻覺亂做。
  • 驗證比生成重要:任何長任務都要帶住明確嘅驗證條件(例如通過測試、瀏覽器檢查),否則只係願望。
  • 批量修改或刪除前,一定要叫 Codex 先列出所有命中並分組,等你確認先好執行。
  • 工具配置(插件、Skills)決定 Codex 嘅能力上限,而 Skills 最值錢嘅係記錄「踩坑經驗」而唔係流程。
  • 將重要上下文寫入外部文件(TODO.md 等),唔好依賴會話壓縮,咁先可以跨 session 保持一致性。
值得記低
連結 x.com

Jason Liu: Getting the most out of Codex

Codex 基本用法入門文章

連結 developers.openai.com

Codex 功能文檔

官方功能說明

連結 developers.openai.com

Codex Skills 文檔

官方 Skills 開發文檔

Prompt

常用 Skills 安裝命令

npx -y skills add mattpocock/skills -g -s handoff npx -y skills add feiskyer/codex-settings -g -s claude-skill npx -y skills add feiskyer/codex-settings -g -s deep-research npx -y skills add feiskyer/codex-settings -g -s youtube-transcribe-skill

結構示例

內容結構

內容結構 text
npx -y skills add mattpocock/skills -g -s handoffnpx -y skills add feiskyer/codex-settings -g -s claude-skillnpx -y skills add feiskyer/codex-settings -g -s deep-researchnpx -y skills add feiskyer/codex-settings -g -s youtube-transcribe-skill
整理重點

先餵飽背景,先開始任務

AI Agent 最大嘅問題唔係唔識做嘢,而係太好自信亂幹。你唔畀佢 project 背景同規則,佢就按自己想像嚟,容易走錯方向。解決方法好簡單:喺 project 根目錄放一份 AGENTS.mdCodex 每次打開會自動讀呢個檔案,入面可以寫項目背景、技術棧、代碼規範、常見坑、測試方式,等佢好似新入職員工有本手冊跟住。

如果任務涉及特定模組,仲可以喺 prompt 直接話「先讀 docs/xxx.md 再動手」,令佢從文檔開始,唔使靠估。Codex 桌面端有個 置頂會話功能,可以將最常用嘅 thread 固定喺上面,唔好當佢臨時 session,而係當一個持續嘅工作現場。佢會自動壓縮上下文,加上記憶功能,長時任務唔駛開新 thread,慳返好多交接工夫。

整理重點

驗證先係重中之重

講真,叫 Codex 寫 code,隨便一個 coding agent 都做到七八成。真正拉開距離嘅係驗證,要攞真實結果說話。驗證可以係測試、benchmark、Web 截圖、發佈前 checklist,總之以前你手動做嘅檢查,全部要清楚寫出嚟交畀 Codex 負責。

特別係用Goal跑長任務嗰陣,冇驗證嘅 Goal 只係願望。例如「幫我實現呢個計劃」係唔夠嘅,應該加上:「完成後必須通過 xx 測試、瀏覽器檢查同變更摘要;如果驗證失敗,先修問題,唔好直接話做完。」咁樣 Codex 先會真正為結果負責。

整理重點

批量操作前一定要審查

從使用經驗睇,審查同清理類任務最容易出事。Codex 預設傾向係搜到就改、揾到就刪,你要主動喺 prompt 或 AGENTS.md 加條例攔住佢。例如:「批量修改前先列出所有命中,按類型分組(需要改/可能需要改/唔應該鬱),等我確認先好執行。」清理舊分支都係:「先輸出 merged 同 unmerged 對比,標註邊啲舊實現已被 main 覆蓋,唔好直接刪。」

舉個例:代碼庫搜到一堆舊 token 引用,唔係全部都要刪,有啲係測試隔離用,有啲係運行時繼承,真正有問題可能得幾個。如果唔加審查,Codex 可能機械式清曬,然後測試死一片。靠驗證可以執返,但嘥時間同 token。呢種技巧唔係乜嘢高深 AI 能力,而係你要將自己見過嘅坑寫低,等 AI 主動避開。

整理重點

先配好工具,再講模型智能

模型固然重要,但真正決定 AI 做到啲乜嘅,係配置嘅工具、權限、上下文同驗證方式。插件決定 Codex 掂到邊啲外部世界,Skills 決定佢掂到呢啲世界時點做。作者常用插件同 Skills 列喺附錄,但特別強調一個好易忽略嘅位:大多數人寫 Skill 當係說明文,話畀 Codex 做咩步驟。

一開始寫十幾行骨架就夠,用耐咗自然變成成熟 Skill。另外,Side Panel 係另一個好重要嘅工具配搭:將產物放喺側邊欄,邊睇邊改,唔使截圖唔使切窗口。特別適合前端/ui 同文檔報告類任務。

整理重點

留返控制權喺自己手,唔好追求完全自動

Codex 可以自動化好多嘢,但唔代表你要完全放手。越將佢接入真實工作,越會見到邊緣問題:權限、登入態、數據源缺口、工具失敗、上下文壓縮等等。所以更合理嘅用法係:Codex 做收集、執行、驗證同初步整理,人保留判斷、授權同最終責任。

真實工作係邊睇邊改、邊發現邊調整,唔係「人畀完美需求,AI 一次性完成」。《Steering(中途糾偏)》同《Queuing(排隊追加下一步)》就係為呢個設計。人應該企喺系統入面,負責糾偏、驗收同更新規則。

  • AGENTS.md 同外部文件記錄重要決策,唔好依賴記憶。
  • 遠程接入(SSH/手機)令你可以隨時隨地介入。
  • 定時自動化(Thread Automation)可以讓會話自己醒,但一定要避免假裝全知。

Codex 桌面版最近口碑爆曬。我自己已經將好多工作都轉咗去 Codex 客戶端嘅 Goal + GPT-5.5 上面,唔小心就用咗 20 幾億 token。

不過好多人第一次用 Codex,仲係當佢係一個更強嘅 coding agent,用嚟讀倉庫、改代碼、跑測試、寫 PR。咁當然冇錯,Codex 嘅基本功能的確仲係代碼編程。但係佢嘅桌面客戶端已經唔只係編程工具。Skills、Computer Use、瀏覽器操控、Gmail 同 Calendar 等等各種連接器同插件一路加上嚟,早就變成一個通用 Agent 客戶端。甚至你可以透過 ~/.codex/config.toml 配置文件幫佢接入 DeepSeek、Kimi 等第三方模型。

我俾 Codex 掃咗一下最近呢個月嘅會話歷史,總結咗一啲日常嘅使用方法,再加上自己嘅補充,整理成呢篇分享俾大家。如果你仲唔熟 Codex 桌面客戶端嘅使用方法,可以參考 Jason Liu 最近寫嘅 Getting the most out of Codex 文章(連結見文章最後),今日嘅文章假設你已經瞭解 Codex 嘅基本用法。

1. 先俾足上下文,先開始任務

AI Agent 最大嘅問題唔係唔會做嘢,而係太容易基於幻覺自信亂嚟。你唔話俾佢知項目背景同規則,佢就按自己嘅理解去做,好容易過度自信,行錯方向。

要解決都好簡單,寫一個 AGENTS.md 放喺項目根目錄。Codex 每次打開項目會自動讀呢個文件,裏面可以寫項目背景、技術棧、代碼規範、常見坑、測試方式,即係俾佢一份新人上崗須知。如果任務涉及特定模塊,仲可以喺 prompt 直接指定「先讀 docs/xxx.md 先鬱手」,等佢從文檔開始而唔係靠猜。

Codex 桌面端有個置頂會話幾好用,你可以將最常用嘅會話固定喺前面。唔好將 Codex 嘅會話當成臨時會話,而係一個持續嘅工作現場。Codex 已經可以自動幫你壓縮會話上下文,再加上佢嘅記憶功能,長時任務唔需要新開會話,可以持續喺同一個會話入面繼續。

呢個都係我覺得 Codex 最好用嘅一點,避免咗好多上下文交接嘅問題,可以真正幫你做啲大嘢。

2. 驗證比生成重要得多

講真,俾 Codex 寫代碼,隨便一個 coding agent 都做到七八成。真正拉開差距嘅係驗證,要用真實嘅驗證結果去衡量。

驗證可以係好多嘢:測試套件、benchmark、Web 界面截圖、發佈前 checklist 等等,即係之前你自己手動做嘅所有操作應該都描述清楚,交俾 Codex 等佢負責。

特別係用 Goal 跑長任務嘅時候,呢點更加必不可少。例如,「幫我將呢個計劃實現曬」睇落有目標,但其實冇明確嘅停止條件。而好嘅 Goal 應該帶上清晰嘅驗證器:「完成之後必須通過 xx 測試、瀏覽器檢查同人工可審閲嘅變更摘要。如果驗證失敗,先修驗證失敗嘅問題,唔好直接宣佈完成。」

冇驗證嘅 Goal,其實只係願望。

3. 批量操作之前加審查

從我自己嘅使用歷史嚟睇,審查同清理類任務最容易出事。Codex 默認傾向係搜到就改,揾到就刪。呢個時候,你需要主動喺提示詞入面攔一攔。

具體做法係喺 prompt 或 AGENTS.md 加審查規則。例如「批量修改之前先列出所有命中並按類型分組(需要改 / 可能需要改 / 唔應該鬱),等我確認先執行」。清理舊分支都一樣:「先輸出 merged 同 unmerged 分支對比,標註邊啲舊實現已被 main 覆蓋,唔好直接刪」。

舉個例,代碼庫入面搜到一堆舊 token 引用,唔係全部命中都要刪。有啲係測試隔離需要嘅,有啲係運行時繼承嘅,真正有問題嘅可能得幾個。如果唔加審查呢道程序,Codex 可能會機械式咁全部清走,然後測試死曬(針對呢個例子,加上上一步講嘅驗證其實可以自動修復返嚟,但會浪費好多時間+token)。

呢種唔係什麼高大上嘅 AI 能力,但特別體現人嘅判斷,需要你將成日見到嘅坑話俾 AI 知,等佢主動避開。

4. 先配工具,再講智能

模型當然重要,但真正決定 AI 做到啲乜嘅,係配置嘅工具、權限、上下文同驗證方式。插件決定 Codex 掂到邊啲外部世界,Skills 決定佢掂到呢啲世界時要點做。我自己常用嘅插件同 Skills 列咗喺文末附錄,呢度只講一個最容易被忽略嘅點。

大多數人寫 Skill,會當佢係說明文檔:話俾 Codex 知要做乜、按咩順序做。咁當然有用,但 Skill 真正值錢嘅部分唔係流程,而係 Gotchas,即係每次 Codex 犯錯之後補入去嘅「唔好踩呢個坑」。

比如:

  • • 呢個數據源成日唔用得,唔好估。
  • • 呢個任務結束之前必須跑某個驗證。
  • • 呢個工具第一次會失敗,失敗之後應該轉另一種方法。
  • • 呢種類型嘅 review 唔可以機械接受,要逐條驗證。
  • • 呢個工作流適合先搜闊啲,再只開高價值嘅候選。

一開始寫十幾行骨架就夠,用一段時間之後佢自然會變成一個成熟嘅 Skill。好用嘅 Skill 冇可能一次寫好,都係用實際經驗養出嚟。

5. 用 Side Panel 邊睇邊改

以前用 AI 做文檔、網頁、PPT,最煩係上下文切來切去。AI 喺聊天框生成,產物喺另一個窗口打開,發現問題又要截圖返嚟描述。來回幾次,人同 AI 都開始丟上下文。

Codex 嘅 Side Panel 可以將產物留喺工作流入面直接改。具體做法係:叫 Codex 生成一個 index.html 或者打開一個 localhost 頁面,佢會喺側邊欄渲染出嚟。你一邊睇渲染結果,一邊喺同一個線 thread 話「呢個掣太大」「表格第三列數據唔啱」,唔使截圖,唔使轉窗口。

有兩類任務特別適合呢個場景。一類係前端同網頁,直接喺旁邊檢查樣式、交互同移動端適配。另一類係文檔型產物,報告、表格、PPT、數據分析頁面放喺旁邊邊睇邊改,比起導出再反饋高效好多。

6. 重要上下文寫入文件

會話會壓縮,模型可能會切換,對話入面嘅重要決策同驗證方式如果唔主動寫到外部文件,好容易會丟失。

我自己做長任務嘅時候(特別係跨日嘅任務),會特登叫 Codex 總結記錄 summary、checkpoint、handoff 文檔同下次接住做嘅入口說明。下一個會話或者新任務可以跟住呢啲文件繼續,唔使從零開始。

要實現都好容易,唔需要搞複雜嘅記憶系統。一個 TODO.md 寫待辦事項,再加幾個文件夾分類放踩坑記錄同項目狀態,就夠。關鍵係可檢查、可編輯、可刪除。Codex 內置嘅 Memory 同 Chronicle 可以用嚟做快速回憶層,但代替唔到外部文件。只有寫入文件嘅記憶,先有機會變成系統。

7. 隨時在線,隨處接管

長任務跑緊嘅時候,你唔需要成日坐喺電腦前。喺 ChatGPT 手機端連上你嘅 Mac 或遠程機器,可以隨時俾遠端嘅 Codex 落任務,或者回覆 Codex 需要你介入嘅問題。

一般嚟講,當你將任務定義清楚之後,就可以透過 Goal 啟動長時任務,然後等 Codex 通知就得。你可以喺手機上隨時睇到佢嘅輸出、審批命令、中途糾偏。唔使坐喺電腦面前睇住,同時關鍵決策又可以隨時介入。

如果你有 Linux 伺服器,Remote SSH 更加值得配置。Codex 會自動讀取本地 SSH config 入面嘅主機列表,連上之後直接喺遠端伺服器入面跑任務。日常運維、配置管理、代碼部署,SSH 連上就可以叫 Codex 做嘢,電腦端或者手機端都可以隨時跟進。配合前面講嘅 AGENTS.md 同文件記憶,遠程接入嘅時候上下文仲喺度,唔使重新交代背景。

8. 定時自動化:等會話自己醒

前面講嘅遠程接入係「你主動去俾 AI 落任務」,而定時自動化係「等 AI 主動揾你」。

具體做法係俾置頂線 thread 設一個 Thread Automation。同普通定時任務唔同,Thread Automation 每次觸發會返返同一個線 thread,帶住上次嘅上下文繼續做嘢。佢知道上次檢查到邊度,邊啲事項已經處理過,邊啲數據源連唔到。

我自己用得比較多嘅有兩類。一類係信息聚合:每日早上自動檢查未讀郵件同 IM 消息,按優先級整理好,等我打開嘅時候直接睇結論。另一類係監控類:定期檢查 PR 列表、問題反饋或者關注列表,有新內容就整理摘要,冇就打擾。

呢度有一點要注意嘅係唔好俾自動化扮全知。冇就係冇,唔好老作虛假信息;依賴不可用就直接報告不可用,唔好自作聰明。

9. 唔只係代碼:郵件、調研、文檔都做到

文章到呢度,其實大部分場景都仲係同代碼相關。但 Codex 桌面客戶端接上 Gmail、Browser、Documents 呢啲插件之後,好多非代碼任務都做到唔錯。

我自己用得比較多嘅幾個場景:叫 Codex 睇過個項目同相關郵件,做圖文並茂嘅彙報 PPT;俾一個調研主題,叫佢用 deep-research 搜多個來源,整理成有出處嘅摘要;會議前將相關文檔同之前嘅討論俾佢,叫佢準備一份簡要;寫完公眾號文章之後叫佢排版成微信公眾號格式並生成封面圖。

呢啲任務嘅共通點係:以前要喺好幾個工具之間切來切去,而家可以喺一個會話入面串連起嚟,慳返好多唔同工具同上下文切換。

10. 唔好追求全自動,要將主動權留喺人手

Codex 好用,亦都可以自動化好多任務,但並唔代表你要完全放手俾佢全自動自己玩。

啱啱相反,你越將佢接入真實工作流,越會見到好多邊緣問題:權限、登錄態、數據源缺口、工具失敗、上下文壓縮、驗證唔充分、自動化誤觸發等等。

所以更合理嘅用法係:叫 Codex 做上下文收集、執行、驗證同初步整理,人保留判斷、授權同最終責任。Codex 嘅 Steering(中途糾偏)同 Queuing(排隊追加下一步)就係為咗呢個設計。真實嘅工作往往都係邊睇邊改、邊發現邊調整,唔係「人俾一個完美需求,叫 AI 一次性完成」。

即係話,人唔應該退到系統外面,而係企喺系統入面,負責糾偏、驗收同更新規則。

Codex 嘅語音輸入都係一個等人留喺 loop 入面好好嘅設計。佢唔係叫你口述代碼,而係喺想法未成形嘅時候隨時輸入俾 Codex,或者喺 Codex 行歪嘅時候隨時修正。語音輸入唔需要好完整,有錯別字都冇所謂,模糊指令對一個已經掌握足夠上下文嘅 AI 嚟講已經足夠令佢理解你嘅意圖。


相關連結:

  • • Jason Liu Getting the most out of Codex:https://x.com/jxnlco/status/2057153744630890620
  • • Codex 功能文檔:https://developers.openai.com/codex/app/features/
  • • Codex Skills 文檔:https://developers.openai.com/codex/skills

附錄:我常用嘅插件同 Skills

以下係文中第 4 條提到嘅工具清單,俾大家參考。

常用插件:

  • • Browser:本地網頁、localhost、側邊欄入面嘅頁面檢查同截圖。
  • • Chrome:需要登錄態、真實 Chrome profile、遠程網頁操作時用。
  • • Computer Use:只能透過桌面 GUI 完成嘅工作。
  • • Gmail:搜尋郵件、讀取正文、篩選待辦、草擬回覆。
  • • Documents / Presentations / Spreadsheets:文檔、PPT、表格。
  • • Product Design:產品、原型、截圖到交互稿。
  • • Build Web Apps:前端應用、組件、瀏覽器驗證。
  • • HyperFrames / Remotion:視頻、動畫、程序化內容。
  • • Superpowers:計劃、TDD、系統化調試、驗證、代碼 review、開發分支收尾。
  • • Codex Security:安全掃描、威脅建模、finding 修復。

常用 Skills:

  • • brainstorming(Superpowers插件自帶):頭腦風暴同 SPEC 設計。
  • • handoff:將當前對話整理成交接文檔(用嚟開新會話接手)。
  • • deep-research:多源搜尋調研。
  • • claude-skill:用 Claude Code 寫文檔、做設計或者同 Codex PK。
  • • twitter-cli / xfetch:讀取同搜尋 X/Twitter 內容。
  • • xiaohongshu-cli:搜小紅書內容。
  • • youtube-transcribe-skill:解析下載 Youtube 視頻字幕。

相關 Skills 嘅安裝方法:

npx -y skills add mattpocock/skills -g -s handoff
npx -y skills add feiskyer/codex-settings -g -s claude-skill
npx -y skills add feiskyer/codex-settings -g -s deep-research
npx -y skills add feiskyer/codex-settings -g -s youtube-transcribe-skill

相關 CLI 工具嘅安裝方法:

uv tool install xiaohongshu-cli twitter-cli
npm install -g xfetch-cli

好啦,今日就講到呢度。如果你都喺度探索 AI 編程同 AI 工具,歡迎關注 Feisky 公眾號,我會定期分享實踐入面嘅發現同踩坑經驗。

Codex 桌面版最近口碑爆了。我自己已經把很多工作都切到了 Codex 客戶端的 Goal + GPT-5.5 上,一不小心就用了 20 多億 token。

不過很多人第一次用 Codex,還是把它當一個更強的 coding agent,用來讀倉庫、改代碼、跑測試、寫 PR。這當然沒錯,Codex 的基本功能確實還是代碼編程。但它的桌面客戶端已經不只是編程工具了。Skills、Computer Use、瀏覽器操控、Gmail 和 Calendar 等等各種連接器和插件一路加上來,早就成了一個通用 Agent 客戶端。甚至你還可以通過 ~/.codex/config.toml 配置文件給它接入 DeepSeek、Kimi 等第三方模型。

我讓 Codex 掃了一下最近這個月的會話歷史,總結了一些日常的使用方法,再加上自己的補充,整理成這篇分享給大家。如果你還不熟悉 Codex 桌面客戶端的使用方法,可以參考 Jason Liu 最近寫的 Getting the most out of Codex 文章(連結見文章最後),今天的文章假設你已經瞭解了 Codex 的基本用法。

1. 先給足上下文,再開始任務

AI Agent 最大的問題不是不會幹活,而是太容易基於幻覺自信亂幹。你不告訴它項目背景和規則,它就按自己的理解來,很容易過度自信,走向錯誤的方向。

要解決也很簡單,寫一個 AGENTS.md 放在項目根目錄。Codex 每次打開項目會自動讀這個文件,裏面可以寫項目背景、技術棧、代碼規範、常見坑、測試方式,相當於給它一份新人上崗須知。如果任務涉及特定模塊,還可以在 prompt 裏直接指定“先讀 docs/xxx.md 再動手”,讓它從文檔而不是從猜測開始。

Codex 桌面端有個置頂會話挺好用的,你可以把最常使用的會話固定在前面。不要把 Codex 的會話當成臨時會話,而是一個持續的工作現場。Codex 已經能夠自動幫你壓縮會話上下文,再加上它的記憶功能,長時任務不需要新開會話,可以持續在同一個會話裏持續下去。

這也是我覺得 Codex 最好用的一點,避免了很多上下文交接的問題,可以真正幫你幹大活了。

2. 驗證比生成重要得多

說實話,讓 Codex 寫代碼,隨便一個 coding agent 都能做個七八成。真正拉開差距的是驗證,要拿真實的驗證結果說話。

驗證可以是很多東西:測試套件、benchmark、Web 界面截圖、發佈前 checklist 等等,也就是之前你自己手動做的所有操作應該都描述清楚,交給 Codex 讓它去負責。

特別是在用 Goal 跑長任務的時候,這點更是必不可少。比如,“幫我把這個計劃實現完” 看起來有目標,但其實並沒有明確的停止條件。而好的 Goal 應該帶上清晰的驗證器:“完成後必須通過 xx 測試、瀏覽器檢查和人工可審閲的變更摘要。如果驗證失敗,先修驗證失敗的問題,不要直接宣佈完成。”

沒有驗證的 Goal,其實只是願望。

3. 批量操作前加審查

從我自己的使用歷史來看,審查和清理類任務最容易翻車。Codex 默認傾向是搜到了就改,找到了就刪。這時候,你需要主動在提示詞裏面攔一下。

具體做法是在 prompt 或 AGENTS.md 里加上審查規則。比如“批量修改前先列出所有命中並按類型分組(需要改 / 可能需要改 / 不該動),等我確認再執行”。清理舊分支也一樣:“先輸出 merged 和 unmerged 分支對比,標註哪些舊實現已被 main 覆蓋,不要直接刪”。

舉個例子,代碼庫裏搜到一堆舊 token 引用,不是所有命中都該刪。有些是測試隔離需要的,有些是運行時繼承的,真正有問題的可能只有幾個。如果不加審查這道程序,Codex 可能會機械地全部清掉,然後測試掛一片(針對這個例子,加上上一步說的驗證其實可以自動修復回來,但會浪費很多時間+token)。

這種不是高大上的 AI 能力,但特別體現人的判斷,需要你把經常看到的坑告訴 AI,讓它去主動規避。

4. 先配工具,再談智能

模型當然重要,但真正決定 AI 能幹什麼的,是配置的工具、權限、上下文和驗證方式。插件決定 Codex 能碰到哪些外部世界,Skills 決定它碰到這些世界時該怎麼做。我自己常用的插件和 Skills 列在了文末附錄裏,這裏只說一個最容易被忽略的點。

大多數人寫 Skill,會把它當成說明文檔:告訴 Codex 該做什麼、按什麼順序做。這當然有用,但 Skill 真正值錢的部分不是流程,而是 Gotchas,也就是每次 Codex 犯錯之後補進去的“別踩這個坑”。

比如:

  • • 這個數據源經常不可用,不要猜。
  • • 這個任務結束前必須跑某個驗證。
  • • 這個工具第一次會失敗,失敗後應該換另一種方式。
  • • 這個類型的 review 不能機械接受,要逐條驗證。
  • • 這個工作流適合先搜寬一點,再只打開高價值候選。

一開始寫個十幾行骨架就夠了,用一段時間後它自然會長成一個成熟 Skill。好用的 Skill 不可能一次寫好的,都是拿實際經驗養出來的。

5. 用 Side Panel 邊看邊改

以前用 AI 做文檔、網頁、PPT,最煩的是上下文切來切去。AI 在聊天框裏生成,產物在另一個窗口打開,發現問題又要截圖回來描述。來回幾次,人和 AI 都開始丟上下文。

Codex 的 Side Panel 可以把產物留在工作流裏直接改。具體做法是:讓 Codex 生成一個 index.html 或者打開一個 localhost 頁面,它會在側邊欄渲染出來。你一邊看渲染結果,一邊在同一個線程裏說“這個按鈕太大了”“表格第三列數據不對”,不用截圖,不用切窗口。

有兩類任務特別適合這個場景。一類是前端和網頁,直接在旁邊檢查樣式、交互和移動端適配。另一類是文檔型產物,報告、表格、PPT、數據分析頁面放在旁邊邊看邊改,比導出再反饋高效得多。

6. 重要上下文寫到文件裏

會話會壓縮,模型可能會切換,對話裏的重要決策和驗證方式如果不主動寫到外部文件裏,就很容易會被丟掉。

我自己在做長任務的時候(特別是那種跨天的任務),會特意讓 Codex 總結記錄下 summary、checkpoint、handoff 文檔和下次接手的入口說明。下一個會話或者新任務可以接着這些文件繼續,不用從零開始。

要實現也很容易,不需要搞複雜的記憶系統。一個 TODO.md 寫待辦事項,再加幾個文件夾分類放踩坑記錄和項目狀態,就夠了。關鍵是可檢查、可編輯、可刪除。Codex 內置的 Memory 和 Chronicle 可以當快速回憶層用,但替代不了外部文件。只有寫進文件裏的記憶,才有機會變成系統。

7. 隨時在線,隨處接管

長任務跑着的時候,你不需要一直坐在電腦前。在 ChatGPT 手機端連上你的 Mac 或遠程機器,可以隨時給遠端的 Codex 下任務,或者回復 Codex 需要你介入的問題。

一般來說,當你把任務定義清楚之後,就可以通過 Goal 來啓動長時任務,然後等着 Codex 的通知就可以了。你可以在手機上隨時能看到它的輸出、審批命令、中途糾偏。不用坐在電腦面前盯着,同時關鍵決策又可以隨時介入。

如果你有 Linux 服務器,Remote SSH 更值得配一下。Codex 會自動讀取本地 SSH config 裏的主機列表,連上之後直接在遠程服務器裏跑任務。日常運維、配置管理、代碼部署,SSH 連上就能讓 Codex 幹活,電腦端/手機端都可以隨時跟進。配合前面說的 AGENTS.md 和文件記憶,遠程接入的時候上下文還在,不用重新交代背景。

8. 定時自動化:讓會話自己醒過來

前面說的遠程接入是“你主動去給 AI 下發任務”,而定時自動化是“讓 AI 主動來找你”。

具體做法是給置頂線程設一個 Thread Automation。跟普通定時任務不同,Thread Automation 每次觸發會回到同一個線程,帶着上次的上下文繼續工作。它知道上次檢查到了哪裏,哪些事項已經處理過,哪些數據源接不上。

我自己用得比較多的是兩類。一類是信息聚合:每天早上自動檢查未讀郵件和 IM 消息,按優先級整理好,等我打開的時候直接看結論。另一類是監控類:定期檢查 PR 列表、問題反饋或者關注列表,有新內容就整理摘要,沒有就不打擾。

這兒有一點需要注意的是不要讓自動化假裝全知。沒有就是沒有,不要編造虛假信息;依賴不可用就直接報不可用,不要自作聰明。

9. 不只是代碼:郵件、調研、文檔也能跑

文章到這裏,其實大部分的場景還都是跟代碼相關的。但 Codex 桌面客戶端接上 Gmail、Browser、Documents 這些插件之後,很多非代碼任務也都能跑的不錯。

我自己用得比較多的幾個場景:讓 Codex 過一遍項目和相關郵件,做圖文並茂的彙報 PPT;給一個調研主題,讓它用 deep-research 搜多個來源,整理成帶出處的摘要;會議前把相關文檔和之前的討論丟給它,讓它準備一份簡要;寫完公眾號文章後讓它排版成微信公眾號格式並生成封面圖。

這些任務的共同點是:以前要在好幾個工具之間切來切去,現在可以在一個會話裏串起來,省掉了大量的不同工具和上下文切換。

10. 別追求全自動,要把主動權留在人的手裏

Codex 好用,也可以自動化很多任務,但並不意味着你就要完全放手讓它全自動去自己玩。

恰恰相反,你越把它接進真實工作流,越會看到很多邊緣問題:權限、登錄態、數據源缺口、工具失敗、上下文壓縮、驗證不充分、自動化誤觸發等等。

所以更合理的用法是:讓 Codex 做上下文收集、執行、驗證和初步整理,人保留判斷、授權和最終責任。Codex 的 Steering(中途糾偏)和 Queuing(排隊追加下一步)就是為這個設計的。真實的工作往往都是邊看邊改、邊發現邊調整,不是“人給一個完美需求,讓 AI 一次性完成”。

也就是說,人不應該退到系統外面,而是站在系統裏面,負責糾偏、驗收和更新規則。

Codex 的語音輸入也是一個讓人留在 loop 裏很好的設計。它不是讓你口述代碼的,而是在想法還沒成型的時候隨時輸入給 Codex,或者在 Codex 走偏的時候隨時修正它。語音輸入不需要很完整,有錯別字啥的都沒關係,模糊指令對一個已經掌握足夠上下文的 AI 來說已經足夠讓它理解你的意圖。


相關連結:

  • • Jason Liu Getting the most out of Codex:https://x.com/jxnlco/status/2057153744630890620
  • • Codex 功能文檔:https://developers.openai.com/codex/app/features/
  • • Codex Skills 文檔:https://developers.openai.com/codex/skills

附錄:我常用的插件和 Skills

以下是文中第 4 條提到的工具清單,供參考。

常用插件:

  • • Browser:本地網頁、localhost、側邊欄裏的頁面檢查和截圖。
  • • Chrome:需要登錄態、真實 Chrome profile、遠程網頁操作時用。
  • • Computer Use:只能通過桌面 GUI 完成的工作。
  • • Gmail:搜索郵件、讀取正文、篩選待辦、草擬回覆。
  • • Documents / Presentations / Spreadsheets:文檔、PPT、表格。
  • • Product Design:產品、原型、截圖到交互稿。
  • • Build Web Apps:前端應用、組件、瀏覽器驗證。
  • • HyperFrames / Remotion:視頻、動畫、程序化內容。
  • • Superpowers:計劃、TDD、系統化調試、驗證、代碼 review、開發分支收尾。
  • • Codex Security:安全掃描、威脅建模、finding 修復。

常用 Skills:

  • • brainstorming(Superpowers插件自帶):頭腦風暴和 SPEC 設計。
  • • handoff:將當前對話整理成交接文檔(用於新開會話接手)。
  • • deep-research:多源搜索調研。
  • • claude-skill:調用 Claude Code 寫文檔、做設計或者跟 Codex PK。
  • • twitter-cli / xfetch:讀取和搜索 X/Twitter 內容。
  • • xiaohongshu-cli:搜小紅書內容。
  • • youtube-transcribe-skill:解析下載 Youtube 視頻字幕。

相關 Skills 的安裝方法:

npx -y skills add mattpocock/skills -g -s handoff
npx -y skills add feiskyer/codex-settings -g -s claude-skill
npx -y skills add feiskyer/codex-settings -g -s deep-research
npx -y skills add feiskyer/codex-settings -g -s youtube-transcribe-skill

相關 CLI 工具的安裝方法:

uv tool install xiaohongshu-cli twitter-cli
npm install -g xfetch-cli

好了,今天就聊到這兒。如果你也在探索 AI 編程和 AI 工具,歡迎關注 Feisky 公眾號,我會定期分享實踐中的發現和踩坑經驗。