如何把Codex用到極致? OpenAI官方發佈最佳實踐
整理版優先睇
Codex 團隊前幾天發了一篇博客,講怎麼把它用到極致。讀完之後我感觸頗多,不是因為裏面講的功能多炫——8 個模塊,持久對話流、語音輸入、干預排隊、工具觸達、自動化、目標設定、側邊欄、共享記憶——而是這些功能合起來,已經不是一個"編程助手"了。我每天用 Claude Code 的時長遠高於 Codex。說實話,我對 Codex 的興趣,主要是想看看 OpenAI 這家在通用智能上最激進的公司,會把"代碼編輯器"這個產品做成什麼樣。現在他們給了答案。寫代碼只是入口。真正的產品形態是:你買了一個能在你電腦上替你幹活的 AI 同事。這件事我去年寫 Agent Teams 那篇的時候提過一句——Scott White 在 Anthropic 的會上說 "We are now transitioning almost into vibe working"。Vibe coding 是讓 AI 幫你寫代碼,vibe working 是讓 AI 幫你幹活。Codex 這篇分享,就是 vibe working 的官方說明書。我把它讀完之後,把裏面 8 個模塊分別對應到我自己的工作流裏走了一遍。有些是我已經在用別的工具實現的,有些是我應該做但還沒做的,還有些是 Claude Code 目前還沒有但 Codex 已經做出來了的。下面一個一個聊。Codex 把對話窗口分成兩種:聊完就忘的,和長期掛着的。長期掛着的那種叫持久對話流。你給它起個名字——幕僚長、產品發佈、文檔審查——按 Cmd-1 到 Cmd-9 隨時切回去。它記得你們之前聊到哪、定下了什麼、你的偏好是什麼。這件事 Claude Code 裏其實也有——每個項目目錄就是一個對話上下文,CLAUDE.md 是這個上下文的記憶文件。但 Codex 做了一件更細的事:對話流不依附於代碼倉庫。我馬上想到一個場景。我有一個長期跑的"公眾號選題"對話流。每天我刷推、看公眾號、和朋友聊天的時候,但凡冒出來"這事可以寫一篇"的想法,我就丟進去。它累積着所有的待寫選題、每個選題的角度、為什麼我當時覺得它值得寫、後來又為什麼放棄了。現在大多數人的方案是這樣:一個筆記軟件裏的臨時清單,加上一個不定期開起來整理的 Claude Code 會話。兩個地方,狀態不同步,每次切回來都得花幾分鐘"上下文回灌"。如果換成 Codex 的持久對話流——它自己記住所有上下文,我直接說"昨天刷到那條 Karpathy 的推,我覺得可以寫",它就接着上次的討論繼續。Cmd-1 是選題流。Cmd-2 是長文寫作流。Cmd-3 是工具迭代流。這不再是聊天窗口了,是工作空間。語音輸入:在想法變形之前先抓住它我一直覺得自己說話比寫字更接近真實想法。打字的時候,大腦會自動修整句子——把模糊的想法掐頭去尾,變成一個看起來通順的表達。修整過的東西就丟失了那些沒想清楚的部分。但很多時候,正是沒想清楚的部分裏藏着真東西。Codex 內置了語音輸入。它的核心場景不是替代鍵盤,是在你還沒想清楚的時候,先讓你把腦子裏的混亂倒出來。舉個例子。我經常在散步的時候冒出來一些念頭,但具體怎麼做,第一秒鐘我自己也講不清。如果讓我回家坐到電腦前再把它打出來,95% 的概率我會把那個沒成型的念頭寫得看起來很合理——然後就沒下文了。如果當場對着手機說三分鐘:那個讓 AI 自己改 prompt 的事,我覺得不能讓它自己跑。得有一個驗證器,但驗證器自己也會跑偏。所以驗證器得有驗證器的驗證器嗎?這就死循環了。但也許不需要無限套娃,只要人在某個層級上有一票否決權就行。這段東西打出來我自己都不願意打。但說出來之後,AI Agent 拿着它就能接着往下想——你剛才提到的"人在某個層級上有一票否決權",這件事在 Mitchell Hashimoto 的 Harness Engineering 那篇裏有過類似的說法。錄音轉寫也是同一個意思。一份未經修剪的會議記錄,比一份漂亮的會議總結有用得多。粗糙裏有信息,整齊裏只有結論。干預和排隊:拿回對正在跑的任務的控制權這兩個詞翻譯完容易混。我自己習慣這麼記:干預是踩剎車,排隊是排下一站。干預——AI 正在做一件事,你看到它跑偏了,你要它立刻停下來換方向。在 Claude Code 裏我經常按 Esc 然後補一句"等等,往左轉一點"。這就是干預。排隊——AI 還在做當前這件事,你不想打斷它,但你想好了下一步該讓它做什麼,提前告訴它。它做完手頭的就接着做下一件。Claude Code 現在也有了排隊(我用的是 1.x 之後的版本)。但 Codex 把這兩個動作做得更直觀——側邊欄裏你能看到它在做什麼、你可以一邊在網頁上標註一邊喊停、做完之後隊列裏的下一個任務自動接上。這件事對什麼人有用?對編排者有用。舉個例子。讓一個 Agent 幫我調研某個人物,我在旁邊刷它的研究結果。我看到它搜的方向不對,得能立刻拽它回來;同時我心裏已經想好下一步該讓它查什麼了,得能提前告訴它"這個查完接着查 X"。如果只能等它幹完一件事我再說一句,整個流程就會卡在我身上。我變成了瓶頸。干預和排隊這兩個動作合起來,本質是把"控制權"從"任務結束的那一刻"這個唯一時間點,擴展到了任務執行的全過程。人的判斷什麼時候介入?任何時候都能介入。工具越強,人的判斷越重要。我說過太多次了。但這句話有一個前提:人的判斷必須能在任何時候介入到正在運行的 AI 任務裏,不能只在任務完成後做事後審查。干預 + 排隊就是這個前提的產品化。工具觸達範圍:讓 AI 的手伸出代碼庫Codex 列了三個工具入口:• $browser:側邊欄裏的瀏覽器,AI 可以看渲染好的網頁、做標註• @chrome:複用你 Chrome 的登錄狀態,處理需要登錄的網頁流程• @computer:操作整個電腦桌面,包括那些只有 GUI 才能完成的任務再加上 MCP 服務器和各種連接器,AI 的手就從代碼倉庫伸出去了——伸到 Slack、郵箱、日曆、Figma、Notion,伸到任何能用接口或者能被點擊的地方。我做內容創作這條線最深的感受是:真正耗時的不是寫作本身,是寫作前的準備和寫作後的發佈。寫作本身可能就一兩個小時。但準備階段我得:刷推抓信息、讀對方原文做筆記、找幾個競品看一眼、看看以前自己寫過沒。發佈階段我得:導出 markdown、配封面圖、配正文圖、壓縮圖片、轉 HTML、貼到公眾號後台、改格式、改空格、上傳封面。中間任何一步出問題——比如某張圖太大上傳失敗——又得退回來重做。寫作兩小時,前後流程三小時。如果 Codex(或者任何一個能調起瀏覽器 + 桌面控制 + MCP 的 Agent) 能接管整條流水線——刷推的時候用 chrome 登錄狀態,發佈的時候用 computer 控制公眾號後台,中間的圖片處理用 MCP 調 sips——那這五個小時裏只有寫作那兩小時是真的需要我的。剩下三小時,本來就不是創意,本來就是機械操作。機械操作就該交給機器。我現在用的就是這套架構,只是工具不是 Codex,是 Claude Code + 一堆我自己寫的 skill。但 Codex 這次把這件事做成了開箱即用,門檻低了很多。在哪裏工作都行:任務跑在 Mac 上,人跑在外面Codex 讓你能在 Mac 上啓動一個任務,然後離開工位用手機繼續跟進。這件事看起來是個便利功能,其實是個範式轉變。以前 AI Agent 是"我打開電腦,讓它幹活,我盯着它"。現在是"我讓它幹活,我去做自己的事,它有問題手機問我"。中間差的那個詞是:異步。我自己有過太多次這樣的場景:讓 Claude Code 跑一個長任務,比如一批長文檔的批量改版,跑要 30 分鐘。我盯着屏幕看,30 分鐘一動不動。中間它問了我一個選擇題,我等了它 30 秒才看到、回了。跑完了我才去喝咖啡。理論上我可以在它跑的時候去喝咖啡。但現實是——如果手機上沒有這條任務的接入口,我喝着咖啡也心裏發慌,怕它中間卡住沒人理。Codex 讓手機變成了任務的遠程辦公室。你出門它繼續跑,跑到一半遇到決策點手機推一下,你回個"批准"或者"換個思路",它接着跑。這件事對我這種工作流分散的人來說,省的不是時間,是心智帶寬。我可以讓"prompt 優化跑一晚上"這種任務真的跑一晚上,不用整晚每兩小時爬起來看一眼。自動化:讓 AI 有自己的心跳Codex 把自動化分成兩種:定時自動化——每天從零開始跑一次。適合日報、例行掃描、固定的爬數據。對話流自動化——按時間表回到同一個對話流繼續工作。它有記憶、有上下文、有上一次沒幹完的事。後者才是真東西。我馬上就想到一個我想做但還沒做的東西——一個幕僚長對話流,每 30 分鐘跑一次:過去 30 分鐘,檢查我的微信、郵箱、X 私信、即刻評論。把需要回復的拉出來,按緊急程度排序。對於那些需要長回覆的,去搜一下相關的上下文 (這個人之前問過我什麼?我之前回過什麼?),起草一份回覆,但不要發。把這一切整理成一份待辦簡報,等我回到電腦前一眼能看完。這件事不是不能做。Claude Code 也有 hooks 和定時任務的玩法。但 Codex 把它做成了產品級的"對話流自動化",意味着這件事不再需要我搭一整套 cron + script + 狀態管理。更關鍵的是——它有上下文。如果是定時自動化,每次跑都得重新告訴它"我是花叔,我在做什麼,我關心什麼"。如果是對話流自動化,它接着上次的狀態跑——上次它給我起草了一份回覆,我看完決定不發,它記得這件事。下次回到對話流,它知道這個人的回覆優先級要降下來。這就是從 AI 工具到 AI 同事的差別。工具每次都是新的。同事是有連續記憶的。目標設定:把"做完"變成可被驗證的Codex 給目標設定下了一個非常硬的定義:目標 = 持續執行 + 驗證器意思是,光說"把這個 markdown 裏的計劃實現一下"不行,得告訴它怎麼算實現完了。文章裏舉的例子是把一個 Python 工具遷移到 Rust。糟糕的目標說法:"把它遷移完"。好的目標說法:"直到所有單元測試全部通過才算完成"。後者多了一句話:怎麼驗證。這件事我從去年開始一直在強調,做"讓 AI 自我迭代"的項目時最關鍵的一條——修改 agent 和評分 agent 必須分離。修改的可以是 AI,評分的也可以是 AI,但不能是同一個。Codex 把這件事正式化成了一個產品功能:你給它一個目標,再給它一個驗證器,它就一直跑到驗證器說"過了"為止。沒有驗證機制的野心只是許願。我對所有想用 AI 做長任務的人都建議過同樣一件事——先想好怎麼驗證。想不清怎麼驗證,就別讓 AI 跑長任務。短任務可以容忍它跑偏,反正你自己馬上能看到。長任務跑偏幾個小時之後,損失的不是 token,是你的時間和判斷力。側邊欄:生成結果不再是"導出來才能看"這件事我必須說一下,因為我等 Claude Code 這個功能等了很久。Codex 的側邊欄可以直接渲染:• markdown 文檔• 電子表格、數據表• 演示文稿 (PPT、Keynote 風格)• 瀏覽器中的網頁應用內瀏覽器還能讓你在網頁上做標註,AI 直接根據標註修改。我做公眾號寫作流水線最痛的環節是:每次讓 AI 改一版排版,我得跑命令導出 HTML,打開瀏覽器看效果,發現哪裏不對,回到 AI 對話窗口描述問題,AI 改,再導出,再看。來回切窗口、來回保存文件、來回對照差異。如果像 Codex 這樣,生成的 HTML 直接在側邊欄渲染,我能在網頁上直接圈出來"這段字太大了"——AI 就着我圈的位置改——同一個窗口裏我馬上能看到改完的效果。這不是省時間的問題。這是反饋循環長度的問題。反饋循環越短,迭代效率越高。我做產品最大的體會,就是把"想法 → 實現 → 看效果 → 調整"這個循環壓到幾分鐘,效率會有一個數量級的跳躍。Codex 的側邊欄,是在 AI 編輯場景裏把這個循環又壓短了一截。共享記憶:你的 AI 同事得有工作記憶區最後一個模塊,也是我個人最有感覺的一個。Codex 的建議非常簡單:在一個本地知識庫 (說白了就是一個裝 markdown 文件的文件夾) 裏,放一個 AGENTS.md。這個文件告訴 Codex:哪些事要記下來、記到哪裏、什麼時候不要瞎改。這套做法 Claude Code 用戶其實早就在用——叫 CLAUDE.md。一個根 CLAUDE.md 告訴 Claude Code:這個項目怎麼組織、新想法丟哪個文件夾、做完的工作歸到哪、什麼時候該自己寫筆記、什麼時候不要瞎動文件。Codex 的 AGENTS.md 和 Claude Code 的 CLAUDE.md 是一回事。它存的不是代碼,是工作的滾動上下文——誰參與了、改了什麼、卡在哪裏、誰跟進、為什麼這麼決定的、什麼時候做的、當時為什麼這麼想。這些信息全部鎖死在某次聊天裏,下次開新窗口就消失了。鎖死的信息沒有複利。寫下來的信息有複利——下個月你打開同一個項目,AI 看一眼 CLAUDE.md 就知道整個故事;你自己看一眼也知道。這件事我想反覆強調:寫下來的,會複利;記在腦子裏的,會消散;鎖在聊天記錄裏的,會失蹤。Codex 內置了一個叫"記憶"的功能,但官方明確說了——這是輔助你寫下來的東西,不是替代它。對了。這件事真正做過的人都知道——AGENTS.md 或者 CLAUDE.md 寫得越用心,AI 越像那個跟你一起幹活了很久的同事。這件事對 Claude Code 用戶意味着什麼讀完整篇文章,我有個感受要說出來——Codex 已經在產品形態上走在 Claude Code 前面了。不是模型能力上。模型能力上 Claude Opus 4.7 現在仍然是我用過的最強的寫代碼模型。是產品形態。是"AI Agent 怎麼和你的工作流融合"這件事的產品化程度。Claude Code 是個非常優秀的 CLI 工具。CLI 的好處是靈活、可擴展、可寫腳本;CLI 的壞處是要求用戶能寫腳本。Codex 把這些事——持久對話流、自動化、側邊欄、共享記憶——做成了開箱即用的產品。門檻低了,不會寫代碼的人也能用。這是 OpenAI 一直以來最強的地方。技術不一定永遠第一,但產品化常常是第一。我對 Anthropic 的期待是——把 Claude Code 那套硬核靈活性保留下來,同時把這些產品化的體驗也補齊。兩邊各自走得快的部分都吸收過來。不過有一句話我要補充:對個人開發者和獨立創作者來說,工具的極限不是工具能做什麼,而是你能把它用到什麼深度。Codex 把這 8 個模塊都做出來了。但能把它們用順、用透、用出複利的人,仍然是少數。你要用持久對話流,得先想清楚自己有哪幾條工作主線值得長期掛着。你要用自動化,得先想清楚哪些事每天都在重複、哪些事可以交出去、哪些事必須人來拍板。你要用共享記憶,得先想清楚自己的筆記庫怎麼組織、AGENTS.md 怎麼寫、哪些邊界 AI 不能跨。工具是給有想法的人放大想法的。沒想法的話,給你 Codex 你也用不出來。總結Codex 這篇文章我反覆讀了三遍。第一遍讀的是功能。第二遍讀的是結構——8 個模塊怎麼組合成一個工作流。第三遍讀的是態度。OpenAI 在告訴所有人:寫代碼只是入口,AI Agent 真正的產品形態,是你買了一個能在你電腦上替你幹活的同事。這個同事有記憶、能被中途糾正、能在你不在的時候繼續幹、能拿着明確的目標自己往前衝、能把工作結果直接擺到你眼前讓你審查。這件事 Karpathy 一年前就描述過。這件事 Scott White 在 Anthropic 的會上叫 vibe working。這件事在 Claude Code 用戶那邊其實早就用一堆 skill + 一個本地知識庫拼出來了。Codex 現在把它做成了一個開箱即用的產品。差別不在能不能做,差別在門檻。門檻降了,更多人會用上。更多人用上之後,會出現一批新的工作方式——不是"我用 AI 幫我做事",是"我和 AI 一起做事"。Vibe coding → Vibe working.下一站是什麼?我還沒想清楚。但 Codex 這篇分享,至少告訴我們 vibe working 這一站長什麼樣了。
Codex 團隊前幾天發了一篇博客,講怎麼把它用到極致。讀完之後我感觸頗多,不是因為裏面講的功能多炫——8 個模塊,持久對話流、語音輸入、幹預排隊、工具觸達、自動化、目標設定、側邊欄、共享記憶——而是呢啲功能合起來,已經不是一個"編程助手"了。我每天用 Claude Code 的時長遠高於 Codex。
說實話,我對 Codex 的興趣,主要是想看看 OpenAI 這家在通用智能上最激進的公司,會把"代碼編輯器"呢個產品做成什麼樣。而家他們給了答案。寫代碼只是入口。真正的產品形態是:你買了一個能在你電腦上替你幹活的 AI 同事。這件事我去年寫 Agent Teams 那篇的時候提過一句——Scott White 在 Anthropic 的會上說 "We are now transitioning almost into vibe working"。
Vibe coding 是讓 AI 幫你寫代碼,vibe working 是讓 AI 幫你幹活。Codex 這篇分享,就是 vibe working 的官方說明書。我把它讀完之後,把裏面 8 個模塊分別對應到我自己的工作流裏走了一遍。有些是我已經在用別的工具實現的,有些是我應該做但還沒做的,還有些是 Claude Code 目前還沒有但 Codex 已經做出來了的。下面一個一個聊。Codex 把對話窗口分成兩種:聊完就忘的,和長期掛着的。長期掛着的那種叫持久對話流。你給它…
- 如何把Codex用到極致? OpenAI官方發佈最佳實踐
- 如何把Codex用到極致? OpenAI官方發佈最佳實踐|重點 2
- 如何把Codex用到極致? OpenAI官方發佈最佳實踐|重點 3
- 如何把Codex用到極致? OpenAI官方發佈最佳實踐|重點 4
- 如何把Codex用到極致? OpenAI官方發佈最佳實踐|重點 5
可記低 Prompt
Codex 團隊前幾天發了一篇博客,講怎麼把它用到極致。讀完之後我感觸頗多,不是因為裏面講的功能多炫——8 個模塊,持久對話流、語音輸入、干預排隊、工具觸達、自動化、目標設定、側邊欄、共享記憶——而是這些功能合起來,已經不是一個"編程助手"…
整理版
Codex 團隊前幾天發了一篇博客,講怎麼把它用到極致。讀完之後我感觸頗多,不是因為裏面講的功能多炫——8 個模塊,持久對話流、語音輸入、干預排隊、工具觸達、自動化、目標設定、側邊欄、共享記憶——而是這些功能合起來,已經不是一個"編程助手"了。我每天用 Claude Code 的時長遠高於 Codex。說實話,我對 Codex 的興趣,主要是想看看 OpenAI 這家在通用智能上最激進的公司,會把"代碼編輯器"這個產品做成什麼樣。現在他們給了答案。寫代碼只是入口。真正的產品形態是:你買了一個能在你電腦上替你幹活的 AI 同事。這件事我去年寫 Agent Teams 那篇的時候提過一句——Scott White 在 Anthropic 的會上說 "We are now transitioning almost into vibe working"。Vibe coding 是讓 AI 幫你寫代碼,vibe working 是讓 AI 幫你幹活。Codex 這篇分享,就是 vibe working 的官方說明書。我把它讀完之後,把裏面 8 個模塊分別對應到我自己的工作流裏走了一遍。有些是我已經在用別的工具實現的,有些是我應該做但還沒做的,還有些是 Claude Code 目前還沒有但 Codex 已經做出來了的。下面一個一個聊。Codex 把對話窗口分成兩種:聊完就忘的,和長期掛着的。長期掛着的那種叫持久對話流。你給它起個名字——幕僚長、產品發佈、文檔審查——按 Cmd-1 到 Cmd-9 隨時切回去。它記得你們之前聊到哪、定下了什麼、你的偏好是什麼。這件事 Claude Code 裏其實也有——每個項目目錄就是一個對話上下文,CLAUDE.md 是這個上下文的記憶文件。但 Codex 做了一件更細的事:對話流不依附於代碼倉庫。我馬上想到一個場景。我有一個長期跑的"公眾號選題"對話流。每天我刷推、看公眾號、和朋友聊天的時候,但凡冒出來"這事可以寫一篇"的想法,我就丟進去。它累積着所有的待寫選題、每個選題的角度、為什麼我當時覺得它值得寫、後來又為什麼放棄了。現在大多數人的方案是這樣:一個筆記軟件裏的臨時清單,加上一個不定期開起來整理的 Claude Code 會話。兩個地方,狀態不同步,每次切回來都得花幾分鐘"上下文回灌"。如果換成 Codex 的持久對話流——它自己記住所有上下文,我直接說"昨天刷到那條 Karpathy 的推,我覺得可以寫",它就接着上次的討論繼續。Cmd-1 是選題流。Cmd-2 是長文寫作流。Cmd-3 是工具迭代流。這不再是聊天窗口了,是工作空間。語音輸入:在想法變形之前先抓住它我一直覺得自己說話比寫字更接近真實想法。打字的時候,大腦會自動修整句子——把模糊的想法掐頭去尾,變成一個看起來通順的表達。修整過的東西就丟失了那些沒想清楚的部分。但很多時候,正是沒想清楚的部分裏藏着真東西。Codex 內置了語音輸入。它的核心場景不是替代鍵盤,是在你還沒想清楚的時候,先讓你把腦子裏的混亂倒出來。舉個例子。我經常在散步的時候冒出來一些念頭,但具體怎麼做,第一秒鐘我自己也講不清。如果讓我回家坐到電腦前再把它打出來,95% 的概率我會把那個沒成型的念頭寫得看起來很合理——然後就沒下文了。如果當場對着手機說三分鐘:那個讓 AI 自己改 prompt 的事,我覺得不能讓它自己跑。得有一個驗證器,但驗證器自己也會跑偏。所以驗證器得有驗證器的驗證器嗎?這就死循環了。但也許不需要無限套娃,只要人在某個層級上有一票否決權就行。這段東西打出來我自己都不願意打。但說出來之後,AI Agent 拿着它就能接着往下想——你剛才提到的"人在某個層級上有一票否決權",這件事在 Mitchell Hashimoto 的 Harness Engineering 那篇裏有過類似的說法。錄音轉寫也是同一個意思。一份未經修剪的會議記錄,比一份漂亮的會議總結有用得多。粗糙裏有信息,整齊裏只有結論。干預和排隊:拿回對正在跑的任務的控制權這兩個詞翻譯完容易混。我自己習慣這麼記:干預是踩剎車,排隊是排下一站。干預——AI 正在做一件事,你看到它跑偏了,你要它立刻停下來換方向。在 Claude Code 裏我經常按 Esc 然後補一句"等等,往左轉一點"。這就是干預。排隊——AI 還在做當前這件事,你不想打斷它,但你想好了下一步該讓它做什麼,提前告訴它。它做完手頭的就接着做下一件。Claude Code 現在也有了排隊(我用的是 1.x 之後的版本)。但 Codex 把這兩個動作做得更直觀——側邊欄裏你能看到它在做什麼、你可以一邊在網頁上標註一邊喊停、做完之後隊列裏的下一個任務自動接上。這件事對什麼人有用?對編排者有用。舉個例子。讓一個 Agent 幫我調研某個人物,我在旁邊刷它的研究結果。我看到它搜的方向不對,得能立刻拽它回來;同時我心裏已經想好下一步該讓它查什麼了,得能提前告訴它"這個查完接着查 X"。如果只能等它幹完一件事我再說一句,整個流程就會卡在我身上。我變成了瓶頸。干預和排隊這兩個動作合起來,本質是把"控制權"從"任務結束的那一刻"這個唯一時間點,擴展到了任務執行的全過程。人的判斷什麼時候介入?任何時候都能介入。工具越強,人的判斷越重要。我說過太多次了。但這句話有一個前提:人的判斷必須能在任何時候介入到正在運行的 AI 任務裏,不能只在任務完成後做事後審查。干預 + 排隊就是這個前提的產品化。工具觸達範圍:讓 AI 的手伸出代碼庫Codex 列了三個工具入口:• $browser:側邊欄裏的瀏覽器,AI 可以看渲染好的網頁、做標註• @chrome:複用你 Chrome 的登錄狀態,處理需要登錄的網頁流程• @computer:操作整個電腦桌面,包括那些只有 GUI 才能完成的任務再加上 MCP 服務器和各種連接器,AI 的手就從代碼倉庫伸出去了——伸到 Slack、郵箱、日曆、Figma、Notion,伸到任何能用接口或者能被點擊的地方。我做內容創作這條線最深的感受是:真正耗時的不是寫作本身,是寫作前的準備和寫作後的發佈。寫作本身可能就一兩個小時。但準備階段我得:刷推抓信息、讀對方原文做筆記、找幾個競品看一眼、看看以前自己寫過沒。發佈階段我得:導出 markdown、配封面圖、配正文圖、壓縮圖片、轉 HTML、貼到公眾號後台、改格式、改空格、上傳封面。中間任何一步出問題——比如某張圖太大上傳失敗——又得退回來重做。寫作兩小時,前後流程三小時。如果 Codex(或者任何一個能調起瀏覽器 + 桌面控制 + MCP 的 Agent) 能接管整條流水線——刷推的時候用 chrome 登錄狀態,發佈的時候用 computer 控制公眾號後台,中間的圖片處理用 MCP 調 sips——那這五個小時裏只有寫作那兩小時是真的需要我的。剩下三小時,本來就不是創意,本來就是機械操作。機械操作就該交給機器。我現在用的就是這套架構,只是工具不是 Codex,是 Claude Code + 一堆我自己寫的 skill。但 Codex 這次把這件事做成了開箱即用,門檻低了很多。在哪裏工作都行:任務跑在 Mac 上,人跑在外面Codex 讓你能在 Mac 上啓動一個任務,然後離開工位用手機繼續跟進。這件事看起來是個便利功能,其實是個範式轉變。以前 AI Agent 是"我打開電腦,讓它幹活,我盯着它"。現在是"我讓它幹活,我去做自己的事,它有問題手機問我"。中間差的那個詞是:異步。我自己有過太多次這樣的場景:讓 Claude Code 跑一個長任務,比如一批長文檔的批量改版,跑要 30 分鐘。我盯着屏幕看,30 分鐘一動不動。中間它問了我一個選擇題,我等了它 30 秒才看到、回了。跑完了我才去喝咖啡。理論上我可以在它跑的時候去喝咖啡。但現實是——如果手機上沒有這條任務的接入口,我喝着咖啡也心裏發慌,怕它中間卡住沒人理。Codex 讓手機變成了任務的遠程辦公室。你出門它繼續跑,跑到一半遇到決策點手機推一下,你回個"批准"或者"換個思路",它接着跑。這件事對我這種工作流分散的人來說,省的不是時間,是心智帶寬。我可以讓"prompt 優化跑一晚上"這種任務真的跑一晚上,不用整晚每兩小時爬起來看一眼。自動化:讓 AI 有自己的心跳Codex 把自動化分成兩種:定時自動化——每天從零開始跑一次。適合日報、例行掃描、固定的爬數據。對話流自動化——按時間表回到同一個對話流繼續工作。它有記憶、有上下文、有上一次沒幹完的事。後者才是真東西。我馬上就想到一個我想做但還沒做的東西——一個幕僚長對話流,每 30 分鐘跑一次:過去 30 分鐘,檢查我的微信、郵箱、X 私信、即刻評論。把需要回復的拉出來,按緊急程度排序。對於那些需要長回覆的,去搜一下相關的上下文 (這個人之前問過我什麼?我之前回過什麼?),起草一份回覆,但不要發。把這一切整理成一份待辦簡報,等我回到電腦前一眼能看完。這件事不是不能做。Claude Code 也有 hooks 和定時任務的玩法。但 Codex 把它做成了產品級的"對話流自動化",意味着這件事不再需要我搭一整套 cron + script + 狀態管理。更關鍵的是——它有上下文。如果是定時自動化,每次跑都得重新告訴它"我是花叔,我在做什麼,我關心什麼"。如果是對話流自動化,它接着上次的狀態跑——上次它給我起草了一份回覆,我看完決定不發,它記得這件事。下次回到對話流,它知道這個人的回覆優先級要降下來。這就是從 AI 工具到 AI 同事的差別。工具每次都是新的。同事是有連續記憶的。目標設定:把"做完"變成可被驗證的Codex 給目標設定下了一個非常硬的定義:目標 = 持續執行 + 驗證器意思是,光說"把這個 markdown 裏的計劃實現一下"不行,得告訴它怎麼算實現完了。文章裏舉的例子是把一個 Python 工具遷移到 Rust。糟糕的目標說法:"把它遷移完"。好的目標說法:"直到所有單元測試全部通過才算完成"。後者多了一句話:怎麼驗證。這件事我從去年開始一直在強調,做"讓 AI 自我迭代"的項目時最關鍵的一條——修改 agent 和評分 agent 必須分離。修改的可以是 AI,評分的也可以是 AI,但不能是同一個。Codex 把這件事正式化成了一個產品功能:你給它一個目標,再給它一個驗證器,它就一直跑到驗證器說"過了"為止。沒有驗證機制的野心只是許願。我對所有想用 AI 做長任務的人都建議過同樣一件事——先想好怎麼驗證。想不清怎麼驗證,就別讓 AI 跑長任務。短任務可以容忍它跑偏,反正你自己馬上能看到。長任務跑偏幾個小時之後,損失的不是 token,是你的時間和判斷力。側邊欄:生成結果不再是"導出來才能看"這件事我必須說一下,因為我等 Claude Code 這個功能等了很久。Codex 的側邊欄可以直接渲染:• markdown 文檔• 電子表格、數據表• 演示文稿 (PPT、Keynote 風格)• 瀏覽器中的網頁應用內瀏覽器還能讓你在網頁上做標註,AI 直接根據標註修改。我做公眾號寫作流水線最痛的環節是:每次讓 AI 改一版排版,我得跑命令導出 HTML,打開瀏覽器看效果,發現哪裏不對,回到 AI 對話窗口描述問題,AI 改,再導出,再看。來回切窗口、來回保存文件、來回對照差異。如果像 Codex 這樣,生成的 HTML 直接在側邊欄渲染,我能在網頁上直接圈出來"這段字太大了"——AI 就着我圈的位置改——同一個窗口裏我馬上能看到改完的效果。這不是省時間的問題。這是反饋循環長度的問題。反饋循環越短,迭代效率越高。我做產品最大的體會,就是把"想法 → 實現 → 看效果 → 調整"這個循環壓到幾分鐘,效率會有一個數量級的跳躍。Codex 的側邊欄,是在 AI 編輯場景裏把這個循環又壓短了一截。共享記憶:你的 AI 同事得有工作記憶區最後一個模塊,也是我個人最有感覺的一個。Codex 的建議非常簡單:在一個本地知識庫 (說白了就是一個裝 markdown 文件的文件夾) 裏,放一個 AGENTS.md。這個文件告訴 Codex:哪些事要記下來、記到哪裏、什麼時候不要瞎改。這套做法 Claude Code 用戶其實早就在用——叫 CLAUDE.md。一個根 CLAUDE.md 告訴 Claude Code:這個項目怎麼組織、新想法丟哪個文件夾、做完的工作歸到哪、什麼時候該自己寫筆記、什麼時候不要瞎動文件。Codex 的 AGENTS.md 和 Claude Code 的 CLAUDE.md 是一回事。它存的不是代碼,是工作的滾動上下文——誰參與了、改了什麼、卡在哪裏、誰跟進、為什麼這麼決定的、什麼時候做的、當時為什麼這麼想。這些信息全部鎖死在某次聊天裏,下次開新窗口就消失了。鎖死的信息沒有複利。寫下來的信息有複利——下個月你打開同一個項目,AI 看一眼 CLAUDE.md 就知道整個故事;你自己看一眼也知道。這件事我想反覆強調:寫下來的,會複利;記在腦子裏的,會消散;鎖在聊天記錄裏的,會失蹤。Codex 內置了一個叫"記憶"的功能,但官方明確說了——這是輔助你寫下來的東西,不是替代它。對了。這件事真正做過的人都知道——AGENTS.md 或者 CLAUDE.md 寫得越用心,AI 越像那個跟你一起幹活了很久的同事。這件事對 Claude Code 用戶意味着什麼讀完整篇文章,我有個感受要說出來——Codex 已經在產品形態上走在 Claude Code 前面了。不是模型能力上。模型能力上 Claude Opus 4.7 現在仍然是我用過的最強的寫代碼模型。是產品形態。是"AI Agent 怎麼和你的工作流融合"這件事的產品化程度。Claude Code 是個非常優秀的 CLI 工具。CLI 的好處是靈活、可擴展、可寫腳本;CLI 的壞處是要求用戶能寫腳本。Codex 把這些事——持久對話流、自動化、側邊欄、共享記憶——做成了開箱即用的產品。門檻低了,不會寫代碼的人也能用。這是 OpenAI 一直以來最強的地方。技術不一定永遠第一,但產品化常常是第一。我對 Anthropic 的期待是——把 Claude Code 那套硬核靈活性保留下來,同時把這些產品化的體驗也補齊。兩邊各自走得快的部分都吸收過來。不過有一句話我要補充:對個人開發者和獨立創作者來說,工具的極限不是工具能做什麼,而是你能把它用到什麼深度。Codex 把這 8 個模塊都做出來了。但能把它們用順、用透、用出複利的人,仍然是少數。你要用持久對話流,得先想清楚自己有哪幾條工作主線值得長期掛着。你要用自動化,得先想清楚哪些事每天都在重複、哪些事可以交出去、哪些事必須人來拍板。你要用共享記憶,得先想清楚自己的筆記庫怎麼組織、AGENTS.md 怎麼寫、哪些邊界 AI 不能跨。工具是給有想法的人放大想法的。沒想法的話,給你 Codex 你也用不出來。總結Codex 這篇文章我反覆讀了三遍。第一遍讀的是功能。第二遍讀的是結構——8 個模塊怎麼組合成一個工作流。第三遍讀的是態度。OpenAI 在告訴所有人:寫代碼只是入口,AI Agent 真正的產品形態,是你買了一個能在你電腦上替你幹活的同事。這個同事有記憶、能被中途糾正、能在你不在的時候繼續幹、能拿着明確的目標自己往前衝、能把工作結果直接擺到你眼前讓你審查。這件事 Karpathy 一年前就描述過。這件事 Scott White 在 Anthropic 的會上叫 vibe working。這件事在 Claude Code 用戶那邊其實早就用一堆 skill + 一個本地知識庫拼出來了。Codex 現在把它做成了一個開箱即用的產品。差別不在能不能做,差別在門檻。門檻降了,更多人會用上。更多人用上之後,會出現一批新的工作方式——不是"我用 AI 幫我做事",是"我和 AI 一起做事"。Vibe coding → Vibe working.下一站是什麼?我還沒想清楚。但 Codex 這篇分享,至少告訴我們 vibe working 這一站長什麼樣了。
Codex 團隊前幾日出咗篇博客,講點樣將佢用到最盡。
讀完之後我感觸幾多,唔係因為入面講嘅功能有幾勁——8 個模塊,持久對話流、語音輸入、幹預排隊、工具觸達、自動化、目標設定、側邊欄、共享記憶——而係呢啲功能夾埋一齊,已經唔係一個「編程助手」咁簡單。
我每日用 Claude Code 嘅時長遠高過 Codex。老實講,我對 Codex 嘅興趣,主要係想睇下 OpenAI 呢間喺通用智能上最激進嘅公司,會將「代碼編輯器」呢個產品做成點樣。
而家佢哋畀咗答案。
寫代碼只係入口。真正嘅產品形態係:你買咗一個可以喺你電腦上幫你做嘢嘅 AI 同事。
呢件事我舊年寫 Agent Teams 嗰篇嘅時候提過一句——Scott White 喺 Anthropic 嘅會上話「We are now transitioning almost into vibe working」。Vibe coding 係叫 AI 幫你寫代碼,vibe working 係叫 AI 幫你做嘢。
Codex 呢篇分享,就係 vibe working 嘅官方說明書。
我將佢讀完之後,將入面 8 個模塊分別對應返我嘅工作流程行咗一次。有啲係我已經用緊其他工具做到嘅,有啲係我應該做但未做嘅,仲有啲係 Claude Code 目前未有但 Codex 已經有嘅。
下面逐個講。
Codex 將對話窗口分成兩種:傾完就唔記得嘅,同長期掛住嘅。
長期掛住嗰種叫持久對話流。你幫佢改個名——幕僚長、產品發佈、文檔審查——按 Cmd-1 到 Cmd-9 隨時切返去。佢記得你哋之前傾到邊、定咗啲咩、你嘅偏好係點。
呢件事 Claude Code 入面其實都有——每個項目目錄就係一個對話上下文,CLAUDE.md 係呢個上下文嘅記憶檔案。但 Codex 做多咗一樣嘢:對話流唔依附於代碼倉庫。
我即刻諗到一個場景。
我有一個長期行嘅「公眾號選題」對話流。每日我碌推、睇公眾號、同朋友傾偈嘅時候,但凡彈出嚟「呢啲可以寫篇文」,我就掉入去。佢累積曬所有待寫選題、每個選題嘅角度、點解我嗰時覺得值得寫、後來又點解放棄咗。
而家大部份人嘅方案係咁:一個筆記軟件裏面嘅臨時清單,加上一個唔定期開嚟整理嘅 Claude Code 會話。兩個地方,狀態唔同步,每次轉返嚟都要花幾分鐘「上下文回灌」。
如果換成 Codex 嘅持久對話流——佢自己記住所有上下文,我直接講「尋日碌到嗰條 Karpathy 嘅推,我覺得可以寫」,佢就接住上次嘅討論繼續。
Cmd-1 係選題流。Cmd-2 係長文寫作流。Cmd-3 係工具迭代流。
呢個唔再係聊天窗口,而係工作空間。
語音輸入:喺想法變形之前先捉住佢
我一直覺得自己講嘢比寫字更接近真實想法。
打字嘅時候,大腦會自動修整句子——將模糊嘅想法斬頭斬尾,變成一個睇落通順嘅表達。修整完嘅嘢就會冇咗嗰啲未諗清楚嘅部份。但好多時,正正係未諗清楚嘅部份裏面先有真嘢。
Codex 內置咗語音輸入。佢嘅核心場景唔係代替鍵盤,而係喺你仲未諗清楚嘅時候,先畀你將腦入面嘅混亂倒出嚟。
舉個例。
我成日喺散步嘅時候彈出啲諗頭,但具體點做,第一秒我自己都講唔清。如果叫我返到電腦前面先打返出嚟,95% 嘅機會我會將嗰個未成形嘅諗頭寫到好合理——然後就冇下文。
如果當場對住手機講三分鐘:
「嗰個叫 AI 自己改 prompt 嘅事,我覺得唔可以畀佢自己行。
要有個驗證器,但驗證器自己都會行偏。
所以驗證器要有驗證器嘅驗證器咩?
咁就死循環嘞。」
「但或者唔需要無限套娃,只要人喺某個層級上有一票否決權就得。」
呢段嘢打出來我自己都唔想打。但講出來之後,AI Agent 攞住佢就可以繼續諗——你啱先提到嘅「人喺某個層級上有一票否決權」,呢件事喺 Mitchell Hashimoto 嘅 Harness Engineering 嗰篇入面有類似嘅講法。
錄音轉寫都係同一個意思。一份未經修剪嘅會議記錄,比一份靚仔嘅會議總結有用得多。粗糙裏面有資訊,整齊裏面得結論。
幹預同排隊:攞返對正在行嘅任務嘅控制權
呢兩個詞翻譯完容易混淆。我自己習慣咁記:
干預幹預係踩剎車,排隊排隊係排下一站。
幹預——AI 喺度做緊一件事,你見到佢行歪咗,你要佢即刻停低轉方向。喺 Claude Code 入面我成日按 Esc 然後補一句「等等,向左轉少少」。呢個就係幹預。
排隊——AI 仲喺度做緊而家呢件事,你唔想打斷佢,但你已經諗好下一步應該叫佢做咩,提早話畀佢知。佢做完手頭嘅就自動做下一件。
Claude Code 而家都有排隊(我用緊 1.x 之後嘅版本)。但 Codex 將呢兩個動作做得更直觀——側邊欄入面你可以睇到佢做緊咩、你可以一邊喺網頁上標註一邊叫停、做完之後隊列入面嘅下一個任務自動接上。
呢件事對咩人有用?
對編排者有用。
舉個例。叫一個 Agent 幫我研究某個人物,我喺旁邊睇佢嘅研究結果。我見到佢搜嘅方向唔啱,要即刻可以拉返佢返嚟;同時我心入面已經諗好下一步想叫佢查咩,要預先話畀佢知「呢個查完之後查 X」。
如果係要等佢做完一件事我先講一句,成個流程就會卡喺我度。我就變咗瓶頸。
幹預同排隊呢兩個動作夾埋一齊,本質係將「控制權」由「任務結束嗰一刻」呢個唯一時間點,擴展到任務執行嘅全過程。
人嘅判斷幾時介入?任何時候都可以介入。
工具越強,人嘅判斷越重要。我講過好多次。但呢句嘢有一個前設:人嘅判斷一定要喺任何時候都可以介入到正在行嘅 AI 任務入面,唔可以只係喺任務完成之後做事後審查。
幹預 + 排隊就係呢個前設嘅產品化。
工具觸達範圍:叫 AI 隻手伸出代碼庫
Codex 列出三個工具入口:
• $browserBrowser:側邊欄裏面嘅瀏覽器,AI 可以睇已渲染嘅網頁、做標註• @chromeChrome:重用你 Chrome 嘅登入狀態,處理需要登入嘅網頁流程• @computerComputer:操作成個電腦桌面,包括一啲只有 GUI 先做到嘅任務
再加埋 MCP 伺服器同各種連接器,AI 隻手就由代碼倉庫伸出去——伸到 Slack、電郵、日曆、Figma、Notion,伸到任何可以用接口或者可以㩒得到嘅地方。
我做內容創作呢條線最深刻嘅感受係:真正花時間嘅唔係寫作本身,而係寫作前嘅準備同寫作後嘅發佈。
寫作本身可能係一兩個鐘。
但準備階段我要:碌推捉資訊、睇對方原文做筆記、揾幾個競爭對手睇下、睇下以前自己有冇寫過類似嘢。
發佈階段我要:匯出 markdown、配封面圖、配正文圖、壓縮圖片、轉 HTML、貼到公眾號後台、改格式、改空格、上傳封面。中間任何一步出問題——例如某張圖太大上傳失敗——又要退返嚟再做。
寫作兩粒鐘,前後流程三粒鐘。
如果 Codex(或者任何一個可以開到瀏覽器 + 桌面控制 + MCP 嘅 Agent)可以接管成條生產線——碌推嘅時候用 chrome 登入狀態,發佈嘅時候用 computer 控制公眾號後台,中間嘅圖片處理用 MCP 叫 sips——咁呢五粒鐘裏面只有寫作嗰兩粒鐘真係需要我。
其餘三粒鐘,本來就唔係創意,本來就係機械操作。
機械操作就應該交畀機器。
我而家用緊嘅就係呢套架構,只係工具唔係 Codex,係 Claude Code 加一堆我自己寫嘅 skill。但 Codex 今次將呢件事做到開箱即用,門檻低咗好多。
喺邊度做都得:任務行喺 Mac 上面,人行喺出面
Codex 畀你可以喺 Mac 上面開始一個任務,然後離開工作位置用手機繼續跟進。
呢件事表面睇係一個方便功能,其實係一個範式轉變。
以前 AI Agent 係「我開電腦,叫佢做嘢,我睇住佢」。
而家係「我叫佢做嘢,我去做自己嘅嘢,佢有問題手機問我」。
中間差嗰個詞係:信任。異步。
我自己有過太多次咁嘅場景:
叫 Claude Code 行一個長任務,例如一批長文檔嘅批量改版,要行 30 分鐘。我睇住個螢幕,30 分鐘冇鬱過。中間佢問咗我一個選擇題,我等咗 30 秒先見到、答咗。行完我先去飲咖啡。
理論上我可以喺佢行嘅時候去飲咖啡。但現實係——如果手機上面冇呢個任務嘅接入口,我飲緊咖啡都心掛掛,驚佢中途卡住冇人理。
Codex 令手機變成任務嘅遙距辦公室。你出門口佢繼續行,行到一半遇到決策點手機推一下,你回一句「批准」或者「轉個方向」,佢繼續行。
呢件事對我呢啲工作流程分散嘅人嚟講,慳嘅唔係時間,係心智頻寬。
我可以叫「prompt 優化行一晚」呢種任務真係行一晚,唔使成晚每兩個鐘起身睇一次。
自動化:叫 AI 有自己的心跳
Codex 將自動化分成兩種:
定時自動化——每日由頭開始行一次。適合日報、例行掃描、固定嘅爬數據。
對話流自動化——按時間表返去同一個對話流繼續工作。佢有記憶、有上下文、有上次未做完嘅事。
後者先係真嘢。
我即刻諗到一個我想做但未做嘅嘢——一個幕僚長對話流,每 30 分鐘行一次:
「過去 30 分鐘,檢查我嘅微信、電郵、X 私信、即刻評論。將需要回覆嘅抽出來,按緊急程度排序。對於啲需要長回覆嘅,去搜一下相關嘅上下文(呢個人之前問過我咩?我之前回過咩?),起草一份回覆,但唔好發出。將呢啲嘢整理成一份待辦簡報,等我返到電腦前一眼睇曬。」
呢件事唔係做唔到。Claude Code 都有 hooks 同定時任務嘅玩法。但 Codex 將佢做成產品級嘅「對話流自動化」,即係呢件事唔再需要我自己搭一整套 cron + script + 狀態管理。
更重要嘅係——佢有上下文。
如果係定時自動化,每次行都要重新話畀佢知「我係花叔,我做緊咩,我關心咩」。
如果係對話流自動化,佢接住上次嘅狀態行——上次佢幫我起草咗一份回覆,我睇完決定唔發,佢記得呢件事。下次返去對話流,佢知道呢個人嘅回覆優先級要降低。
呢個就係由 AI 工具變 AI 同事嘅分別。
工具每次都好新。同事係有連續記憶嘅。
目標設定:將「做完」變成可以被驗證
Codex 對目標設定落咗一個非常硬嘅定義:
目標 = 持續執行 + 驗證器
即係話,剩係講「將呢個 markdown 入面嘅計劃實現咗佢」唔得,要話畀佢知點樣先叫實現完。
文章入面舉嘅例子係將一個 Python 工具搬去 Rust。差嘅目標講法:「將佢搬過去」。好嘅目標講法:「直到所有單元測試全部通過先算完成」。
後者多咗一句話:點樣驗證。
呢件事我由舊年開始一直強調,做「叫 AI 自我迭代」呢類項目時最關鍵嘅一條——修改 agent 同評分 agent 一定要分開。修改嘅可以是 AI,評分嘅亦都可以係 AI,但唔可以係同一個。
Codex 將呢件事正式化成一個產品功能:你畀佢一個目標,再畀佢一個驗證器,佢就一直行到驗證器話「過咗」先停。
冇驗證機制嘅野心只係許願。
我對所有想用 AI 做長任務嘅人都建議過同一樣嘢——先諗清楚點樣驗證。諗唔清楚點樣驗證,就唔好叫 AI 行長任務。
短任務可以容忍佢行歪,反正你自己即刻睇到。長任務行歪幾個鐘之後,損失嘅唔係 token,係你嘅時間同判斷力。
側邊欄:生成結果唔再係「要匯出先睇到」
呢件事我一定要講,因為我等 Claude Code 呢個功能等咗好耐。
Codex 嘅側邊欄可以直接渲染:
• markdown 文檔 • 電子表格、數據表 • 簡報(PPT、Keynote 風格) • 瀏覽器入面嘅網頁
應用程式內嘅瀏覽器仲可以畀你喺網頁上標註,AI 直接跟住標註修改。
我做公眾號寫作生產線最痛嘅環節係:每次叫 AI 改一版排版,我要行指令匯出 HTML,開瀏覽器睇效果,見到邊度唔啱,返去 AI 對話窗口描述問題,AI 改,再匯出,再睇。
來回切窗口、來回儲存文件、來回對比差異。
如果好似 Codex 咁,生成嘅 HTML 直接喺側邊欄渲染,我可以喺網頁上直接圈出嚟「呢段字太大」—— AI 就住我圈嘅位置改——同一個窗口入面我即刻睇到改完嘅效果。
呢個唔係慳時間嘅問題。呢個係反饋循環長度嘅問題。
反饋循環越短,疊代效率越高。
我做產品最大嘅體會,就係將「想法 → 實現 → 睇效果 → 調整」呢個循環壓到幾分鐘,效率會有一個數量級嘅跳躍。Codex 嘅側邊欄,就係喺 AI 編輯場景入面將呢個循環又壓短咗一截。
共享記憶:你嘅 AI 同事要有工作記憶區
最後一個模塊,亦都係我個人最有感受嘅一個。
Codex 嘅提議好簡單:喺一個本地知識庫(講白咗就係一個裝 markdown 文件嘅文件夾)入面,放一個 AGENTS.md。呢個檔案話畀 Codex 知:邊啲事要記低、記到邊度、幾時唔好亂改。
呢套做法 Claude Code 用戶其實一早喺度用——叫 CLAUDE.md。一個根 CLAUDE.md 話畀 Claude Code 知:呢個項目點樣組織、新想法掉去邊個文件夾、做完嘅工作歸到邊、幾時應該自己寫筆記、幾時唔好亂鬱檔案。
Codex 嘅 AGENTS.md 同 Claude Code 嘅 CLAUDE.md 係同一回事。
佢存嘅唔係代碼,而係工作嘅滾動上下文——邊個參與咗、改咗咩、卡喺邊度、邊個跟進、點解咁決定、幾時做嘅、嗰時點解咁諗。
呢啲資訊全部鎖死喺某次聊天入面,下次開新窗口就消失。
鎖死嘅資訊冇複利效應。
寫低嘅資訊有複利效應——下個月你打開同一個項目,AI 睇一眼 CLAUDE.md 就知成個故事;你自己睇一眼都知。
呢件事我想不斷強調:
寫低嘅,會有複利;記喺腦入面嘅,會消散;鎖喺聊天記錄入面嘅,會失蹤。
Codex 內置咗一個叫「記憶」嘅功能,但官方清楚講咗——呢個係輔助你寫低嘅嘢,唔係代替佢。
啱嘅。呢件事真正做過嘅人都知——AGENTS.md 或者 CLAUDE.md 寫得越用心,AI 越似嗰個同你一齊做咗好耐嘢嘅同事。
呢件事對 Claude Code 用戶意味著咩
讀完成篇文章,我有一個感受要講出嚟——Codex 已經喺產品形態上走喺 Claude Code 前面。
唔係模型能力上。模型能力上 Claude Opus 4.7 而家仍然係我用過最勁嘅寫代碼模型。
係產品形態。係「AI Agent 點樣同你嘅工作流程融合」呢件事嘅產品化程度。
Claude Code 係一個非常優秀嘅 CLI 工具。CLI 嘅好處係靈活、可擴展、可以寫腳本;CLI 嘅壞處係要求用戶識得寫腳本。
Codex 將呢啲事——持久對話流、自動化、側邊欄、共享記憶——做成咗開箱即用嘅產品。門檻低咗,唔識寫代碼嘅人都可以用。
呢個係 OpenAI 一路以嚟最強嘅地方。技術唔一定永遠第一,但產品化經常係第一。
我對 Anthropic 嘅期望係——將 Claude Code 嗰套硬核靈活性保留落嚟,同時將呢啲產品化嘅體驗都補返。兩邊各自走得快嘅部份都吸收過嚟。
不過有一句嘢我要補充:
對個人開發者同獨立創作者嚟講,工具嘅極限唔係工具做到咩,而係你可以將佢用到幾深。
Codex 將呢 8 個模塊都做出咗。但可以將佢哋用順、用透、用出複利嘅人,仍然係少數。
你要用持久對話流,要先諗清楚自己有邊幾條工作主線值得長期掛住。
你要用自動化,要先諗清楚邊啲事每日都重複、邊啲事可以交出去、邊啲事一定要人拍板。
你要用共享記憶,要先諗清楚自己嘅筆記庫點樣組織、AGENTS.md 點樣寫、邊啲邊界 AI 唔可以跨。
工具係畀有想法嘅人放大想法嘅。
冇想法的話,畀你 Codex 你都用唔出。
總結
Codex 呢篇文章我反覆讀咗三次。
第一次讀係功能。第二次讀係結構——8 個模塊點樣組合成一個工作流程。第三次讀係態度。
OpenAI 喺話畀所有人知:寫代碼只係入口,AI Agent 真正嘅產品形態,係你買咗一個可以喺你電腦上幫你做嘢嘅同事。
呢個同事有記憶、可以中途糾正、可以喺你唔喺度嘅時候繼續做、可以攞住明確嘅目標自己向前衝、可以將工作結果直接擺到你眼前畀你審查。
呢件事 Karpathy 一年前已經描述過。
呢件事 Scott White 喺 Anthropic 嘅會上叫 vibe working。
呢件事喺 Claude Code 用戶嗰邊其實一早用一堆 skill 加一個本地知識庫拼咗出嚟。
Codex 而家將佢做成咗一個開箱即用嘅產品。
分別唔係做唔做到,而係門檻。
門檻低咗,更多人會用得上。更多人用咗之後,會出現一批新嘅工作方式——唔再係「我用 AI 幫我做嘢」,而係「我同 AI 一齊做嘢」。
Vibe coding → Vibe working。
下一站係咩?我仲未諗清楚。但 Codex 呢篇分享,至少話畀我哋知 vibe working 呢一站係點樣嘅。
Codex 團隊前幾天發了一篇博客,講怎麼把它用到極致。
讀完之後我感觸頗多,不是因為裏面講的功能多炫——8 個模塊,持久對話流、語音輸入、干預排隊、工具觸達、自動化、目標設定、側邊欄、共享記憶——而是這些功能合起來,已經不是一個"編程助手"了。
我每天用 Claude Code 的時長遠高於 Codex。說實話,我對 Codex 的興趣,主要是想看看 OpenAI 這家在通用智能上最激進的公司,會把"代碼編輯器"這個產品做成什麼樣。
現在他們給了答案。
寫代碼只是入口。真正的產品形態是:你買了一個能在你電腦上替你幹活的 AI 同事。
這件事我去年寫 Agent Teams 那篇的時候提過一句——Scott White 在 Anthropic 的會上說 "We are now transitioning almost into vibe working"。Vibe coding 是讓 AI 幫你寫代碼,vibe working 是讓 AI 幫你幹活。
Codex 這篇分享,就是 vibe working 的官方說明書。
我把它讀完之後,把裏面 8 個模塊分別對應到我自己的工作流裏走了一遍。有些是我已經在用別的工具實現的,有些是我應該做但還沒做的,還有些是 Claude Code 目前還沒有但 Codex 已經做出來了的。
下面一個一個聊。
Codex 把對話窗口分成兩種:聊完就忘的,和長期掛着的。
長期掛着的那種叫持久對話流。你給它起個名字——幕僚長、產品發佈、文檔審查——按 Cmd-1 到 Cmd-9 隨時切回去。它記得你們之前聊到哪、定下了什麼、你的偏好是什麼。
這件事 Claude Code 裏其實也有——每個項目目錄就是一個對話上下文,CLAUDE.md 是這個上下文的記憶文件。但 Codex 做了一件更細的事:對話流不依附於代碼倉庫。
我馬上想到一個場景。
我有一個長期跑的"公眾號選題"對話流。每天我刷推、看公眾號、和朋友聊天的時候,但凡冒出來"這事可以寫一篇"的想法,我就丟進去。它累積着所有的待寫選題、每個選題的角度、為什麼我當時覺得它值得寫、後來又為什麼放棄了。
現在大多數人的方案是這樣:一個筆記軟件裏的臨時清單,加上一個不定期開起來整理的 Claude Code 會話。兩個地方,狀態不同步,每次切回來都得花幾分鐘"上下文回灌"。
如果換成 Codex 的持久對話流——它自己記住所有上下文,我直接說"昨天刷到那條 Karpathy 的推,我覺得可以寫",它就接着上次的討論繼續。
Cmd-1 是選題流。Cmd-2 是長文寫作流。Cmd-3 是工具迭代流。
這不再是聊天窗口了,是工作空間。
語音輸入:在想法變形之前先抓住它
我一直覺得自己說話比寫字更接近真實想法。
打字的時候,大腦會自動修整句子——把模糊的想法掐頭去尾,變成一個看起來通順的表達。修整過的東西就丟失了那些沒想清楚的部分。但很多時候,正是沒想清楚的部分裏藏着真東西。
Codex 內置了語音輸入。它的核心場景不是替代鍵盤,是在你還沒想清楚的時候,先讓你把腦子裏的混亂倒出來。
舉個例子。
我經常在散步的時候冒出來一些念頭,但具體怎麼做,第一秒鐘我自己也講不清。如果讓我回家坐到電腦前再把它打出來,95% 的概率我會把那個沒成型的念頭寫得看起來很合理——然後就沒下文了。
如果當場對着手機說三分鐘:
那個讓 AI 自己改 prompt 的事,我覺得不能讓它自己跑。
得有一個驗證器,但驗證器自己也會跑偏。
所以驗證器得有驗證器的驗證器嗎?
這就死循環了。
但也許不需要無限套娃,只要人在某個層級上有一票否決權就行。
這段東西打出來我自己都不願意打。但說出來之後,AI Agent 拿着它就能接着往下想——你剛才提到的"人在某個層級上有一票否決權",這件事在 Mitchell Hashimoto 的 Harness Engineering 那篇裏有過類似的說法。
錄音轉寫也是同一個意思。一份未經修剪的會議記錄,比一份漂亮的會議總結有用得多。粗糙裏有信息,整齊裏只有結論。
干預和排隊:拿回對正在跑的任務的控制權
這兩個詞翻譯完容易混。我自己習慣這麼記:
干預是踩剎車,排隊是排下一站。
干預——AI 正在做一件事,你看到它跑偏了,你要它立刻停下來換方向。在 Claude Code 裏我經常按 Esc 然後補一句"等等,往左轉一點"。這就是干預。
排隊——AI 還在做當前這件事,你不想打斷它,但你想好了下一步該讓它做什麼,提前告訴它。它做完手頭的就接着做下一件。
Claude Code 現在也有了排隊(我用的是 1.x 之後的版本)。但 Codex 把這兩個動作做得更直觀——側邊欄裏你能看到它在做什麼、你可以一邊在網頁上標註一邊喊停、做完之後隊列裏的下一個任務自動接上。
這件事對什麼人有用?
對編排者有用。
舉個例子。讓一個 Agent 幫我調研某個人物,我在旁邊刷它的研究結果。我看到它搜的方向不對,得能立刻拽它回來;同時我心裏已經想好下一步該讓它查什麼了,得能提前告訴它"這個查完接着查 X"。
如果只能等它幹完一件事我再說一句,整個流程就會卡在我身上。我變成了瓶頸。
干預和排隊這兩個動作合起來,本質是把"控制權"從"任務結束的那一刻"這個唯一時間點,擴展到了任務執行的全過程。
人的判斷什麼時候介入?任何時候都能介入。
工具越強,人的判斷越重要。我說過太多次了。但這句話有一個前提:人的判斷必須能在任何時候介入到正在運行的 AI 任務裏,不能只在任務完成後做事後審查。
干預 + 排隊就是這個前提的產品化。
工具觸達範圍:讓 AI 的手伸出代碼庫
Codex 列了三個工具入口:
• $browser:側邊欄裏的瀏覽器,AI 可以看渲染好的網頁、做標註• @chrome:複用你 Chrome 的登錄狀態,處理需要登錄的網頁流程• @computer:操作整個電腦桌面,包括那些只有 GUI 才能完成的任務
再加上 MCP 服務器和各種連接器,AI 的手就從代碼倉庫伸出去了——伸到 Slack、郵箱、日曆、Figma、Notion,伸到任何能用接口或者能被點擊的地方。
我做內容創作這條線最深的感受是:真正耗時的不是寫作本身,是寫作前的準備和寫作後的發佈。
寫作本身可能就一兩個小時。
但準備階段我得:刷推抓信息、讀對方原文做筆記、找幾個競品看一眼、看看以前自己寫過沒。
發佈階段我得:導出 markdown、配封面圖、配正文圖、壓縮圖片、轉 HTML、貼到公眾號後台、改格式、改空格、上傳封面。中間任何一步出問題——比如某張圖太大上傳失敗——又得退回來重做。
寫作兩小時,前後流程三小時。
如果 Codex(或者任何一個能調起瀏覽器 + 桌面控制 + MCP 的 Agent) 能接管整條流水線——刷推的時候用 chrome 登錄狀態,發佈的時候用 computer 控制公眾號後台,中間的圖片處理用 MCP 調 sips——那這五個小時裏只有寫作那兩小時是真的需要我的。
剩下三小時,本來就不是創意,本來就是機械操作。
機械操作就該交給機器。
我現在用的就是這套架構,只是工具不是 Codex,是 Claude Code + 一堆我自己寫的 skill。但 Codex 這次把這件事做成了開箱即用,門檻低了很多。
在哪裏工作都行:任務跑在 Mac 上,人跑在外面
Codex 讓你能在 Mac 上啓動一個任務,然後離開工位用手機繼續跟進。
這件事看起來是個便利功能,其實是個範式轉變。
以前 AI Agent 是"我打開電腦,讓它幹活,我盯着它"。
現在是"我讓它幹活,我去做自己的事,它有問題手機問我"。
中間差的那個詞是:異步。
我自己有過太多次這樣的場景:
讓 Claude Code 跑一個長任務,比如一批長文檔的批量改版,跑要 30 分鐘。我盯着屏幕看,30 分鐘一動不動。中間它問了我一個選擇題,我等了它 30 秒才看到、回了。跑完了我才去喝咖啡。
理論上我可以在它跑的時候去喝咖啡。但現實是——如果手機上沒有這條任務的接入口,我喝着咖啡也心裏發慌,怕它中間卡住沒人理。
Codex 讓手機變成了任務的遠程辦公室。你出門它繼續跑,跑到一半遇到決策點手機推一下,你回個"批准"或者"換個思路",它接着跑。
這件事對我這種工作流分散的人來說,省的不是時間,是心智帶寬。
我可以讓"prompt 優化跑一晚上"這種任務真的跑一晚上,不用整晚每兩小時爬起來看一眼。
自動化:讓 AI 有自己的心跳
Codex 把自動化分成兩種:
定時自動化——每天從零開始跑一次。適合日報、例行掃描、固定的爬數據。
對話流自動化——按時間表回到同一個對話流繼續工作。它有記憶、有上下文、有上一次沒幹完的事。
後者才是真東西。
我馬上就想到一個我想做但還沒做的東西——一個幕僚長對話流,每 30 分鐘跑一次:
過去 30 分鐘,檢查我的微信、郵箱、X 私信、即刻評論。把需要回復的拉出來,按緊急程度排序。對於那些需要長回覆的,去搜一下相關的上下文 (這個人之前問過我什麼?我之前回過什麼?),起草一份回覆,但不要發。把這一切整理成一份待辦簡報,等我回到電腦前一眼能看完。
這件事不是不能做。Claude Code 也有 hooks 和定時任務的玩法。但 Codex 把它做成了產品級的"對話流自動化",意味着這件事不再需要我搭一整套 cron + script + 狀態管理。
更關鍵的是——它有上下文。
如果是定時自動化,每次跑都得重新告訴它"我是花叔,我在做什麼,我關心什麼"。
如果是對話流自動化,它接着上次的狀態跑——上次它給我起草了一份回覆,我看完決定不發,它記得這件事。下次回到對話流,它知道這個人的回覆優先級要降下來。
這就是從 AI 工具到 AI 同事的差別。
工具每次都是新的。同事是有連續記憶的。
目標設定:把"做完"變成可被驗證的
Codex 給目標設定下了一個非常硬的定義:
目標 = 持續執行 + 驗證器
意思是,光說"把這個 markdown 裏的計劃實現一下"不行,得告訴它怎麼算實現完了。
文章裏舉的例子是把一個 Python 工具遷移到 Rust。糟糕的目標說法:"把它遷移完"。好的目標說法:"直到所有單元測試全部通過才算完成"。
後者多了一句話:怎麼驗證。
這件事我從去年開始一直在強調,做"讓 AI 自我迭代"的項目時最關鍵的一條——修改 agent 和評分 agent 必須分離。修改的可以是 AI,評分的也可以是 AI,但不能是同一個。
Codex 把這件事正式化成了一個產品功能:你給它一個目標,再給它一個驗證器,它就一直跑到驗證器說"過了"為止。
沒有驗證機制的野心只是許願。
我對所有想用 AI 做長任務的人都建議過同樣一件事——先想好怎麼驗證。想不清怎麼驗證,就別讓 AI 跑長任務。
短任務可以容忍它跑偏,反正你自己馬上能看到。長任務跑偏幾個小時之後,損失的不是 token,是你的時間和判斷力。
側邊欄:生成結果不再是"導出來才能看"
這件事我必須說一下,因為我等 Claude Code 這個功能等了很久。
Codex 的側邊欄可以直接渲染:
• markdown 文檔 • 電子表格、數據表 • 演示文稿 (PPT、Keynote 風格) • 瀏覽器中的網頁
應用內瀏覽器還能讓你在網頁上做標註,AI 直接根據標註修改。
我做公眾號寫作流水線最痛的環節是:每次讓 AI 改一版排版,我得跑命令導出 HTML,打開瀏覽器看效果,發現哪裏不對,回到 AI 對話窗口描述問題,AI 改,再導出,再看。
來回切窗口、來回保存文件、來回對照差異。
如果像 Codex 這樣,生成的 HTML 直接在側邊欄渲染,我能在網頁上直接圈出來"這段字太大了"——AI 就着我圈的位置改——同一個窗口裏我馬上能看到改完的效果。
這不是省時間的問題。這是反饋循環長度的問題。
反饋循環越短,迭代效率越高。
我做產品最大的體會,就是把"想法 → 實現 → 看效果 → 調整"這個循環壓到幾分鐘,效率會有一個數量級的跳躍。Codex 的側邊欄,是在 AI 編輯場景裏把這個循環又壓短了一截。
共享記憶:你的 AI 同事得有工作記憶區
最後一個模塊,也是我個人最有感覺的一個。
Codex 的建議非常簡單:在一個本地知識庫 (說白了就是一個裝 markdown 文件的文件夾) 裏,放一個 AGENTS.md。這個文件告訴 Codex:哪些事要記下來、記到哪裏、什麼時候不要瞎改。
這套做法 Claude Code 用戶其實早就在用——叫 CLAUDE.md。一個根 CLAUDE.md 告訴 Claude Code:這個項目怎麼組織、新想法丟哪個文件夾、做完的工作歸到哪、什麼時候該自己寫筆記、什麼時候不要瞎動文件。
Codex 的 AGENTS.md 和 Claude Code 的 CLAUDE.md 是一回事。
它存的不是代碼,是工作的滾動上下文——誰參與了、改了什麼、卡在哪裏、誰跟進、為什麼這麼決定的、什麼時候做的、當時為什麼這麼想。
這些信息全部鎖死在某次聊天裏,下次開新窗口就消失了。
鎖死的信息沒有複利。
寫下來的信息有複利——下個月你打開同一個項目,AI 看一眼 CLAUDE.md 就知道整個故事;你自己看一眼也知道。
這件事我想反覆強調:
寫下來的,會複利;記在腦子裏的,會消散;鎖在聊天記錄裏的,會失蹤。
Codex 內置了一個叫"記憶"的功能,但官方明確說了——這是輔助你寫下來的東西,不是替代它。
對了。這件事真正做過的人都知道——AGENTS.md 或者 CLAUDE.md 寫得越用心,AI 越像那個跟你一起幹活了很久的同事。
這件事對 Claude Code 用戶意味着什麼
讀完整篇文章,我有個感受要說出來——Codex 已經在產品形態上走在 Claude Code 前面了。
不是模型能力上。模型能力上 Claude Opus 4.7 現在仍然是我用過的最強的寫代碼模型。
是產品形態。是"AI Agent 怎麼和你的工作流融合"這件事的產品化程度。
Claude Code 是個非常優秀的 CLI 工具。CLI 的好處是靈活、可擴展、可寫腳本;CLI 的壞處是要求用戶能寫腳本。
Codex 把這些事——持久對話流、自動化、側邊欄、共享記憶——做成了開箱即用的產品。門檻低了,不會寫代碼的人也能用。
這是 OpenAI 一直以來最強的地方。技術不一定永遠第一,但產品化常常是第一。
我對 Anthropic 的期待是——把 Claude Code 那套硬核靈活性保留下來,同時把這些產品化的體驗也補齊。兩邊各自走得快的部分都吸收過來。
不過有一句話我要補充:
對個人開發者和獨立創作者來說,工具的極限不是工具能做什麼,而是你能把它用到什麼深度。
Codex 把這 8 個模塊都做出來了。但能把它們用順、用透、用出複利的人,仍然是少數。
你要用持久對話流,得先想清楚自己有哪幾條工作主線值得長期掛着。
你要用自動化,得先想清楚哪些事每天都在重複、哪些事可以交出去、哪些事必須人來拍板。
你要用共享記憶,得先想清楚自己的筆記庫怎麼組織、AGENTS.md 怎麼寫、哪些邊界 AI 不能跨。
工具是給有想法的人放大想法的。
沒想法的話,給你 Codex 你也用不出來。
總結
Codex 這篇文章我反覆讀了三遍。
第一遍讀的是功能。第二遍讀的是結構——8 個模塊怎麼組合成一個工作流。第三遍讀的是態度。
OpenAI 在告訴所有人:寫代碼只是入口,AI Agent 真正的產品形態,是你買了一個能在你電腦上替你幹活的同事。
這個同事有記憶、能被中途糾正、能在你不在的時候繼續幹、能拿着明確的目標自己往前衝、能把工作結果直接擺到你眼前讓你審查。
這件事 Karpathy 一年前就描述過。
這件事 Scott White 在 Anthropic 的會上叫 vibe working。
這件事在 Claude Code 用戶那邊其實早就用一堆 skill + 一個本地知識庫拼出來了。
Codex 現在把它做成了一個開箱即用的產品。
差別不在能不能做,差別在門檻。
門檻降了,更多人會用上。更多人用上之後,會出現一批新的工作方式——不是"我用 AI 幫我做事",是"我和 AI 一起做事"。
Vibe coding → Vibe working.
下一站是什麼?我還沒想清楚。但 Codex 這篇分享,至少告訴我們 vibe working 這一站長什麼樣了。