Codex 的三個高級功能,正在把 AI 從聊天框裏釋放出來
整理版優先睇
Codex 三個高級功能,令 AI 從對話框走進真實工作流,由回答問題變成完成任務
作者係成日用 Codex 嘅開發者,每日嘅工作就係喺大量軟件同網頁之間切換,好花時間。佢發現 Codex 最近嘅更新,開始從對話框走出來,真正參與到工作流程入面。呢篇文章分享咗三個最值得關注嘅高級功能:Computer Use、Chrome 插件同追求目標,分別對應三個日常工作嘅痛點:操作電腦、用瀏覽器登錄態、持續完成任務。
Computer Use 令 Codex 可以睇到屏幕並直接操作電腦,例如自動製作 PPT;Chrome 插件用瀏覽器嘅登錄態,可以訪問需要權限嘅網頁,幫手整理資訊;追求目標係畀一個明確目標同驗證標準,令 Codex 自動持續推進,唔使下下都要人提點。
整體來講,呢三個功能係一個信號:AI 正由回答問題轉向完成任務。將來嘅關鍵能力,係點樣將一件事定義成 AI 可以執行嘅工作流,而唔係淨係識得提問。
- Codex 嘅三個高級功能——Computer Use、Chrome 插件、追求目標,正將 AI 從對話框解放出嚟,進入真實工作流
- Computer Use 令 AI 可以直接操作電腦,例如 7 分鐘內自動生成 Keynote PPT,由讀取網頁到完成排版
- Chrome 插件唔單止搜網,仲可以用瀏覽器登錄態,訪問 Gmail、內部系統等,並自動整理多個標籤頁資訊成摘要
- 追求目標功能將 AI 由單輪回答變成持續推進,關鍵係設定清晰目標同驗證標準,例如「完成重構,所有測試通過,移動端唔溢出」
- AI 正由回答問題走向完成任務,未來最值錢嘅能力係設計目標、場景同驗證標準,將工作定義成可執行嘅工作流
Computer Use:AI 開始動手執行
第一個功能係 Computer Use,簡單講就係 Codex 可以睇到用家嘅屏幕,直接操作電腦:打開 App、㩒掣、輸入內容、切換視窗。呢個功能令 Codex 可以處理命令行、文件讀取或者 API 接口搞唔掂嘅事。
幫我哋操作真實電腦,從畀建議變成動手執行
作者示範咗一個具體場景:叫 Codex 讀一篇《Codex 喺生活中嘅十大用途》嘅文章,然後基於呢篇文章生成 PPT。成個過程只係用咗 7 分 42 秒,Codex 自己讀文章、總結、操作 Keynote,最後出一份簡約嘅 PPT。
當然呢個功能要小心用,因為涉及屏幕內容同本地 App,最好用喺 PPT、網頁測試、視覺檢查呢啲場景。
Chrome 插件:瀏覽器入面嘅研究助手
第二個功能係 Chrome 插件。佢唔單止可以上網搜索,最重要係可以用我哋瀏覽器嘅登錄態,訪問 Gmail、X、內部系統呢啲需要賬號權限嘅網頁。
用真實瀏覽器嘅登錄態,處理需要權限嘅網頁資訊
作者叫 Codex 研究近兩個月 Codex 嘅更新,正常做法係要逐條更新點入去睇、整理摘要,好花時間。Chrome 插件可以自動打開多篇文章、逐篇閲讀,然後彙總成一份統一嘅摘要。
Chrome 插件就好似一個瀏覽器裏嘅研究助手,下達任務後,佢會打開網頁、閲讀內容、整理重點,最後交出結果。
追求目標:由回答問題到完成任務
第三個功能係追求目標,即係 Codex 嘅 /goal。呢個功能最容易被低估,但如果成日用 AI 做項目,佢反而係最重要。平時用 AI 成日遇到佢好聰明但好易停落嚟,要人不停提醒下一步。
令 Codex 從一輪回覆變成持續推進
追求目標嘅價值係畀一個明確目標同完成標準,例如「完成設置頁面重構,不改變現有行為,所有測試通過,並驗證移動端佈局唔會溢出」。咁樣 AI 就知道應該圍繞咩推進,最後要達到咩效果。
- 1 適合遷移接口、重構組件、補測試、打磨網頁原型呢類需要反覆試錯嘅任務
- 2 改一下、跑一下;失敗咗睇日誌、再修、再驗證,最怕中途斷開
- 3 追求目標就好似畀 Codex 一條主線,一直向最終結果行
總結:AI 走進工作現場,設計工作流先係關鍵
以前 AI 落地最大場景係幫手寫代碼,但而家寫代碼只係第一步。真正嘅變化係 AI 已經開始接觸我哋嘅工作現場:打開 PPT 做文件、打開 Chrome 整理網頁、接住長期目標持續推進到結果完成。
AI 正由回答問題走向完成任務
呢三個功能唔係炫技按鈕,而係一個信號。所以接下來真正拉開差距嘅,可能唔係邊個更識提問,而係邊個更識設計目標、場景同驗證標準。
Codex 最近嘅更新真係好密。基本上每日開 Codex App,都會見到右上角有個藍色下載掣,即係又有新更新內容喇。
所以今日想同大家分享下,Codex 最近呢一個月入面,我覺得最值得留意嘅三個進階功能。
先講結論先,呢三個功能並唔係令到 Codex 更加識得寫 code,而係佢開始由聊天框走出嚟,真正進入到我哋嘅工作流程入面。
我每日嘅工作狀態基本上係咁:一邊睇網頁,一邊開十幾個分頁整理資料;一邊修 bug、跑測試、睇 log,再繼續改 bug;有時仲要打開 PPT,揾素材、改排版。
講真,呢個流程其實都幾麻煩。唔係因為某一個環節特別難,而係因為成日要喺一堆軟件、網頁同任務之間來回切換,好似搬磚咁將資訊由一個地方搬去另一個地方。
而今次我想分享嘅 Codex 三個功能,啱啱好對應咗呢三件事:
Computer Use,幫我哋操作真實電腦;Chrome 插件,幫我哋使用真實瀏覽器嘅登入狀態;追求目標,令 Codex 圍繞一個結果持續推進,直到任務完成。
先講第一個,Computer Use。

簡單嚟講,呢個功能就係 Codex 可以睇到我哋嘅屏幕,並且直接操作我哋自己嘅電腦。佢可以打開 App、撳掣、輸入內容、切換視窗,去處理嗰啲淨靠 command line、讀取檔案或者 API 接口做唔到嘅事。
呢度我直接同大家示範一個好具體嘅場景:用 Codex 嘅 Computer Use 功能做一份 PPT。

我喺度直接 @Computer,話畀佢知我嘅具體需求,去讀一篇《Codex 喺生活中嘅十大用途》嘅文章,然後根據呢篇文章生成對應嘅 PPT。
可以見到,成個過程只係用咗 7 分 42 秒。Codex 自己讀取文章連結,總結文章內容,然後直接操作我嘅電腦,生成咗一份 Keynote 嘅 PPT 文件。

大家可以睇下,因為我冇指定呢個 PPT 嘅風格,亦冇額外加啲乜嘢視覺風格嘅提示詞,所以 Codex 最後做出嚟嘅係一份比較簡約、比較素嘅 PPT。
但係我嚟睇,呢個結果已經幾好喇。

當然呢個 Case 最有意思嘅地方,唔係佢生成咗一份幾咁驚豔嘅 PPT,而係佢已經唔只停留喺「畀我一段 PPT 文案」呢個階段。
因為佢係真係打開咗軟件,讀取咗內容,總結咗資訊,然後將結果放入咗一個真實嘅簡報文件入面。
呢個就係 Computer Use 嘅價值。佢令 Codex 由「畀建議」往前行咗一步,變成咗「可以動手做一部分執行」。
當然,呢個功能都需要謹慎使用。因為佢涉及屏幕內容、系統狀態同本地 App,所以任務範圍一定要講清楚,敏感操作都要人手確認。
所以我嘅建議係,將佢用喺 PPT、網頁測試、視覺檢查、跨 App 操作呢啲場景,會比較舒服。
OK,跟住講第二個功能,即係 Chrome 插件。

呢個功能如果只係理解成「令 Codex 可以上網搜尋」,就有啲太淺啦。因為搜尋網頁呢件事,好多 AI 都做到。
但係 Chrome 插件真正唔同嘅地方在於,佢可以用我哋嘅 Chrome 登入狀態。
呢個意味住佢處理嘅唔只係公開網頁,而係我哋真實瀏覽器入面嘅工作環境。例如已經登入好嘅 Gmail、X、內部系統,或者各種需要賬號權限先可以訪問嘅網頁。
例如今次,我就叫佢幫我研究一下,近兩個月 Codex 做咗啲乜嘢更新。

如果按正常做法,我需要打開 Codex 官網,去睇佢嘅更新列表。每一條更新都要㩒入去睇,睇完之後再整理摘要,最後再歸納出邊啲更新點值得留意。
呢個工作其實唔難,但係好嘥時間,亦都好消耗專注力。
Chrome 插件嘅價值就係呢度。佢可以直接喺分頁入面打開多篇文章,逐篇閲讀,然後將內容彙總成一份統一嘅摘要。

我要嘅並唔係幾十個連結,而係呢啲連結背後到底有啲乜嘢資訊:邊啲更新值得留意,邊啲地方可以變成我嘅選題,邊啲能力可能會改變我之後嘅工作流程。
更有意思嘅係,佢嘅任務會放喺一個 Chrome 分頁組入面。就好似我嘅瀏覽器入面多咗一個獨立工作區。我可以在其他網頁繼續睇其他內容,Codex 喺另一個分頁組入面整理資料。
雙方基本唔會互相干擾。最後等 Codex 完成任務之後,佢會畀我傳一個訊息提醒,我再走去睇結果就 OK 喇。

呢一點對日常資訊工作真係好重要。
因為而家好多人痛苦嘅唔係揾唔到資訊,而係資訊太多喇。我哋打開十幾個分頁,每一篇都覺得幾有用,最後個腦好似開咗十幾個抽屜,邊個都冇閂到。
而 Chrome 插件做嘅嘢,就係將呢啲打開咗嘅抽屜重新整理成一份可以讀嘅筆記。
佢好似一個放喺瀏覽器入面嘅研究助手。你下達一個任務,佢去打開網頁、閲讀內容、整理重點,最後將結果交畀你。
呢個亦都係我覺得 Chrome 插件最實用嘅地方。佢唔係單純幫你搜尋,而係將瀏覽器入面原本好碎嘅資訊工作,整理成一個可以交付嘅結果。
最後講第三個功能,追求目標,即係 Codex 裏面嘅 /goal。

我覺得呢個功能係三個功能入面最容易被低估嘅一個。
因為佢唔似 Computer Use 咁有畫面,亦唔似 Chrome 插件咁容易理解。但係如果我哋成日用 AI 做項目,佢反而可能係最重要嘅一個。
我哋平時用 AI 會遇到一個好煩嘅問題:佢好聰明,但成日好容易停低。
例如你叫佢改一個 bug,佢就改一輪;叫佢修一個問題,佢就修一輪;叫佢優化一個項目,佢可能會先畀你一堆建議。
然後呢?
然後我哋仲要繼續判斷下一步,提佢跑測試,叫佢繼續修,再確認到底算唔算完成。
呢個搞到佢好似一個能力唔錯嘅實習生,但係要你不斷提佢下一步要做啲乜。
而追求目標呢個功能嘅價值,就係令 Codex 由「一輪回答」進入到「持續推進」。
佢唔再只係「幫我優化一下」咁簡單,而係你畀佢一個明確目標。
例如話:
完成設定頁面重構,唔改變現有行為,所有測試都通過,並驗證手機端佈局唔會溢出。
呢句說話入面最關鍵嘅,其實唔係「重構」,而係後面嘅完成標準:
唔改變現有行為;測試通過;手機端佈局唔溢出。
呢個先係一個目標。
好多朋友覺得 AI 嘅效果唔係咁好,並唔係 AI 唔得,而係我哋畀嘅目標太虛啦。
例如「幫我優化一下呢個項目」,呢啲說話其實我哋自己聽到都會頭痛,AI 當然都只能估。
但係如果你將佢變成更具體嘅目標,例如將某個接口嘅回應時間由 1 秒優化到 0.5 秒,或者解決某個慢 SQL 嘅查詢問題,再明確話畀佢知點樣驗證結果,AI 就知道應該圍繞啲乜嘢推進,最後應該達到乜嘢效果。
所以追求目標適合嘅,並唔係嗰啲一步就可以完成嘅事。
佢更適合遷移接口、重構組件、補測試、打磨網頁原型呢類任務。佢哋都需要反覆試錯:改一下,跑一下;失敗咗,再睇 log,再修,再驗證。
呢類任務最怕中途斷咗。
而追求目標就好似畀 Codex 上咗一條主線:唔好只係完成眼前呢一小步,而係一直向着最終結果行。
目標越清晰,佢就越靠譜。驗證方式越明確,佢就越有方向。
真正好嘅目標,應該似一個小型任務合同:要做啲乜、唔可以破壞啲乜、點樣驗證完成、遇到問題優先點樣處理。
當我哋開始咁樣寫目標之後,就會發現自己用 AI 嘅方式都改變咗。
以前我哋係喺問問題。而家,我哋係喺設計一個工作流程。
以前 AI 落地最大嘅場景,確實係幫我哋寫 code。
但係而家嚟睇,寫 code 真係只係第一步。
真正嘅變化係,AI 已經開始接觸我哋嘅工作現場喇。
佢可以打開 PPT,幫我哋做文件;可以打開 Chrome,幫我哋整理文章同網頁;仲可以接住一個長期目標,持續推進到結果完成。
呢個亦都係我覺得 Codex 呢三個進階功能值得獨立寫一篇公眾號嘅原因。
佢哋唔係三個炫技按鈕,而係一個訊號:AI 正在由回答問題,走向完成任務。
所以接下來真正拉開差距嘅,可能唔係邊個更識得提問,而係邊個更識得設計目標、場景同驗證標準。
因為當 AI 真係可以動手之後,人最重要嘅能力就變成咗:我哋可唔可以將一件事定義成佢可以完成嘅工作流程。
呢個先係我覺得下一階段最值錢嘅能力。
Codex 最近的更新真的非常頻繁。基本上每天打開 Codex App,都能看到右上角有一個藍色的下載按鈕,也就是又有新的更新內容了。
所以今天想和大家分享下,Codex 最近這一個月裏,我覺得最值得關注的三個高級功能。
先說結論啊,這三個功能並不是讓 Codex 又更加會寫代碼了,而是它開始從聊天框裏走出來,真正進入到我們的工作流裏面了。
我每天的工作狀態基本上是這樣的:一邊看網頁,一邊開十幾個標籤頁整理資料;一邊修 bug、跑測試、看日誌,再繼續改 bug;有時候還要打開 PPT,找素材、改排版。
說實話,這個流程其實挺麻煩的。不是因為某一個環節特別難,而是因為總要在一堆軟件、網頁和任務之間來回切換,像搬磚一樣把信息從一個地方搬到另一個地方。
而這次我想分享的 Codex 三個功能,剛好對應了這三件事情:
Computer Use,幫我們操作真實電腦;Chrome 插件,幫我們使用真實瀏覽器的登錄態;追求目標,讓 Codex 圍繞一個結果持續推進,直到任務完成。
先聊第一個,Computer Use。

簡單來說,這個功能就是 Codex 可以看見我們的屏幕,並且直接操作我們自己的電腦。它可以打開 App、點擊按鈕、輸入內容、切換窗口,去處理那些單靠命令行、文件讀取或者 API 接口做不到的事情。
這裏我直接給大家演示一個很具體的場景:用 Codex 的 Computer Use 功能做一份 PPT。

我這裏直接 @Computer,告訴它我的具體需求去讀一篇《Codex 在生活中的十大用途》的文章,然後基於這篇文章生成對應的 PPT。
可以看到,整個過程只用了 7 分 42 秒。Codex 自己讀取文章連結,總結文章內容,然後直接操作我的電腦,生成了一份 Keynote 的 PPT 文檔。

大家可以看一下,因為我並沒有指定這個 PPT 的風格,也沒有額外加什麼視覺風格的提示詞,所以 Codex 最後做出來的是一份比較簡約、比較素的 PPT。
但在我看來,這個結果已經挺不錯了。

當然這個 Case 最有意思的地方,不是它生成了一份多麼驚豔的 PPT,而是它已經不只是停留在“給我一段 PPT 文案”這個階段了。
因為它是真的打開了軟件,讀取了內容,總結了信息,然後把結果放進了一個真實的演示文稿裏面。
這就是 Computer Use 的價值。它讓 Codex 從“給建議”往前走了一步,變成了“能動手做一部分執行”。
當然,這個功能也需要謹慎使用。因為它涉及屏幕內容、系統狀態以及本地 App,所以任務範圍一定要說清楚,敏感操作也要人工確認。
所以我的建議是,把它用在 PPT、網頁測試、視覺檢查、跨 App 操作這些場景裏,會比較舒服。
OK,接下來聊第二個功能,也就是 Chrome 插件。

這個功能如果只理解成“讓 Codex 能夠上網搜索”,那就有點太淺了。因為搜索網頁這件事情,很多 AI 都能做。
但 Chrome 插件真正不一樣的地方在於,它可以使用我們的 Chrome 登錄態。
這意味着它處理的不只是公開網頁,而是我們真實瀏覽器裏的工作環境。比如已經登錄好的 Gmail、X、內部系統,或者各種需要賬號權限才能訪問的網頁。
比如這次,我就讓它幫我研究一下,近兩個月 Codex 做了哪些更新。

如果按正常做法,我需要打開 Codex 官網,去看它的更新列表。每一條更新都要點進去讀,讀完以後再整理摘要,最後再歸納出哪些更新點值得關注。
這個工作其實不難,但它很費時間,也很消耗注意力。
Chrome 插件的價值就在這裏。它可以直接在標籤頁裏打開多篇文章,逐篇閲讀,然後把內容彙總成一份統一的摘要。

我要的並不是幾十個連結,而是這些連結背後到底有什麼信息:哪些更新值得關注,哪些地方可以變成我的選題,哪些能力可能會改變我後面的工作流。
更有意思的是,它的任務會放在一個 Chrome 標籤組裏面。就好像我的瀏覽器裏多出了一個獨立工作區。我可以在其他網頁繼續看別的內容,Codex 在另外一個標籤組裏面整理資料。
雙方基本不會互相干擾。最後等 Codex 完成任務以後,它會給我發一個消息提醒,我再去查看結果就 OK 了。

這個點對日常信息工作真的很重要。
因為現在很多人痛苦的不是找不到信息,而是信息太多了。我們打開十幾個標籤頁,每一篇都覺得挺有用,最後大腦像開了十幾個抽屜,哪個都沒關上。
而 Chrome 插件做的事情,就是把這些打開的抽屜重新整理成一份能讀的筆記。
它很像一個放在瀏覽器裏的研究助手。你下達一個任務,它去打開網頁、閲讀內容、整理重點,最後把結果交給你。
這也是我覺得 Chrome 插件最實用的地方。它不是單純幫你搜索,而是把瀏覽器裏原本很碎的信息工作,整理成一個可以交付的結果。
最後聊第三個功能,追求目標,也就是 Codex 裏的 /goal。

我覺得這個功能是三個功能裏最容易被低估的一個。
因為它不像 Computer Use 那麼有畫面,也不像 Chrome 插件那麼容易理解。但如果我們經常用 AI 做項目,它反而可能是最重要的一個。
我們平時用 AI 會遇到一個很煩的問題:它很聰明,但經常容易停下來。
比如你讓它改一個 bug,它就改一輪;讓它修一個問題,它就修一輪;讓它優化一個項目,它可能先給你一堆建議。
然後呢?
然後我們還要繼續判斷下一步,提醒它跑測試,告訴它繼續修,再確認到底算不算完成。
這就導致它很像一個能力還不錯的實習生,但需要你不斷提醒它下一步要做什麼。
而追求目標這個功能的價值,就是讓 Codex 從“一輪迴答”進入到“持續推進”。
它不再只是“幫我優化一下”這麼簡單,而是你給它一個明確目標。
比如說:
完成設置頁面重構,不改變現有行為,所有測試都通過,並驗證移動端佈局不會溢出。
這句話裏面最關鍵的,其實不是“重構”,而是後面的完成標準:
不改變現有行為;測試通過;移動端佈局不溢出。
這才是一個目標。
很多朋友覺得 AI 的效果不太好,並不是 AI 不行,而是我們給的目標太虛了。
比如“幫我優化一下這個項目”,這種話其實我們自己聽到了也會頭疼,AI 當然也只能猜。
但如果你把它變成更具體的目標,比如把某個接口的響應時間從 1 秒優化到 0.5 秒,或者解決某個慢 SQL 的查詢問題,再明確告訴它怎麼驗證結果,AI 就知道應該圍繞什麼推進,最後應該達到什麼效果。
所以追求目標適合的,並不是那種一步就能完成的事情。
它更適合遷移接口、重構組件、補測試、打磨網頁原型這類任務。它們都需要反覆試錯:改一下,跑一下;失敗了,再看日誌,再修,再驗證。
這類任務最怕中途斷掉。
而追求目標就像給 Codex 上了一根主線:不要只完成眼前這一小步,而是一直朝着最終結果走。
目標越清晰,它就越靠譜。驗證方式越明確,它就越有方向。
真正好的目標,應該像一個小型任務合同:要做什麼、不能破壞什麼、怎麼驗證完成、遇到問題優先怎麼處理。
當我們開始這樣寫目標以後,就會發現自己使用 AI 的方式也改變了。
以前我們是在問問題。現在,我們是在設計一個工作流。
以前 AI 落地最大的場景,確實是幫我們寫代碼。
但現在來看,寫代碼真的只是第一步。
真正的變化是,AI 已經開始接觸我們的工作現場了。
它能打開 PPT,幫我們做文檔;能打開 Chrome,幫我們整理文章和網頁;還能接住一個長期目標,持續推進到結果完成。
這也是我覺得 Codex 這三個高級功能值得單獨寫一篇公眾號的原因。
它們不是三個炫技按鈕,而是一個信號:AI 正在從回答問題,走向完成任務。
所以接下來真正拉開差距的,可能不是誰更會提問,而是誰更會設計目標、場景和驗證標準。
因為當 AI 真的能動手之後,人最重要的能力就變成了:我們能不能把一件事情定義成它可以完成的工作流。
這才是我覺得下一階段最值錢的能力。