搞錯了!Codex Chrome 插件和Comet完全是兩個次元的東西

作者:字節筆記本
日期:2026年5月10日 上午3:27
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

Codex Chrome插件與Comet係兩個次元嘅產物,前者結合本地Agent做到超乎想像嘅操作

整理版摘要

呢篇文章係作者分享佢對Codex Chrome插件同Comet嘅深入體驗比較。作者之前發文講Codex App「殺」咗Comet,之後有人問兩者有咩分別,於是佢寫呢篇文詳細解釋。

CometPerplexity做嘅獨立瀏覽器,用Chromium內核,形態係側邊欄常駐AI助手。你可以喺瀏覽網頁嗰陣透過側邊欄對話,叫佢幫你總結、對比、查找標籤網頁內容,甚至點擊操作頁面。但呢啲功能都侷限喺瀏覽器本身。Codex Chrome插件就完全唔同,唔使另外裝瀏覽器,直接接管你而家用緊嘅Chrome,可以讀DOM、注入腳本、攔截請求、截圖同導航。最關鍵嘅係,佢同本地Coding Agent結合,打破咗瀏覽器嘅次元壁。

作者用一個實際例子示範:佢想從路演網站下載一個blob://影片,Comet根本做唔到,因為佢只能讀HTML結構或者截圖識別,冇得調終端或者寫檔案。但Codex插件嘅Agent自動完成咗成個流程:打開頁面、分析直播影片資訊、檢查頁面日誌同前端分包、從混淆源碼定位到真實HLS直播源、最後調用本地ffmpeg錄製成檔案。成個過程作者只係落咗命令,完全冇幹預。所以佢提醒,如果只係將Codex插件當做頁面提取工具,真係暴殄天物——佢嘅真正實力係同本地Agent結合,將瀏覽器變成上下文。文章最後介紹咗一個開源項目open-codex-browser-use,可以將呢個能力解耦,俾其他Coding Agent好似Claude C…

  • Codex Chrome插件唔係Comet嘅替代品,而係更高層次嘅Agent工具,可以結合本地Coding Agent實現瀏覽器層面冇可能做到嘅操作。
  • 核心差異在於Comet只係瀏覽器側欄,權限侷限喺讀取頁面HTML;而Codex插件可以完全接管瀏覽器,讀DOM、注入腳本、攔截請求、截圖同導航。
  • 作者示範用Codex插件下載blob://影片,Agent自動分析混淆源碼、定位m3u8地址、調用ffmpeg錄製,全程無需幹預。
  • 啟發:呢種工具唔止做頁面提取或填表,而係將瀏覽器變成Agent嘅上下文,執行跨應用嘅複雜任務,例如操作終端同寫檔案。
  • 可行動點:開源項目open-codex-browser-use可以俾任何Coding AgentClaude CodeCodex、Cursor等)安裝使用,只需簡單指令或MCP配置。
值得記低
工具 link.bytenote.net

open-codex-browser-use

將Codex Chrome插件嘅瀏覽器接管能力解耦,可同任何Coding Agent配合使用,支援列出標籤頁、打開頁面、導航、執行CDP操作、運行action plan、清理會話。

整理重點

Comet同Codex插件根本係兩個次元嘅嘢

上次我講Codex App「殺」咗Comet,之後羣組就有人問兩者有咩分別。其實深度用過之後就會發現,呢兩個根本係唔同次元嘅產物。

CometPerplexity做嘅獨立瀏覽器,採用開源Chromium內核,形態係側邊欄常駐AI助手。

透過側邊欄AI助手,你可以一邊瀏覽一邊用對話形式叫佢總結、對比、查找標籤網頁內容,或者直接叫佢點擊操作頁面。類似嘅仲有Google Chrome AI側欄同之前推薦過嘅Dio瀏覽器。

Codex Chrome插件則係完全唔同嘅物種,唔需要額外安裝實體瀏覽器

佢喺實現Comet睇頁面、總結頁面、點擊頁面嘅基礎上,畀Agent接管成個瀏覽器,可以讀DOM、注入腳本、攔截請求、截圖同導航。

整理重點

實戰示範:自動下載blob影片

我尋日朝早從一個路演網站下載影片,頁面標籤掛住blob:,冇直接下載地址。如果換成傳統Comet,根本無法實現——佢只限於讀取頁面HTML結構,最多用多模態截圖識別影片位置,但受限於瀏覽器權限,唔可以調終端或者寫檔案。

Codex Chrome插件嘅操作更智能、更狂野、更流暢

  1. 1 第一步,輸入at chrome之後直接打開並接管頁面。
  2. 2 第二步,檢查頁面直播影片資訊,發現係blob:播放地址。
  3. 3 第三步,分析頁面日誌同前端分包,拉取Bundle JS,從混淆源碼角度解析,定位真實HLS直播源。
  4. 4 第四步,調用本地ffmpeg錄製直播流,生成檔案。

成個過程行雲流水,Agent不再受限於命令行或者瀏覽器本身,接管頁面、分析壓縮後嘅前端分包、從接口響應揾到真實m3u8地址,再調ffmpeg錄落嚟。我只係落咗命令,完全冇做任何干預,徹底做甩手掌櫃。

如果只係將Codex Chrome插件當做頁面內容提取或者比價填表,真係暴殄天物

整理重點

開源方案:將能力解耦畀任何Agent

呢套嘢目前只限訂閲用戶使用,但如果你都想喺Claude Code呢類平台上用,可以考慮一個開源項目open-codex-browser-use。佢將Codex插件嘅能力解耦出來,CLIChrome擴展,唔綁任何Coding Agent,喺Cursor或者Copilot都可以正常用。

安裝好簡單Claude Code用戶執行npx skills add iFurySt/open-codex-browser-use -g -a claude-code \ --skill open-browser-use --copy -y

Codex用戶都可以裝類似指令。如果用MCP嘅話更加簡單,加一行配置就得:

MCP配置 ini
[mcp_servers.open_browser_use]
command = "obu"
args = ["mcp"]
  • 裝完之後Agent可以做嘅包括:列出所有標籤頁、打開頁面、導航、執行CDP操作、運行action plan、清理會話。
  • 基本上Codex原生能做嘅,呢個開源方案都可以做到。

開源地址同安裝說明:https://link.bytenote.net/y5o3nl

上次出咗Codex App『殺』死咗 Comet!之後字節筆記本羣入面就有人問兩者有乜嘢分別?

44021621-a55c-42f4-9610-5b154ef3e16c.png

其實如果你深度用過之後就會發現呢兩個根本係唔同次元嘅嘢。

Comet 係 Perplexity 做嘅獨立瀏覽器,採用開源嘅 Chromium 內核,形態係側邊欄常駐 AI 助手。

透過呢個側邊欄 AI 助手,瀏覽嘅同時可以喺側邊欄透過對話嘅形式令佢幫你總結、對比、查找標籤網頁內容,或者直接叫佢點擊操作頁面。

9944b35c-8c0f-4f26-a329-ad0ebd037125.png

同佢類似嘅仲有 Google 嘅 Chrome AI 側欄,同埋之前推薦過嘅 Dio 瀏覽器。

Codex 嘅 Chrome 插件就完全係另一種物種。

唔需要你額外安裝任何實體瀏覽器,喺做到 Comet 睇頁面、總結頁面、點擊頁面嘅基礎上,令 Agent 接管成個瀏覽器,讀 DOM、注入腳本、攔截請求、截圖同導航。

而令佢碾壓以上 AI 形態嘅係:同本地 Coding Agent 結合實現更高級嘅操作。

靠本地 Codex 嘅能力打破咗傳統操作瀏覽器 Agent 只限於瀏覽器本身嘅次元壁。

舉個例。

我昨晚從一個路演網站下載影片,頁面標籤入面掛住 blob:,冇俾到直接可以下載嘅地址。

換成傳統嘅 Comet 根本做唔到,因為佢只限於讀取頁面標籤嘅 HTML 結構,最多都係用佢嘅多模態能力截圖識別出影片嘅位置。

受限於瀏覽器本身嘅權限,Comet 唔可以調用終端,亦唔可以寫檔案。

相比之下,Codex APP 下面嘅 Codex Chrome 插件操作更智能、更狂野、更流暢。

第一步,輸入 at chrome 之後,直接打開並接管咗頁面。

cba29f11-f319-4b7a-bfe1-ff4c90d60153.png

第二步,檢查頁面入面嘅直播影片資訊,發現係 blob: 播放地址。

36082c2c-5215-4e9b-ba7e-9809d56c8895.png

第三步,繼續分析頁面日誌同前端分包,直接拉咗入面嘅 Bundle JS,從頁面混淆過嘅源碼角度解析,定位到真實 HLS 直播源。

906f2865-e1d0-4345-abb2-ea0e8f4bd67e.png

第四步,再嚟調用本地嘅 ffmpeg 錄製直播流,生成檔案。

一氣呵成,Codex 嘅 agent 唔再受限於命令行或者瀏覽器本身,接管頁面、分析壓縮後嘅前端分包、從接口響應入面揾到真實嘅 m3u8 地址,再叫 ffmpeg 錄低。

成個過程,我只係落咗命令,完全冇做任何干預,徹底嘅甩手掌櫃,淨係負責睇結果。

所以,如果你淨係將 Codex Chrome 插件當做係頁面內容提取,或者做類似頁面比價填表呢啲操作,咁就真係暴殄天物喇。

Codex Chrome 插件真正嘅實力係佢同 Code X 嘅本地 Agent 結合使用,瀏覽器只係佢嘅上下文咋。

不過呢套嘢目前只係得訂閲用戶先用得,如果你都恨呢個功能,或者想喺 Claude Code 嘅平台上用,可以用呢個開源項目

唔需要額外嘅 GPT 訂閲,亦唔需要指定 Codex。

open-codex-browser-use 將佢解耦出嚟,CLI 加 Chrome 擴展,唔綁任何 Coding Agent,喺 Cursor 或者 Copilot 都可以正常使用。

開源地址同安裝說明:

https://link.bytenote.net/y5o3nl

之後,Claude Code 用戶裝呢個:

npx skills add iFurySt/open-codex-browser-use -g -a claude-code \
  --skill open-browser-use --copy -y

Codex 用戶都可以裝:

npx skills add iFurySt/open-codex-browser-use -g -a codex \
  --skill open-browser-use --copy -y

用 MCP 嘅話就更簡單,加一行配置:

[mcp_servers.open_browser_use]
command = "obu"
args = ["mcp"]

裝完之後 Agent 做到嘅嘢,包括列出所有標籤頁、打開頁面、導航、執行 CDP 操作、運行 action plan、清理會話。基本上 Codex 原生做到嘅,基本都做到。

Cloudflare 靜靜雞做咗件大事:將所有主流 Coding Agent 都收歸旗下

我用 Obsidian 俾 Coding Agent 裝咗個硬碟!佢終於唔再失憶喇

更多關於 Codex 嘅高級使用技巧,可以留意字節筆記本星球嘅每日推送:

圖片

上次發了Codex App“殺”死了 Comet!之後字節筆記本羣裏就有人問兩者到底有什麼區別?

44021621-a55c-42f4-9610-5b154ef3e16c.png

其實你如果深度使用之後會發現這兩個根本就是不次元的東西。

Comet 是 Perplexity 做的獨立瀏覽器,採用開源的Chromium 內核,形態是側邊欄常駐AI助手。

通過這個側邊欄AI助手,瀏覽的同時可以在側邊欄通過對話的形式讓它能幫你總結、對比、查找標籤網頁內容,或者是直接讓它來點擊操作頁面。

9944b35c-8c0f-4f26-a329-ad0ebd037125.png

與之類似的還有Google 的 Chrome AI側欄,以及之前推薦過的Dio瀏覽器。

Codex的 Chrome插件則是完全不同的物種。

不需要你額外去安裝任何實體的瀏覽器了,在實現Comet看頁面,總結頁面,點擊頁面基礎上,讓Agent接管整個瀏覽器,讀 DOM、注入腳本、攔截請求、截圖以及導航。

而讓它碾壓以上AI形態的是:與本地Coding Agent結合實現更高級的操作。

藉助本地Codex的能力打破了傳統操作瀏覽器Agent只限於瀏覽器本體的次元壁。

舉個例子。

我昨天早從一個路演網站下載視頻,頁面標籤裏掛的是 blob:,並沒有給出直接可以下載的地址。

換成傳統的Comet根本就無法實現,因為它僅限於讀取頁面標籤的HTML結構,最多也只能夠是使用它的多模態能力截圖識別出視頻的位置。

受限於瀏覽器本身的權限,Comet不能調終端,也不可寫文件。

相比之下Codex APP下的Codex Chrome插件操作更智能、更狂野、更流暢。

第一步,輸入at chrome之後,直接打開並接管了頁面。

cba29f11-f319-4b7a-bfe1-ff4c90d60153.png

第二步,檢查頁面裏的直播視頻信息,發現是 blob: 播放地址。

36082c2c-5215-4e9b-ba7e-9809d56c8895.png

第三步,繼續分析頁面日誌和前端分包,直接拉取了裏面的Bundle JS,從頁面混淆過的源碼角度解析,定位到真實 HLS 直播源。

906f2865-e1d0-4345-abb2-ea0e8f4bd67e.png

第四步,再來調用本地的ffmpeg 錄製直播流,生成文件。

行雲流水,Codex 的 agent不再受限於命令行或者是瀏覽器本身, 接管頁面、分析壓縮後的前端分包、從接口響應裏找到真實的 m3u8 地址,再調 ffmpeg 錄下來

整個過程,我只下達了命令,完全沒有做任何的干預,徹底的甩手掌櫃,只負責查看結果。

所以,你如果只是把Codex Chrome插件當做是頁面內容提取,或者是做類似於頁面比價填表這種操作,那可真的是暴殄天物了。

Codex Chrome插件真正實力是它與Code X的本地Agent來結合使用,瀏覽器只是它的上下文而已。

不過這套東西目前只能夠是訂閲用戶來使用,如果你也眼饞這個功能,或者想在Claude Code的平台上使用,可以使用這樣的一個開源項目

不需要額外的GPT訂閲,也不需要指定Codex 。

open-codex-browser-use 把它解耦出來,CLI 加 Chrome 擴展,不綁任何 Coding Agent,在Cursor或者是Copilot也可以正常的使用。

開源地址和安裝說明:

https://link.bytenote.net/y5o3nl

之後,Claude Code 用戶裝這個:

npx skills add iFurySt/open-codex-browser-use -g -a claude-code \
  --skill open-browser-use --copy -y

Codex 用戶也可以裝:

npx skills add iFurySt/open-codex-browser-use -g -a codex \
  --skill open-browser-use --copy -y

用 MCP 的話更簡單,加一行配置:

[mcp_servers.open_browser_use]
command = "obu"
args = ["mcp"]

裝完之後 Agent 能做的事,包括列出所有標籤頁、打開頁面、導航、執行 CDP 操作、運行 action plan、清理會話。基本上 Codex 原生能做的,基本都可以。

Cloudflare悄悄做了件大事:把所有主流Coding Agent都全收編了

我用Obsidian 給 Coding Agent裝了一塊硬盤!它終於不再失憶了

更多關於Codex的高級使用技巧,可以關注字節筆記本星球的每日推送:

圖片