Codex 能控制瀏覽器?而且有 5 種方式
整理版優先睇
Codex 控制瀏覽器有五種方式,揀錯就跑唔起
呢篇文章係作者整理 Codex 控制瀏覽器嘅五種方法,因為文檔散落到處都係,MCP 頁面講啲、Chrome 擴展講啲、Computer Use 又另一個地方,讀者好難一次過搞清楚。作者嘅結論係:冇邊個方案最好,只有啱唔啱你個場景。用錯場景,再靚嘅方案都跑唔起。
五種方式分別係 Playwright MCP、Chrome DevTools MCP、內置瀏覽器、Chrome 擴展同 Computer Use。Playwright MCP 最適合 UI 自動化測試,用 Accessibility Tree 操作,快又穩定。Chrome DevTools MCP 透過 CDP 直連你正在用嘅 Chrome,保留登入狀態,適合調試已登入嘅內部系統。內置瀏覽器係 Codex App 入面嘅輕量方案,但唔支援登入態,只適合 localhost 或公開頁面。Chrome 擴展係 2026 年 5 月新功能,可以直接操作你已登入嘅 Gmail、Salesforce 等網站。Computer Use 就係最後萬能牌,截圖加模擬點擊,適用於桌面 App 或無 API 嘅遺留系統。
揀邊個好?作者建議從最常見需求出發,先配通一種,其他按需再加。文章入面有 Playwright MCP 同 Chrome DevTools MCP 嘅完整配置代碼,直接複製就用得。
- 五種方式各有適用場景:UI 自動化用 Playwright MCP,調試已登入頁面用 Chrome DevTools MCP,本地開發用內置瀏覽器,操作已登入網站用 Chrome 擴展,測試桌面 App 用 Computer Use。
- Playwright MCP 行 Accessibility Tree,快而穩定,但官方建議若主要寫 code 就用 CLI+Skills 以節省 Token。
- Chrome DevTools MCP 通過 CDP 直連現有 Chrome 實例,保留登入狀態,適合調試內部系統。
- 內置瀏覽器最輕量,但唔支援登入態;Chrome 擴展(2026年5月新功能)可直接操作已登入的 Gmail 等網站。
- Computer Use 係最後手段,截圖模擬操作,適用於無 API 嘅桌面 App 或遺留系統。
Playwright MCP 配置
[mcp_servers.playwright] command = "npx" args = ["@playwright/mcp@latest"] startup_timeout_sec = 30 tool_timeout_sec = 120
Chrome DevTools MCP 配置
[mcp_servers.chrome_devtools] command = "npx" args = ["-y", "chrome-devtools-mcp", "--cdp-url", " startup_timeout_sec = 15 tool_timeout_sec = 60
內容片段
text[mcp_servers.playwright]command = "npx"args = ["@playwright/mcp@latest"]startup_timeout_sec = 30tool_timeout_sec = 120
五種方式,揀錯就跑唔起
上週有人問 Codex 寫完 code 可否自動開瀏覽器驗證,作者發現文檔散落,整合出五種方式。
- Playwright MCP — UI 自動化測試首選
- Chrome DevTools MCP — 調試神器
- 內置瀏覽器 — 本地開發專用
- Chrome 擴展 — 操作你登錄過的網站
- Computer Use — 最後的萬能牌
用錯場景,再好的方案也跑不起來
主流自動化同調試方案
Playwright MCP 行 Accessibility Tree,唔靠截圖或視覺模型,操作快、結果穩定。適合 UI 測試、端到端驗證、批量填表等。
官方建議:如果主要用 Codex 寫 code,用 CLI+Skills 更慳 Token,MCP 適合以瀏覽器操作為核心嘅任務。
Chrome DevTools MCP 走 CDP 協議,直連你正在跑嘅 Chrome 實例,保留登入態、Cookie、LocalStorage。適合調試已登入嘅內部系統。
Chrome DevTools MCP 唔會新開瀏覽器,直接用現有會話
Playwright MCP 行 Accessibility Tree
CDP 協議直連 Chrome 實例
本地開發同已登入操作
內置瀏覽器係 Codex App 最輕量方案,你同 Codex 睇同一個頁面。開啓 Annotation 模式可以直接調字體、顏色、間距,預覽無誤再發畀 Codex。
內置瀏覽器唔支援登入態,只能用 localhost 或公開頁面
Chrome 擴展係 2026 年 5 月新功能,裝咗之後 Codex 可以直接操作你已登入嘅 Chrome 會話,跨 Tab 幹活。Gmail、Salesforce、內部系統都得。
Chrome 擴展直接進你現有的會話,唔係新開瀏覽器
內置瀏覽器最輕量,但有限制
Chrome 擴展:2026年5月新功能
最後手段同選擇指南
Computer Use 係最後萬能牌,原理係截屏 → 睇畫面 → 模擬點擊同鍵盤輸入。唔需要 API、協議、DOM,只要有界面就操作到。
Computer Use 截屏模擬,適用於桌面 App 或遺留系統
支援 macOS 同 Windows(EEA 除外)。macOS 可後台運行,Windows 會接管鼠標鍵盤。
Computer Use:最後萬能牌
唔需要 API,只要有界面就操作
- UI 自動化測試 → Playwright MCP
- 調試已登入頁面 → Chrome DevTools MCP
- 本地開發 → 內置瀏覽器
- 已登入網站 → Chrome 擴展
- 桌面 App → Computer Use
我話得。
佢話咁點配?
我靜咗三秒。
因為老實講,呢 part 文件散到周圍都係,MCP 頁面講少少,Chrome 擴展又講啲,Computer Use 又係另一個地方——如果你唔將佢哋拼埋一齊,根本唔知自己應該用邊個。
今日將呢 5 種方法全部整理出嚟,附帶配置、場景,睇完可以直接用。
先講結論
Codex 控制瀏覽器有 5 種方法:
- Playwright MCP
- Chrome DevTools MCP
- 內置瀏覽器(In-app Browser)
- Chrome 擴展
- Computer Use
唔係話邊個最好,而係用錯場景,再好嘅方案都行唔到。
① Playwright MCP — 自動化測試首選
呢個應該係最多人想要嘅。
行 UI 測試、端到端驗證、批量填表、截圖對比——呢啲用 Playwright MCP 就啱曬。底層行嘅係 Playwright 嘅 Accessibility Tree,唔靠截圖,唔靠視覺模型,操作快、結果穩定。
安裝方法好簡單,兩步:
方法一:一行 command
bashcodex mcp add playwright -- npx @playwright/mcp@latest方法二:手動寫 config
打開 ~/.codex/config.toml,加落去:
text[mcp_servers.playwright]command = "npx"args = ["@playwright/mcp@latest"]startup_timeout_sec = 30tool_timeout_sec = 120重啟 Codex,輸入 /mcp,看到 playwright 狀態顯示已啓用就得咗。
如果要行 CI 或者無頭模式,args 度加 "--headless";想網絡攔截、Mock 接口,加 "--caps", "network"。
裝好之後直接講:
佢就會自己去搞掂。
但呢度有個反轉——
Playwright MCP 嘅官方 README 入面有一句,好少人留意到:
意思係,如果你主要用 Codex 寫 code、順便做幾個瀏覽器動作,MCP 會將大量 Token 用喺加載工具 Schema 度,唔划算。
呢種情況佢哋建議用 Playwright CLI + Skills。
MCP 更適合嘅係:以瀏覽器操作為核心、需要持久狀態、要喺頁面結構入面反覆推理嘅任務。例如寫一個自癒測試、做複雜嘅爬取 workflow。
你係邊種需求,自己判斷。
② Chrome DevTools MCP — 調試神器
場景好具體:你想叫 Codex 操作一個你已經登入咗嘅網頁,但唔想重新行登入流程。
呢個時候 Playwright MCP 唔夠用,因為佢預設係新開一個乾淨嘅瀏覽器。
Chrome DevTools MCP 行嘅係 CDP 協議,直接連線你正在行緊嘅 Chrome instance,登入狀態、Cookie、LocalStorage 全部保留。
安裝之前先開 Chrome,帶埋調試 port:
bash# macOS/Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome \ --remote-debugging-port=9222 \ --user-data-dir=/tmp/codex-debug然後 config.toml 加:
text[mcp_servers.chrome_devtools]command = "npx"args = ["-y", "chrome-devtools-mcp", "--cdp-url", "http://localhost:9222"]startup_timeout_sec = 15tool_timeout_sec = 60之後你就可以講:
或者:
適合調試、深度分析、操作需要登入嘅內部系統。
③ 內置瀏覽器 — 本地開發專用
呢個最輕量,亦最易被人忽略。
Codex App 入面有個內置瀏覽器,你同 Codex 睇嘅係同一個 page。你可以直接喺上面框出問題區域、寫標註,Codex 睇到你留嘅註釋之後去改 code。
開啟方法:Plugins → 裝 Browser plugin,然後 Cmd+Shift+B 打開。
用法舉例:
仲有個更爽嘅玩法:開 Annotation 模式,喺 page 上㩒一個 element,彈出嘅面板可以直接調 font size、顏色、間距嘅值,預覽冇問題再 send 畀 Codex——佢收到嘅係精確嘅修改目標,唔係含糊嘅「覺得細咗啲」。
但有個硬限制:唔支援登入狀態,唔會讀你嘅 Chrome Cookie。只可以用 localhost 或者唔使登入嘅公開頁面。要登入嘅,睇落去。
④ Chrome 擴展 — 操作你已登入嘅網站
呢個係 2026 年 5 月先出嘅新功能,好多人仲未知道。
一句概括:裝咗之後,Codex 可以喺你嘅 Chrome 入面跨 Tab 做嘢,你仲可以繼續用瀏覽器。
唔係新開一個 Chrome,係直接入你現有嘅 session。Gmail、Salesforce、公司內部系統——佢一打開就可以操作,因為你一早登入咗。
點樣裝:
- Codex App → Plugins → 搜尋並加入 Chrome extension
- 按引導安裝 Chrome Web Store 裏面嘅 Codex extension
- Chrome 會彈一堆權限要求,全部同意
- Extension icon 顯示 Connected 就通了
用法:
安全方面:預設每個新網站都會問你要唔要允許,你可以建立白名單。瀏覽器歷史預設關閉,單獨授權先用得。
要注意嘅係,網頁內容係唔可信嘅,惡意網站可能喺頁面藏指令試圖操控 Codex。操作前確認網站可靠。
⑤ Computer Use — 最後嘅萬能牌
前面四種都唔夠用嘅時候,就輪到佢。
原理好粗暴:截圖 → 睇畫面 → 模擬㩒同輸入。唔需要 API,唔需要協議,唔需要 DOM。只要有界面,佢都可以操作。
macOS 同 Windows 都支援(EEA 地區除外)。
裝法:Codex App → Settings → Computer Use → Install,然後授權兩個系統權限:
- 屏幕錄製:等 Codex 睇到屏幕
- 輔助功能:等 Codex 可以㩒同輸入
(Settings → Privacy & Security 度揾呢兩項,將 Codex 加落去)
用法:
咩情況下用佢:測試冇 API 嘅 desktop app、行 iOS simulator 流程、操作遺留系統、重現只喺 GUI 入面出現嘅 bug。
Windows 用家要注意:佢會接管你嘅 mouse 同 keyboard,喺 task 行完之前最好唔好鬱部電腦。macOS 支援背景執行,影響細啲。
揀邊個,一張表
老實講,將呢 5 種方法搞清楚之前,我一直以為 Codex 操控瀏覽器得一條路——後來先發現完全唔係。
每種方法都有自己的適用邊界,搞錯咗輕則浪費 Token,重則根本行唔到。
建議你由最常見嘅需求出發,先將對應嗰一種配通,其他嘅按需要再加。
Playwright MCP 嘅配置 code 喺文章入面,直接複製,重啟 Codex 就可以用。
我說能。
他說那怎麼配?
我沉默了三秒。
因為說實話,這塊文檔散得到處都是,MCP 頁面說一點,Chrome 擴展說一點,Computer Use 又是另一個地方——你不把它們拼在一起,根本不知道自己該用哪個。
今天把這 5 種方式全整理出來,帶配置、帶場景,看完直接能用。
先說結論
Codex 控制瀏覽器有 5 種方式:
- Playwright MCP
- Chrome DevTools MCP
- 內置瀏覽器(In-app Browser)
- Chrome 擴展
- Computer Use
不是說哪個最好,是說用錯場景,再好的方案也跑不起來。
① Playwright MCP — 自動化測試首選
這個應該是最多人想要的。
跑 UI 測試、端到端驗證、批量填表、截圖對比——這些用 Playwright MCP 就對了。底層走的是 Playwright 的 Accessibility Tree,不靠截圖,不靠視覺模型,操作快、結果穩定。
裝法很簡單,兩步:
方法一:一行命令
bashcodex mcp add playwright -- npx @playwright/mcp@latest方法二:手動寫配置
打開 ~/.codex/config.toml,加進去:
text[mcp_servers.playwright]command = "npx"args = ["@playwright/mcp@latest"]startup_timeout_sec = 30tool_timeout_sec = 120重啓 Codex,輸入 /mcp,看到 playwright 狀態顯示已啓用就成了。
要跑 CI 或者無頭模式,args 里加 "--headless";想網絡攔截、Mock 接口,加 "--caps", "network"。
裝好之後直接說:
它就自己去幹了。
但這裏有個反轉——
Playwright MCP 的官方 README 裏有一句話,很少人注意到:
意思是,如果你主要用 Codex 寫代碼、順帶跑幾個瀏覽器動作,MCP 會把大量 Token 花在加載工具 Schema 上,不划算。
這種情況他們建議用 Playwright CLI + Skills。
MCP 更適合的是:以瀏覽器操作為核心、需要持久狀態、要在頁面結構裏反覆推理的那種任務。比如寫一個自愈測試、做複雜的爬取工作流。
你是哪種需求,自己判斷。
② Chrome DevTools MCP — 調試神器
場景很具體:你想讓 Codex 操作一個你已經登錄了的網頁,但又不想重新走登錄流程。
這時候 Playwright MCP 不夠用,因為它默認是新開一個乾淨的瀏覽器。
Chrome DevTools MCP 走的是 CDP 協議,直連你正在跑的 Chrome 實例,登錄態、Cookie、LocalStorage 全都保留。
裝之前先把 Chrome 開起來,帶上調試端口:
bash# macOS/Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome \ --remote-debugging-port=9222 \ --user-data-dir=/tmp/codex-debug然後 config.toml 加:
text[mcp_servers.chrome_devtools]command = "npx"args = ["-y", "chrome-devtools-mcp", "--cdp-url", "http://localhost:9222"]startup_timeout_sec = 15tool_timeout_sec = 60之後你就可以說:
或者:
適合調試、深度分析、操作需要登錄的內部系統。
③ 內置瀏覽器 — 本地開發專用
這個最輕量,也最容易被忽視。
Codex App 裏有個內置瀏覽器,你和 Codex 看的是同一個頁面。你能在上面直接框出問題區域、寫標註,Codex 能看到你留的註釋然後去改代碼。
開啓方法:Plugins → 裝 Browser 插件,然後 Cmd+Shift+B 打開。
用法舉例:
還有個更爽的玩法:開 Annotation 模式,在頁面上點一個元素,彈出來的面板裏能直接調字體大小、顏色、間距的值,預覽沒問題了再發給 Codex——它拿到的是精確的修改目標,不是含糊的"感覺有點小"。
但有個硬限制:不支持登錄態、不讀你的 Chrome Cookie。只能用 localhost 或者不用登錄的公開頁面。需要登錄的,往下看。
④ Chrome 擴展 — 操作你登錄過的網站
這個是 2026 年 5 月才出的新功能,好多人還不知道。
一句話概括:裝上之後,Codex 能在你的 Chrome 裏跨 Tab 幹活,你還可以繼續用瀏覽器。
不是新開一個 Chrome,是直接進你現有的會話。Gmail、Salesforce、公司內部系統——它打開就能操作,因為你早就登進去了。
怎麼裝:
- Codex App → Plugins → 搜索並添加 Chrome 插件
- 按引導安裝 Chrome Web Store 裏的 Codex 擴展
- Chrome 會彈一堆權限請求,全部同意
- 擴展圖標顯示 Connected 就通了
用法:
安全方面:默認每個新網站都會問你要不要允許,你可以建白名單。瀏覽器歷史默認關閉,單獨授權才能用。
要注意的是,網頁內容是不可信的,惡意網站可能往頁面裏藏指令試圖操控 Codex。操作前確認網站靠譜。
⑤ Computer Use — 最後的萬能牌
前面四種都不夠用的時候,就輪到它了。
原理很粗暴:截屏 → 看畫面 → 模擬點擊和鍵盤輸入。不需要 API,不需要協議,不需要 DOM。只要有界面,它都能操作。
macOS 和 Windows 都支持(EEA 地區除外)。
裝法:Codex App → Settings → Computer Use → Install,然後授權兩個系統權限:
- 屏幕錄製:讓 Codex 看到屏幕
- 輔助功能:讓 Codex 能點擊和輸入
(Settings → Privacy & Security 裏找這兩項,把 Codex 加進去)
用法:
什麼情況下用它:測試沒有 API 的桌面 App、跑 iOS 模擬器流程、操作遺留系統、復現只在 GUI 裏出現的 bug。
Windows 用戶要注意:它會接管你的鼠標鍵盤,任務跑完之前最好別動電腦。macOS 支持後台運行,影響小一些。
選哪個,一張表
說實話,把這 5 種方式摸清楚之前,我一直以為 Codex 操控瀏覽器就一條路——後來才發現完全不是。
每種方式都有自己的適用邊界,搞混了輕則多費 Token,重則根本跑不起來。
建議從你最常見的需求出發,先把對應那一種配通,其他的按需再加。
Playwright MCP 的配置代碼在文章裏,直接複製,重啓 Codex 就能用。