微軟開源Playwright-cli：讓AI接管瀏覽器，邊調代碼邊生成腳本

作者：AI科技驛站

日期：2026年4月29日上午10:53

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

微軟開源 Playwright-cli：AI 幫你邊睇邊改 Playwright 腳本，唔使再煩元素定位同下載捕獲

整理版摘要

呢篇文章講微軟最近低調開源咗 playwright-cli，GitHub 上已經有 9000+ stars。作者想解決嘅問題好實際：大部分人寫 Playwright 腳本都冇幾次一次跑通，成日要面對元素定位失敗、點擊冇反應、下載捕獲唔到呢啲麻煩。而家呢個工具嘅核心能力就係「讓 AI 接管瀏覽器」，邊睇真實頁面邊幫你調代碼，調完直接生成可以獨立運行嘅 Python 腳本。

文章重點介紹咗六大應用場景，包括自動下載報表、排查按鈕冇反應嘅原因、捕獲 form.submit() 觸發嘅下載、處理 iframe 結構、幫你改現有 Playwright 代碼、同埋最終將探索成果固化做獨立腳本。作者特別強調，playwright-cli 係一個探索工具，唔係運行環境，正確工作流程係「AI + CLI 探索 → 生成 Python 腳本 → 直接運行 .py」。

整體結論係：瀏覽器自動化唔係新技術，但 playwright-cli 令佢第一次對非程序員變得友好——以前你要學工具，而家工具適應你。你只需用自然語言講出目標，AI 會負責翻譯成具體操作。而且佢提供咗一條由探索到固化嘅完整路徑，令你嘅自動化任務可以脱離 AI 獨立運行。

核心價值：AI 邊睇真實瀏覽器邊改代碼，直接生成可獨立運行嘅 Python 腳本，解決元素定位同下載捕獲等常見問題。
使用方法：只需啟動帶調試端口嘅瀏覽器，然後用自然語言命令 AI 執行操作，例如「幫我將本月銷售報表導出」。
相比 MCP 嘅優勢：CLI 更省 Token，適合需要同時處理大型代碼庫 + 瀏覽器操作嘅編程代理；MCP 則適合深度探索。
實戰啟發：AI 可以幫你發現前端隱藏邏輯（例如按鈕只在工作時間生效），或者用 CDP 繞過普通腳本捕獲唔到嘅下載。
可行動點：立即安裝 npm install -g @playwright/cli@latest，安裝 Skills，然後用 --remote-debugging-port=9222 啟動瀏覽器，開啓 AI 輔助自動化。

值得記低

連結 github.com

playwright-cli GitHub

微軟開源嘅 AI 驅動 Playwright CLI 工具，支援 AI 接管瀏覽器調試代碼

整理重點

AI 幫你解決 Playwright 腳本嘅日常煩惱

寫 Playwright 腳本嘅人都知：元素定位失敗、點擊冇反應、下載捕獲唔到，簡直係家常便飯。就算今次跑通，下次網頁結構一變又玩完。微軟最近低調開源嘅 playwright-cli，就係為咗一次性解決呢兩個核心問題——佢讓 AI 接管你的瀏覽器，邊睇真實頁面邊幫你調代碼，調完直接生成可獨立運行嘅 Python 腳本。

整理重點

六大場景，展示 CLI 嘅實際威力

1 每日報表自動下載：啟動帶調試端口嘅瀏覽器，跟住叫 AI 「幫我將 XX 系統本月銷售報表導出」，佢就會自動完成登錄、導航、下載成個流程。
2 排查按鈕冇反應：AI 可以直接扒出按鈕背後綁定嘅 JavaScript 邏輯。有位用戶就係咁發現政務系統嘅導出按鈕只喺工作時間生效，前端寫死咗時間校驗。
3 捕獲 form.submit() 下載：一般 Playwright 腳本用 expect_download() 捕獲唔到呢類下載，但 AI 可以用 CDP 協議繞過，直接幫你改好代碼。
4 處理 iframe 地獄：AI 自動識別 iframe 結構，選擇正確嘅進入方式，唔使自己慢慢揾。
5 幫你改現有腳本：如果你有 Playwright 腳本運行唔到，只需話「我個腳本點擊導出按鈕冇觸發下載，瀏覽器已經開咗喺 localhost:9222」，AI 就會讀代碼、接管瀏覽器、檢查事件綁定、定位問題並修改保存。
6 固化為獨立腳本：探索完成後，AI 會生成標準 .py 檔案，之後你可以直接用 Python 行，甚至定時任務、CI/CD 都得。

呢啲場景清楚展示咗 playwright-cli 嘅定位：探索工具，唔係運行環境。正確工作流分三階段：AI + CLI 探索 → AI 生成 Python 腳本 → 直接行 .py。AI 只參與生產腳本嘅過程，唔參與運行。

整理重點

CLI vs MCP：點解編程代理更鍾意 CLI？

文章提到一個重要比較：CLI 比 MCP 更受編程代理青睞，最主要原因係「省 Token」。MCP 每次調用工具都要將大量工具描述、頁面可訪問性樹塞入模型上下文，消耗好大 Token。而 CLI 命令簡潔，AI 只需知道命令本身。

對於同時處理大型代碼庫同瀏覽器操作嘅 AI 代理嚟講，Token 窗口就係生命線，所以 CLI 方式明顯更實用。不過 MCP 都有佢嘅優勢：當需要 AI 持續盯住一個頁面、反覆調整策略時，MCP 嘅持久狀態就更適合深度探索。

整理重點

即刻上手：四步開動 playwright-cli

1 安裝：npm install -g @playwright/cli@latest（需要 Node.js 18 或更高版本）。
2 安裝 Skills：playwright-cli install --skills。呢步會將操作指南裝到本地，Claude Code、GitHub Copilot 等助手會自動讀取並學會使用。
3 啟動瀏覽器時加上調試端口：--remote-debugging-port=9222。
4 開始下指令：例如「我的瀏覽器已經在 localhost:9222 運行，已經登錄咗 XX 系統，幫我將本月數據導出到 Excel」。

整理重點

寫在最後：由探索到固化嘅完整路徑

文章最後強調，playwright-cli 帶嚟嘅係一條完整路徑：遇到新需求 → AI 接管瀏覽器探索；自己嘅腳本有 bug → AI 睇住真實瀏覽器幫你調；路徑確認後 → AI 生成標準 .py 腳本，之後完全脱離 AI 獨立運行。

呢個工具嘅上限，就係決定咗你能做事情嘅邊界。而最大嘅價值係令瀏覽器自動化對非程序員都變得友好——你只需要識講嘢，唔需要識寫 code。

啊。

我問你一個問題：你寫嘅 Playwright script，有幾多次係一次過就run到？

大多數人嘅回答都係：冇幾多次。

一係element定位失敗，一係撳咗冇反應，一係download capture唔到。好辛苦先run到，下次換個頁面結構又唔掂。

呢兩個爛問題，playwright-cli 一次過幫你搞掂曬。

Microsoft最近喺GitHub低調咁推出咗playwright-cli，9000+ stars。

核心功能就一句講曬：俾AI接管你個瀏覽器，一邊睇真實頁面一邊幫你改code，改完直接生成可以獨立運行嘅Python script。

佢可以幫你做啲乜？

場景一：每日download報表太煩

而家你只需要：

啟動有debug port嘅瀏覽器（一次過配置）
話俾AI聽：「幫我將XX系統入面今個月嘅銷售報表export出嚟」
AI接管瀏覽器，自動完成曬所有步驟

場景二：撳掣冇反應，check咗半日

用playwright-cli可以俾AI直接挖出個掣背後綁咗啲咩JavaScript邏輯。

有個用戶就係咁發現咗一個政務系統嘅隱藏限制：Export掣只係喺工作時間先生效前端直接寫死咗時間校驗，從來唔話俾用戶知原因。

場景三：Download文件capture唔到

Python Playwright script入面用 expect_download() 但係capture唔到經 form.submit() 觸發嘅download？

AI可以直接用CDP協議繞過。話俾AI知你嘅問題，佢會幫你揾到解決方法並直接改好code。

場景四：政務/企業系統周圍都係iframe

AI會自動識別iframe結構，揀啱嘅進入方式。

場景五：自己寫嘅Playwright code run唔通

而家換一種玩法：俾AI一邊睇住真實瀏覽器，一邊幫你改code。

你只需要話：「我有個Playwright script，run完之後撳export掣冇觸發download，瀏覽器已經開咗喺localhost:9222，幫我check下」

AI會：讀code、理解邏輯 → 接管瀏覽器、即時睇狀態 → 檢查事件綁定 → 直接揾出問題、改code、儲存

場景六：探索完成之後，固化做獨立script

佢係探索工具，唔係運行環境。

正確嘅工作流程係：

第一階段：AI + playwright-cli 探索 → AI 接管瀏覽器，揾element、試操作
第二階段：AI 生成 Python script → 寫成標準 .py 文件
第三階段：直接run .py → 定時任務、batch處理、CI/CD全部支援

AI淨係參與咗生產呢個script嘅過程，唔參與運行。

點解CLI比MCP更受編程代理歡迎？

CLI嘅優勢在於「慳Token」。

MCP每次call工具，都要將大量嘅工具描述、頁面可訪問性樹呢啲資訊塞入模型context，消耗大量Token。而CLI命令簡潔，AI淨係需要知道命令本身。

對於需要同時處理大型codebase + 瀏覽器操作嘅編程代理嚟講，Token窗口就係生命線，CLI方式明顯更實用。

MCP就適合「深度探索」。當你需要AI持續mon住一個頁面、反覆調整策略時，MCP嘅持久狀態更有優勢。

點樣開始用？

第一步：安裝

npm install -g @playwright/cli@latest

需要Node.js 18或以上版本。

第二步：安裝 Skills

playwright-cli install --skills

呢一步會將操作指南安裝到本地，Claude Code、GitHub Copilot呢啲助手會自動讀取並學識使用。

第三步：啟動瀏覽器時加上debug port

--remote-debugging-port=9222

第四步：話俾AI知你想做啲乜

「我個瀏覽器已經喺localhost:9222行緊，已經登入咗XX系統，幫我將今個月嘅數據export去Excel」

寫喺最後

瀏覽器自動化唔係乜嘢新技術，但playwright-cli嘅出現，令佢第一次真正對非程式員變得友好。

核心變化得一個：以前你要學工具，而家工具嚟適應你。

你只需要用自然語言描述目標，AI負責翻譯成具體操作。

更重要嘅係，佢提供咗一條由探索到固化嘅完整路徑：

遇到新需求？俾AI接管瀏覽器探索
自己嘅script有bug？俾AI盯住真實瀏覽器幫你改
路徑確認之後？俾AI生成標準 .py script，之後完全脱離AI獨立運行

工具嘅上限，決定咗你能夠做到嘅事情嘅邊界。

相關資源

playwright-cli GitHub：github.com/microsoft/playwright-cli

當前版本：v0.1.8（2026年4月）

啊。

我就問你一個問題：你寫的 Playwright 腳本，有幾次是一次跑通的？

大多數人回答都是：沒幾次。

要麼元素定位失敗，要麼點擊沒反應，要麼下載捕獲不到。好不容易跑通了，下次換個頁面結構又涼了。

這兩個破問題，playwright-cli 一次性給你解決了。

微軟最近在 GitHub 上低調發布了 playwright-cli，9000+ stars。

核心能力就一句話：讓 AI 接管你的瀏覽器，邊看真實頁面邊幫你調代碼，調完直接生成可獨立運行的 Python 腳本。

它能幫你做什麼？

場景一：每天下載報表太煩人

現在你只需要：

啓動帶調試端口的瀏覽器（一次性配置）
告訴 AI："幫我把 XX 系統裏本月的銷售報表導出來"
AI 接管瀏覽器，自動完成所有步驟

場景二：按鈕點了沒反應，排查半天

用 playwright-cli 可以讓 AI 直接扒出按鈕背後綁定了什麼 JavaScript 邏輯。

某位用戶就是這樣發現了一個政務系統的隱藏限制：導出按鈕只在工作時間生效，前端直接寫死了時間校驗，從不告訴用戶原因。

場景三：下載文件捕獲不到

Python Playwright 腳本里用 expect_download() 卻捕獲不到通過 form.submit() 觸發的下載？

AI 可以直接用 CDP 協議繞過。告訴 AI 你的問題，它會幫你找到解法並直接改好代碼。

場景四：政務/企業系統滿是 iframe

AI 會自動識別 iframe 結構，選擇正確的進入方式。

場景五：自己寫的 Playwright 代碼跑不通

現在換一種玩法：讓 AI 邊看着真實瀏覽器，邊幫你改代碼。

你只需要："我有一個 Playwright 腳本，運行後點擊導出按鈕沒有觸發下載，瀏覽器已經打開在 localhost:9222，幫我排查"

AI 會：讀代碼、理解邏輯 → 接管瀏覽器、實時看狀態 → 檢查事件綁定 → 直接定位問題、修改代碼、保存

場景六：探索完成後，固化成獨立腳本

它是探索工具，不是運行環境。

正確的工作流是：

第一階段：AI + playwright-cli 探索 → AI 接管瀏覽器，找元素、測操作
第二階段：AI 生成 Python 腳本 → 寫成標準 .py 文件
第三階段：直接運行 .py → 定時任務、批處理、CI/CD 全支持

AI 只參與了生產這個腳本的過程，不參與運行。

為什麼 CLI 比 MCP 更受編程代理青睞？

CLI 的優勢在於"省 Token"。

MCP 每次調用工具，都需要把大量的工具描述、頁面可訪問性樹等信息塞入模型上下文，消耗大量 Token。而 CLI 命令簡潔，AI 只需要知道命令本身。

對於需要同時處理大型代碼庫 + 瀏覽器操作的編程代理來說，Token 窗口就是生命線，CLI 方式明顯更實用。

MCP 則適合"深度探索"。當你需要 AI 持續盯着一個頁面、反覆調整策略時，MCP 的持久狀態更有優勢。

怎麼開始用？

第一步：安裝

npm install -g @playwright/cli@latest

需要 Node.js 18 或更高版本。

第二步：安裝 Skills

playwright-cli install --skills

這一步會把操作指南安裝到本地，Claude Code、GitHub Copilot 等助手會自動讀取並學會使用。

第三步：啓動瀏覽器時加上調試端口

--remote-debugging-port=9222

第四步：告訴 AI 你要幹什麼

"我的瀏覽器已經在 localhost:9222 運行了，已經登錄了 XX 系統，幫我把本月的數據導出到 Excel"

寫在最後

瀏覽器自動化並不是什麼新技術，但 playwright-cli 的出現，讓它第一次真正對非程序員變得友好。

核心變化只有一個：以前你要學工具，現在工具來適應你。

你只需要用自然語言描述目標，AI 負責翻譯成具體操作。

更重要的是，它提供了一條從探索到固化的完整路徑：

遇到新需求？讓 AI 接管瀏覽器探索
自己的腳本有 bug？讓 AI 盯着真實瀏覽器幫你調
路徑確認後？讓 AI 生成標準 .py 腳本，之後完全脱離 AI 獨立運行

工具的上限，決定了你能做事情的邊界。

相關資源

playwright-cli GitHub：github.com/microsoft/playwright-cli

當前版本：v0.1.8（2026年4月）