微軟開源Playwright-cli:讓AI接管瀏覽器,邊調代碼邊生成腳本
整理版優先睇
微軟開源 Playwright-cli:AI 幫你邊睇邊改 Playwright 腳本,唔使再煩元素定位同下載捕獲
呢篇文章講微軟最近低調開源咗 playwright-cli,GitHub 上已經有 9000+ stars。作者想解決嘅問題好實際:大部分人寫 Playwright 腳本都冇幾次一次跑通,成日要面對元素定位失敗、點擊冇反應、下載捕獲唔到呢啲麻煩。而家呢個工具嘅核心能力就係「讓 AI 接管瀏覽器」,邊睇真實頁面邊幫你調代碼,調完直接生成可以獨立運行嘅 Python 腳本。
文章重點介紹咗六大應用場景,包括自動下載報表、排查按鈕冇反應嘅原因、捕獲 form.submit() 觸發嘅下載、處理 iframe 結構、幫你改現有 Playwright 代碼、同埋最終將探索成果固化做獨立腳本。作者特別強調,playwright-cli 係一個探索工具,唔係運行環境,正確工作流程係「AI + CLI 探索 → 生成 Python 腳本 → 直接運行 .py」。
整體結論係:瀏覽器自動化唔係新技術,但 playwright-cli 令佢第一次對非程序員變得友好——以前你要學工具,而家工具適應你。你只需用自然語言講出目標,AI 會負責翻譯成具體操作。而且佢提供咗一條由探索到固化嘅完整路徑,令你嘅自動化任務可以脱離 AI 獨立運行。
- 核心價值:AI 邊睇真實瀏覽器邊改代碼,直接生成可獨立運行嘅 Python 腳本,解決元素定位同下載捕獲等常見問題。
- 使用方法:只需啟動帶調試端口嘅瀏覽器,然後用自然語言命令 AI 執行操作,例如「幫我將本月銷售報表導出」。
- 相比 MCP 嘅優勢:CLI 更省 Token,適合需要同時處理大型代碼庫 + 瀏覽器操作嘅編程代理;MCP 則適合深度探索。
- 實戰啟發:AI 可以幫你發現前端隱藏邏輯(例如按鈕只在工作時間生效),或者用 CDP 繞過普通腳本捕獲唔到嘅下載。
- 可行動點:立即安裝 npm install -g @playwright/cli@latest,安裝 Skills,然後用 --remote-debugging-port=9222 啟動瀏覽器,開啓 AI 輔助自動化。
playwright-cli GitHub
微軟開源嘅 AI 驅動 Playwright CLI 工具,支援 AI 接管瀏覽器調試代碼
AI 幫你解決 Playwright 腳本嘅日常煩惱
寫 Playwright 腳本嘅人都知:元素定位失敗、點擊冇反應、下載捕獲唔到,簡直係家常便飯。就算今次跑通,下次網頁結構一變又玩完。微軟最近低調開源嘅 playwright-cli,就係為咗一次性解決呢兩個核心問題——佢讓 AI 接管你的瀏覽器,邊睇真實頁面邊幫你調代碼,調完直接生成可獨立運行嘅 Python 腳本。
六大場景,展示 CLI 嘅實際威力
- 1 每日報表自動下載:啟動帶調試端口嘅瀏覽器,跟住叫 AI 「幫我將 XX 系統本月銷售報表導出」,佢就會自動完成登錄、導航、下載成個流程。
- 2 排查按鈕冇反應:AI 可以直接扒出按鈕背後綁定嘅 JavaScript 邏輯。有位用戶就係咁發現政務系統嘅導出按鈕只喺工作時間生效,前端寫死咗時間校驗。
- 3 捕獲 form.submit() 下載:一般 Playwright 腳本用 expect_download() 捕獲唔到呢類下載,但 AI 可以用 CDP 協議繞過,直接幫你改好代碼。
- 4 處理 iframe 地獄:AI 自動識別 iframe 結構,選擇正確嘅進入方式,唔使自己慢慢揾。
- 5 幫你改現有腳本:如果你有 Playwright 腳本運行唔到,只需話「我個腳本點擊導出按鈕冇觸發下載,瀏覽器已經開咗喺 localhost:9222」,AI 就會讀代碼、接管瀏覽器、檢查事件綁定、定位問題並修改保存。
- 6 固化為獨立腳本:探索完成後,AI 會生成標準 .py 檔案,之後你可以直接用 Python 行,甚至定時任務、CI/CD 都得。
呢啲場景清楚展示咗 playwright-cli 嘅定位:探索工具,唔係運行環境。正確工作流分三階段:AI + CLI 探索 → AI 生成 Python 腳本 → 直接行 .py。AI 只參與生產腳本嘅過程,唔參與運行。
CLI vs MCP:點解編程代理更鍾意 CLI?
文章提到一個重要比較:CLI 比 MCP 更受編程代理青睞,最主要原因係「省 Token」。MCP 每次調用工具都要將大量工具描述、頁面可訪問性樹塞入模型上下文,消耗好大 Token。而 CLI 命令簡潔,AI 只需知道命令本身。
對於同時處理大型代碼庫同瀏覽器操作嘅 AI 代理嚟講,Token 窗口就係生命線,所以 CLI 方式明顯更實用。不過 MCP 都有佢嘅優勢:當需要 AI 持續盯住一個頁面、反覆調整策略時,MCP 嘅持久狀態就更適合深度探索。
即刻上手:四步開動 playwright-cli
- 1 安裝:npm install -g @playwright/cli@latest(需要 Node.js 18 或更高版本)。
- 2 安裝 Skills:playwright-cli install --skills。呢步會將操作指南裝到本地,Claude Code、GitHub Copilot 等助手會自動讀取並學會使用。
- 3 啟動瀏覽器時加上調試端口:--remote-debugging-port=9222。
- 4 開始下指令:例如「我的瀏覽器已經在 localhost:9222 運行,已經登錄咗 XX 系統,幫我將本月數據導出到 Excel」。
寫在最後:由探索到固化嘅完整路徑
文章最後強調,playwright-cli 帶嚟嘅係一條完整路徑:遇到新需求 → AI 接管瀏覽器探索;自己嘅腳本有 bug → AI 睇住真實瀏覽器幫你調;路徑確認後 → AI 生成標準 .py 腳本,之後完全脱離 AI 獨立運行。
呢個工具嘅上限,就係決定咗你能做事情嘅邊界。而最大嘅價值係令瀏覽器自動化對非程序員都變得友好——你只需要識講嘢,唔需要識寫 code。
啊。
我問你一個問題:你寫嘅 Playwright script,有幾多次係一次過就run到?
大多數人嘅回答都係:冇幾多次。
一係element定位失敗,一係撳咗冇反應,一係download capture唔到。好辛苦先run到,下次換個頁面結構又唔掂。
呢兩個爛問題,playwright-cli 一次過幫你搞掂曬。
Microsoft最近喺GitHub低調咁推出咗playwright-cli,9000+ stars。
核心功能就一句講曬:俾AI接管你個瀏覽器,一邊睇真實頁面一邊幫你改code,改完直接生成可以獨立運行嘅Python script。
佢可以幫你做啲乜?
場景一:每日download報表太煩
而家你只需要:
- 啟動有debug port嘅瀏覽器(一次過配置)
- 話俾AI聽:「幫我將XX系統入面今個月嘅銷售報表export出嚟」
- AI接管瀏覽器,自動完成曬所有步驟
場景二:撳掣冇反應,check咗半日
用playwright-cli可以俾AI直接挖出個掣背後綁咗啲咩JavaScript邏輯。
有個用戶就係咁發現咗一個政務系統嘅隱藏限制:Export掣只係喺工作時間先生效前端直接寫死咗時間校驗,從來唔話俾用戶知原因。
場景三:Download文件capture唔到
Python Playwright script入面用 expect_download() 但係capture唔到經 form.submit() 觸發嘅download?
AI可以直接用CDP協議繞過。話俾AI知你嘅問題,佢會幫你揾到解決方法並直接改好code。
場景四:政務/企業系統周圍都係iframe
AI會自動識別iframe結構,揀啱嘅進入方式。
場景五:自己寫嘅Playwright code run唔通
而家換一種玩法:俾AI一邊睇住真實瀏覽器,一邊幫你改code。
你只需要話:「我有個Playwright script,run完之後撳export掣冇觸發download,瀏覽器已經開咗喺localhost:9222,幫我check下」
AI會:讀code、理解邏輯 → 接管瀏覽器、即時睇狀態 → 檢查事件綁定 → 直接揾出問題、改code、儲存
場景六:探索完成之後,固化做獨立script
佢係探索工具,唔係運行環境。
正確嘅工作流程係:
- 第一階段:AI + playwright-cli 探索 → AI 接管瀏覽器,揾element、試操作
- 第二階段:AI 生成 Python script → 寫成標準 .py 文件
- 第三階段:直接run .py → 定時任務、batch處理、CI/CD全部支援
AI淨係參與咗生產呢個script嘅過程,唔參與運行。
點解CLI比MCP更受編程代理歡迎?
CLI嘅優勢在於「慳Token」。
MCP每次call工具,都要將大量嘅工具描述、頁面可訪問性樹呢啲資訊塞入模型context,消耗大量Token。而CLI命令簡潔,AI淨係需要知道命令本身。
對於需要同時處理大型codebase + 瀏覽器操作嘅編程代理嚟講,Token窗口就係生命線,CLI方式明顯更實用。
MCP就適合「深度探索」。當你需要AI持續mon住一個頁面、反覆調整策略時,MCP嘅持久狀態更有優勢。
點樣開始用?
第一步:安裝
npm install -g @playwright/cli@latest
需要Node.js 18或以上版本。
第二步:安裝 Skills
playwright-cli install --skills
呢一步會將操作指南安裝到本地,Claude Code、GitHub Copilot呢啲助手會自動讀取並學識使用。
第三步:啟動瀏覽器時加上debug port
--remote-debugging-port=9222
第四步:話俾AI知你想做啲乜
「我個瀏覽器已經喺localhost:9222行緊,已經登入咗XX系統,幫我將今個月嘅數據export去Excel」
寫喺最後
瀏覽器自動化唔係乜嘢新技術,但playwright-cli嘅出現,令佢第一次真正對非程式員變得友好。
核心變化得一個:以前你要學工具,而家工具嚟適應你。
你只需要用自然語言描述目標,AI負責翻譯成具體操作。
更重要嘅係,佢提供咗一條由探索到固化嘅完整路徑:
- 遇到新需求?俾AI接管瀏覽器探索
- 自己嘅script有bug?俾AI盯住真實瀏覽器幫你改
- 路徑確認之後?俾AI生成標準 .py script,之後完全脱離AI獨立運行
工具嘅上限,決定咗你能夠做到嘅事情嘅邊界。
相關資源
playwright-cli GitHub:github.com/microsoft/playwright-cli
當前版本:v0.1.8(2026年4月)
啊。
我就問你一個問題:你寫的 Playwright 腳本,有幾次是一次跑通的?
大多數人回答都是:沒幾次。
要麼元素定位失敗,要麼點擊沒反應,要麼下載捕獲不到。好不容易跑通了,下次換個頁面結構又涼了。
這兩個破問題,playwright-cli 一次性給你解決了。
微軟最近在 GitHub 上低調發布了 playwright-cli,9000+ stars。
核心能力就一句話:讓 AI 接管你的瀏覽器,邊看真實頁面邊幫你調代碼,調完直接生成可獨立運行的 Python 腳本。
它能幫你做什麼?
場景一:每天下載報表太煩人
現在你只需要:
- 啓動帶調試端口的瀏覽器(一次性配置)
- 告訴 AI:"幫我把 XX 系統裏本月的銷售報表導出來"
- AI 接管瀏覽器,自動完成所有步驟
場景二:按鈕點了沒反應,排查半天
用 playwright-cli 可以讓 AI 直接扒出按鈕背後綁定了什麼 JavaScript 邏輯。
某位用戶就是這樣發現了一個政務系統的隱藏限制:導出按鈕只在工作時間生效,前端直接寫死了時間校驗,從不告訴用戶原因。
場景三:下載文件捕獲不到
Python Playwright 腳本里用 expect_download() 卻捕獲不到通過 form.submit() 觸發的下載?
AI 可以直接用 CDP 協議繞過。告訴 AI 你的問題,它會幫你找到解法並直接改好代碼。
場景四:政務/企業系統滿是 iframe
AI 會自動識別 iframe 結構,選擇正確的進入方式。
場景五:自己寫的 Playwright 代碼跑不通
現在換一種玩法:讓 AI 邊看着真實瀏覽器,邊幫你改代碼。
你只需要:"我有一個 Playwright 腳本,運行後點擊導出按鈕沒有觸發下載,瀏覽器已經打開在 localhost:9222,幫我排查"
AI 會:讀代碼、理解邏輯 → 接管瀏覽器、實時看狀態 → 檢查事件綁定 → 直接定位問題、修改代碼、 保存
場景六:探索完成後,固化成獨立腳本
它是探索工具,不是運行環境。
正確的工作流是:
- 第一階段:AI + playwright-cli 探索 → AI 接管瀏覽器,找元素、測操作
- 第二階段:AI 生成 Python 腳本 → 寫成標準 .py 文件
- 第三階段:直接運行 .py → 定時任務、批處理、CI/CD 全支持
AI 只參與了生產這個腳本的過程,不參與運行。
為什麼 CLI 比 MCP 更受編程代理青睞?
CLI 的優勢在於"省 Token"。
MCP 每次調用工具,都需要把大量的工具描述、頁面可訪問性樹等信息塞入模型上下文,消耗大量 Token。而 CLI 命令簡潔,AI 只需要知道命令本身。
對於需要同時處理大型代碼庫 + 瀏覽器操作的編程代理來說,Token 窗口就是生命線,CLI 方式明顯更實用。
MCP 則適合"深度探索"。當你需要 AI 持續盯着一個頁面、反覆調整策略時,MCP 的持久狀態更有優勢。
怎麼開始用?
第一步:安裝
npm install -g @playwright/cli@latest
需要 Node.js 18 或更高版本。
第二步:安裝 Skills
playwright-cli install --skills
這一步會把操作指南安裝到本地,Claude Code、GitHub Copilot 等助手會自動讀取並學會使用。
第三步:啓動瀏覽器時加上調試端口
--remote-debugging-port=9222
第四步:告訴 AI 你要幹什麼
"我的瀏覽器已經在 localhost:9222 運行了,已經登錄了 XX 系統,幫我把本月的數據導出到 Excel"
寫在最後
瀏覽器自動化並不是什麼新技術,但 playwright-cli 的出現,讓它第一次真正對非程序員變得友好。
核心變化只有一個:以前你要學工具,現在工具來適應你。
你只需要用自然語言描述目標,AI 負責翻譯成具體操作。
更重要的是,它提供了一條從探索到固化的完整路徑:
- 遇到新需求?讓 AI 接管瀏覽器探索
- 自己的腳本有 bug?讓 AI 盯着真實瀏覽器幫你調
- 路徑確認後?讓 AI 生成標準 .py 腳本,之後完全脱離 AI 獨立運行
工具的上限,決定了你能做事情的邊界。
相關資源
playwright-cli GitHub:github.com/microsoft/playwright-cli
當前版本:v0.1.8(2026年4月)