微軟開源Playwright-cli:讓AI接管瀏覽器,邊調代碼邊生成腳本

作者:AI科技驛站
日期:2026年4月29日 上午10:53
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

微軟開源 Playwright-cli:AI 幫你邊睇邊改 Playwright 腳本,唔使再煩元素定位同下載捕獲

整理版摘要

呢篇文章講微軟最近低調開源咗 playwright-cli,GitHub 上已經有 9000+ stars。作者想解決嘅問題好實際:大部分人寫 Playwright 腳本都冇幾次一次跑通,成日要面對元素定位失敗、點擊冇反應、下載捕獲唔到呢啲麻煩。而家呢個工具嘅核心能力就係「讓 AI 接管瀏覽器」,邊睇真實頁面邊幫你調代碼,調完直接生成可以獨立運行嘅 Python 腳本。

文章重點介紹咗六大應用場景,包括自動下載報表、排查按鈕冇反應嘅原因、捕獲 form.submit() 觸發嘅下載、處理 iframe 結構、幫你改現有 Playwright 代碼、同埋最終將探索成果固化做獨立腳本。作者特別強調,playwright-cli 係一個探索工具,唔係運行環境,正確工作流程係「AI + CLI 探索 → 生成 Python 腳本 → 直接運行 .py」。

整體結論係:瀏覽器自動化唔係新技術,但 playwright-cli 令佢第一次對非程序員變得友好——以前你要學工具,而家工具適應你。你只需用自然語言講出目標,AI 會負責翻譯成具體操作。而且佢提供咗一條由探索到固化嘅完整路徑,令你嘅自動化任務可以脱離 AI 獨立運行。

  • 核心價值:AI 邊睇真實瀏覽器邊改代碼,直接生成可獨立運行嘅 Python 腳本,解決元素定位同下載捕獲等常見問題。
  • 使用方法:只需啟動帶調試端口嘅瀏覽器,然後用自然語言命令 AI 執行操作,例如「幫我將本月銷售報表導出」。
  • 相比 MCP 嘅優勢CLI 更省 Token,適合需要同時處理大型代碼庫 + 瀏覽器操作嘅編程代理;MCP 則適合深度探索。
  • 實戰啟發:AI 可以幫你發現前端隱藏邏輯(例如按鈕只在工作時間生效),或者用 CDP 繞過普通腳本捕獲唔到嘅下載。
  • 可行動點:立即安裝 npm install -g @playwright/cli@latest,安裝 Skills,然後用 --remote-debugging-port=9222 啟動瀏覽器,開啓 AI 輔助自動化。
值得記低
連結 github.com

playwright-cli GitHub

微軟開源嘅 AI 驅動 Playwright CLI 工具,支援 AI 接管瀏覽器調試代碼

整理重點

AI 幫你解決 Playwright 腳本嘅日常煩惱

Playwright 腳本嘅人都知:元素定位失敗、點擊冇反應、下載捕獲唔到,簡直係家常便飯。就算今次跑通,下次網頁結構一變又玩完。微軟最近低調開源嘅 playwright-cli,就係為咗一次性解決呢兩個核心問題——佢讓 AI 接管你的瀏覽器,邊睇真實頁面邊幫你調代碼,調完直接生成可獨立運行嘅 Python 腳本。

整理重點

六大場景,展示 CLI 嘅實際威力

  1. 1 每日報表自動下載:啟動帶調試端口嘅瀏覽器,跟住叫 AI 「幫我將 XX 系統本月銷售報表導出」,佢就會自動完成登錄、導航、下載成個流程。
  2. 2 排查按鈕冇反應:AI 可以直接扒出按鈕背後綁定嘅 JavaScript 邏輯。有位用戶就係咁發現政務系統嘅導出按鈕只喺工作時間生效,前端寫死咗時間校驗。
  3. 3 捕獲 form.submit() 下載:一般 Playwright 腳本用 expect_download() 捕獲唔到呢類下載,但 AI 可以用 CDP 協議繞過,直接幫你改好代碼。
  4. 4 處理 iframe 地獄:AI 自動識別 iframe 結構,選擇正確嘅進入方式,唔使自己慢慢揾。
  5. 5 幫你改現有腳本:如果你有 Playwright 腳本運行唔到,只需話「我個腳本點擊導出按鈕冇觸發下載,瀏覽器已經開咗喺 localhost:9222」,AI 就會讀代碼、接管瀏覽器、檢查事件綁定、定位問題並修改保存。
  6. 6 固化為獨立腳本:探索完成後,AI 會生成標準 .py 檔案,之後你可以直接用 Python 行,甚至定時任務、CI/CD 都得。

呢啲場景清楚展示咗 playwright-cli 嘅定位:探索工具,唔係運行環境。正確工作流分三階段:AI + CLI 探索 → AI 生成 Python 腳本 → 直接行 .py。AI 只參與生產腳本嘅過程,唔參與運行。

整理重點

CLI vs MCP:點解編程代理更鍾意 CLI?

文章提到一個重要比較CLI 比 MCP 更受編程代理青睞,最主要原因係「省 Token」。MCP 每次調用工具都要將大量工具描述、頁面可訪問性樹塞入模型上下文,消耗好大 Token。而 CLI 命令簡潔,AI 只需知道命令本身。

對於同時處理大型代碼庫同瀏覽器操作嘅 AI 代理嚟講,Token 窗口就係生命線,所以 CLI 方式明顯更實用。不過 MCP 都有佢嘅優勢:當需要 AI 持續盯住一個頁面、反覆調整策略時,MCP 嘅持久狀態就更適合深度探索。

整理重點

即刻上手:四步開動 playwright-cli

  1. 1 安裝:npm install -g @playwright/cli@latest(需要 Node.js 18 或更高版本)。
  2. 2 安裝 Skills:playwright-cli install --skills。呢步會將操作指南裝到本地,Claude CodeGitHub Copilot 等助手會自動讀取並學會使用。
  3. 3 啟動瀏覽器時加上調試端口:--remote-debugging-port=9222。
  4. 4 開始下指令:例如「我的瀏覽器已經在 localhost:9222 運行,已經登錄咗 XX 系統,幫我將本月數據導出到 Excel」。
整理重點

寫在最後:由探索到固化嘅完整路徑

文章最後強調,playwright-cli 帶嚟嘅係一條完整路徑:遇到新需求 → AI 接管瀏覽器探索;自己嘅腳本有 bug → AI 睇住真實瀏覽器幫你調;路徑確認後 → AI 生成標準 .py 腳本,之後完全脱離 AI 獨立運行。

呢個工具嘅上限,就係決定咗你能做事情嘅邊界。而最大嘅價值係令瀏覽器自動化對非程序員都變得友好——你只需要識講嘢,唔需要識寫 code。


       

啊。

       

我問你一個問題:你寫嘅 Playwright script,有幾多次係一次過就run到?

       

大多數人嘅回答都係:冇幾多次。

       

一係element定位失敗,一係撳咗冇反應,一係download capture唔到。好辛苦先run到,下次換個頁面結構又唔掂。

       

呢兩個爛問題,playwright-cli 一次過幫你搞掂曬。

       

Microsoft最近喺GitHub低調咁推出咗playwright-cli,9000+ stars

       

核心功能就一句講曬:俾AI接管你個瀏覽器,一邊睇真實頁面一邊幫你改code,改完直接生成可以獨立運行嘅Python script

       


   

佢可以幫你做啲乜?

       

場景一:每日download報表太煩

   

而家你只需要:

   

  1.      
  2. 啟動有debug port嘅瀏覽器(一次過配置)
  3.      
  4. 話俾AI聽:「幫我將XX系統入面今個月嘅銷售報表export出嚟」
  5.      
  6. AI接管瀏覽器,自動完成曬所有步驟
  7.    

       

場景二:撳掣冇反應,check咗半日

   

用playwright-cli可以俾AI直接挖出個掣背後綁咗啲咩JavaScript邏輯。

   

有個用戶就係咁發現咗一個政務系統嘅隱藏限制:Export掣只係喺工作時間先生效前端直接寫死咗時間校驗,從來唔話俾用戶知原因。

       

場景三:Download文件capture唔到

   

Python Playwright script入面用 expect_download() 但係capture唔到經 form.submit() 觸發嘅download?

   

AI可以直接用CDP協議繞過。話俾AI知你嘅問題,佢會幫你揾到解決方法並直接改好code。

       

場景四:政務/企業系統周圍都係iframe

   

AI會自動識別iframe結構,揀啱嘅進入方式。

       

場景五:自己寫嘅Playwright code run唔通

   

而家換一種玩法:俾AI一邊睇住真實瀏覽器,一邊幫你改code

   

你只需要話:「我有個Playwright script,run完之後撳export掣冇觸發download,瀏覽器已經開咗喺localhost:9222,幫我check下」

   

AI會:讀code、理解邏輯 → 接管瀏覽器、即時睇狀態 → 檢查事件綁定 → 直接揾出問題、改code、儲存

       

場景六:探索完成之後,固化做獨立script

   

佢係探索工具,唔係運行環境。

   

正確嘅工作流程係:

   

  •      
  • 第一階段:AI + playwright-cli 探索 → AI 接管瀏覽器,揾element、試操作
  •      
  • 第二階段:AI 生成 Python script → 寫成標準 .py 文件
  •      
  • 第三階段:直接run .py → 定時任務、batch處理、CI/CD全部支援
  •    

   

AI淨係參與咗生產呢個script嘅過程,唔參與運行。

       


   

點解CLI比MCP更受編程代理歡迎?

       

CLI嘅優勢在於「慳Token」。

   

MCP每次call工具,都要將大量嘅工具描述、頁面可訪問性樹呢啲資訊塞入模型context,消耗大量Token。而CLI命令簡潔,AI淨係需要知道命令本身。

   

對於需要同時處理大型codebase + 瀏覽器操作嘅編程代理嚟講,Token窗口就係生命線,CLI方式明顯更實用。

   

MCP就適合「深度探索」。當你需要AI持續mon住一個頁面、反覆調整策略時,MCP嘅持久狀態更有優勢。

       


   

點樣開始用?

       

第一步:安裝

   

npm install -g @playwright/cli@latest

   

需要Node.js 18或以上版本。

       

第二步:安裝 Skills

   

playwright-cli install --skills

   

呢一步會將操作指南安裝到本地,Claude Code、GitHub Copilot呢啲助手會自動讀取並學識使用。

       

第三步:啟動瀏覽器時加上debug port

   

--remote-debugging-port=9222

       

第四步:話俾AI知你想做啲乜

   

「我個瀏覽器已經喺localhost:9222行緊,已經登入咗XX系統,幫我將今個月嘅數據export去Excel」

       


   

寫喺最後

       

瀏覽器自動化唔係乜嘢新技術,但playwright-cli嘅出現,令佢第一次真正對非程式員變得友好。

       

核心變化得一個:以前你要學工具,而家工具嚟適應你。

       

你只需要用自然語言描述目標,AI負責翻譯成具體操作。

       

更重要嘅係,佢提供咗一條由探索到固化嘅完整路徑:

   

  •      
  • 遇到新需求?俾AI接管瀏覽器探索
  •      
  • 自己嘅script有bug?俾AI盯住真實瀏覽器幫你改
  •      
  • 路徑確認之後?俾AI生成標準 .py script,之後完全脱離AI獨立運行
  •    

       

工具嘅上限,決定咗你能夠做到嘅事情嘅邊界。

       


       

相關資源

   

playwright-cli GitHub:github.com/microsoft/playwright-cli

   

當前版本:v0.1.8(2026年4月)

         


       

啊。

       

我就問你一個問題:你寫的 Playwright 腳本,有幾次是一次跑通的?

       

大多數人回答都是:沒幾次。

       

要麼元素定位失敗,要麼點擊沒反應,要麼下載捕獲不到。好不容易跑通了,下次換個頁面結構又涼了。

       

這兩個破問題,playwright-cli 一次性給你解決了。

       

微軟最近在 GitHub 上低調發布了 playwright-cli,9000+ stars

       

核心能力就一句話:讓 AI 接管你的瀏覽器,邊看真實頁面邊幫你調代碼,調完直接生成可獨立運行的 Python 腳本

       


   

它能幫你做什麼?

       

場景一:每天下載報表太煩人

   

現在你只需要:

   

  1.      
  2. 啓動帶調試端口的瀏覽器(一次性配置)
  3.      
  4. 告訴 AI:"幫我把 XX 系統裏本月的銷售報表導出來"
  5.      
  6. AI 接管瀏覽器,自動完成所有步驟
  7.    

       

場景二:按鈕點了沒反應,排查半天

   

用 playwright-cli 可以讓 AI 直接扒出按鈕背後綁定了什麼 JavaScript 邏輯。

   

某位用戶就是這樣發現了一個政務系統的隱藏限制:導出按鈕只在工作時間生效,前端直接寫死了時間校驗,從不告訴用戶原因。

       

場景三:下載文件捕獲不到

   

Python Playwright 腳本里用 expect_download() 卻捕獲不到通過 form.submit() 觸發的下載?

   

AI 可以直接用 CDP 協議繞過。告訴 AI 你的問題,它會幫你找到解法並直接改好代碼。

       

場景四:政務/企業系統滿是 iframe

   

AI 會自動識別 iframe 結構,選擇正確的進入方式。

       

場景五:自己寫的 Playwright 代碼跑不通

   

現在換一種玩法:讓 AI 邊看着真實瀏覽器,邊幫你改代碼

   

你只需要:"我有一個 Playwright 腳本,運行後點擊導出按鈕沒有觸發下載,瀏覽器已經打開在 localhost:9222,幫我排查"

   

AI 會:讀代碼、理解邏輯 → 接管瀏覽器、實時看狀態 → 檢查事件綁定 → 直接定位問題、修改代碼、 保存

       

場景六:探索完成後,固化成獨立腳本

   

它是探索工具,不是運行環境。

   

正確的工作流是:

   

  •      
  • 第一階段:AI + playwright-cli 探索 → AI 接管瀏覽器,找元素、測操作
  •      
  • 第二階段:AI 生成 Python 腳本 → 寫成標準 .py 文件
  •      
  • 第三階段:直接運行 .py → 定時任務、批處理、CI/CD 全支持
  •    

   

AI 只參與了生產這個腳本的過程,不參與運行。

       


   

為什麼 CLI 比 MCP 更受編程代理青睞?

       

CLI 的優勢在於"省 Token"。

   

MCP 每次調用工具,都需要把大量的工具描述、頁面可訪問性樹等信息塞入模型上下文,消耗大量 Token。而 CLI 命令簡潔,AI 只需要知道命令本身。

   

對於需要同時處理大型代碼庫 + 瀏覽器操作的編程代理來說,Token 窗口就是生命線,CLI 方式明顯更實用。

   

MCP 則適合"深度探索"。當你需要 AI 持續盯着一個頁面、反覆調整策略時,MCP 的持久狀態更有優勢。

       


   

怎麼開始用?

       

第一步:安裝

   

npm install -g @playwright/cli@latest

   

需要 Node.js 18 或更高版本。

       

第二步:安裝 Skills

   

playwright-cli install --skills

   

這一步會把操作指南安裝到本地,Claude Code、GitHub Copilot 等助手會自動讀取並學會使用。

       

第三步:啓動瀏覽器時加上調試端口

   

--remote-debugging-port=9222

       

第四步:告訴 AI 你要幹什麼

   

"我的瀏覽器已經在 localhost:9222 運行了,已經登錄了 XX 系統,幫我把本月的數據導出到 Excel"

       


   

寫在最後

       

瀏覽器自動化並不是什麼新技術,但 playwright-cli 的出現,讓它第一次真正對非程序員變得友好。

       

核心變化只有一個:以前你要學工具,現在工具來適應你。

       

你只需要用自然語言描述目標,AI 負責翻譯成具體操作。

       

更重要的是,它提供了一條從探索到固化的完整路徑:

   

  •      
  • 遇到新需求?讓 AI 接管瀏覽器探索
  •      
  • 自己的腳本有 bug?讓 AI 盯着真實瀏覽器幫你調
  •      
  • 路徑確認後?讓 AI 生成標準 .py 腳本,之後完全脱離 AI 獨立運行
  •    

       

工具的上限,決定了你能做事情的邊界。

       


       

相關資源

   

playwright-cli GitHub:github.com/microsoft/playwright-cli

   

當前版本:v0.1.8(2026年4月)