playwright只簡單需要一句話實現網站爬蟲!
整理版優先睇
用 Playwright 一句話搞掂網站爬蟲,仲可以封裝成 Skill 自動化
呢篇文章係大瑜分享佢點樣用 Playwright 解決一個好現實嘅需求:根據關鍵字去搜尋唔同網站嘅博客內容。傳統爬蟲要逐個網站揾接口、避反爬、攞數據,諗起都頭痛。大瑜發現 Playwright 本身係一個「會操作瀏覽器嘅機械人」,可以等網頁真正加載完先點擊、填表,仲會保留登錄狀態,比起傳統爬蟲更似真人操作,唔怕被識別。
佢直接用 Claude Code 裝 Playwright MCP 工具,然後一句話叫佢去 Google 搜尋「dayulab」網站,自動揾到文章目錄同標題,成個過程完全唔使寫爬蟲規則。大瑜仲將呢個流程結合成 Skills,將重複嘅工作一次封裝,例如自動搜尋關鍵字對應網站、擷取博客內容、保存做 markdown 檔案,成個過程唔使鬱手,飲杯茶就搞掂。
整體結論係:先明確問題,再揀適合嘅工具,先出成果再談高級玩法。大瑜今年嘅轉變係由「揾錘子揾釘子」變成「以問題為中心」,咁樣先可以更快見到成果、更快跑通商業化。佢話如果跟住佢一齊做項目同覆盤,可以揾佢加入陪伴羣。
- Playwright 係自動化瀏覽器機械人,可以直接攞到動態加載數據,唔使逐個網站寫爬蟲規則。
- 用 Claude Code 裝 Playwright MCP 工具,一句指令就做到搜尋同擷取內容。
- 將重複嘅爬蟲工作封裝成 Skill,例如自動搜尋目標網站、保存博客做 markdown,實現一鍵自動化。
- 作者今年嘅轉變:先確定問題再揀工具,先出結果再談高級玩法,更快商業化。
- Playwright 保留 Cookie 同登錄態,唔使煩惱認證問題;結合 Skills 可以「電腦幫你自動做嘢」。
一個現實需求引發嘅爬蟲革命
大瑜最近遇到一個好實際嘅需求:根據關鍵字去搜尋唔同網站嘅博客內容。如果用傳統爬蟲方法,每個網站都要單獨適應規則——揾接口、諗辦法繞過反爬、攞數據,諗起都覺得會累死。
突然佢醒起 Playwright 呢個工具,佢嘅本質係「會操作瀏覽器嘅機械人」,咪就係為咗解決呢個問題而存在嘅囉?
文章講嘅核心概念係:先明確問題,再選擇適合嘅工具,先出結果先談高級玩法,呢個先係今年最值得堅持嘅模式。
Playwright 係乜嘢?點解咁好用?
一句話講曬:Playwright 就係一個自動化操作瀏覽器嘅小助手。普通爬蟲直接攞服務器原始網頁解析,而 Playwright 就好似一個真人,等網頁真正加載完先至去點擊、填表格、等佢加載完。
- 更像真人操作:唔會觸發反爬機制
- 攞到動態加載數據:同瀏覽器見到嘅一樣
- 唔使揾接口:直接用人眼睇到嘅元素操作
- Cookie/登錄態保留:一鍵記住你登錄過,唔使煩認證
一句話就用到 Playwright 爬蟲
安裝好簡單:直接打開 Claude Code,講「幫我安裝 Playwright MCP 工具」就得。安裝完之後用指令 claude mcp list 檢查,見到對應界面就代表成功。
記住要重新登入 Claude Code,否則 MCP 無法直接調用。然後你只需要一句話:「使用 Playwright 去 Google 搜尋 dayulab 嘅網站,揾到文章目錄,查出前10條文章標題」。佢就會自動打開瀏覽器,輸入關鍵字,跳轉到大瑜嘅網站,最後向你展示文章列表。
係咪好簡單?一句話就搞掂曬,完全唔使用傳統爬蟲寫咁多規則。
Playwright + Skills:俾電腦幫你做曬所有嘢
大瑜之前講過 Skills 嘅用法,將 Playwright 結合 Skills 可以爆發出更強大嘅能力。例如呢個需求:通過 Google 搜尋獲取關鍵字對應網站,揾到 blog 內容,再每篇保存成 markdown 檔案。
你只需要將需求 send 俾 Claude 客戶端,叫佢幫你生成 Skill,然後放喺對應位置。之後你就可以嘆住茶,等內容自動生成。呢個就係「電腦替你幹活」嘅真正體現。
重點係:先定義問題,再選擇工具,唔好諗住學曬所有工具先開始。將重複嘅工作封裝成 Skill,先可以更快見到成果、更快跑通商業化。
作者嘅轉變:由「揾錘子」變「揾釘子」
大瑜今年嘅轉變好值得參考:之前佢搞 AI 編程嘅思路係揸住錘子揾釘子,研究大量 MCP、AI 編程 rules,但係用戶轉發得多,真係接收嘅好少。
如果你都想跟住大瑜一齊做項目、覆盤,將「能做出來」變成「能賺到錢」,可以揾佢加入陪伴羣。點揾大瑜?文章就有佢嘅聯絡方法。
最近好多人都在講playwright,但大瑜就冇乜留意。
直到今日遇到一個好實際嘅需求:根據關鍵字去搜尋同埋抓取唔同網站嘅博客內容。
呢個嘢,如果用以前嘅爬蟲方式,咪即係每個網站都要自己整規則:接口喺邊?數據點樣拎?反爬蟲點樣避開?諗起都覺得會做到死。
突然之間,大瑜諗起咗:Playwright 本身就好似一個「會操作瀏覽器嘅機械人」,唔就係為咗解決呢個問題而存在嘅咩?
playwright介紹
一句講曬:就係自動化操作瀏覽器嘅小幫手。
普通爬蟲更加似係直接拎服務器原始網頁嚟解析;
而playwright就更加似一個會用瀏覽器嘅機械人,等網頁真係load完之後,先至去㩒掣、填form、等佢load完。
優點如下:
1、更加似真人操作,冇咁易被機器認出;
2、拎到瀏覽器真實顯示嘅數據,包括動態載入嘅數據;
3、慳工夫,唔使我逐個睇返對應嘅數據獲取接口。
4、Cookie/登入狀態保留:一鍵「記住你登入過」。
用法都好簡單。我哋直接打開ClaudeCode,直接話:幫我安裝Playwright MCP工具就得。

跟住指示做。裝完之後,如果想睇下裝好未,直接輸入
claude mcp list
如果係下面嘅畫面就代表安裝成功。

另外記住裝完之後要重新登入CC,如果唔係呢個MCP仲未可以直接調用。
Playwright點樣用?
我直接咁樣問:
用playwright去Google搜尋dayulab嘅網站,揾到文章目錄,揾出頭10條文章標題。

呢個之後就開咗瀏覽器。搜尋並輸入:dayulab。

跟住佢就會跳轉到大瑜嘅網站。

最後就揾到文章列表。

係咪好簡單,一句說話就可以快趣拎到大瑜嘅文章,根本唔使好似以前爬蟲咁辛苦。
Playwright + Skills = 電腦幫你做嘢
當然大瑜之前都有講過Skills嘅用法。咁Playwright結合Skill會爆發出啲咩能力?
有關Skill嘅描述,可以睇呢篇文章:
Claude Code更新得太快?先學識 Skills:將重複嘅工作一次封裝!
好似今日嘅需求:
1、透過Google搜尋,取得關鍵字對應嘅網站;
2、揾到對應網站嘅Blog內容;
3、將每篇Blog儲存成Markdown檔案。
咁我哋就可以整一個Skill嚟一次過做曬呢啲功能。
呢度有個小貼士:將我哋嘅需求Send畀Claude客戶端,叫佢幫我哋生成Skill。

然後就等佢生成。最後放返去對應嘅位置之後,飲杯茶,內容就生成咗。
寫喺後面嘅話:我今年嘅轉變
今日大瑜發咗一條朋友圈:
之前大瑜搞AI編程嘅思路係拎住鎚仔揾釘:研究好多類似MCP、AI編程Rules,其實用戶轉發得多,真正接收嘅好少!
而家我徹底明確咗另一種模式:
先搞清楚問題,再揀適合嘅工具;先出結果,再講高級玩法。
所以,轉變模式好正!亦快趣睇到成果。
呢個就係我今年最想堅持嘅:更快睇到成果、更快跑通商業化。
如果你都想跟我一齊做項目、覆盤、將「做到出嚟」變成「賺到錢」,想入陪伴羣嘅,直接嚟揾我。
最近很多人都在分享playwright,大瑜卻很少關注。
直到今天遇到一個很現實的需求:根據關鍵字去搜索抓取不同網站的博客內容。
這個玩意,要是像之前的爬蟲方式,豈不是每個網站都要單獨適配規則:接口在哪?數據怎麼拿?反爬蟲怎麼繞過?想着都會被累死。
突然,大瑜想起來了:Playwright 本質就是“會操作瀏覽器的機器人”,不就是為了解決這個問題存在的嗎?
playwright介紹
一句話描述:就是自動化操作瀏覽器的小助手。
普通爬蟲更像是直接拿服務器原始網頁解析;
而playwright更像是一個會用瀏覽器的機器人,等網頁真正加載進來,再去點擊、填表格、等他加載完。
優點如下:
1、更像真人操作,不容易被機器識別;
2、拿到瀏覽器真實展示的數據,包含動態加載數據;
3、省事,不用我去查看對應的數據獲取接口。
4、Cookie/登錄態保留:一鍵“記住你登錄過”。
使用方法也很簡單。我們直接打開claudeCode,直接說:幫我安裝Playwight mcp工具即可。

按照要求進行。安裝完畢,如果要看是否安裝完成,直接輸入
claude mcp list
如果是下面的界面就代表安裝成功。

另外要記得安裝完畢,要重新登陸cc,不然的話,這個mcp還無法直接調用。
Playwright怎麼用?
我直接這樣問:
使用playwright去google搜索dayulab的網站,找到文章目錄,查詢前10條文章標題。

這個是以後就打開了瀏覽器。搜索並輸入:dayulab。

接下來他就會跳轉到大瑜的網站。

最終找到了文章列表。

是不是很簡單,一句話就能快速獲取到大瑜的文章,根本不用像之前爬蟲那麼費勁。
Playwright + Skills = 電腦替你幹活
當然大瑜之前也提到了skills的用法。那麼playwright結合skill會爆發出什麼樣的能力?
關於skill的描述,可以看這篇文章:
Claude Code更新太快?先學會 Skills:把重複工作一次封裝!
就像今天的需求:
1、通過google搜索,獲取關鍵字對應網站;
2、找到對應的網站blog內容
3、將每一篇blog保存成markdownn文件。
那麼我們就可以實現一個skill來一步進行這些功能的操作。
這裏有一個小技巧:將我們的需求發送給claude客戶端,讓他幫我們生成skill。

然後就是等待生成了。最後放到對應的位置後,喝喝茶,內容就生成了。
寫在後面的話:我今年的轉變
今天大瑜發了一條朋友圈:
之前大瑜搞ai編程的思路是拿着錘子找釘子:研究大量的類似mcp、ai編程rules,其實用戶轉發的多,真正接收的很少!
現在我徹底明確了另一種模式:
先明確問題,再選擇適合的工具;先出結果,再談高級玩法。
所以,轉變模式很香!也快速能看到成果。
這就是我今年最想堅持的:更快看到成果、更快跑通商業化。
如果你也想跟着我一起做項目、覆盤、把“能做出來”變成“能賺到錢”,想進陪伴羣的,直接來找我。