Browser-use讓AI像人類一樣操作瀏覽器

作者:陳老師AI進化論
日期:2026年4月29日 下午1:30
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

Browser-use讓AI自動操作瀏覽器,成功率78%,重點解決重複性網絡任務

整理版摘要

陳老師,一個鍾意折騰AI工具嘅人,親身測試Browser-use呢個開源項目。佢描述嗰種感覺:「好似睇緊恐怖片,但主角係你自己寫嘅代碼。」文章想解決嘅問題係:點樣令AI好似人類咁操作瀏覽器,自動化曬填表、比價、搜資訊呢啲重複勞動。

Browser-useGitHub上90k stars嘅項目,Python寫成,MIT協議。最近佢哋公佈咗一個Benchmark——BU-Ultra版本喺100個真實網頁任務入面成功率達78%。即係話,10件事入面有8件可以交俾AI搞掂。整體結論係:呢個工具值得一試,尤其係如果你成日要做重複嘅網絡操作。

作者自己試完之後,最大感受係以前好多時間白費咗。而家只要一句話,AI就可以幫你扒完整個網頁。無論係填求職申請、揾最平機票定係比較電腦配件,佢都搞得掂。而且上手唔難,裝好Python之後行兩條命令就得。

  • 結論Browser-use成功率78%,能自動完成填表、比價等網絡任務,大幅減少重複勞動。
  • 方法:開源項目,Python寫成,透過裝Browser-useChromium核心即可使用;亦可整合Claude Code。
  • 差異:有別於簡單爬蟲,Browser-use能模擬人類操作(點擊、填寫、處理彈窗),支援多種場景。
  • 啟發:以往手動嘅重複工作(填求職申請、搜機票、比價)可以交俾AI,完成率接近八成,省時省力。
  • 可行動點:裝好Python後,執行兩條命令(uv init && uv add browser-use、uvx browser-use install)即可開始;留意headless、keep_open等參數配置。
值得記低
Skill raw.githubusercontent.com

Browser-use Skill for Claude Code

mkdir -p ~/.claude/skills/browser-use && curl -o ~/.claude/skills/browser-use/SKILL.md

整理重點

親身經歷:AI自己鬱手操作瀏覽器

陳老師話,佢坐喺電腦前,望住屏幕嘅遊標自己鬱。開咗個瀏覽器、輸入網址、滾動頁面、點擊按鈕,全程無掂過滑鼠。呢個唔係RPA,而係自己寫嘅代碼。佢形容呢種感覺似睇恐怖片,但主角係自己。

78%成功率

Browser-use係一個開源項目,GitHub上有90k stars,10.2k forks,MIT協議。Python寫成,佔比97.9%。總部喺Zurich同San Francisco。最近佢哋搞咗個Benchmark——100個真實網頁任務,BU-Ultra版本成功率78%。即係話,10件事AI能幫你幹成8件。

整理重點

核心功能:模擬人類操作,唔係普通爬蟲

操作瀏覽器

Browser-use可以開瀏覽器、輸入URL、滾動頁面、點擊按鈕、填寫表單、選擇下拉菜單,甚至處理彈窗。所有你能喺瀏覽器做嘅,佢都做得。

三個場景

  1. 1 填表找工作:AI可以讀你嘅簡歷,自動填寫求職申請。以前填到第三間公司頁面崩潰,而家唔使煩。
  2. 2 揾嘢:俾個購物清單佢,例如「幫我揾2025年1月巴釐島飛阿曼嘅最平機票」,AI會自己開航班網站、篩選日期、比較價格。
  3. 3 比價:想買電腦配件?唔使自己逐個網頁睇。話俾AI知你要咩配置,佢自己搜、自己比、自己整理成表格。

你以前手動做嘅破事

整理重點

上手教學:兩步裝好,核心參數要知

前提係裝好Python。然後開終端,輸入:

程式內容 bash
uv init && uv add browser-use
uvx browser-use install

第二條命令會裝Chromium核心。搞掂。跟住有幾個參數要留意,作者話佢踩過坑。

headless

  • headless:係咪無頭模式。默認True,即係睇唔到瀏覽器窗口;想睇住佢做就設False
  • keep_open:腳本跑完係咪關瀏覽器。調試時建議開住。
  • disable_security:處理iFrame等跨源請求時有用。
  • cookies_file:cookie持久化,登錄過嘅網站唔使重新登錄。
  • minimum_wait_page_load_time:最短等待時間,太短頁面未加載完AI就操作。
  • wait_for_network_idle_page_load_time:等網絡請求完成先攞頁面狀態。
  • maximum_wait_page_load_time:最長等待時間,超時直接跳過。

如果你用Claude Code,可以裝一個Skill更方便。

程式內容 bash
mkdir -p ~/.claude/skills/browser-use
curl -o ~/.claude/skills/browser-use/SKILL.md \
  https://raw.githubusercontent.com/browser-use/browser-use/main/skills/browser-use/SKILL.md

直接調用

裝完之後,喺Claude Code入面就可以直接調用Browser-use

整理重點

開源 vs 雲服務:兩個選擇,各取所需

免費開源版

  • 開源版:免費,但要自己準備LLM API key。
  • 雲服務:有好多集成——GmailSlackNotion;仲有反檢測,自動換IP。

價格

雲服務價格:輸入$0.20/1M tokens,輸出$2.00/1M tokens。作者話比請人平好多。

FAQ入面仲有幾點:可以用其他大模型(開源版隨便換);需要少少編程知識(會行兩條命令就得);雲服務有反檢測,開源版自己控制;理論上支援國內網站,但遇到反爬另說;可以跑喺服務器上。

78%成功率,我畀AI自己操作瀏覽器搞曬所有麻煩嘢

大家好,我係陳老師,一個鍾意整AI工具嘅人。


嗰日我坐喺電腦面前,睇住個mon個cursor自己鬱。

佢開咗個瀏覽器,入咗網址,碌咗頁面,㩒咗掣。

成個過程我都冇掂mouse,而且唔係用預先整好嘅RPA。

嗰種感覺,點講好呢,好似睇緊恐怖片咁。

但係主角係你自己寫嘅code。


呢件事要由頭講起

唔好誤會,呢個唔係乜嘢魔法。

Browser-use,一個開源項目。

GitHub上面 90k stars,10.2k forks,MIT協議。

用Python寫嘅,佔比97.9%。

有2.5k個項目已經用緊。

總部喺Zurich同San Francisco。

最近搞咗個Benchmark——100個真實網頁任務,BU-Ultra版本成功率78%

10件事,AI可以幫你搞掂8件。

聽落點樣?

總之我試完之後,最大嘅感受係:以前好多時間白費咗。


佢到底做緊啲乜

直接講啦。

Browser-use可以令AI好似人類咁操作瀏覽器。

唔係嗰種「開咗個網頁然後讀數據」嘅簡單爬蟲。

係真係操作。

  • 開瀏覽器
  • 入URL
  • 碌頁面
  • 㩒掣
  • 填form
  • 揀下拉選單
  • 甚至處理彈窗

所有你可以喺瀏覽器做嘅嘢,佢都做到。

分別在於:你唔使坐喺電腦面前。


三個令我拍大髀嘅情境

填表

揾工填申請表,呢啲嘢我做過。

一張表,姓名、簡歷、工作經驗、教育背景。

填到第三間公司嘅網頁就冧咗。

AI可以做:讀你份簡歷,自動填寫求職申請。

你敢唔信?

找東西

將購物清單畀佢。

「幫我揾2025年1月巴釐島飛阿曼最平嘅機票。」

AI自己開航班網站,篩選日期,比較價錢。

然後話畀你知結果。

比價

想買電腦零件?

唔使一個一個開網頁睇喇。

話畀AI知你想要咩配置。

佢自己搜,自己比較,自己整理成表格。

全部都係你以前手動做嘅麻煩嘢。


上手只需要兩步

前提:裝好Python。

開terminal:

uv init &&uv add browser-use

然後裝個瀏覽器核心:

uvx browser-use install

呢條命令裝嘅係Chromium。

完事。


核心配置參數唔好漏

裝好之後,有幾個參數要識。我中過伏。

headless:係咪無頭模式。預設True,即係睇唔到瀏覽器視窗。想睇住佢做嘢就set False。

keep_open:Script行完要唔要關瀏覽器。Debug嗰陣建議開住。

disable_security:處理iFrame呢啲跨源請求時有用。

cookies_file:cookie持久化。登入過嘅網站唔使再登入。

minimum_wait_page_load_time:最短等待時間。太短頁面未load完,AI就操作咗。

wait_for_network_idle_page_load_time:等網絡請求完成先攞頁面狀態。

maximum_wait_page_load_time:最長等待時間。超時就直接跳過。

呢幾個參數set好,運行起嚟舒服好多。


如果你用Claude Code

更加方便。

裝一個Skill。

mkdir-p ~/.claude/skills/browser-use
curl-o ~/.claude/skills/browser-use/SKILL.md \
  https://raw.githubusercontent.com/browser-use/browser-use/main/skills/browser-use/SKILL.md

裝完,喺Claude Code入面就可以直接叫用。


開源定係雲服務

兩個選擇。

開源版Open Source:免費。但要自己搞LLM API key。

雲服務Cloud:有大把集成——Gmail、Slack、Notion。

仲有反檢測,自動換IP。

價格:

  • 輸入:$0.20/1M tokens
  • 輸出:$2.00/1M tokens

比請人平好多。


講啲實際嘅

以前做嗰啲爛嘢:填表、格價、揾資料、申請工作。

全部都係重複勞動。

AI做到喇。

而且 完成率78%

喺真實網頁任務上。

即係話,以後你只需要講一句說話,AI就幫你扒曬成個網頁。


FAQ

Q1:一定要用Claude嗎?

可以接其他大模型。開源版隨便換。

Q2:需唔需要識寫程式?

裝好就用得。識打兩行command就得。

Q3:會唔會俾人封號?

雲服務有反檢測機制。開源版你自己控制。

Q4:支唔支援國內網站?

理論上冇問題。遇到反爬就另計。

Q5:可唔可以行喺server上面?

完全冇問題。


覺得有用嘅話,讚好、睇緊啲、轉發出去


78%成功率,我讓AI自己操作瀏覽器幹了所有破事

大家好,我是陳老師,一個喜歡折騰AI工具的人。


那天我坐在電腦前,看着屏幕上的光標自己移動。

它打開了一個瀏覽器。輸入了網址。滾動頁面。點擊了按鈕。

全程我沒碰鼠標。而且也不是使用搭建的RPA。

那感覺,怎麼說呢,像在看一部恐怖片。

但主角是你自己寫的代碼。


這事兒得從頭說

別誤會,這不是什麼魔法。

Browser-use,一個開源項目。

GitHub上 90k stars,10.2k forks,MIT協議。

Python寫的,佔比97.9%。

2.5k個項目已經在用。

總部在Zurich和San Francisco。

最近搞了個Benchmark——100個真實網頁任務,BU-Ultra版本成功率78%

10件事,AI能幫你幹成8件。

聽起來怎麼樣?

反正我試完之後,最大的感受是:以前很多時間白花了。


它到底在幹什麼

直說吧。

Browser-use能讓AI像人類一樣操作瀏覽器。

不是那種”打開一個網頁然後讀取數據”的簡單爬蟲。

是真的操作。

  • 打開瀏覽器
  • 輸入URL
  • 滾動頁面
  • 點擊按鈕
  • 填寫表單
  • 選擇下拉菜單
  • 甚至處理彈窗

所有你能在瀏覽器裏乾的,它都能幹。

區別在於:你不用坐在電腦前。


三個讓我拍大腿的場景

填表

找工作填求職申請,這活兒我幹過。

一張表,姓名、簡歷、工作經驗、教育背景。

填到第三家公司頁面崩潰了。

AI可以:讀你的簡歷,自動填寫求職申請。

你敢信?

找東西

把購物清單丟給它。

“幫我找2025年1月巴厘島飛阿曼的最便宜機票。”

AI自己打開航班網站,篩選日期,比較價格。

然後告訴你結果。

比價

想買電腦配件?

不用一個一個打開網頁看了。

告訴AI你要什麼配置。

它自己搜,自己比,自己整理成表格。

都是你以前手動乾的破事。


上手只需要兩步

前提:裝好Python。

打開終端:

uv init &&uv add browser-use

然後裝個瀏覽器核心:

uvx browser-use install

這條命令裝的是Chromium。

完事。


核心配置參數別漏了

裝好之後,有幾個參數得知道。我踩過坑。

headless:是否無頭模式。默認True,就是看不見瀏覽器窗口。想看着它幹活就設False。

keep_open:腳本跑完要不要關瀏覽器。調試的時候建議開着。

disable_security:處理iFrame等跨源請求時有用。

cookies_file:cookie持久化。登錄過的網站不用重新登錄。

minimum_wait_page_load_time:最短等待時間。太短了頁面沒加載完,AI就操作了。

wait_for_network_idle_page_load_time:等網絡請求完成再拿頁面狀態。

maximum_wait_page_load_time:最長等待時間。超時直接跳過。

這幾個參數配好了,運行起來舒服很多。


如果你用Claude Code

更方便。

裝一個Skill。

mkdir-p ~/.claude/skills/browser-use
curl-o ~/.claude/skills/browser-use/SKILL.md \
  https://raw.githubusercontent.com/browser-use/browser-use/main/skills/browser-use/SKILL.md

裝完,在Claude Code裏就能直接調用了。


開源還是雲服務

兩個選擇。

開源版:免費。但要自己整LLM API key。

雲服務:有大把集成——Gmail、Slack、Notion。

還有反檢測,自動換IP。

價格:

  • 輸入:$0.20/1M tokens
  • 輸出:$2.00/1M tokens

比請人便宜太多了。


說點實在的

以前幹那些爛事:填表、比價、搜信息、申請工作。

全是重複勞動。

AI能幹了。

而且 完成率78%

在真實網頁任務上。

這意味着,以後你只需要說一句話,AI替你扒完整個網頁。


FAQ

Q1:必須用Claude嗎?

可以接其他大模型。開源版隨便換。

Q2:需要懂編程嗎?

裝好就能用。會寫兩行命令就行。

Q3:會不會被封號?

雲服務有反檢測機制。開源版你自己控制。

Q4:支持國內網站嗎?

理論無障礙。遇到反爬另說。

Q5:能跑在服務器上嗎?

完全沒問題。


有用的話,點贊、在看、轉走