Browser-use讓AI像人類一樣操作瀏覽器
整理版優先睇
Browser-use讓AI自動操作瀏覽器,成功率78%,重點解決重複性網絡任務
陳老師,一個鍾意折騰AI工具嘅人,親身測試Browser-use呢個開源項目。佢描述嗰種感覺:「好似睇緊恐怖片,但主角係你自己寫嘅代碼。」文章想解決嘅問題係:點樣令AI好似人類咁操作瀏覽器,自動化曬填表、比價、搜資訊呢啲重複勞動。
Browser-use係GitHub上90k stars嘅項目,Python寫成,MIT協議。最近佢哋公佈咗一個Benchmark——BU-Ultra版本喺100個真實網頁任務入面成功率達78%。即係話,10件事入面有8件可以交俾AI搞掂。整體結論係:呢個工具值得一試,尤其係如果你成日要做重複嘅網絡操作。
作者自己試完之後,最大感受係以前好多時間白費咗。而家只要一句話,AI就可以幫你扒完整個網頁。無論係填求職申請、揾最平機票定係比較電腦配件,佢都搞得掂。而且上手唔難,裝好Python之後行兩條命令就得。
- 結論:Browser-use成功率78%,能自動完成填表、比價等網絡任務,大幅減少重複勞動。
- 方法:開源項目,Python寫成,透過裝Browser-use同Chromium核心即可使用;亦可整合Claude Code。
- 差異:有別於簡單爬蟲,Browser-use能模擬人類操作(點擊、填寫、處理彈窗),支援多種場景。
- 啟發:以往手動嘅重複工作(填求職申請、搜機票、比價)可以交俾AI,完成率接近八成,省時省力。
- 可行動點:裝好Python後,執行兩條命令(uv init && uv add browser-use、uvx browser-use install)即可開始;留意headless、keep_open等參數配置。
Browser-use Skill for Claude Code
mkdir -p ~/.claude/skills/browser-use && curl -o ~/.claude/skills/browser-use/SKILL.md
親身經歷:AI自己鬱手操作瀏覽器
陳老師話,佢坐喺電腦前,望住屏幕嘅遊標自己鬱。開咗個瀏覽器、輸入網址、滾動頁面、點擊按鈕,全程無掂過滑鼠。呢個唔係RPA,而係自己寫嘅代碼。佢形容呢種感覺似睇恐怖片,但主角係自己。
78%成功率
Browser-use係一個開源項目,GitHub上有90k stars,10.2k forks,MIT協議。Python寫成,佔比97.9%。總部喺Zurich同San Francisco。最近佢哋搞咗個Benchmark——100個真實網頁任務,BU-Ultra版本成功率78%。即係話,10件事AI能幫你幹成8件。
核心功能:模擬人類操作,唔係普通爬蟲
操作瀏覽器
Browser-use可以開瀏覽器、輸入URL、滾動頁面、點擊按鈕、填寫表單、選擇下拉菜單,甚至處理彈窗。所有你能喺瀏覽器做嘅,佢都做得。
三個場景
- 1 填表找工作:AI可以讀你嘅簡歷,自動填寫求職申請。以前填到第三間公司頁面崩潰,而家唔使煩。
- 2 揾嘢:俾個購物清單佢,例如「幫我揾2025年1月巴釐島飛阿曼嘅最平機票」,AI會自己開航班網站、篩選日期、比較價格。
- 3 比價:想買電腦配件?唔使自己逐個網頁睇。話俾AI知你要咩配置,佢自己搜、自己比、自己整理成表格。
你以前手動做嘅破事
上手教學:兩步裝好,核心參數要知
前提係裝好Python。然後開終端,輸入:
uv init && uv add browser-use
uvx browser-use install
第二條命令會裝Chromium核心。搞掂。跟住有幾個參數要留意,作者話佢踩過坑。
headless
- headless:係咪無頭模式。默認True,即係睇唔到瀏覽器窗口;想睇住佢做就設False。
- keep_open:腳本跑完係咪關瀏覽器。調試時建議開住。
- disable_security:處理iFrame等跨源請求時有用。
- cookies_file:cookie持久化,登錄過嘅網站唔使重新登錄。
- minimum_wait_page_load_time:最短等待時間,太短頁面未加載完AI就操作。
- wait_for_network_idle_page_load_time:等網絡請求完成先攞頁面狀態。
- maximum_wait_page_load_time:最長等待時間,超時直接跳過。
如果你用Claude Code,可以裝一個Skill更方便。
mkdir -p ~/.claude/skills/browser-use
curl -o ~/.claude/skills/browser-use/SKILL.md \
https://raw.githubusercontent.com/browser-use/browser-use/main/skills/browser-use/SKILL.md
直接調用
裝完之後,喺Claude Code入面就可以直接調用Browser-use。
開源 vs 雲服務:兩個選擇,各取所需
免費開源版
- 開源版:免費,但要自己準備LLM API key。
- 雲服務:有好多集成——Gmail、Slack、Notion;仲有反檢測,自動換IP。
價格
雲服務價格:輸入$0.20/1M tokens,輸出$2.00/1M tokens。作者話比請人平好多。
FAQ入面仲有幾點:可以用其他大模型(開源版隨便換);需要少少編程知識(會行兩條命令就得);雲服務有反檢測,開源版自己控制;理論上支援國內網站,但遇到反爬另說;可以跑喺服務器上。
大家好,我係陳老師,一個鍾意整AI工具嘅人。
嗰日我坐喺電腦面前,睇住個mon個cursor自己鬱。
佢開咗個瀏覽器,入咗網址,碌咗頁面,㩒咗掣。
成個過程我都冇掂mouse,而且唔係用預先整好嘅RPA。
嗰種感覺,點講好呢,好似睇緊恐怖片咁。
但係主角係你自己寫嘅code。
呢件事要由頭講起
唔好誤會,呢個唔係乜嘢魔法。
Browser-use,一個開源項目。
GitHub上面 90k stars,10.2k forks,MIT協議。
用Python寫嘅,佔比97.9%。
有2.5k個項目已經用緊。
總部喺Zurich同San Francisco。
最近搞咗個Benchmark——100個真實網頁任務,BU-Ultra版本成功率78%。
10件事,AI可以幫你搞掂8件。
聽落點樣?
總之我試完之後,最大嘅感受係:以前好多時間白費咗。
佢到底做緊啲乜
直接講啦。
Browser-use可以令AI好似人類咁操作瀏覽器。
唔係嗰種「開咗個網頁然後讀數據」嘅簡單爬蟲。
係真係操作。
開瀏覽器 入URL 碌頁面 㩒掣 填form 揀下拉選單 甚至處理彈窗
所有你可以喺瀏覽器做嘅嘢,佢都做到。
分別在於:你唔使坐喺電腦面前。
三個令我拍大髀嘅情境
填表
揾工填申請表,呢啲嘢我做過。
一張表,姓名、簡歷、工作經驗、教育背景。
填到第三間公司嘅網頁就冧咗。
AI可以做:讀你份簡歷,自動填寫求職申請。
你敢唔信?
找東西
將購物清單畀佢。
「幫我揾2025年1月巴釐島飛阿曼最平嘅機票。」
AI自己開航班網站,篩選日期,比較價錢。
然後話畀你知結果。
比價
想買電腦零件?
唔使一個一個開網頁睇喇。
話畀AI知你想要咩配置。
佢自己搜,自己比較,自己整理成表格。
全部都係你以前手動做嘅麻煩嘢。
上手只需要兩步
前提:裝好Python。
開terminal:
uv init &&uv add browser-use然後裝個瀏覽器核心:
uvx browser-use install呢條命令裝嘅係Chromium。
完事。
核心配置參數唔好漏
裝好之後,有幾個參數要識。我中過伏。
headless:係咪無頭模式。預設True,即係睇唔到瀏覽器視窗。想睇住佢做嘢就set False。
keep_open:Script行完要唔要關瀏覽器。Debug嗰陣建議開住。
disable_security:處理iFrame呢啲跨源請求時有用。
cookies_file:cookie持久化。登入過嘅網站唔使再登入。
minimum_wait_page_load_time:最短等待時間。太短頁面未load完,AI就操作咗。
wait_for_network_idle_page_load_time:等網絡請求完成先攞頁面狀態。
maximum_wait_page_load_time:最長等待時間。超時就直接跳過。
呢幾個參數set好,運行起嚟舒服好多。
如果你用Claude Code
更加方便。
裝一個Skill。
mkdir-p ~/.claude/skills/browser-use
curl-o ~/.claude/skills/browser-use/SKILL.md \
https://raw.githubusercontent.com/browser-use/browser-use/main/skills/browser-use/SKILL.md裝完,喺Claude Code入面就可以直接叫用。
開源定係雲服務
兩個選擇。
開源版Open Source:免費。但要自己搞LLM API key。
雲服務Cloud:有大把集成——Gmail、Slack、Notion。
仲有反檢測,自動換IP。
價格:
輸入:$0.20/1M tokens 輸出:$2.00/1M tokens
比請人平好多。
講啲實際嘅
以前做嗰啲爛嘢:填表、格價、揾資料、申請工作。
全部都係重複勞動。
AI做到喇。
而且 完成率78%。
喺真實網頁任務上。
即係話,以後你只需要講一句說話,AI就幫你扒曬成個網頁。
FAQ
Q1:一定要用Claude嗎?
可以接其他大模型。開源版隨便換。
Q2:需唔需要識寫程式?
裝好就用得。識打兩行command就得。
Q3:會唔會俾人封號?
雲服務有反檢測機制。開源版你自己控制。
Q4:支唔支援國內網站?
理論上冇問題。遇到反爬就另計。
Q5:可唔可以行喺server上面?
完全冇問題。
覺得有用嘅話,讚好、睇緊啲、轉發出去。
大家好,我是陳老師,一個喜歡折騰AI工具的人。
那天我坐在電腦前,看着屏幕上的光標自己移動。
它打開了一個瀏覽器。輸入了網址。滾動頁面。點擊了按鈕。
全程我沒碰鼠標。而且也不是使用搭建的RPA。
那感覺,怎麼說呢,像在看一部恐怖片。
但主角是你自己寫的代碼。
這事兒得從頭說
別誤會,這不是什麼魔法。
Browser-use,一個開源項目。
GitHub上 90k stars,10.2k forks,MIT協議。
Python寫的,佔比97.9%。
2.5k個項目已經在用。
總部在Zurich和San Francisco。
最近搞了個Benchmark——100個真實網頁任務,BU-Ultra版本成功率78%。
10件事,AI能幫你幹成8件。
聽起來怎麼樣?
反正我試完之後,最大的感受是:以前很多時間白花了。
它到底在幹什麼
直說吧。
Browser-use能讓AI像人類一樣操作瀏覽器。
不是那種”打開一個網頁然後讀取數據”的簡單爬蟲。
是真的操作。
打開瀏覽器 輸入URL 滾動頁面 點擊按鈕 填寫表單 選擇下拉菜單 甚至處理彈窗
所有你能在瀏覽器裏乾的,它都能幹。
區別在於:你不用坐在電腦前。
三個讓我拍大腿的場景
填表
找工作填求職申請,這活兒我幹過。
一張表,姓名、簡歷、工作經驗、教育背景。
填到第三家公司頁面崩潰了。
AI可以:讀你的簡歷,自動填寫求職申請。
你敢信?
找東西
把購物清單丟給它。
“幫我找2025年1月巴厘島飛阿曼的最便宜機票。”
AI自己打開航班網站,篩選日期,比較價格。
然後告訴你結果。
比價
想買電腦配件?
不用一個一個打開網頁看了。
告訴AI你要什麼配置。
它自己搜,自己比,自己整理成表格。
都是你以前手動乾的破事。
上手只需要兩步
前提:裝好Python。
打開終端:
uv init &&uv add browser-use然後裝個瀏覽器核心:
uvx browser-use install這條命令裝的是Chromium。
完事。
核心配置參數別漏了
裝好之後,有幾個參數得知道。我踩過坑。
headless:是否無頭模式。默認True,就是看不見瀏覽器窗口。想看着它幹活就設False。
keep_open:腳本跑完要不要關瀏覽器。調試的時候建議開着。
disable_security:處理iFrame等跨源請求時有用。
cookies_file:cookie持久化。登錄過的網站不用重新登錄。
minimum_wait_page_load_time:最短等待時間。太短了頁面沒加載完,AI就操作了。
wait_for_network_idle_page_load_time:等網絡請求完成再拿頁面狀態。
maximum_wait_page_load_time:最長等待時間。超時直接跳過。
這幾個參數配好了,運行起來舒服很多。
如果你用Claude Code
更方便。
裝一個Skill。
mkdir-p ~/.claude/skills/browser-use
curl-o ~/.claude/skills/browser-use/SKILL.md \
https://raw.githubusercontent.com/browser-use/browser-use/main/skills/browser-use/SKILL.md裝完,在Claude Code裏就能直接調用了。
開源還是雲服務
兩個選擇。
開源版:免費。但要自己整LLM API key。
雲服務:有大把集成——Gmail、Slack、Notion。
還有反檢測,自動換IP。
價格:
輸入:$0.20/1M tokens 輸出:$2.00/1M tokens
比請人便宜太多了。
說點實在的
以前幹那些爛事:填表、比價、搜信息、申請工作。
全是重複勞動。
AI能幹了。
而且 完成率78%。
在真實網頁任務上。
這意味着,以後你只需要說一句話,AI替你扒完整個網頁。
FAQ
Q1:必須用Claude嗎?
可以接其他大模型。開源版隨便換。
Q2:需要懂編程嗎?
裝好就能用。會寫兩行命令就行。
Q3:會不會被封號?
雲服務有反檢測機制。開源版你自己控制。
Q4:支持國內網站嗎?
理論無障礙。遇到反爬另說。
Q5:能跑在服務器上嗎?
完全沒問題。
有用的話,點贊、在看、轉走。