Browser Use：讓 AI 替你點鼠標的開源項目，GitHub 已過 9.6 萬 star

作者：AI智聞說

日期：2026年6月2日下午8:05

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

Browser Use 係一個開源 Python 庫，透過多模態大模型「睇」頁面截圖同 DOM 元素，令 AI 好似人咁操作瀏覽器，自動完成網頁任務。呢個項目喺 GitHub 已經有 9.6 萬 star，代表 AI 開始直接用人類軟件，而唔係淨係輸出文字。

整理版摘要

呢篇文章介紹咗一個 GitHub 上已有 9.6 萬 star 嘅開源項目 Browser Use。佢嘅核心係用多模態大模型（例如 GPT-4o、Claude）去「睇」瀏覽器畫面嘅截圖，再配合 DOM 提取嘅可交互元素列表，嚟決定下一步要點擊邊個掣、輸入咩字。同傳統用 XPath 或 CSS 選擇器嘅自動化方案唔同，佢唔怕網站小改版，因為模型係靠視覺同語義理解，而唔係硬編碼嘅規則。

作者清楚指出，呢個方案唔係萬能——佢破解唔到強反爬機制（例如 Cloudflare、阿里雲盾），而且每一步都要調用一次大模型，所以又慢又貴。佢同 Anthropic 嘅 Computer Use 嘅分別在於：Computer Use 可以操作成個電腦，Browser Use 只侷限喺瀏覽器，但可以揀用邊個模型。作者特別提到三個適合用 Browser Use 嘅場景：每日自動整理行業資訊做日報、盯住商品價格、自動填寫表單。每個場景都有判斷同提醒。

整體結論係：Browser Use 代表咗一種新嘅「AI 用工具嘅方式」——AI 唔再只輸出文字，而係直接用人類用嘅軟件。雖然有限制，但對於網站經常改版、冇 API 嘅內部系統、一次性任務呢啲情況，佢比寫死腳本靈活好多。作者鼓勵讀者早啲親手試玩，體驗呢條路嘅可能性。

Browser Use 用多模態大模型「睇圖 + 解析 DOM 元素」嚟操控瀏覽器，比傳統自動化更抗網站改版。
工作流程係六步循環：截圖 → 解析可交互元素 → 大模型理解 → 決策 → 執行 → 再截圖，直到任務完成。
同 Anthropic Computer Use 嘅分別：Browser Use 只侷限喺瀏覽器內，但可以接 GPT、Claude、Gemini 等任意模型；Computer Use 可操作整台電腦，但只能用 Claude。
啟發：AI 開始直接使用人類軟件，而唔係淨係輸出文字；Browser Use 係呢個方向嘅第一個代表性工具，改變咗 AI 與軟件互動嘅方式。
可行動點：安裝 browser-use 同 playwright，寫幾行 Python 程式碼就可以令 AI 自動搜尋網頁、整理資訊，即時上手體驗。

值得記低

工具 github.com

Browser Use 開源庫

令 AI 自動操作瀏覽器嘅 Python 庫，GitHub 上已有 9.6 萬 star。

整理重點

呢個項目做咩？同傳統自動化有咩分別？

寫過爬蟲或者 Selenium 腳本嘅人都知，網站改版係最大痛點。Browser Use 嘅解法係：用多模態大模型直接「睇」頁面截圖，同時從 DOM 抽取出所有可點擊同輸入嘅元素，俾模型決定下一步動作。

requests + BeautifulSoup：靠解析 HTML 同 DOM 選擇器，改版即死。
Selenium / Playwright：寫死 XPath 或 CSS 選擇器，改版照樣癱。
Browser Use：多模態大模型「睇」截圖 + 解析可交互元素，改版多數仲行到。

但係要潑一盆冷水：Cloudflare、阿里雲盾、瑞數呢類強反爬照樣會攔，佢唔係繞過風控嘅銀彈。

整理重點

邊啲場景用得著？有咩限制？

作者提出三個真正適合嘅場景，每個都有具體嘅判斷同提醒。

1 每日自動整理行業資訊做日報：定時打開固定資訊源，模型理解「咩內容值得放」，唔係機械堆連結；偶爾被登錄彈窗卡住，加句「遇到彈窗關掉」就解決。
2 盯商品價格到位通知：用到專門工具更省錢，但 Browser Use 唔使為每個網站寫代碼，同一段 task 換個網址就搞掂。
3 自動填選項好多嘅表單：根據準備好嘅回答說明填寫，但必須人工校驗，尤其係「其他（請說明）」呢類開放題容易出古古怪怪嘅答案。

做唔好嘅嘢：複雜驗證碼（滑塊、點選漢字、reCAPTCHA）、強反爬牆、超過 20–30 步嘅長任務容易走錯路。

整理重點

上手實戰：由零到第一次跑通

首先，確保 Python 3.11 或以上。然後安裝 browser-use 同瀏覽器內核。配好大模型 API key，就可以寫最細嘅程式碼。

最小可跑程式碼 python

import asyncio
from browser_use import Agent, ChatOpenAI

async def main():
 agent = Agent(
 task="打開百度，搜索 Browser Use，把第一條結果的標題告訴我",
 llm=ChatOpenAI(model="gpt-4o"),
 )
 await agent.run()

asyncio.run(main())

第一次跑通標誌：終端打印出任務結果，顯示第一條結果標題。
想睇瀏覽器實時操作？確保 headless 係 False（預設就係可見）。
想記住登錄態？複用 Chrome 用戶目錄：設定 user_data_dir 參數，第一次手動登錄，之後自動帶 cookie 啟動。

常見報錯：Executable doesn't exist 代表未裝瀏覽器內核，跑 playwright install chromium；Incorrect API key 就檢查環境變數；任務卡喺某個頁面就喺 task 描述加句「遇到彈窗關掉」。

整理重點

原理：六步循環，同最終啟發

代價係每一步都要等模型推理，一個 30 步嘅任務就係 30 次 API 調用，慢同貴係天生缺點。

模型在變強，但真正改變工作方式的，往往是圍繞模型的工具和流程。

Browser Use 代表咗一類新嘅「AI 用工具的方式」——AI 不再只輸出文字，它能直接去用人類用的軟件。

呢條路先啱開始，瀏覽器只係第一個被接管嘅入口。早啲親手玩過，就早啲知道條路通去邊。

Browser Use 呢個項目喺 GitHub 上已經有 9.6 萬個 star。佢做嘅嘢好直接：你講一段中文，瀏覽器就會幫你完成網頁操作。
項目地址: https://github.com/browser-use/browser-use^[1]

先睇一個場景

打開終端，打一行指令：

打開掘金首頁，挑出今天熱度最高的 5 篇文章，每條用一句話總結，整理成 markdown 存到桌面。

回車。

一個 Chromium 視窗彈出嚟，自動打開 juejin.cn，等頁面加載、識別熱門文章列表、按熱度排序、逐一點開前 5 篇提取標題同摘要、關掉中途出現嘅彈窗，最後喺桌面生成一份 juejin-digest.md。

全程冇用鍵盤同滑鼠。

呢個就係 Browser Use——一個開源 Python 庫，令大模型好似人咁用瀏覽器。

下面係一次完整運行嘅終端日誌，可以直觀感受佢點樣一步步完成任務：

最後生成嘅產物係咁樣：

呢樣嘢同以前嘅「自動化」有咩本質區別

寫過爬蟲、寫過 Selenium 腳本嘅人會問：自動化操作瀏覽器唔係十幾年前就有喇咩？

差別在 「靠咩定位元素」：

方案	點樣揾頁面元素	網站改版之後
requests + BeautifulSoup	解析 HTML、揾選擇器	通常直接死機
Selenium / Playwright	寫死 XPath 或 CSS 選擇器	通常直接失效
Browser Use	多模態大模型「睇」頁面截圖 + 解析可交互元素	大機會仲行到

多模態大模型 = 可以直接睇圖、唔只係睇文字嘅大模型，例如 GPT-4o、Claude Sonnet、Gemini。

前兩種方案嘅本質係「按規則匹配 DOM」，規則一改就冇用。Browser Use 嘅做法係：將當前瀏覽器畫面截圖 + 抽出頁面上所有可點擊/可輸入嘅元素列表，一齊交俾大模型判斷「而家應該做咩、撳邊個」，然後調用 Playwright 將動作落到頁面上。

同人用瀏覽器好相似——人唔會睇 DOM 選擇器，人就係「見到一個掣，伸手去撳」。

要潑一盆冷水：Browser Use 對小幅改版好穩定，但唔等於無敵。Cloudflare、阿里雲盾、瑞數呢類強反爬一樣會攔。佢解決嘅係「DOM 選擇器維護成本」同「網頁結構複雜冇辦法用腳本」嘅問題，唔係繞過風控嘅銀彈。

順便講清楚：同 Anthropic 嘅 Computer Use 係咩關係

好多人將呢兩個搞亂，簡單區分：

Computer Use：Anthropic 官方能力。令 Claude 操作成部電腦——開任何軟件、睇成個屏幕、控制滑鼠鍵盤。範圍大、能力強、目前只能配 Claude 模型用。

Browser Use：開源專案。淨係喺瀏覽器入面搞搞震，但可以接 GPT、Claude、Gemini、本地 Ollama 任意大模型。範圍細、靈活、模型選擇自由。

簡單直接咁揀：要操作瀏覽器以外嘅嘢（Excel、本地檔案、桌面軟件）用 Computer Use；淨係喺網頁入面搞嘢用 Browser Use。

兩者邊界正在模糊——Browser Use 都喺度融合「睇像素 + 計座標點擊」嘅 Computer Use 模式，俾 Claude 系列模型默認開啓。

三個適合用 Browser Use 嘅場景

下面三個場景都係佢真正擅長嘅方向。具體效果會隨網絡、模型、網站狀態浮動，冇必要執著絕對數字，關鍵係睇佢嘅能力邊界喺邊。

場景一：每日早上自動執行業資訊做日報

任務描述：定時打開幾個固定資訊源（掘金、InfoQ、若干公眾號網頁版、知乎專欄），揀出最新更新，每條做一句話摘要，整理成 markdown 發去郵箱或存到本地。

判斷：完全可用。比起 RSS 工具嘅好處係模型能理解「咩內容值得放入日報」，唔係機械式堆連結。間中會被某個站點嘅登錄彈窗或權限牆卡住，task 入面加多句「遇到彈窗就關掉」就能解決大半。

場景二：睇住一個商品價格，到位通知

任務描述：睇住某電商頁面一個商品嘅價格，每隔幾小時檢查一次，達到目標價就透過推送服務（Server 醬、Bark、企微機器人）通知。

判斷：用得，但老實講：呢種任務用專門比價工具或一段 Playwright 腳本更慳錢亦更穩定。AI 方案嘅真正價值係唔使為每個新網站獨立寫代碼——同一段 task 描述換個網址就跑到。

一次實際運行嘅日誌參考：

場景三：自動填一份選項好多嘅表單

任務描述：內部調研問卷或公開表單，根據一份事先準備好嘅回答說明，按要求填寫並提交。

判斷：用得但一定要人工校驗。表單類任務最怕填錯，建議喺 task 入面要求 AI 提交前先產生一份「答案預覽」，人睇一眼先放行。「其他（請說明）」呢種開放題間中會猶豫或填出奇怪答案，對成功率要求高嘅場景要小心用。

上手：由零到第一次成功運行

環境準備：

# Python 3.11 或以上

python --version

# 安裝 Browser Use（最新版自帶常用大模型客戶端）

pip install browser-use

# 安裝瀏覽器內核

playwright install chromium

# 設定大模型 API key（任選其一）

export OPENAI_API_KEY="sk-..."

# 或

export ANTHROPIC_API_KEY="sk-ant-..."

Playwright = 微軟出品嘅瀏覽器自動化底層工具，Browser Use 用佢嚟執行真實嘅點擊同輸入動作。

最細可以跑嘅代碼：

import asyncio

from browser_use import Agent, ChatOpenAI

async def main():

    agent = Agent(

        task="打開百度，搜尋 Browser Use，將第一條結果嘅標題話俾我知",

        llm=ChatOpenAI(model="gpt-4o"),

)

    await agent.run()

# asyncio 係 Python 嘅異步語法，照抄就得

asyncio.run(main())

存成 demo.py，運行 python demo.py，瀏覽器會自動彈出嚟開始操作。

第一次成功運行嘅標誌：終端打印出任務結果，並俾出搜到嘅第一條標題。

想睇瀏覽器實時操作？關閉無頭模式

默認情況下瀏覽器係「可見」嘅，但如果你裝咗某啲雲端版本或者改咗配置，可能跑親都睇唔到嘢。強制令瀏覽器顯示出嚟：

from browser_use import Agent, ChatOpenAI, BrowserSession

agent = Agent(

    task="...",

    llm=ChatOpenAI(model="gpt-4o"),

    browser_session=BrowserSession(headless=False),

)

想令佢「記得登錄狀態」？重用 Chrome 用戶目錄

每次都要重新登錄係新手最頭痛嘅問題。解決方法係令 Browser Use 重用一個固定嘅用戶目錄——你手動登錄一次，下次自動帶住 cookie 啓動：

from browser_use import Agent, ChatOpenAI, BrowserSession

agent = Agent(

    task="打開知乎首頁，俾最新一個動態讚好",

    llm=ChatOpenAI(model="gpt-4o"),

    browser_session=BrowserSession(

        user_data_dir="~/.browser-use-profile",  # 任意路徑

        headless=False,

),

)

第一次跑會彈出空白瀏覽器，你手動登錄目標網站；之後所有任務都會帶住呢套登錄狀態啓動。注意：呢個目錄入面會存放 cookie 同緩存，等同密碼，唔好提交到 git。

常見錯誤

錯誤關鍵字	原因	解決
`Executable doesn't exist at ...chromium...`	冇安裝瀏覽器內核	跑 `playwright install chromium`
`Incorrect API key provided`	key 冇設定好或失效	檢查 `echo $OPENAI_API_KEY` 是否非空
任務卡咗喺某個頁面唔鬱	彈窗、cookie 同意框、驗證碼擋住咗	喺 task 描述入面加一句「如果遇到彈窗就關咗佢」
任務走偏、兜遠路	task 描述太模糊	將每一步拆開寫明，越具體越穩
`Rate limit reached`	模型 API 限頻	換模型或加重試間隔

原理：六步循環

成個工作流程就係一個不斷循環嘅過程：

截圖：擷取當前瀏覽器畫面

解析：從 DOM 提取出當前頁面所有可交互元素（按鈕、連結、輸入框）並編號

理解：將截圖 + 元素列表 + 任務目標一齊交俾大模型

決策：模型輸出下一步動作（撳幾號元素、輸入咩文字、滾動到邊）

執行：用 Playwright 將動作落到瀏覽器上面

再截圖：拿到執行後嘅新頁面狀態，返去第 1 步，直到任務完成或失敗

注意第 2 步——Browser Use 唔係淨係「睇圖」。佢同時將頁面入面可以交互嘅元素提取出嚟俾模型一份清單，咁樣模型可以話「撳第 7 號連結」而唔係「撳座標 (480, 320)」。呢個係佢比純 Computer Use 喺網頁場景下更準嘅原因。

但代價係：每一步都要調一次多模態大模型 + 等模型回應 + 執行動作 + 再截圖。一個 30 步嘅任務就係 30 次模型調用，呢個就係佢慢同貴嘅根本原因。

而家嘅邊界：做到咩、做唔到咩

冇吹水。呢樣嘢而家仲有唔少限制，事前講清楚好過事後失望。

做唔好嘅事：

複雜驗證碼：滑塊、點選漢字、識圖、reCAPTCHA 都基本搞唔掂

強反爬牆：Cloudflare、阿里雲盾、瑞數呢類風控會被識別成機械人

長任務容易走偏：超過 20–30 步嘅任務有機會走錯路，要中途介入

速度上限：再快都快唔過手寫腳本，每步都要等模型推理（幾秒到十幾秒）

成本唔平：一個複雜任務可能花 0.5–1 美元，密集跑就要計數

適合嘅場景：

網站經常改版嘅場景（爬蟲日日死嗰種）

冇 API 嘅內部系統、老舊後台

一次性、用完即棄嘅任務

需要「理解內容再決定下一步」嘅任務（規則腳本完全做唔到）

唔適合嘅場景：

高頻、穩定、規則明確嘅批量任務（寫腳本更划算）

對成功率要求 100% 嘅關鍵任務（例如落單付款、合同簽署）

對速度敏感嘅任務（毫秒級回應唔好諗）

寫喺最後

模型變緊強，但真正改變工作方式嘅，往往係圍繞模型嘅工具同流程。Browser Use 唔係又一個新 AI 工具，佢代表咗一類新嘅「AI 用工具嘅方式」——AI 唔再淨係輸出文字，佢可以直接去用人類用嘅軟件。呢條路先啱啱開始，瀏覽器只係第一個俾佢接管嘅入口。

國內中文社羣對佢嘅深度內容仲好少，大部分人只係聽過個名。早啲親手玩過，就早啲知道呢條路可以去到邊。

Browser Use 這個項目在 GitHub 上已經累積了 9.6 萬 star。它做的事很直接：你說一段中文，瀏覽器就開始替你完成網頁操作。
項目地址: https://github.com/browser-use/browser-use^[1]

先看一個場景

打開終端，敲一行命令：

打開掘金首頁，挑出今天熱度最高的 5 篇文章，每條用一句話總結，整理成 markdown 存到桌面。

回車。

一個 Chromium 窗口彈出來，自動打開 juejin.cn，等頁面加載、識別熱門文章列表、按熱度排序、依次點開前 5 篇提取標題和摘要、關掉中途出現的彈窗，最後在桌面生成一份 juejin-digest.md。

全程沒用鍵盤和鼠標。

這就是 Browser Use——一個開源 Python 庫，讓大模型像人一樣使用瀏覽器。

下面是一次完整運行的終端日誌，可以直觀感受它是怎麼一步步走完任務的：

最終生成的產物長這樣：

這玩意跟以前的"自動化"有什麼本質區別

寫過爬蟲、寫過 Selenium 腳本的人會有疑問：自動化操作瀏覽器不是十幾年前就有了嗎？

差別在 "靠什麼定位元素"：

方案	怎麼找頁面元素	網站改版後
requests + BeautifulSoup	解析 HTML、找選擇器	通常直接掛掉
Selenium / Playwright	寫死 XPath 或 CSS 選擇器	通常直接掛掉
Browser Use	多模態大模型"看"頁面截圖 + 解析可交互元素	大概率還能跑

多模態大模型 = 能直接看圖、不只會讀文字的大模型，比如 GPT-4o、Claude Sonnet、Gemini。

前兩種方案的本質是"按規則匹配 DOM"，規則一改就廢。Browser Use 的做法是：把當前瀏覽器畫面截圖 + 抽取出頁面上所有可點擊/可輸入的元素列表，一起交給大模型判斷"現在該做什麼、點哪個"，然後調用 Playwright 把動作落到頁面上。

跟人用瀏覽器很像——人也不去看 DOM 選擇器，人就是"看到一個按鈕，伸手去點"。

需要潑一盆冷水：Browser Use 對小幅改版很魯棒，但不等於無敵。Cloudflare、阿里雲盾、瑞數這類強反爬照樣會攔。它解決的是"DOM 選擇器維護成本"和"網頁結構複雜沒法用腳本"的問題，不是繞過風控的銀彈。

順便說清楚：跟 Anthropic 的 Computer Use 是什麼關係

很多人把這兩個搞混，簡單區分：

Computer Use：Anthropic 官方能力。讓 Claude 操作整台電腦——開任何軟件、看整個屏幕、控制鼠標鍵盤。範圍大、能力強、目前只能配 Claude 模型用。

Browser Use：開源項目。只在瀏覽器內折騰，但可以接 GPT、Claude、Gemini、本地 Ollama 任意大模型。範圍小、靈活、模型選擇自由。

簡單粗暴地選：要操作瀏覽器外的東西（Excel、本地文件、桌面軟件）用 Computer Use；只在網頁裏折騰用 Browser Use。

兩者邊界正在模糊——Browser Use 也在融合"看像素 + 算座標點擊"的 Computer Use 模式，給 Claude 系列模型默認開啓。

三個適合用 Browser Use 的場景

下面三個場景都是它真正擅長的方向。具體效果會隨網絡、模型、網站狀態浮動，沒必要糾結絕對數字，關鍵是看它的能力邊界在哪。

場景一：每天早上自動抓行業資訊做日報

任務描述：定時打開幾個固定信息源（掘金、InfoQ、若干公眾號網頁版、知乎專欄），挑出最新更新，每條做一句話摘要，整理成 markdown 發到郵箱或存到本地。

判斷：完全可用。比 RSS 工具的好處是模型能理解"什麼內容值得放進日報"，不是機械堆連結。偶爾會被某個站點的登錄彈窗或權限牆卡住，task 裏多寫一句"遇到彈窗就關掉"能解決大半。

場景二：盯一個商品價格，到位通知

任務描述：盯某電商頁面一個商品的價格，每隔幾小時檢查一次，達到目標價就通過推送服務（Server 醬、Bark、企微機器人）通知。

判斷：能用，但要誠實：這種任務用專門比價工具或一段 Playwright 腳本更省錢也更穩。AI 方案的真正價值是不用為每個新網站單獨寫代碼——同一段 task 描述換個網址就能跑。

一次實際運行的日誌參考：

場景三：自動填一份選項很多的表單

任務描述：內部調研問卷或公開表單，根據一份事先準備好的回答說明，按要求填寫並提交。

判斷：可用但必須人工校驗。表單類任務最怕填錯，建議在 task 裏要求 AI 提交前先生成一份"答案預覽"，人掃一眼再放過。"其他（請說明）"這種開放題偶爾會猶豫或填出奇怪答案，對成功率要求高的場景慎用。

上手：從零到第一次跑通

環境準備：

# Python 3.11 或以上

python --version

# 裝 Browser Use（最新版自帶常用大模型客戶端）

pip install browser-use

# 裝瀏覽器內核

playwright install chromium

# 配大模型 API key（任選其一）

export OPENAI_API_KEY="sk-..."

# 或

export ANTHROPIC_API_KEY="sk-ant-..."

Playwright = 微軟出的瀏覽器自動化底層工具，Browser Use 用它來執行真實的點擊和輸入動作。

最小可跑代碼：

import asyncio

from browser_use import Agent, ChatOpenAI

async def main():

    agent = Agent(

        task="打開百度，搜索 Browser Use，把第一條結果的標題告訴我",

        llm=ChatOpenAI(model="gpt-4o"),

)

    await agent.run()

# asyncio 是 Python 的異步語法，照抄就行

asyncio.run(main())

存成 demo.py，運行 python demo.py，瀏覽器會自動彈出來開始操作。

第一次跑通的標誌：終端打印出任務結果，並給出搜索到的第一條標題。

想看瀏覽器實時操作？關掉無頭模式

默認情況下瀏覽器是"可見"的，但如果你裝了某些雲端版本或者改了配置，可能跑起來啥都看不到。強制讓瀏覽器顯示出來：

from browser_use import Agent, ChatOpenAI, BrowserSession

agent = Agent(

    task="...",

    llm=ChatOpenAI(model="gpt-4o"),

    browser_session=BrowserSession(headless=False),

)

想讓它"記得登錄態"？複用 Chrome 用戶目錄

每次都要重新登錄是新手最頭疼的問題。解法是讓 Browser Use 複用一個固定的用戶目錄——你手動登錄一次，下次自動帶着 cookie 啓動：

from browser_use import Agent, ChatOpenAI, BrowserSession

agent = Agent(

    task="打開知乎首頁，給最新一個動態點個贊",

    llm=ChatOpenAI(model="gpt-4o"),

    browser_session=BrowserSession(

        user_data_dir="~/.browser-use-profile",  # 任意路徑

        headless=False,

),

)

第一次跑會彈出空白瀏覽器，你手動登錄目標網站；之後所有任務都會帶着這套登錄態啓動。注意：這個目錄裏會存放 cookie 和緩存，等同密碼，別提交到 git。

常見報錯

報錯關鍵字	原因	解決
`Executable doesn't exist at ...chromium...`	沒裝瀏覽器內核	跑 `playwright install chromium`
`Incorrect API key provided`	key 沒配好或失效	檢查 `echo $OPENAI_API_KEY` 是否非空
任務卡在某個頁面不動	彈窗、cookie 同意框、驗證碼擋住了	在 task 描述里加一句"如果遇到彈窗就關掉"
任務跑偏、繞遠路	task 描述太模糊	把每一步拆開寫明，越具體越穩
`Rate limit reached`	模型 API 限頻	換模型或加重試間隔

原理：六步循環

整個工作流就是一個不斷循環的過程：

截圖：抓取當前瀏覽器畫面

解析：從 DOM 提取出當前頁面所有可交互元素（按鈕、連結、輸入框）並編號

理解：把截圖 + 元素列表 + 任務目標一起交給大模型

決策：模型輸出下一步動作（點幾號元素、輸入什麼文字、滾動到哪）

執行：用 Playwright 把動作落到瀏覽器上

再截圖：拿到執行後的新頁面狀態，回到第 1 步，直到任務完成或失敗

注意第 2 步——Browser Use 不是隻"看圖"。它同時把頁面裏能交互的元素提取出來給模型一份清單，這樣模型可以說"點第 7 號連結"而不是"點座標 (480, 320)"。這是它比純 Computer Use 在網頁場景下更準的原因。

但代價是：每一步都要調一次多模態大模型 + 等模型響應 + 執行動作 + 再截圖。一個 30 步的任務就是 30 次模型調用，這就是它慢和貴的根本原因。

現在的邊界：能幹什麼、不能幹什麼

不吹。這玩意現在還有不少限制，提前講清楚比事後失望好。

做不好的事：

複雜驗證碼：滑塊、點選漢字、識圖、reCAPTCHA 都基本搞不定

強反爬牆：Cloudflare、阿里雲盾、瑞數這類風控會被識別成機器人

長任務容易跑偏：超過 20–30 步的任務有概率走錯路，要中途介入

速度上限：再快也快不過手寫腳本，每步都要等模型推理（幾秒到十幾秒）

成本不便宜：一個複雜任務可能花 0.5–1 美元，密集跑要算賬

適合的場景：

網站經常改版的場景（爬蟲天天掛的那種）

沒有 API 的內部系統、老舊後台

一次性的、用完即棄的任務

需要"理解內容再決定下一步"的任務（規則腳本完全做不到）

不適合的場景：

高頻、穩定、規則明確的批量任務（寫腳本更划算）

對成功率要求 100% 的關鍵任務（比如下單付款、合同簽署）

對速度敏感的任務（毫秒級響應別想）

寫在最後

模型在變強，但真正改變工作方式的，往往是圍繞模型的工具和流程。Browser Use 不是又一個新 AI 工具，它代表了一類新的"AI 用工具的方式"——AI 不再只輸出文字，它能直接去用人類用的軟件。這條路才剛剛開始，瀏覽器只是第一個被它接管的入口。

國內中文社區對它的深度內容還很少，大部分人只是聽過名字。早一點親手玩過，就早一點知道這條路能通往哪裏。