Browser Harness:讓AI“自己修代碼”操控Chrome瀏覽器,一款真正“反框架”的開源神器

作者:惡人筆記
日期:2026年4月19日 下午11:28
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

Browser Harness 係一款只得592行 Python 嘅開源工具,讓 AI 直接操控 Chrome 瀏覽器,仲可以自動修復同學習新功能

整理版摘要

呢篇文章介紹一個叫做 Browser Harness 嘅開源項目,佢係由 browser-use 團隊開發嘅。作者想解決傳統瀏覽器自動化工具(好似 Selenium、Playwright)需要寫死腳本、網站一改版就爛嘅問題。整體結論係:Browser Harness 通過 Chrome DevTools Protocol 直接同真實瀏覽器溝通,畀 LLM Agent 自由操控,仲有自癒機制,可以自動補齊缺失嘅函數,仲會自動生成特定網站嘅技能知識庫。

項目嘅核心理念嚟自「The Bitter Lesson」:畀 AI 多啲自由,等佢自己學,唔係人類預先寫好一大堆框架。成個項目只有幾個核心文件,加埋唔夠600行 Python,設計極簡。LLM 可以透過 helpers.py 直接調用瀏覽器功能,甚至原始 CDP 命令。

總括嚟講,Browser Harness 代表一種新嘅 Web 自動化典範,特別適合原型驗證、個人自動化同 Agent 研究。雖然有依賴 LLM 能力同安全隱患,但整體方向係將智能交返畀模型,好有可能成為未來主流。

  • Browser HarnessLLM 直接操控真實 Chrome,唔需要寫死腳本,有自癒機制。
  • 當執行任務時發現缺少輔助函數,LLM 會自動編輯 helpers.py 補上,繼續執行。
  • 針對特定網站會自動生成 domain-skills 知識庫,下次做類似任務更快。
  • 安裝簡單,用一段提示詞就搞掂,支援本地同雲端瀏覽器。
  • 適合 AI 開發者同自動化愛好者,但高穩定生產環境暫時仲係傳統工具穩陣。
值得記低
連結 github.com

Browser Harness GitHub 倉庫

開源項目,讓 AI 直接操控 Chrome 瀏覽器

Prompt github.com

安裝設置提示詞

Set up for me.Read `install.md` first to install and connect this repo to my real browser. Then read `SKILL.md` for normal usage. Always read `helpers.py` because that is where the functions are. When you open a setup or verification tab, activate it so I can see the active browser tab. After it is installed, open this repository in my browser and, if I am logged in to GitHub, ask me whether you should star it for me as a quick demo that the interaction works — only click the star if I say yes. If I am not logged in, just go to browser-use.com.

整理重點

咩係 Browser Harness?

傳統瀏覽器自動化工具好似 Selenium、Playwright 都需要開發者預先寫好一堆腳本,一遇到網站改版就爛。Browser Harness 完全反其道而行,佢直接透過 Chrome DevTools Protocol(CDP)建立 WebSocket,等 LLM Agent 可以直接控制真實瀏覽器,中間冇任何框架限制。

核心亮點係自癒機制,大模型會自動編輯 helpers.py 補齊缺失函數,邊做邊學。

整理重點

核心原理同使用方法

成個項目得幾個核心文件:run.py, helpers.py, admin.py, daemon.py。LLM 可以透過 helpers.py 直接調用瀏覽器功能,甚至用原始 CDP 命令,靈活度極高。

日常使用範例 bash
browser-harness <<'PY'
new_tab("https://example.com")
wait_for_load()
print(page_info())
PY

安裝時只需要將一段設置提示詞貼畀 Claude CodeCodex,佢就會自動完成所有嘢。

另外,支援遠端雲端瀏覽器,設定環境變數就可以用。

整理重點

優點同潛在不足

Browser Harness 嘅優點包括極高靈活性、低維護成本、輕量高效,符合 AI 發展理念。但都有不足,例如依賴 LLM 能力,如果模型幻覺嚴重可能出錯;安全隱患方面,LLM 可以編輯本地檔案同控制瀏覽器,建議注意權限;唔適合高穩定生產環境。

傳統工具係工程師寫腳本,呢個係 AI 自己寫加修腳本。

整理重點

邊啲人適合用?點樣玩得更好?

目標用家包括 AI 開發者、自動化愛好者、產品營運。建議從本地 Chrome 開始,結合強模型(如 Claude Code),定期備份 helpers.py 同 domain-skills/,監控 LLM 編輯日誌。

進階玩法可以多 Agent 協作、結合私有 API、用截圖加座標實現視覺操作。

最近留意到一個令人眼前一亮嘅開源項目:Browser Harness佢只有大約592行Python代碼,但就可以令大型語言模型(LLM)好似人類咁直接操作真實嘅Chrome瀏覽器:喺網頁上想點邊度就點邊度,想上傳文件就上傳,喺任務中發現功能缺失嘅時候,仲可以自己編輯代碼添加新函數,繼續執行。

同以往唔同,呢個唔係傳統嘅Selenium或Playwright嗰種「寫死腳本」嘅自動化工具,而係一種自愈式(self-healing)嘅「反框架」設計,好似項目團隊講嘅:「你再唔需要親自操作瀏覽器喇。」 今日我哋就結合官方文檔詳細傾下呢個項目。

圖片

一、Browser Harness係乜嘢?

傳統瀏覽器自動化工具(例如Selenium、Playwright)通常需要開發者預先寫好一大堆固定腳本:揾元素、模擬點擊、處理彈窗……一旦網站改版或者遇到意外情況,腳本就死咗,要人手維護。

Browser Harness完全反其道而行,佢直接通過Chrome DevTools Protocol(CDP)建立一個WebSocket,令LLM Agent(例如ClaudeCode、Codex等)直接控制真實瀏覽器。冇中間框架、冇預設菜譜、冇「軌道」限制。

核心亮點有兩個:

  • • 自愈機制:大模型喺執行任務時,如果發現某個輔助函數(例如upload_file())缺失,會自動編輯helpers.py文件,自己寫好函數,保存之後繼續任務。成個過程好似「邊做邊學」。
  • • 領域技能自動生成:針對特定網站(例如GitHub、LinkedIn、Amazon),大模型會自動喺domain-skills/文件夾下生成專屬知識庫,記錄選擇器、API調用、邊緣case等。下次再做類似任務,就唔使由零摸索喇。

項目理念來自「The Bitter Lesson」(苦澀嘅教訓):AI嘅真正價值在於令模型通過計算同交互自我學習,而唔係人類預先堆砌10萬行抽象框架。Browser Harness就係將呢個哲學落地,就係畀模型最大自由,佢自己會修復問題。

項目係MIT協議,完全開源。團隊仲提供免費雲瀏覽器(3個並發,唔需要信用卡),適合唔想喺本地行Chrome嘅用戶。

二、核心原理:極簡到極致

成個項目得幾個核心文件:

  • • run.py(36行):任務運行入口,加載helpers。
  • • helpers.py(195行):工具函數庫,由大模型動態編輯。
  • • admin.py + daemon.py(361行):守護進程 + CDP WebSocket橋接。
  • • install.md 和 SKILL.md:安裝與日常使用指南。

LLM大模型 → helpers.py → daemon → Chrome(真實瀏覽器)。僅此一條鏈路,冇多餘抽象。LLM甚至可以直接調用原始CDP命令,靈活度拉滿。

三、具體使用方法

1. 準備工作(一次設置,終身受益)

  • • 克隆倉庫(建議放喺穩定路徑,例如~/Developer/browser-harness):
    git clone https://github.com/browser-use/browser-harness
    cd browser-harness
    uv tool install -e .
  • • 安裝依賴:uv sync
  • • 本地Chrome設置:確保Chrome已開啟遠程調試(只需要第一次操作)。啟動Chrome之後,如果連接失敗,可以手動打開chrome://inspect/#remote-debugging並勾選「Discover USB devices」或者對應選項(設置會持久保存)。

2. 首次安裝與連接(等LLM代理自己搞掂)

將下面呢段設置提示詞直接複製畀Claude Code或Codex:

Set up https://github.com/browser-use/browser-harness for me.

Read `install.md` first to install and connect this repo to my real browser. Then read `SKILL.md` for normal usage. Always read `helpers.py` because that is where the functions are. When you open a setup or verification tab, activate it so I can see the active browser tab. After it is installed, open this repository in my browser and, if I am logged in to GitHub, ask me whether you should star it for me as a quick demo that the interaction works — only click the star if I say yes. If I am not logged in, just go to browser-use.com.

LLM會自動完成安裝、連接瀏覽器、驗證。如果你係GitHub已登錄狀態,佢仲會問係咪幫你點Star(作為演示效果)。

3. 日常使用

  • • 運行任務:直接用命令行:
    browser-harness <<'PY'
    new_tab("https://example.com")
    wait_for_load()
    print(page_info())
    PY
  • • 遠程瀏覽器(推薦雲端):先設置環境變量BROWSER_USE_API_KEY然後:
    browser-harness <<'PY'
    start_remote_daemon("work")
    new_tab("https://github.com")
    PY
  • • 搜索現有技能:先在domain-skills/文件夾裏面揾下有冇現成嘅技能(例如TikTok上傳、GitHub操作等技能都有示例)。
  • • 遇到問題:LLM會自動睇helpers.py缺乜嘢寫乜嘢。

小貼士

  • • 優先使用screenshot() + 座標點擊(穿透iframe、shadow DOM)。
  • • 驗證動作後用page_info()或截圖確認。
  • • 唔好手動寫技能文件,等LLM自己生成更準確。

四、分析:優點同侷限

優點

  • • 極高靈活性:傳統工具「寫死」流程,呢度係「動態進化」。就算網站改版AI代理都可以自己適應。
  • • 低維護成本:領域技能自動積累,越用越聰明。
  • • 輕量高效:得592行代碼,部署簡單,支援本地+雲端瀏覽器。
  • • 符合AI發展理念:真正將「智能」交畀模型,而唔係人類工程師。

潛在不足

  • • 依賴LLM能力:如果模型上下文管理差或幻覺嚴重,自我編輯可能會出錯,如果失敗就重試。
  • • 安全與私隱:LLM可以編輯本地文件 + 控制瀏覽器,建議本地使用時注意權限;雲端瀏覽器數據喺Browser Use雲上。
  • • 唔適合高穩定生產環境:適合原型驗證、個人自動化、測試;如果需要24/7無人值守嘅批量任務,現時傳統框架可能更穩定,不過未來可能會反轉。

對比Selenium/Playwright:前者係「工程師寫腳本」,後者係「AI自己寫+修腳本」。前者更成熟,後者更智能。

圖片

五、使用建議:邊個適合上手?點樣玩得更好?

  1. 1. 目標人羣
    • ◦ AI開發者、自動化愛好者、產品/運營想快速做Web任務嘅朋友。
    • ◦ 研究Web Agent嘅朋友(完美實驗場)。
    • ◦ 唔想每次網站小改就重寫腳本嘅「懶人」。
  2. 2. 上手建議
    • ◦ 從本地Chrome開始:私隱更好,調試直觀。
    • ◦ 結合強模型:Claude Code目前表現優秀。
    • ◦ 安全第一:唔好讓LLM處理敏感賬號密碼,生產任務要加人工審核。
    • ◦ 進階玩法:多Agent協作(唔同BU_NAME跑唔同子任務)、結合私有API加速、用截圖+座標實現「視覺」操作。
  3. 3. 潛在風險規避:定期備份helpers.pydomain-skills/;監控LLM嘅編輯日誌;雲瀏覽器注意免費額度。

最後:Web自動化嘅新範式

Browser Harness係一次理念升級將瀏覽器從「被腳本操控嘅工具」變成「AI可以自由探索嘅真實環境」。佢證明咗:當我哋畀AI足夠自由,佢真係可以自己學識「揸車」。如果你正在做Web自動化、Agent實驗,或者單純想解放雙手操作瀏覽器,強烈建議去試下,未來呢種「自愈+自學習」嘅模式,好有可能成為主流。

  • • GitHub倉庫: https://github.com/browser-use/browser-harness

最近刷到一款讓人眼前一亮的開源項目:Browser Harness,它只有約592行Python代碼,卻能讓大型語言模型(LLM)像人類一樣直接操作真實的Chrome瀏覽器:在網頁上想點哪裏點哪裏,想上傳文件就上傳,在任務中發現功能缺失時,還能自己編輯代碼添加新函數,繼續執行。

跟以往不同,這不是傳統的Selenium或Playwright那種“寫死腳本”的自動化工具,而是一種自愈式(self-healing)的“反框架”設計,就像項目團隊說的:“你再也不需要親自操作瀏覽器了。” 今天我們就結合官方文檔詳細聊聊這個項目。

圖片

一、Browser Harness是什麼?

傳統瀏覽器自動化工具(如Selenium、Playwright)通常需要開發者提前寫好一堆固定腳本:找元素、模擬點擊、處理彈窗……一旦網站改版或遇到意外情況,腳本就崩了,需要人工維護。

Browser Harness完全反其道而行,它直接通過Chrome DevTools Protocol(CDP)建立一個WebSocket,讓LLM Agent(比如ClaudeCode、Codex等)直接控制真實瀏覽器。沒有中間框架、沒有預設菜譜、沒有“軌道”限制。

核心亮點有兩個:

  • • 自愈機制:大模型在執行任務時,如果發現某個輔助函數(如upload_file())缺失,會自動編輯helpers.py文件,自己寫好函數,保存後繼續任務。整個過程像“邊幹邊學”。
  • • 領域技能自動生成:針對特定網站(如GitHub、LinkedIn、Amazon),大模型會自動在domain-skills/文件夾下生成專屬知識庫,記錄選擇器、API調用、邊緣case等。下次再做類似任務,就不用從零摸索了。

項目理念來自“The Bitter Lesson”(苦澀的教訓):AI的真正價值在於讓模型通過計算和交互自我學習,而不是人類預先堆砌10萬行抽象框架。Browser Harness正是把這個哲學落地,就是給模型最大自由,它自己會修復問題。

項目是MIT協議,完全開源。團隊還提供免費雲瀏覽器(3個併發,無需信用卡),適合不想本地跑Chrome的用戶。

二、核心原理:極簡到極致

整個項目只有幾個核心文件:

  • • run.py(36行):任務運行入口,加載helpers。
  • • helpers.py(195行):工具函數庫,由大模型動態編輯。
  • • admin.py + daemon.py(361行):守護進程 + CDP WebSocket橋接。
  • • install.md 和 SKILL.md:安裝與日常使用指南。

LLM大模型 → helpers.py → daemon → Chrome(真實瀏覽器)。僅此一條鏈路,沒有多餘抽象。LLM甚至可以直接調用原始CDP命令,靈活度拉滿。

三、具體使用方法

1. 準備工作(一次設置,終身受益)

  • • 克隆倉庫(推薦放到穩定路徑,如~/Developer/browser-harness):
    git clone https://github.com/browser-use/browser-harness
    cd browser-harness
    uv tool install -e .
  • • 安裝依賴:uv sync
  • • 本地Chrome設置:確保Chrome已開啓遠程調試(只需第一次操作)。啓動Chrome後,如果連接失敗,可以手動打開chrome://inspect/#remote-debugging並勾選“Discover USB devices”或對應選項(設置會持久保存)。

2. 首次安裝與連接(讓LLM代理自己搞定)

把下面這段設置提示詞直接複製給Claude Code或Codex:

Set up https://github.com/browser-use/browser-harness for me.

Read `install.md` first to install and connect this repo to my real browser. Then read `SKILL.md` for normal usage. Always read `helpers.py` because that is where the functions are. When you open a setup or verification tab, activate it so I can see the active browser tab. After it is installed, open this repository in my browser and, if I am logged in to GitHub, ask me whether you should star it for me as a quick demo that the interaction works — only click the star if I say yes. If I am not logged in, just go to browser-use.com.

LLM會自動完成安裝、連接瀏覽器、驗證。如果你是GitHub已登錄狀態,它還會詢問是否幫你點Star(作為演示效果)。

3. 日常使用

  • • 運行任務:直接用命令行:
    browser-harness <<'PY'
    new_tab("https://example.com")
    wait_for_load()
    print(page_info())
    PY
  • • 遠程瀏覽器(推薦雲端):先設置環境變量BROWSER_USE_API_KEY,然後:
    browser-harness <<'PY'
    start_remote_daemon("work")
    new_tab("https://github.com")
    PY
  • • 搜索現有技能:先在domain-skills/文件夾裏搜搜看有沒有現成的技能(像TikTok上傳、GitHub操作等技能都有示例)。
  • • 遇到問題:LLM會自動看helpers.py,缺什麼寫什麼。

小貼士

  • • 優先用screenshot() + 座標點擊(穿透iframe、shadow DOM)。
  • • 驗證動作後用page_info()或截圖確認。
  • • 別手動寫技能文件,讓LLM自己生成更準。

四、分析:優點與侷限

優點

  • • 極高靈活性:傳統工具“寫死”流程,這裏是“動態進化”。即便網站改版AI代理也可以自己適應。
  • • 低維護成本:領域技能自動積累,越用越聰明。
  • • 輕量高效:只有592行代碼,部署簡單,支持本地+雲端瀏覽器。
  • • 符合AI發展理念:真正把“智能”交給模型,而不是人類工程師。

潛在不足

  • • 依賴LLM能力:如果模型上下文管理差或幻覺嚴重,自我編輯可能出錯,如果失敗就重試。
  • • 安全與隱私:LLM能編輯本地文件 + 控制瀏覽器,建議本地使用時注意權限;雲端瀏覽器數據在Browser Use雲上。
  • • 不適合高穩定生產環境:適合原型驗證、個人自動化、測試;如果需要24/7無人值守的批量任務,目前傳統框架可能更穩,不過未來可能會反轉。

對比Selenium/Playwright:前者是“工程師寫腳本”,後者是“AI自己寫+修腳本”。前者更成熟,後者更智能。

圖片

五、使用建議:誰適合上手?怎麼玩得更好?

  1. 1. 目標人羣
    • ◦ AI開發者、自動化愛好者、產品/運營想快速做Web任務的同學。
    • ◦ 研究Web Agent的朋友(完美實驗場)。
    • ◦ 不想每次網站小改就重寫腳本的“懶人”。
  2. 2. 上手建議
    • ◦ 從本地Chrome開始:隱私更好,調試直觀。
    • ◦ 結合強模型:Claude Code目前表現優秀。
    • ◦ 安全第一:不要讓LLM處理敏感賬號密碼,生產任務要加人工審核。
    • ◦ 進階玩法:多Agent協作(不同BU_NAME跑不同子任務)、結合私有API加速、用截圖+座標實現“視覺”操作。
  3. 3. 潛在風險規避:定期備份helpers.pydomain-skills/;監控LLM的編輯日誌;雲瀏覽器注意免費額度。

最後:Web自動化的新範式

Browser Harness是一次理念升級,把瀏覽器從“被腳本操控的工具”變成“AI可以自由探索的真實環境”。它證明了:當我們給AI足夠自由,它真的能自己學會“開車”。如果你正在做Web自動化、Agent實驗,或者單純想解放雙手操作瀏覽器,強烈建議去試試,未來這種“自愈+自學習”的模式,很可能成為主流。

  • • GitHub倉庫: https://github.com/browser-use/browser-harness