Browser Harness：讓AI“自己修代碼”操控Chrome瀏覽器，一款真正“反框架”的開源神器

作者：惡人筆記

日期：2026年4月19日下午11:28

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

Browser Harness 係一款只得592行 Python 嘅開源工具，讓 AI 直接操控 Chrome 瀏覽器，仲可以自動修復同學習新功能

整理版摘要

呢篇文章介紹一個叫做 Browser Harness 嘅開源項目，佢係由 browser-use 團隊開發嘅。作者想解決傳統瀏覽器自動化工具（好似 Selenium、Playwright）需要寫死腳本、網站一改版就爛嘅問題。整體結論係：Browser Harness 通過 Chrome DevTools Protocol 直接同真實瀏覽器溝通，畀 LLM Agent 自由操控，仲有自癒機制，可以自動補齊缺失嘅函數，仲會自動生成特定網站嘅技能知識庫。

項目嘅核心理念嚟自「The Bitter Lesson」：畀 AI 多啲自由，等佢自己學，唔係人類預先寫好一大堆框架。成個項目只有幾個核心文件，加埋唔夠600行 Python，設計極簡。LLM 可以透過 helpers.py 直接調用瀏覽器功能，甚至原始 CDP 命令。

總括嚟講，Browser Harness 代表一種新嘅 Web 自動化典範，特別適合原型驗證、個人自動化同 Agent 研究。雖然有依賴 LLM 能力同安全隱患，但整體方向係將智能交返畀模型，好有可能成為未來主流。

Browser Harness 讓 LLM 直接操控真實 Chrome，唔需要寫死腳本，有自癒機制。
當執行任務時發現缺少輔助函數，LLM 會自動編輯 helpers.py 補上，繼續執行。
針對特定網站會自動生成 domain-skills 知識庫，下次做類似任務更快。
安裝簡單，用一段提示詞就搞掂，支援本地同雲端瀏覽器。
適合 AI 開發者同自動化愛好者，但高穩定生產環境暫時仲係傳統工具穩陣。

值得記低

連結 github.com

Browser Harness GitHub 倉庫

開源項目，讓 AI 直接操控 Chrome 瀏覽器

Prompt github.com

安裝設置提示詞

Set up for me.Read `install.md` first to install and connect this repo to my real browser. Then read `SKILL.md` for normal usage. Always read `helpers.py` because that is where the functions are. When you open a setup or verification tab, activate it so I can see the active browser tab. After it is installed, open this repository in my browser and, if I am logged in to GitHub, ask me whether you should star it for me as a quick demo that the interaction works — only click the star if I say yes. If I am not logged in, just go to browser-use.com.

整理重點

咩係 Browser Harness？

傳統瀏覽器自動化工具好似 Selenium、Playwright 都需要開發者預先寫好一堆腳本，一遇到網站改版就爛。Browser Harness 完全反其道而行，佢直接透過 Chrome DevTools Protocol（CDP）建立 WebSocket，等 LLM Agent 可以直接控制真實瀏覽器，中間冇任何框架限制。

核心亮點係自癒機制，大模型會自動編輯 helpers.py 補齊缺失函數，邊做邊學。

整理重點

核心原理同使用方法

成個項目得幾個核心文件：run.py, helpers.py, admin.py, daemon.py。LLM 可以透過 helpers.py 直接調用瀏覽器功能，甚至用原始 CDP 命令，靈活度極高。

日常使用範例 bash

browser-harness <<'PY'
new_tab("https://example.com")
wait_for_load()
print(page_info())
PY

安裝時只需要將一段設置提示詞貼畀 Claude Code 或 Codex，佢就會自動完成所有嘢。

另外，支援遠端雲端瀏覽器，設定環境變數就可以用。

整理重點

優點同潛在不足

Browser Harness 嘅優點包括極高靈活性、低維護成本、輕量高效，符合 AI 發展理念。但都有不足，例如依賴 LLM 能力，如果模型幻覺嚴重可能出錯；安全隱患方面，LLM 可以編輯本地檔案同控制瀏覽器，建議注意權限；唔適合高穩定生產環境。

傳統工具係工程師寫腳本，呢個係 AI 自己寫加修腳本。

整理重點

邊啲人適合用？點樣玩得更好？

目標用家包括 AI 開發者、自動化愛好者、產品營運。建議從本地 Chrome 開始，結合強模型（如 Claude Code），定期備份 helpers.py 同 domain-skills/，監控 LLM 編輯日誌。

進階玩法可以多 Agent 協作、結合私有 API、用截圖加座標實現視覺操作。

最近留意到一個令人眼前一亮嘅開源項目：Browser Harness佢只有大約592行Python代碼，但就可以令大型語言模型（LLM）好似人類咁直接操作真實嘅Chrome瀏覽器：喺網頁上想點邊度就點邊度，想上傳文件就上傳，喺任務中發現功能缺失嘅時候，仲可以自己編輯代碼添加新函數，繼續執行。

同以往唔同，呢個唔係傳統嘅Selenium或Playwright嗰種「寫死腳本」嘅自動化工具，而係一種自愈式（self-healing）嘅「反框架」設計，好似項目團隊講嘅：「你再唔需要親自操作瀏覽器喇。」 今日我哋就結合官方文檔詳細傾下呢個項目。

一、Browser Harness係乜嘢？

傳統瀏覽器自動化工具（例如Selenium、Playwright）通常需要開發者預先寫好一大堆固定腳本：揾元素、模擬點擊、處理彈窗……一旦網站改版或者遇到意外情況，腳本就死咗，要人手維護。

Browser Harness完全反其道而行，佢直接通過Chrome DevTools Protocol（CDP）建立一個WebSocket，令LLM Agent（例如ClaudeCode、Codex等）直接控制真實瀏覽器。冇中間框架、冇預設菜譜、冇「軌道」限制。

核心亮點有兩個：

• 自愈機制：大模型喺執行任務時，如果發現某個輔助函數（例如upload_file()）缺失，會自動編輯helpers.py文件，自己寫好函數，保存之後繼續任務。成個過程好似「邊做邊學」。
• 領域技能自動生成：針對特定網站（例如GitHub、LinkedIn、Amazon），大模型會自動喺domain-skills/文件夾下生成專屬知識庫，記錄選擇器、API調用、邊緣case等。下次再做類似任務，就唔使由零摸索喇。

項目理念來自「The Bitter Lesson」（苦澀嘅教訓）：AI嘅真正價值在於令模型通過計算同交互自我學習，而唔係人類預先堆砌10萬行抽象框架。Browser Harness就係將呢個哲學落地，就係畀模型最大自由，佢自己會修復問題。

項目係MIT協議，完全開源。團隊仲提供免費雲瀏覽器（3個並發，唔需要信用卡），適合唔想喺本地行Chrome嘅用戶。

二、核心原理：極簡到極致

成個項目得幾個核心文件：

• run.py（36行）：任務運行入口，加載helpers。
• helpers.py（195行）：工具函數庫，由大模型動態編輯。
• admin.py + daemon.py（361行）：守護進程 + CDP WebSocket橋接。
• install.md 和 SKILL.md：安裝與日常使用指南。

LLM大模型 → helpers.py → daemon → Chrome（真實瀏覽器）。僅此一條鏈路，冇多餘抽象。LLM甚至可以直接調用原始CDP命令，靈活度拉滿。

三、具體使用方法

1. 準備工作（一次設置，終身受益）

• 克隆倉庫（建議放喺穩定路徑，例如~/Developer/browser-harness）：

git clone https://github.com/browser-use/browser-harness
cd browser-harness
uv tool install -e .

• 安裝依賴：uv sync
• 本地Chrome設置：確保Chrome已開啟遠程調試（只需要第一次操作）。啟動Chrome之後，如果連接失敗，可以手動打開chrome://inspect/#remote-debugging並勾選「Discover USB devices」或者對應選項（設置會持久保存）。

2. 首次安裝與連接（等LLM代理自己搞掂）

將下面呢段設置提示詞直接複製畀Claude Code或Codex：

Set up https://github.com/browser-use/browser-harness for me.

Read `install.md` first to install and connect this repo to my real browser. Then read `SKILL.md` for normal usage. Always read `helpers.py` because that is where the functions are. When you open a setup or verification tab, activate it so I can see the active browser tab. After it is installed, open this repository in my browser and, if I am logged in to GitHub, ask me whether you should star it for me as a quick demo that the interaction works — only click the star if I say yes. If I am not logged in, just go to browser-use.com.

LLM會自動完成安裝、連接瀏覽器、驗證。如果你係GitHub已登錄狀態，佢仲會問係咪幫你點Star（作為演示效果）。

3. 日常使用

• 運行任務：直接用命令行：

browser-harness <<'PY'
new_tab("https://example.com")
wait_for_load()
print(page_info())
PY

• 遠程瀏覽器（推薦雲端）：先設置環境變量BROWSER_USE_API_KEY然後：
```
browser-harness <<'PY'
start_remote_daemon("work")
new_tab("https://github.com")
PY
```
• 搜索現有技能：先在domain-skills/文件夾裏面揾下有冇現成嘅技能（例如TikTok上傳、GitHub操作等技能都有示例）。
• 遇到問題：LLM會自動睇helpers.py缺乜嘢寫乜嘢。

小貼士：

• 優先使用screenshot() + 座標點擊（穿透iframe、shadow DOM）。
• 驗證動作後用page_info()或截圖確認。
• 唔好手動寫技能文件，等LLM自己生成更準確。

四、分析：優點同侷限

優點：

• 極高靈活性：傳統工具「寫死」流程，呢度係「動態進化」。就算網站改版AI代理都可以自己適應。
• 低維護成本：領域技能自動積累，越用越聰明。
• 輕量高效：得592行代碼，部署簡單，支援本地+雲端瀏覽器。
• 符合AI發展理念：真正將「智能」交畀模型，而唔係人類工程師。

潛在不足：

• 依賴LLM能力：如果模型上下文管理差或幻覺嚴重，自我編輯可能會出錯，如果失敗就重試。
• 安全與私隱：LLM可以編輯本地文件 + 控制瀏覽器，建議本地使用時注意權限；雲端瀏覽器數據喺Browser Use雲上。
• 唔適合高穩定生產環境：適合原型驗證、個人自動化、測試；如果需要24/7無人值守嘅批量任務，現時傳統框架可能更穩定，不過未來可能會反轉。

對比Selenium/Playwright：前者係「工程師寫腳本」，後者係「AI自己寫+修腳本」。前者更成熟，後者更智能。

五、使用建議：邊個適合上手？點樣玩得更好？

1. 目標人羣：

◦ AI開發者、自動化愛好者、產品/運營想快速做Web任務嘅朋友。
◦ 研究Web Agent嘅朋友（完美實驗場）。
◦ 唔想每次網站小改就重寫腳本嘅「懶人」。

2. 上手建議：

◦ 從本地Chrome開始：私隱更好，調試直觀。
◦ 結合強模型：Claude Code目前表現優秀。
◦ 安全第一：唔好讓LLM處理敏感賬號密碼，生產任務要加人工審核。
◦ 進階玩法：多Agent協作（唔同BU_NAME跑唔同子任務）、結合私有API加速、用截圖+座標實現「視覺」操作。

3. 潛在風險規避：定期備份helpers.py和domain-skills/；監控LLM嘅編輯日誌；雲瀏覽器注意免費額度。

最後：Web自動化嘅新範式

Browser Harness係一次理念升級將瀏覽器從「被腳本操控嘅工具」變成「AI可以自由探索嘅真實環境」。佢證明咗：當我哋畀AI足夠自由，佢真係可以自己學識「揸車」。如果你正在做Web自動化、Agent實驗，或者單純想解放雙手操作瀏覽器，強烈建議去試下，未來呢種「自愈+自學習」嘅模式，好有可能成為主流。

• GitHub倉庫： https://github.com/browser-use/browser-harness

最近刷到一款讓人眼前一亮的開源項目：Browser Harness，它只有約592行Python代碼，卻能讓大型語言模型（LLM）像人類一樣直接操作真實的Chrome瀏覽器：在網頁上想點哪裏點哪裏，想上傳文件就上傳，在任務中發現功能缺失時，還能自己編輯代碼添加新函數，繼續執行。

跟以往不同，這不是傳統的Selenium或Playwright那種“寫死腳本”的自動化工具，而是一種自愈式（self-healing）的“反框架”設計，就像項目團隊說的：“你再也不需要親自操作瀏覽器了。” 今天我們就結合官方文檔詳細聊聊這個項目。

一、Browser Harness是什麼？

傳統瀏覽器自動化工具（如Selenium、Playwright）通常需要開發者提前寫好一堆固定腳本：找元素、模擬點擊、處理彈窗……一旦網站改版或遇到意外情況，腳本就崩了，需要人工維護。

Browser Harness完全反其道而行，它直接通過Chrome DevTools Protocol（CDP）建立一個WebSocket，讓LLM Agent（比如ClaudeCode、Codex等）直接控制真實瀏覽器。沒有中間框架、沒有預設菜譜、沒有“軌道”限制。

核心亮點有兩個：

• 自愈機制：大模型在執行任務時，如果發現某個輔助函數（如upload_file()）缺失，會自動編輯helpers.py文件，自己寫好函數，保存後繼續任務。整個過程像“邊幹邊學”。
• 領域技能自動生成：針對特定網站（如GitHub、LinkedIn、Amazon），大模型會自動在domain-skills/文件夾下生成專屬知識庫，記錄選擇器、API調用、邊緣case等。下次再做類似任務，就不用從零摸索了。

項目理念來自“The Bitter Lesson”（苦澀的教訓）：AI的真正價值在於讓模型通過計算和交互自我學習，而不是人類預先堆砌10萬行抽象框架。Browser Harness正是把這個哲學落地，就是給模型最大自由，它自己會修復問題。

項目是MIT協議，完全開源。團隊還提供免費雲瀏覽器（3個併發，無需信用卡），適合不想本地跑Chrome的用戶。

二、核心原理：極簡到極致

整個項目只有幾個核心文件：

• run.py（36行）：任務運行入口，加載helpers。
• helpers.py（195行）：工具函數庫，由大模型動態編輯。
• admin.py + daemon.py（361行）：守護進程 + CDP WebSocket橋接。
• install.md 和 SKILL.md：安裝與日常使用指南。

LLM大模型 → helpers.py → daemon → Chrome（真實瀏覽器）。僅此一條鏈路，沒有多餘抽象。LLM甚至可以直接調用原始CDP命令，靈活度拉滿。

三、具體使用方法

1. 準備工作（一次設置，終身受益）

• 克隆倉庫（推薦放到穩定路徑，如~/Developer/browser-harness）：

git clone https://github.com/browser-use/browser-harness
cd browser-harness
uv tool install -e .

• 安裝依賴：uv sync
• 本地Chrome設置：確保Chrome已開啓遠程調試（只需第一次操作）。啓動Chrome後，如果連接失敗，可以手動打開chrome://inspect/#remote-debugging並勾選“Discover USB devices”或對應選項（設置會持久保存）。

2. 首次安裝與連接（讓LLM代理自己搞定）

把下面這段設置提示詞直接複製給Claude Code或Codex：

Set up https://github.com/browser-use/browser-harness for me.

Read `install.md` first to install and connect this repo to my real browser. Then read `SKILL.md` for normal usage. Always read `helpers.py` because that is where the functions are. When you open a setup or verification tab, activate it so I can see the active browser tab. After it is installed, open this repository in my browser and, if I am logged in to GitHub, ask me whether you should star it for me as a quick demo that the interaction works — only click the star if I say yes. If I am not logged in, just go to browser-use.com.

LLM會自動完成安裝、連接瀏覽器、驗證。如果你是GitHub已登錄狀態，它還會詢問是否幫你點Star（作為演示效果）。

3. 日常使用

• 運行任務：直接用命令行：

browser-harness <<'PY'
new_tab("https://example.com")
wait_for_load()
print(page_info())
PY

• 遠程瀏覽器（推薦雲端）：先設置環境變量BROWSER_USE_API_KEY，然後：
```
browser-harness <<'PY'
start_remote_daemon("work")
new_tab("https://github.com")
PY
```
• 搜索現有技能：先在domain-skills/文件夾裏搜搜看有沒有現成的技能（像TikTok上傳、GitHub操作等技能都有示例）。
• 遇到問題：LLM會自動看helpers.py，缺什麼寫什麼。

小貼士：

• 優先用screenshot() + 座標點擊（穿透iframe、shadow DOM）。
• 驗證動作後用page_info()或截圖確認。
• 別手動寫技能文件，讓LLM自己生成更準。

四、分析：優點與侷限

優點：

• 極高靈活性：傳統工具“寫死”流程，這裏是“動態進化”。即便網站改版AI代理也可以自己適應。
• 低維護成本：領域技能自動積累，越用越聰明。
• 輕量高效：只有592行代碼，部署簡單，支持本地+雲端瀏覽器。
• 符合AI發展理念：真正把“智能”交給模型，而不是人類工程師。

潛在不足：

• 依賴LLM能力：如果模型上下文管理差或幻覺嚴重，自我編輯可能出錯，如果失敗就重試。
• 安全與隱私：LLM能編輯本地文件 + 控制瀏覽器，建議本地使用時注意權限；雲端瀏覽器數據在Browser Use雲上。
• 不適合高穩定生產環境：適合原型驗證、個人自動化、測試；如果需要24/7無人值守的批量任務，目前傳統框架可能更穩，不過未來可能會反轉。

對比Selenium/Playwright：前者是“工程師寫腳本”，後者是“AI自己寫+修腳本”。前者更成熟，後者更智能。

五、使用建議：誰適合上手？怎麼玩得更好？

1. 目標人羣：

◦ AI開發者、自動化愛好者、產品/運營想快速做Web任務的同學。
◦ 研究Web Agent的朋友（完美實驗場）。
◦ 不想每次網站小改就重寫腳本的“懶人”。

2. 上手建議：

◦ 從本地Chrome開始：隱私更好，調試直觀。
◦ 結合強模型：Claude Code目前表現優秀。
◦ 安全第一：不要讓LLM處理敏感賬號密碼，生產任務要加人工審核。
◦ 進階玩法：多Agent協作（不同BU_NAME跑不同子任務）、結合私有API加速、用截圖+座標實現“視覺”操作。

3. 潛在風險規避：定期備份helpers.py和domain-skills/；監控LLM的編輯日誌；雲瀏覽器注意免費額度。

最後：Web自動化的新範式

Browser Harness是一次理念升級，把瀏覽器從“被腳本操控的工具”變成“AI可以自由探索的真實環境”。它證明了：當我們給AI足夠自由，它真的能自己學會“開車”。如果你正在做Web自動化、Agent實驗，或者單純想解放雙手操作瀏覽器，強烈建議去試試，未來這種“自愈+自學習”的模式，很可能成為主流。

• GitHub倉庫： https://github.com/browser-use/browser-harness