Browser Harness:讓AI“自己修代碼”操控Chrome瀏覽器,一款真正“反框架”的開源神器
整理版優先睇
Browser Harness 係一款只得592行 Python 嘅開源工具,讓 AI 直接操控 Chrome 瀏覽器,仲可以自動修復同學習新功能
呢篇文章介紹一個叫做 Browser Harness 嘅開源項目,佢係由 browser-use 團隊開發嘅。作者想解決傳統瀏覽器自動化工具(好似 Selenium、Playwright)需要寫死腳本、網站一改版就爛嘅問題。整體結論係:Browser Harness 通過 Chrome DevTools Protocol 直接同真實瀏覽器溝通,畀 LLM Agent 自由操控,仲有自癒機制,可以自動補齊缺失嘅函數,仲會自動生成特定網站嘅技能知識庫。
項目嘅核心理念嚟自「The Bitter Lesson」:畀 AI 多啲自由,等佢自己學,唔係人類預先寫好一大堆框架。成個項目只有幾個核心文件,加埋唔夠600行 Python,設計極簡。LLM 可以透過 helpers.py 直接調用瀏覽器功能,甚至原始 CDP 命令。
總括嚟講,Browser Harness 代表一種新嘅 Web 自動化典範,特別適合原型驗證、個人自動化同 Agent 研究。雖然有依賴 LLM 能力同安全隱患,但整體方向係將智能交返畀模型,好有可能成為未來主流。
- Browser Harness 讓 LLM 直接操控真實 Chrome,唔需要寫死腳本,有自癒機制。
- 當執行任務時發現缺少輔助函數,LLM 會自動編輯 helpers.py 補上,繼續執行。
- 針對特定網站會自動生成 domain-skills 知識庫,下次做類似任務更快。
- 安裝簡單,用一段提示詞就搞掂,支援本地同雲端瀏覽器。
- 適合 AI 開發者同自動化愛好者,但高穩定生產環境暫時仲係傳統工具穩陣。
Browser Harness GitHub 倉庫
開源項目,讓 AI 直接操控 Chrome 瀏覽器
安裝設置提示詞
Set up for me.Read `install.md` first to install and connect this repo to my real browser. Then read `SKILL.md` for normal usage. Always read `helpers.py` because that is where the functions are. When you open a setup or verification tab, activate it so I can see the active browser tab. After it is installed, open this repository in my browser and, if I am logged in to GitHub, ask me whether you should star it for me as a quick demo that the interaction works — only click the star if I say yes. If I am not logged in, just go to browser-use.com.
咩係 Browser Harness?
傳統瀏覽器自動化工具好似 Selenium、Playwright 都需要開發者預先寫好一堆腳本,一遇到網站改版就爛。Browser Harness 完全反其道而行,佢直接透過 Chrome DevTools Protocol(CDP)建立 WebSocket,等 LLM Agent 可以直接控制真實瀏覽器,中間冇任何框架限制。
核心亮點係自癒機制,大模型會自動編輯 helpers.py 補齊缺失函數,邊做邊學。
核心原理同使用方法
成個項目得幾個核心文件:run.py, helpers.py, admin.py, daemon.py。LLM 可以透過 helpers.py 直接調用瀏覽器功能,甚至用原始 CDP 命令,靈活度極高。
browser-harness <<'PY'
new_tab("https://example.com")
wait_for_load()
print(page_info())
PY
安裝時只需要將一段設置提示詞貼畀 Claude Code 或 Codex,佢就會自動完成所有嘢。
另外,支援遠端雲端瀏覽器,設定環境變數就可以用。
優點同潛在不足
Browser Harness 嘅優點包括極高靈活性、低維護成本、輕量高效,符合 AI 發展理念。但都有不足,例如依賴 LLM 能力,如果模型幻覺嚴重可能出錯;安全隱患方面,LLM 可以編輯本地檔案同控制瀏覽器,建議注意權限;唔適合高穩定生產環境。
傳統工具係工程師寫腳本,呢個係 AI 自己寫加修腳本。
邊啲人適合用?點樣玩得更好?
目標用家包括 AI 開發者、自動化愛好者、產品營運。建議從本地 Chrome 開始,結合強模型(如 Claude Code),定期備份 helpers.py 同 domain-skills/,監控 LLM 編輯日誌。
進階玩法可以多 Agent 協作、結合私有 API、用截圖加座標實現視覺操作。
最近留意到一個令人眼前一亮嘅開源項目:Browser Harness佢只有大約592行Python代碼,但就可以令大型語言模型(LLM)好似人類咁直接操作真實嘅Chrome瀏覽器:喺網頁上想點邊度就點邊度,想上傳文件就上傳,喺任務中發現功能缺失嘅時候,仲可以自己編輯代碼添加新函數,繼續執行。
同以往唔同,呢個唔係傳統嘅Selenium或Playwright嗰種「寫死腳本」嘅自動化工具,而係一種自愈式(self-healing)嘅「反框架」設計,好似項目團隊講嘅:「你再唔需要親自操作瀏覽器喇。」 今日我哋就結合官方文檔詳細傾下呢個項目。

一、Browser Harness係乜嘢?
傳統瀏覽器自動化工具(例如Selenium、Playwright)通常需要開發者預先寫好一大堆固定腳本:揾元素、模擬點擊、處理彈窗……一旦網站改版或者遇到意外情況,腳本就死咗,要人手維護。
Browser Harness完全反其道而行,佢直接通過Chrome DevTools Protocol(CDP)建立一個WebSocket,令LLM Agent(例如ClaudeCode、Codex等)直接控制真實瀏覽器。冇中間框架、冇預設菜譜、冇「軌道」限制。
核心亮點有兩個:
• 自愈機制:大模型喺執行任務時,如果發現某個輔助函數(例如 upload_file())缺失,會自動編輯helpers.py文件,自己寫好函數,保存之後繼續任務。成個過程好似「邊做邊學」。• 領域技能自動生成:針對特定網站(例如GitHub、LinkedIn、Amazon),大模型會自動喺 domain-skills/文件夾下生成專屬知識庫,記錄選擇器、API調用、邊緣case等。下次再做類似任務,就唔使由零摸索喇。
項目理念來自「The Bitter Lesson」(苦澀嘅教訓):AI嘅真正價值在於令模型通過計算同交互自我學習,而唔係人類預先堆砌10萬行抽象框架。Browser Harness就係將呢個哲學落地,就係畀模型最大自由,佢自己會修復問題。
項目係MIT協議,完全開源。團隊仲提供免費雲瀏覽器(3個並發,唔需要信用卡),適合唔想喺本地行Chrome嘅用戶。
二、核心原理:極簡到極致
成個項目得幾個核心文件:
• run.py(36行):任務運行入口,加載helpers。• helpers.py(195行):工具函數庫,由大模型動態編輯。• admin.py + daemon.py(361行):守護進程 + CDP WebSocket橋接。• install.md和SKILL.md:安裝與日常使用指南。
LLM大模型 → helpers.py → daemon → Chrome(真實瀏覽器)。僅此一條鏈路,冇多餘抽象。LLM甚至可以直接調用原始CDP命令,靈活度拉滿。
三、具體使用方法
1. 準備工作(一次設置,終身受益)
• 克隆倉庫(建議放喺穩定路徑,例如 ~/Developer/browser-harness):git clone https://github.com/browser-use/browser-harness
cd browser-harness
uv tool install -e .• 安裝依賴: uv sync• 本地Chrome設置:確保Chrome已開啟遠程調試(只需要第一次操作)。啟動Chrome之後,如果連接失敗,可以手動打開 chrome://inspect/#remote-debugging並勾選「Discover USB devices」或者對應選項(設置會持久保存)。
2. 首次安裝與連接(等LLM代理自己搞掂)
將下面呢段設置提示詞直接複製畀Claude Code或Codex:
Set up https://github.com/browser-use/browser-harness for me.
Read `install.md` first to install and connect this repo to my real browser. Then read `SKILL.md` for normal usage. Always read `helpers.py` because that is where the functions are. When you open a setup or verification tab, activate it so I can see the active browser tab. After it is installed, open this repository in my browser and, if I am logged in to GitHub, ask me whether you should star it for me as a quick demo that the interaction works — only click the star if I say yes. If I am not logged in, just go to browser-use.com.
LLM會自動完成安裝、連接瀏覽器、驗證。如果你係GitHub已登錄狀態,佢仲會問係咪幫你點Star(作為演示效果)。
3. 日常使用
• 運行任務:直接用命令行: browser-harness <<'PY'
new_tab("https://example.com")
wait_for_load()
print(page_info())
PY• 遠程瀏覽器(推薦雲端):先設置環境變量 BROWSER_USE_API_KEY然後:browser-harness <<'PY'
start_remote_daemon("work")
new_tab("https://github.com")
PY• 搜索現有技能:先在 domain-skills/文件夾裏面揾下有冇現成嘅技能(例如TikTok上傳、GitHub操作等技能都有示例)。• 遇到問題:LLM會自動睇 helpers.py缺乜嘢寫乜嘢。
小貼士:
• 優先使用 screenshot()+ 座標點擊(穿透iframe、shadow DOM)。• 驗證動作後用 page_info()或截圖確認。• 唔好手動寫技能文件,等LLM自己生成更準確。
四、分析:優點同侷限
優點:
• 極高靈活性:傳統工具「寫死」流程,呢度係「動態進化」。就算網站改版AI代理都可以自己適應。 • 低維護成本:領域技能自動積累,越用越聰明。 • 輕量高效:得592行代碼,部署簡單,支援本地+雲端瀏覽器。 • 符合AI發展理念:真正將「智能」交畀模型,而唔係人類工程師。
潛在不足:
• 依賴LLM能力:如果模型上下文管理差或幻覺嚴重,自我編輯可能會出錯,如果失敗就重試。 • 安全與私隱:LLM可以編輯本地文件 + 控制瀏覽器,建議本地使用時注意權限;雲端瀏覽器數據喺Browser Use雲上。 • 唔適合高穩定生產環境:適合原型驗證、個人自動化、測試;如果需要24/7無人值守嘅批量任務,現時傳統框架可能更穩定,不過未來可能會反轉。
對比Selenium/Playwright:前者係「工程師寫腳本」,後者係「AI自己寫+修腳本」。前者更成熟,後者更智能。

五、使用建議:邊個適合上手?點樣玩得更好?
1. 目標人羣: ◦ AI開發者、自動化愛好者、產品/運營想快速做Web任務嘅朋友。 ◦ 研究Web Agent嘅朋友(完美實驗場)。 ◦ 唔想每次網站小改就重寫腳本嘅「懶人」。 2. 上手建議: ◦ 從本地Chrome開始:私隱更好,調試直觀。 ◦ 結合強模型:Claude Code目前表現優秀。 ◦ 安全第一:唔好讓LLM處理敏感賬號密碼,生產任務要加人工審核。 ◦ 進階玩法:多Agent協作(唔同 BU_NAME跑唔同子任務)、結合私有API加速、用截圖+座標實現「視覺」操作。3. 潛在風險規避:定期備份 helpers.py和domain-skills/;監控LLM嘅編輯日誌;雲瀏覽器注意免費額度。
最後:Web自動化嘅新範式
Browser Harness係一次理念升級將瀏覽器從「被腳本操控嘅工具」變成「AI可以自由探索嘅真實環境」。佢證明咗:當我哋畀AI足夠自由,佢真係可以自己學識「揸車」。如果你正在做Web自動化、Agent實驗,或者單純想解放雙手操作瀏覽器,強烈建議去試下,未來呢種「自愈+自學習」嘅模式,好有可能成為主流。
• GitHub倉庫: https://github.com/browser-use/browser-harness
最近刷到一款讓人眼前一亮的開源項目:Browser Harness,它只有約592行Python代碼,卻能讓大型語言模型(LLM)像人類一樣直接操作真實的Chrome瀏覽器:在網頁上想點哪裏點哪裏,想上傳文件就上傳,在任務中發現功能缺失時,還能自己編輯代碼添加新函數,繼續執行。
跟以往不同,這不是傳統的Selenium或Playwright那種“寫死腳本”的自動化工具,而是一種自愈式(self-healing)的“反框架”設計,就像項目團隊說的:“你再也不需要親自操作瀏覽器了。” 今天我們就結合官方文檔詳細聊聊這個項目。

一、Browser Harness是什麼?
傳統瀏覽器自動化工具(如Selenium、Playwright)通常需要開發者提前寫好一堆固定腳本:找元素、模擬點擊、處理彈窗……一旦網站改版或遇到意外情況,腳本就崩了,需要人工維護。
Browser Harness完全反其道而行,它直接通過Chrome DevTools Protocol(CDP)建立一個WebSocket,讓LLM Agent(比如ClaudeCode、Codex等)直接控制真實瀏覽器。沒有中間框架、沒有預設菜譜、沒有“軌道”限制。
核心亮點有兩個:
• 自愈機制:大模型在執行任務時,如果發現某個輔助函數(如 upload_file())缺失,會自動編輯helpers.py文件,自己寫好函數,保存後繼續任務。整個過程像“邊幹邊學”。• 領域技能自動生成:針對特定網站(如GitHub、LinkedIn、Amazon),大模型會自動在 domain-skills/文件夾下生成專屬知識庫,記錄選擇器、API調用、邊緣case等。下次再做類似任務,就不用從零摸索了。
項目理念來自“The Bitter Lesson”(苦澀的教訓):AI的真正價值在於讓模型通過計算和交互自我學習,而不是人類預先堆砌10萬行抽象框架。Browser Harness正是把這個哲學落地,就是給模型最大自由,它自己會修復問題。
項目是MIT協議,完全開源。團隊還提供免費雲瀏覽器(3個併發,無需信用卡),適合不想本地跑Chrome的用戶。
二、核心原理:極簡到極致
整個項目只有幾個核心文件:
• run.py(36行):任務運行入口,加載helpers。• helpers.py(195行):工具函數庫,由大模型動態編輯。• admin.py + daemon.py(361行):守護進程 + CDP WebSocket橋接。• install.md和SKILL.md:安裝與日常使用指南。
LLM大模型 → helpers.py → daemon → Chrome(真實瀏覽器)。僅此一條鏈路,沒有多餘抽象。LLM甚至可以直接調用原始CDP命令,靈活度拉滿。
三、具體使用方法
1. 準備工作(一次設置,終身受益)
• 克隆倉庫(推薦放到穩定路徑,如 ~/Developer/browser-harness):git clone https://github.com/browser-use/browser-harness
cd browser-harness
uv tool install -e .• 安裝依賴: uv sync• 本地Chrome設置:確保Chrome已開啓遠程調試(只需第一次操作)。啓動Chrome後,如果連接失敗,可以手動打開 chrome://inspect/#remote-debugging並勾選“Discover USB devices”或對應選項(設置會持久保存)。
2. 首次安裝與連接(讓LLM代理自己搞定)
把下面這段設置提示詞直接複製給Claude Code或Codex:
Set up https://github.com/browser-use/browser-harness for me.
Read `install.md` first to install and connect this repo to my real browser. Then read `SKILL.md` for normal usage. Always read `helpers.py` because that is where the functions are. When you open a setup or verification tab, activate it so I can see the active browser tab. After it is installed, open this repository in my browser and, if I am logged in to GitHub, ask me whether you should star it for me as a quick demo that the interaction works — only click the star if I say yes. If I am not logged in, just go to browser-use.com.
LLM會自動完成安裝、連接瀏覽器、驗證。如果你是GitHub已登錄狀態,它還會詢問是否幫你點Star(作為演示效果)。
3. 日常使用
• 運行任務:直接用命令行: browser-harness <<'PY'
new_tab("https://example.com")
wait_for_load()
print(page_info())
PY• 遠程瀏覽器(推薦雲端):先設置環境變量 BROWSER_USE_API_KEY,然後:browser-harness <<'PY'
start_remote_daemon("work")
new_tab("https://github.com")
PY• 搜索現有技能:先在 domain-skills/文件夾裏搜搜看有沒有現成的技能(像TikTok上傳、GitHub操作等技能都有示例)。• 遇到問題:LLM會自動看 helpers.py,缺什麼寫什麼。
小貼士:
• 優先用 screenshot()+ 座標點擊(穿透iframe、shadow DOM)。• 驗證動作後用 page_info()或截圖確認。• 別手動寫技能文件,讓LLM自己生成更準。
四、分析:優點與侷限
優點:
• 極高靈活性:傳統工具“寫死”流程,這裏是“動態進化”。即便網站改版AI代理也可以自己適應。 • 低維護成本:領域技能自動積累,越用越聰明。 • 輕量高效:只有592行代碼,部署簡單,支持本地+雲端瀏覽器。 • 符合AI發展理念:真正把“智能”交給模型,而不是人類工程師。
潛在不足:
• 依賴LLM能力:如果模型上下文管理差或幻覺嚴重,自我編輯可能出錯,如果失敗就重試。 • 安全與隱私:LLM能編輯本地文件 + 控制瀏覽器,建議本地使用時注意權限;雲端瀏覽器數據在Browser Use雲上。 • 不適合高穩定生產環境:適合原型驗證、個人自動化、測試;如果需要24/7無人值守的批量任務,目前傳統框架可能更穩,不過未來可能會反轉。
對比Selenium/Playwright:前者是“工程師寫腳本”,後者是“AI自己寫+修腳本”。前者更成熟,後者更智能。

五、使用建議:誰適合上手?怎麼玩得更好?
1. 目標人羣: ◦ AI開發者、自動化愛好者、產品/運營想快速做Web任務的同學。 ◦ 研究Web Agent的朋友(完美實驗場)。 ◦ 不想每次網站小改就重寫腳本的“懶人”。 2. 上手建議: ◦ 從本地Chrome開始:隱私更好,調試直觀。 ◦ 結合強模型:Claude Code目前表現優秀。 ◦ 安全第一:不要讓LLM處理敏感賬號密碼,生產任務要加人工審核。 ◦ 進階玩法:多Agent協作(不同 BU_NAME跑不同子任務)、結合私有API加速、用截圖+座標實現“視覺”操作。3. 潛在風險規避:定期備份 helpers.py和domain-skills/;監控LLM的編輯日誌;雲瀏覽器注意免費額度。
最後:Web自動化的新範式
Browser Harness是一次理念升級,把瀏覽器從“被腳本操控的工具”變成“AI可以自由探索的真實環境”。它證明了:當我們給AI足夠自由,它真的能自己學會“開車”。如果你正在做Web自動化、Agent實驗,或者單純想解放雙手操作瀏覽器,強烈建議去試試,未來這種“自愈+自學習”的模式,很可能成為主流。
• GitHub倉庫: https://github.com/browser-use/browser-harness