比 Playwright 還強,這個開源反爬神器有點猛...
整理版優先睇
CloakBrowser 改寫 Chromium 源碼,58 處修改令反爬系統以為係真人瀏覽器,reCAPTCHA 分數高達 0.9
呢篇文章係由一位成日寫爬蟲同瀏覽器自動化腳本嘅開發者分享。佢成日比 Cloudflare 驗證同 Google reCAPTCHA 呢啲反爬系統阻礙,覺得好煩。直到佢發現開源項目 CloakBrowser,呢個工具係直接修改 Chromium 嘅 C++ 源代碼,將瀏覽器內部嘅自動化標記寫死做 false,一共改咗 58 處,包括畫布、顯卡、音頻、字體等所有可以比反爬系統偵測嘅指紋點。
除咗靜態指紋,佢哋仲加咗 humanize 開關,模擬人類操作嘅鼠標曲線、鍵盤輸入同頁面滾動節奏,令行為特徵都似返真人。實測數據好誇張:Google reCAPTCHA 分數 0.9,達到人類水平,而原版 Playwright 得 0.1。Cloudflare 挑戰直接通過,主流爬蟲識別 Demo 都正常返回數據。
整體嚟講,CloakBrowser 嘅意義唔止係幫爬蟲開發者,更重要係為 AI Agent 提供一條順暢嘅瀏覽器操作路徑。而家好多 AI 自動化任務都要透過瀏覽器做,但反爬系統會攔住 AI。CloakBrowser 直接喺底層解決呢個問題,令 AI 落地更實際。
- CloakBrowser 修改 Chromium 源碼 58 處,喺 C++ 層將自動化標記寫死做 false,偽裝成正常瀏覽器。
- 提供 humanize 開關,令鼠標移動行曲線、鍵盤輸入有停頓、頁面滾動跟真實節奏,解決行為特徵檢測。
- 實測 Google reCAPTCHA 分數 0.9(人類水平),而原版 Playwright 得 0.1;Cloudflare 驗證直接通過。
- 安裝簡單:一行 pip 或 npm 命令,自動下載約 200MB 改寫版瀏覽器,支援 Linux、macOS、Windows。
- 兼容 browser-use、Crawl4AI、LangChain 等 Agent 框架,令 AI 工具可以無縫接入,解決瀏覽器自動化落地障礙。
CloakBrowser GitHub 專案
開源反爬瀏覽器,修改 Chromium 源碼實現反檢測,支援 Python/JavaScript,相容主流 Agent 框架。
反爬困局同 CloakBrowser 嘅破解之道
搞爬蟲或者瀏覽器自動化嘅朋友,成日比 Cloudflare 驗證同 Google reCAPTCHA 呢啲反爬系統折磨。腳本跑到一半就彈驗證,reCAPTCHA 仲會幫你個瀏覽器打分數,分數低就直接判做機械人。
CloakBrowser 嘅做法好直接:喺 Chromium 源代碼嘅 C++ 層將自動化標記寫成 false,再編譯成二進制。
呢類改動總共有 58 處,包括畫布、顯卡、音頻、字體、屏幕參數、網絡時序等幾乎所有可以被反爬識別嘅指紋點。反爬系統睇到嘅係一個正常瀏覽器,因為佢本身就係一個正常瀏覽器,只係底層數據被改咗。
擬人化操作同實測數據
淨係改靜態指紋唔夠,行為特徵都係反爬嘅重要判定維度。機械人操作鼠標係直線瞬移,人類就有抖動同減速。為咗解決呢個問題,CloakBrowser 提供咗一個 humanize 開關。
開啓 humanize 之後,所有鼠標移動、鍵盤輸入、頁面滾動都會被替換為擬人化版本。
鼠標行曲線帶輕微過沖,鍵盤跟字符輸入並加入思考停頓,滾動都跟加速、勻速、減速嘅真實節奏。到呢一步,所有反爬手段都鋪好曬。
實測 Google reCAPTCHA 分數拿到 0.9,達到人類水平,係經過服務端驗證嘅真實分數。
同樣嘅代碼用原版 Playwright 跑,分數得 0.1,直接判做機械人。另外,Cloudflare 嘅人機驗證挑戰都直接通過,業內主流嘅爬蟲識別 Demo 同樣正常返回數據。
簡單安裝同 Agent 框架兼容
CloakBrowser 嘅安裝非常簡單,Python 環境一行命令就搞掂。JavaScript 環境都支援,可以用 npm 安裝。首次運行會自動下載約 200MB 嘅瀏覽器二進制文件並緩存到本地,之後唔使再管。
# Python
pip install cloakbrowser
# 搭配 Playwright 使用 (JavaScript)
npm install cloakbrowser playwright-core
# 搭配 Puppeteer 使用 (JavaScript)
npm install cloakbrowser puppeteer-core
支援 Linux、macOS、Windows 系統,安裝過程會自動識別下載對應版本。仲兼容 browser-use、Crawl4AI、LangChain 等主流 Agent 框架,仲提供各大 Agent 接入 CloakBrowser 嘅示例代碼,令 Agent 輕鬆具備反檢測能力。
兼容 browser-use、Crawl4AI、LangChain 等主流 Agent 框架,仲有接入示範。
CloakBrowser 對 AI Agent 嘅真正意義
喺我睇嚟,CloakBrowser 嘅意義遠不止「等寫爬蟲嘅人少踩坑」。而家 AI Agent 都爭住落地,而真正可以令佢哋做嘢嘅入口就係瀏覽器。比如等 AI 幫我哋訂機票、自動化測試、爬數據喂模型,每一步都要經過瀏覽器。
但而家絕大多數瀏覽器都會將 AI 當成機械人攔喺門外。
CloakBrowser 嘅出現,正係補上呢塊拼圖,令 AI 自動化嘅落地變得更順暢。可預見,未來仲會有更專為 Agent 打造嘅瀏覽器出現。
做爬蟲或者寫瀏覽器自動化腳本,成日都會俾各種反爬驗證折磨。
腳本跑到一半,就俾 Cloudflare 驗證攔咗喺度。
仲有 Google 嘅 reCAPTCHA,會幫我哋嘅行為打分,爬蟲腳本嘅分數通常比較低,直接俾佢判定做機械人。
直到最近,我發現咗一個有超過 19000 粒 Star 嘅開源項目 CloakBrowser,同樣係 Chromium,但係可以輕鬆通過各種反爬檢測。

先簡單理解下,喺我哋嘅瀏覽器入面有一個內部屬性,當係自動化腳本喺度操作嗰陣,呢個值會變成 true。
各大瀏覽器內置嘅反爬系統,就係根據呢個屬性嚟判斷係咪機械人喺度操作。
CloakBrowser 嘅做法好直接,喺 Chromium 源碼嘅 C++ 層就將呢個值寫成 false,再編譯成二進制。
類似嘅改動總共做咗 58 處,包括畫布、顯卡、音頻、字體、屏幕參數、網絡時序等幾乎所有可以俾反爬識別嘅指紋點。
反爬系統見到嘅係一個正常瀏覽器,因為佢本身就係一個正常瀏覽器,只係底層數據俾人改咗。

唔單止咁,淨係過到瀏覽器指紋都唔夠,行為特徵都係反爬嘅重要判定維度。
簡單講,機械操作滑鼠係直線瞬移,人類操作滑鼠會有抖動同減速。反爬系統都會睇實呢啲細節。
為咗呢個原因,CloakBrowser 提供咗一個 humanize 開關,開咗之後所有滑鼠移動、鍵盤輸入、頁面滾動都會俾替換成擬人化版本。
滑鼠行曲線帶輕微過沖,鍵盤按字符輸入並加入思考停頓,滾動都跟住加速到勻速再到減速嘅真實節奏。

去到呢度就已經鋪好曬所有反爬手段,再嚟睇實測數據,效果好勁。
Google reCAPTCHA 分數攞到 0.9,達到人類水平,係經過伺服器端驗證嘅真實分數。
要知道,同樣嘅代碼用原版 Playwright 行,分數得 0.1,直接俾判做機械人。
除此之外,Cloudflare 嘅人機驗證挑戰都可以直接通過,業內主流嘅爬蟲識別 Demo 同樣可以正常返回數據。
同原版 Playwright 對比,嗰啲反爬最中意嗅探嘅暴露點全部俾抹平曬。

CloakBrowser 嘅安裝都係非常簡單,Python 環境一行命令就搞掂。
pip install cloakbrowser都支援 JavaScript 環境,可以用 npm 進行安裝。
# 搭配 Playwright 使用
npm install cloakbrowser playwright-core
# 搭配 Puppeteer 使用
npm install cloakbrowser puppeteer-core首次運行嗰陣會自動下載大約 200MB 嘅瀏覽器二進制檔案並快取到本地,之後就唔使理佢。
支援 Linux、macOS、Windows 系統,喺安裝過程會自動識別下載對應嘅版本。
仲正嘅係,仲兼容 browser-use、Crawl4AI、LangChain 等主流嘅 Agent 框架。
仲提供各大 Agent 接入 CloakBrowser 嘅示例代碼,輕鬆令我哋嘅 Agent 具備反檢測能力。

寫喺最後
喺我睇嚟,CloakBrowser 嘅意義遠唔止「令寫爬蟲嘅人少啲踩坑」呢啲。
而家 AI Agent 個個都爭住落地,而真正可以令佢做嘢嘅入口,就係瀏覽器。
例如叫 AI 幫我哋訂機票、自動化測試、爬數據餵模型,每一步都要經過瀏覽器。
但係而家絕大部分瀏覽器,都會將 AI 當成機械人攔喺門口。
而 CloakBrowser 嘅出現,正喺度補返呢塊拼圖,令 AI 自動化嘅落地變得更加順暢。
可以預見,未來仲會有更加專門為 Agent 打造嘅瀏覽器出現。
GitHub 項目地址:https://github.com/CloakHQ/CloakBrowser
今日嘅分享到呢度結束,多謝大家抽空閲讀,我哋下期再見,Respect!
搞爬蟲或者寫瀏覽器自動化腳本,總會被各種反爬驗證折磨。
腳本跑到一半,就被 Cloudflare 驗證攔下。
還有谷歌的 reCAPTCHA,會給我們的行為打分,爬蟲腳本的分數通常比較低,直接被判定為機器人。
直到最近,我發現了一個狂攬 19000+ Star 的開源項目 CloakBrowser,同樣是 Chromium,但能輕鬆通過各種反爬檢測。

先簡單理解一下,在我們的瀏覽器裏有個內部屬性,當是自動化腳本在操作時這值會變成 true。
各大瀏覽器內置的反爬系統,也就是根據這個屬性來判斷是否是機器人在操作。
CloakBrowser 的做法很直接,在 Chromium 源代碼的 C++ 層就把這個值寫成了 false,再編譯成二進制。
類似的改動一共做了 58 處,包括畫布、顯卡、音頻、字體、屏幕參數、網絡時序等幾乎所有可被反爬識別的指紋點。
反爬系統看到的是一個正常瀏覽器,因為它本身就是一個正常瀏覽器,只是底層數據被改了。

不僅如此,光過瀏覽器指紋還不夠,行為特徵也是反爬的重要判定維度。
簡單說,機器操作鼠標是直線瞬移,人類操作鼠標會有抖動和減速。反爬系統也會盯着這些細節。
為此,CloakBrowser 提供了一個 humanize 開關,開啓後所有鼠標移動、鍵盤輸入、頁面滾動都會被替換為擬人化版本。
鼠標走曲線帶輕微過沖,鍵盤按字符輸入並加入思考停頓,滾動也遵循加速到勻速再到減速的真實節奏。

到這裏就把所有反爬手段鋪好了,再來看實測數據,效果非常猛。
谷歌 reCAPTCHA 分數拿到 0.9,達到人類水平,是經過服務端驗證的真實分數。
要知道,同樣的代碼用原版 Playwright 跑,分數只有 0.1,直接被判為機器人。
除此之外,Cloudflare 的人機驗證挑戰也能直接通過,業內主流的爬蟲識別 Demo 同樣能正常返回數據。
跟原版 Playwright 對比,那些反爬最愛嗅探的暴露點全部被抹平。

CloakBrowser 的安裝也是非常簡單的,Python 環境一行命令搞定。
pip install cloakbrowser也支持 JavaScript 環境,可用 npm 進行安裝。
# 搭配 Playwright 使用
npm install cloakbrowser playwright-core
# 搭配 Puppeteer 使用
npm install cloakbrowser puppeteer-core首次運行時會自動下載約 200MB 的瀏覽器二進制文件並緩存到本地,之後就不用管了。
支持 Linux、macOS、Windows 系統,在安裝過程會自動識別下載對應的版本。
更香的是,還兼容 browser-use、Crawl4AI、LangChain 等主流的 Agent 框架。
還提供各大 Agent 接入 CloakBrowser 的示例代碼,輕鬆讓我們的 Agent 具備反檢測能力。

寫在最後
在我看來,CloakBrowser 的意義遠不止「讓寫爬蟲的人少踩坑」這些。
現在 AI Agent 都在搶着落地,而真正能讓它幹活的入口,就是瀏覽器。
比如讓 AI 幫我們訂機票、自動化測試、爬數據喂模型,每一步都要經過瀏覽器。
但現在絕大數瀏覽器都,都會把 AI 當成機器人攔在門外。
而 CloakBrowser 的出現,正在補上這塊拼圖,讓 AI 自動化的落地變得更順暢。
可預見,未來還會有更專為 Agent 打造的瀏覽器出現。
GitHub 項目地址:https://github.com/CloakHQ/CloakBrowser
今天的分享到此結束,感謝大家抽空閲讀,我們下期再見,Respect!