試了 4 款爬蟲工具,這是我掏心窩子的使用體驗

作者:Nick運營補給站
日期:2026年3月24日 下午10:00
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

試咗4款爬蟲工具,分享掏心窩使用體驗:揀工具先要認清自己場景

整理版摘要

呢篇文章嘅作者係一位做AI Agent嘅開發者,佢發現數據採集係整個流程中最令人頭痛嘅環節。為咗幫自己同其他人省返試錯嘅時間,佢試咗市面上四款主流爬蟲工具,包括有45K stars嘅MediaCrawler,同埋其他相對冷門嘅工具。佢嘅整體結論係:冇「最好」嘅爬蟲,只有「最適合你場景」嘅工具;揀工具之前一定要先搞清楚自己需要乜嘢數據、穩定同成本嘅優先次序。

作者逐一分享咗四款工具嘅使用體驗。MediaCrawler係國內社交媒體抓取嘅標杆,社區活躍更新快,但只專注國內平台,TwitterReddit等覆蓋唔到。Agent-Reach標榜零成本多平台,一條命令就可以開始抓取,不過穩定性成疑,依賴反向工程,平台一更新可能就失效。jina-cli極簡高效,專注將網頁轉成LLM友好嘅Markdown格式,可惜受登錄牆限制,批量採集能力弱。x-tweet-fetcher係專為Twitter打造嘅工具,內置AI分析功能,可以自動篩選同摘要,適合做持續監控。

最後,作者提供咗一個場景對照表,對應唔同需求推薦工具,並強調工具只係手段,要根據實際需要去揀,而唔好盲目追GitHub stars。佢仲附上咗各工具嘅GitHub連結,方便讀者進一步瞭解。

  • MediaCrawler係國內社交媒體抓取標杆,社區活躍更新快,但只限國內平台
  • Agent-Reach零成本多平台,但穩定性不足,適合個人項目試水
  • jina-cli極簡網頁解析,LLM友好,但受登錄牆限制,批量能力弱
  • x-tweet-fetcher專注Twitter,內置AI分析,適合輿情監控同AI早報
  • 冇最好工具,只有最適合場景;先明確需求再揀,唔好盲追stars數
值得記低
連結 github.com

MediaCrawler

國內社交媒體抓取工具,支援小紅書、抖音、B站等

連結 github.com

Agent-Reach

零成本多平台爬蟲,支援Twitter、Reddit、YouTube等

連結 github.com

jina-cli

極簡網頁解析工具,輸出Markdown格式

連結 github.com

x-tweet-fetcher

Twitter專業爬蟲,內置LLM分析功能

整理重點

MediaCrawler:國內社交平台嘅不二之選

國內社交媒體抓取的標杆

如果你要做國內平台嘅內容採集,呢個幾乎係唯一選擇。支援平台:小紅書、抖音、B站、微博、快手、知乎、百度貼吧。

程式碼質量唔錯,項目結構清晰,文檔到位;社區活躍,更新快,平台規則變咗都能及時跟進。支援cookie登錄,可以拎到較深嘅數據。

不足:只專注國內平台,TwitterReddit等完全覆蓋唔到;部分平台需要手動登錄獲取cookie,初次配置有啲門檻。

適合做國內輿情監控、內容分析、競品追蹤嘅團隊同個人。

整理重點

Agent-Reach:零成本但穩定性要留意

口號:俾你嘅AI Agent一對眼

支援TwitterRedditYouTubeGitHub、B站、小紅書。一條命令就抓取多平台內容,上手快;零API費用,對個人項目友好。

不足:穩定性係最大問題。佢依賴反向工程,平台一更新可能就跪。文檔同社區相比MediaCrawler差一截;實測有解析失敗。

建議:個人項目、預算有限可以試下;生產環境慎重,最好行官方API

整理重點

jina-cli:極簡網頁解析神器

極簡主義:將任意網頁轉成LLM友好格式

安裝簡單,一條pip install搞定。輸出乾淨嘅Markdown,直接餵俾LLM,零適配成本。抓新聞、博客、文檔頁面好好用,速度快。

不足:受登錄牆限制,Twitter時間線、付費牆內容抓唔到;單頁抓取ok,批量採集唔係強項;社區細,遇到問題靠自己。

適合做知識庫構建、AI Agent需要實時讀取網頁內容嘅開發者。

整理重點

x-tweet-fetcher:Twitter監控嘅瑞士軍刀

Twitter專業工具,支持抓取推文串、mentions、時間線

內置LLM分析,自動做內容篩選同摘要。作者嘅AI早報就係用佢巡邏Twitter賬號,自動巡邏加智能篩選,適合持續監控。

不足:部署複雜,文檔唔夠完善;社區細;依賴Twitter平台,變動風險始終存在。

適合做Twitter輿情監控、AI信息聚合、早報類產品嘅開發者。

整理重點

點樣揀最適合你嘅工具?

作者最後俾咗一個場景對照表

  • 抓國內社交媒體 => MediaCrawler(覆蓋最全,社區最強)
  • Twitter輿情監控 => x-tweet-fetcher(深度集成AI分析)
  • 零成本多平台試水 => Agent-Reach(零API費用,上手快)
  • 快速解析單頁內容 => jina-cli(極簡高效,LLM友好)

做 AI Agent 嘅人都知,數據採集係最頭痛嘅環節。

模型再勁,餵入去嘅數據唔掂,輸出都好唔到邊度。

最近我將市面上主流嘅幾款爬蟲工具都試咗一次,由 45K stars 嘅明星項目到小眾冷門工具,中咗唔少伏,亦揾到幾個真係正嘅。

今日將我真實嘅使用體驗分享出嚟,幫你慳返試錯嘅時間。

1. MediaCrawler(GitHub 45K+ ⭐)

一句講曬:國內社交媒體抓取嘅標杆。

如果你要做國內平台嘅內容採集,呢個差唔多係唯一嘅選擇。

支援平台:小紅書、抖音、B站、微博、快手、知乎、百度貼吧

我嘅體驗:

  • 程式碼質素確實唔錯,項目結構清晰,上手文件亦寫得幾好
  • 社羣非常活躍,更新頻率高,平台規則變咗基本都及時跟進
  • 支援 cookie 登入,可以拎到比較深入嘅數據

不足:

  • 只專注國內平台,Twitter、Reddit 等完全覆蓋唔到
  • 部分平台要手動登入攞 cookie,第一次設定有啲門檻

適合邊個:做國內輿情監控、內容分析、競品追蹤嘅團隊同個人。

2. Agent-Reach(GitHub 8K+ ⭐)

一句講曬:想零成本抓多個平台,佢俾你一個開始。

口號係「俾你嘅 AI Agent 一對眼」,野心唔細。

支援平台:Twitter、Reddit、YouTube、GitHub、B站、小紅書

我嘅體驗:

  • 一條指令就可以抓取多個平台內容,上手真係快
  • 零 API 費用,對個人項目同細團隊好友善
  • 支援平台廣,國內外都有覆蓋

不足:

  • 穩定性係我最擔心嘅。佢依賴反向工程,平台一更新可能就死咗
  • 文件同社羣比起 MediaCrawler 仲差一截
  • 我實測過程遇到咗幾次解析失敗,要手動排查

我嘅建議:個人項目、預算有限可以先用住;生產環境要小心,建議都係用官方 API。

3. jina-cli(GitHub 226 ⭐)

一句講曬:極簡主義嘅網頁解析神器。

唔同 MediaCrawler 比平台覆蓋,佢淨係做一件事——將任意網頁轉成 LLM 友好嘅格式

我嘅體驗:

安裝簡單,一條pip install搞定

  • 輸出乾淨,Markdown 格式直接餵俾 LLM,零適配成本
  • 抓新聞、Blog、文件頁面非常好用,速度快,格式標準

不足:

  • 受登入牆限制,Twitter 時間線、付費牆內容抓唔到
  • 單頁抓取冇問題,批量採集唔係佢嘅強項
  • stars 少,社區細,遇到問題基本上靠自己

適合邊個:做知識庫構建、AI Agent 需要即時讀取網頁內容嘅開發者。

4. x-tweet-fetcher(GitHub 407 ⭐)

一句講曬:做 Twitter 輿情同 AI 早報嘅瑞士軍刀。

呢個係我而家深度使用緊嘅一個工具,專為 Twitter 打造。

我嘅體驗:

  • 支援抓取推文串、Mentions、時間線,功能聚焦但深入
  • 內置 LLM 分析,可以自動做內容篩選同摘要——我嘅 AI 早報就係用佢巡查 Twitter 帳户嘅
  • 自動巡查 + 智能篩選,適合做持續監控

不足:

  • 部署有啲複雜,文件唔夠完善,第一次上手要搞一輪
  • 社區相對細,遇到問題唔一定有人及時回覆
  • 對 Twitter 嘅依賴意味住平台變動風險永遠喺度

適合邊個:做 Twitter 輿情監控、AI 資訊聚合、早報類產品嘅開發者。

點樣揀?一張表睇曬

你嘅場景
推薦工具
理由
抓國內社交媒體
MediaCrawler
覆蓋最全面,社區最強
Twitter 輿情監控
x-tweet-fetcher
深度整合 AI 分析
零成本多平台試水
Agent-Reach
零 API 費用,上手快
快速解析單頁內容
jina-cli
極簡高效,LLM 友好

最後講兩句

工具只係手段,冇最好嘅爬蟲,只有最適合你場景嘅。

我嘅建議係:先搞清楚你要抓咩、抓嚟做乜、穩定性同成本嘅優先級點樣排,然後再揀工具。唔好為咗追 stars 數揀咗個唔適合自己嘅。

GitHub 連結如下

MediaCrawler:https://github.com/NanmiCoder/MediaCrawler

Agent-Reach:https://github.com/Panniantong/Agent-Reach

jina-cli:https://github.com/geekjourneyx/jina-cli

x-tweet-fetcher:https://github.com/ythx-101/x-tweet-fetcher

做 AI Agent 的人都知道,數據採集是最頭疼的環節。

模型再強,喂進去的數據拉垮,輸出也好不到哪去。

最近我把市面上主流的幾款爬蟲工具都跑了一遍,從 45K stars 的明星項目到小眾冷門工具,踩了不少坑,也找到了幾個真香的。

今天把我的真實使用體驗分享出來,幫你省掉試錯的時間。

1. MediaCrawler(GitHub 45K+ ⭐)

一句話:國內社交媒體抓取的標杆。

如果你要做國內平台的內容採集,這個幾乎是唯一選擇。

支持平台:小紅書、抖音、B站、微博、快手、知乎、百度貼吧

我的體驗:

  • 代碼質量確實不錯,項目結構清晰,上手文檔也寫得到位
  • 社區非常活躍,更新頻率高,平台規則變了基本都能及時跟進
  • 支持 cookie 登錄,能拿到較深的數據

不足:

  • 只專注國內平台,Twitter、Reddit 等完全覆蓋不了
  • 部分平台需要手動登錄獲取 cookie,初次配置有一定門檻

適合誰:做國內輿情監控、內容分析、競品追蹤的團隊和個人。

2. Agent-Reach(GitHub 8K+ ⭐)

一句話:想零成本抓多平台,它給你一個開始。

口號是"給你的 AI Agent 一雙眼睛",野心不小。

支持平台:Twitter、Reddit、YouTube、GitHub、B站、小紅書

我的體驗:

  • 一條命令就能抓取多平台內容,上手確實快
  • 零 API 費用,對個人項目和小團隊很友好
  • 支持平台廣,國內外都有覆蓋

不足:

  • 穩定性是我最擔心的。它依賴反向工程,平台一更新可能就掛了
  • 文檔和社區相比 MediaCrawler 還差一截
  • 我實測過程中遇到了幾次解析失敗,需要手動排查

我的建議:個人項目、預算有限可以先用着;生產環境慎重,建議還是走官方 API。

3. jina-cli(GitHub 226 ⭐)

一句話:極簡主義的網頁解析利器。

不跟 MediaCrawler 比平台覆蓋,它只做一件事——把任意網頁轉成 LLM 友好的格式

我的體驗:

安裝簡單,一條pip install搞定

  • 輸出乾淨,Markdown 格式直接餵給 LLM,零適配成本
  • 抓新聞、博客、文檔頁面非常好用,速度快,格式標準

不足:

  • 受登錄牆限制,Twitter 時間線、付費牆內容抓不了
  • 單頁抓取沒問題,批量採集不是它的強項
  • stars 少,社區小,遇到問題基本靠自己

適合誰:做知識庫構建、AI Agent 需要實時讀取網頁內容的開發者。

4. x-tweet-fetcher(GitHub 407 ⭐)

一句話:做 Twitter 輿情和 AI 早報的瑞士軍刀。

這是我目前在深度使用的一個工具,專門為 Twitter 打造。

我的體驗:

  • 支持抓取推文串、mentions、時間線,功能聚焦但深入
  • 內置 LLM 分析,能自動做內容篩選和摘要——我的 AI 早報就是用它巡邏 Twitter 賬號的
  • 自動巡邏 + 智能篩選,適合做持續監控

不足:

  • 部署有點複雜,文檔不夠完善,初次上手需要折騰
  • 社區相對小,遇到問題不一定有人及時回覆
  • 對 Twitter 的依賴意味着平台變動風險始終存在

適合誰:做 Twitter 輿情監控、AI 信息聚合、早報類產品的開發者。

怎麼選?一表看懂

你的場景
推薦工具
理由
抓國內社交媒體
MediaCrawler
覆蓋最全,社區最強
Twitter 輿情監控
x-tweet-fetcher
深度集成 AI 分析
零成本多平台試水
Agent-Reach
零 API 費用,上手快
快速解析單頁內容
jina-cli
極簡高效,LLM 友好

最後說兩句

工具只是手段,沒有"最好"的爬蟲,只有"最適合你場景"的。

我的建議是:先明確你要抓什麼、抓來幹什麼、穩定性和成本的優先級怎麼排,然後再選工具。別為了追 stars 數選了個不適合自己的。

GitHub 連結如下

MediaCrawler:https://github.com/NanmiCoder/MediaCrawler

Agent-Reach:https://github.com/Panniantong/Agent-Reach

jina-cli:https://github.com/geekjourneyx/jina-cli

x-tweet-fetcher:https://github.com/ythx-101/x-tweet-fetcher