試了 4 款爬蟲工具，這是我掏心窩子的使用體驗

作者：Nick運營補給站

日期：2026年3月24日下午10:00

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

試咗4款爬蟲工具，分享掏心窩使用體驗：揀工具先要認清自己場景

整理版摘要

呢篇文章嘅作者係一位做AI Agent嘅開發者，佢發現數據採集係整個流程中最令人頭痛嘅環節。為咗幫自己同其他人省返試錯嘅時間，佢試咗市面上四款主流爬蟲工具，包括有45K stars嘅MediaCrawler，同埋其他相對冷門嘅工具。佢嘅整體結論係：冇「最好」嘅爬蟲，只有「最適合你場景」嘅工具；揀工具之前一定要先搞清楚自己需要乜嘢數據、穩定同成本嘅優先次序。

作者逐一分享咗四款工具嘅使用體驗。MediaCrawler係國內社交媒體抓取嘅標杆，社區活躍更新快，但只專注國內平台，Twitter、Reddit等覆蓋唔到。Agent-Reach標榜零成本多平台，一條命令就可以開始抓取，不過穩定性成疑，依賴反向工程，平台一更新可能就失效。jina-cli極簡高效，專注將網頁轉成LLM友好嘅Markdown格式，可惜受登錄牆限制，批量採集能力弱。x-tweet-fetcher係專為Twitter打造嘅工具，內置AI分析功能，可以自動篩選同摘要，適合做持續監控。

最後，作者提供咗一個場景對照表，對應唔同需求推薦工具，並強調工具只係手段，要根據實際需要去揀，而唔好盲目追GitHub stars。佢仲附上咗各工具嘅GitHub連結，方便讀者進一步瞭解。

MediaCrawler係國內社交媒體抓取標杆，社區活躍更新快，但只限國內平台
Agent-Reach零成本多平台，但穩定性不足，適合個人項目試水
jina-cli極簡網頁解析，LLM友好，但受登錄牆限制，批量能力弱
x-tweet-fetcher專注Twitter，內置AI分析，適合輿情監控同AI早報
冇最好工具，只有最適合場景；先明確需求再揀，唔好盲追stars數

值得記低

連結 github.com

MediaCrawler

國內社交媒體抓取工具，支援小紅書、抖音、B站等

連結 github.com

Agent-Reach

零成本多平台爬蟲，支援Twitter、Reddit、YouTube等

連結 github.com

jina-cli

極簡網頁解析工具，輸出Markdown格式

連結 github.com

x-tweet-fetcher

Twitter專業爬蟲，內置LLM分析功能

整理重點

MediaCrawler：國內社交平台嘅不二之選

國內社交媒體抓取的標杆

如果你要做國內平台嘅內容採集，呢個幾乎係唯一選擇。支援平台：小紅書、抖音、B站、微博、快手、知乎、百度貼吧。

程式碼質量唔錯，項目結構清晰，文檔到位；社區活躍，更新快，平台規則變咗都能及時跟進。支援cookie登錄，可以拎到較深嘅數據。

不足：只專注國內平台，Twitter、Reddit等完全覆蓋唔到；部分平台需要手動登錄獲取cookie，初次配置有啲門檻。

適合做國內輿情監控、內容分析、競品追蹤嘅團隊同個人。

整理重點

Agent-Reach：零成本但穩定性要留意

口號：俾你嘅AI Agent一對眼

支援Twitter、Reddit、YouTube、GitHub、B站、小紅書。一條命令就抓取多平台內容，上手快；零API費用，對個人項目友好。

不足：穩定性係最大問題。佢依賴反向工程，平台一更新可能就跪。文檔同社區相比MediaCrawler差一截；實測有解析失敗。

建議：個人項目、預算有限可以試下；生產環境慎重，最好行官方API。

整理重點

jina-cli：極簡網頁解析神器

極簡主義：將任意網頁轉成LLM友好格式

安裝簡單，一條pip install搞定。輸出乾淨嘅Markdown，直接餵俾LLM，零適配成本。抓新聞、博客、文檔頁面好好用，速度快。

不足：受登錄牆限制，Twitter時間線、付費牆內容抓唔到；單頁抓取ok，批量採集唔係強項；社區細，遇到問題靠自己。

適合做知識庫構建、AI Agent需要實時讀取網頁內容嘅開發者。

整理重點

x-tweet-fetcher：Twitter監控嘅瑞士軍刀

Twitter專業工具，支持抓取推文串、mentions、時間線

內置LLM分析，自動做內容篩選同摘要。作者嘅AI早報就係用佢巡邏Twitter賬號，自動巡邏加智能篩選，適合持續監控。

不足：部署複雜，文檔唔夠完善；社區細；依賴Twitter平台，變動風險始終存在。

適合做Twitter輿情監控、AI信息聚合、早報類產品嘅開發者。

整理重點

點樣揀最適合你嘅工具？

作者最後俾咗一個場景對照表：

抓國內社交媒體 => MediaCrawler（覆蓋最全，社區最強）
Twitter輿情監控 => x-tweet-fetcher（深度集成AI分析）
零成本多平台試水 => Agent-Reach（零API費用，上手快）
快速解析單頁內容 => jina-cli（極簡高效，LLM友好）

做 AI Agent 嘅人都知，數據採集係最頭痛嘅環節。

模型再勁，餵入去嘅數據唔掂，輸出都好唔到邊度。

最近我將市面上主流嘅幾款爬蟲工具都試咗一次，由 45K stars 嘅明星項目到小眾冷門工具，中咗唔少伏，亦揾到幾個真係正嘅。

今日將我真實嘅使用體驗分享出嚟，幫你慳返試錯嘅時間。

1. MediaCrawler（GitHub 45K+ ⭐）

一句講曬：國內社交媒體抓取嘅標杆。

如果你要做國內平台嘅內容採集，呢個差唔多係唯一嘅選擇。

支援平台：小紅書、抖音、B站、微博、快手、知乎、百度貼吧

我嘅體驗：

程式碼質素確實唔錯，項目結構清晰，上手文件亦寫得幾好
社羣非常活躍，更新頻率高，平台規則變咗基本都及時跟進
支援 cookie 登入，可以拎到比較深入嘅數據

不足：

只專注國內平台，Twitter、Reddit 等完全覆蓋唔到
部分平台要手動登入攞 cookie，第一次設定有啲門檻

適合邊個：做國內輿情監控、內容分析、競品追蹤嘅團隊同個人。

2. Agent-Reach（GitHub 8K+ ⭐）

一句講曬：想零成本抓多個平台，佢俾你一個開始。

口號係「俾你嘅 AI Agent 一對眼」，野心唔細。

支援平台：Twitter、Reddit、YouTube、GitHub、B站、小紅書

我嘅體驗：

一條指令就可以抓取多個平台內容，上手真係快
零 API 費用，對個人項目同細團隊好友善
支援平台廣，國內外都有覆蓋

不足：

穩定性係我最擔心嘅。佢依賴反向工程，平台一更新可能就死咗
文件同社羣比起 MediaCrawler 仲差一截
我實測過程遇到咗幾次解析失敗，要手動排查

我嘅建議：個人項目、預算有限可以先用住；生產環境要小心，建議都係用官方 API。

3. jina-cli（GitHub 226 ⭐）

一句講曬：極簡主義嘅網頁解析神器。

唔同 MediaCrawler 比平台覆蓋，佢淨係做一件事——將任意網頁轉成 LLM 友好嘅格式。

我嘅體驗：

安裝簡單，一條pip install搞定

輸出乾淨，Markdown 格式直接餵俾 LLM，零適配成本
抓新聞、Blog、文件頁面非常好用，速度快，格式標準

不足：

受登入牆限制，Twitter 時間線、付費牆內容抓唔到
單頁抓取冇問題，批量採集唔係佢嘅強項
stars 少，社區細，遇到問題基本上靠自己

適合邊個：做知識庫構建、AI Agent 需要即時讀取網頁內容嘅開發者。

4. x-tweet-fetcher（GitHub 407 ⭐）

一句講曬：做 Twitter 輿情同 AI 早報嘅瑞士軍刀。

呢個係我而家深度使用緊嘅一個工具，專為 Twitter 打造。

我嘅體驗：

支援抓取推文串、Mentions、時間線，功能聚焦但深入
內置 LLM 分析，可以自動做內容篩選同摘要——我嘅 AI 早報就係用佢巡查 Twitter 帳户嘅
自動巡查 + 智能篩選，適合做持續監控

不足：

部署有啲複雜，文件唔夠完善，第一次上手要搞一輪
社區相對細，遇到問題唔一定有人及時回覆
對 Twitter 嘅依賴意味住平台變動風險永遠喺度

適合邊個：做 Twitter 輿情監控、AI 資訊聚合、早報類產品嘅開發者。

點樣揀？一張表睇曬

你嘅場景	推薦工具	理由
抓國內社交媒體	MediaCrawler	覆蓋最全面，社區最強
Twitter 輿情監控	x-tweet-fetcher	深度整合 AI 分析
零成本多平台試水	Agent-Reach	零 API 費用，上手快
快速解析單頁內容	jina-cli	極簡高效，LLM 友好

最後講兩句

工具只係手段，冇最好嘅爬蟲，只有最適合你場景嘅。

我嘅建議係：先搞清楚你要抓咩、抓嚟做乜、穩定性同成本嘅優先級點樣排，然後再揀工具。唔好為咗追 stars 數揀咗個唔適合自己嘅。

GitHub 連結如下

MediaCrawler：https://github.com/NanmiCoder/MediaCrawler

Agent-Reach：https://github.com/Panniantong/Agent-Reach

jina-cli：https://github.com/geekjourneyx/jina-cli

x-tweet-fetcher：https://github.com/ythx-101/x-tweet-fetcher

做 AI Agent 的人都知道，數據採集是最頭疼的環節。

模型再強，喂進去的數據拉垮，輸出也好不到哪去。

最近我把市面上主流的幾款爬蟲工具都跑了一遍，從 45K stars 的明星項目到小眾冷門工具，踩了不少坑，也找到了幾個真香的。

今天把我的真實使用體驗分享出來，幫你省掉試錯的時間。

1. MediaCrawler（GitHub 45K+ ⭐）

一句話：國內社交媒體抓取的標杆。

如果你要做國內平台的內容採集，這個幾乎是唯一選擇。

支持平台：小紅書、抖音、B站、微博、快手、知乎、百度貼吧

我的體驗：

代碼質量確實不錯，項目結構清晰，上手文檔也寫得到位
社區非常活躍，更新頻率高，平台規則變了基本都能及時跟進
支持 cookie 登錄，能拿到較深的數據

不足：

只專注國內平台，Twitter、Reddit 等完全覆蓋不了
部分平台需要手動登錄獲取 cookie，初次配置有一定門檻

適合誰：做國內輿情監控、內容分析、競品追蹤的團隊和個人。

2. Agent-Reach（GitHub 8K+ ⭐）

一句話：想零成本抓多平台，它給你一個開始。

口號是"給你的 AI Agent 一雙眼睛"，野心不小。

支持平台：Twitter、Reddit、YouTube、GitHub、B站、小紅書

我的體驗：

一條命令就能抓取多平台內容，上手確實快
零 API 費用，對個人項目和小團隊很友好
支持平台廣，國內外都有覆蓋

不足：

穩定性是我最擔心的。它依賴反向工程，平台一更新可能就掛了
文檔和社區相比 MediaCrawler 還差一截
我實測過程中遇到了幾次解析失敗，需要手動排查

我的建議：個人項目、預算有限可以先用着；生產環境慎重，建議還是走官方 API。

3. jina-cli（GitHub 226 ⭐）

一句話：極簡主義的網頁解析利器。

不跟 MediaCrawler 比平台覆蓋，它只做一件事——把任意網頁轉成 LLM 友好的格式。

我的體驗：

安裝簡單，一條pip install搞定

輸出乾淨，Markdown 格式直接餵給 LLM，零適配成本
抓新聞、博客、文檔頁面非常好用，速度快，格式標準

不足：

受登錄牆限制，Twitter 時間線、付費牆內容抓不了
單頁抓取沒問題，批量採集不是它的強項
stars 少，社區小，遇到問題基本靠自己

適合誰：做知識庫構建、AI Agent 需要實時讀取網頁內容的開發者。

4. x-tweet-fetcher（GitHub 407 ⭐）

一句話：做 Twitter 輿情和 AI 早報的瑞士軍刀。

這是我目前在深度使用的一個工具，專門為 Twitter 打造。

我的體驗：

支持抓取推文串、mentions、時間線，功能聚焦但深入
內置 LLM 分析，能自動做內容篩選和摘要——我的 AI 早報就是用它巡邏 Twitter 賬號的
自動巡邏 + 智能篩選，適合做持續監控

不足：

部署有點複雜，文檔不夠完善，初次上手需要折騰
社區相對小，遇到問題不一定有人及時回覆
對 Twitter 的依賴意味着平台變動風險始終存在

適合誰：做 Twitter 輿情監控、AI 信息聚合、早報類產品的開發者。

怎麼選？一表看懂

你的場景	推薦工具	理由
抓國內社交媒體	MediaCrawler	覆蓋最全，社區最強
Twitter 輿情監控	x-tweet-fetcher	深度集成 AI 分析
零成本多平台試水	Agent-Reach	零 API 費用，上手快
快速解析單頁內容	jina-cli	極簡高效，LLM 友好

最後說兩句

工具只是手段，沒有"最好"的爬蟲，只有"最適合你場景"的。

我的建議是：先明確你要抓什麼、抓來幹什麼、穩定性和成本的優先級怎麼排，然後再選工具。別為了追 stars 數選了個不適合自己的。

GitHub 連結如下

MediaCrawler：https://github.com/NanmiCoder/MediaCrawler

Agent-Reach：https://github.com/Panniantong/Agent-Reach

jina-cli：https://github.com/geekjourneyx/jina-cli

x-tweet-fetcher：https://github.com/ythx-101/x-tweet-fetcher