Obsidian 推出了 Defuddle, 把 Obsidian Web Clipper 推到了一個新的高度
整理版優先睇
Obsidian 推出開源網頁清洗工具 Defuddle,將 Web Clipper 的核心抽取能力轉化為獨立的 URL 接口。
- Defuddle 是 Obsidian Web Clipper 的網頁版,能將複雜網頁轉化為乾淨的 Markdown 文本。
- 支持元數據提取與邏輯模板,讓用戶能結構化地整理網頁內容並存入本地知識庫。
- 提供 URL 接口供 AI Agent 或開發者調用,解決網頁抓取時的噪音與屏蔽問題。
- 秉承「文件高於應用」的理念,Defuddle 完全開源並支持本地部署,不鎖定用戶。
Obsidian 的核心理念與 Defuddle 的誕生
Obsidian 一直堅持本地優先、萬物皆文件的理念。最近推出的 Defuddle.md 是其生態系統中一個強力的工具,可以被視為 Web Clipper 的網頁版或 URL 接口。
Defuddle 就像是一個專門負責把複雜網頁轉化為標準 Markdown 文本的淨化器。
回顧 Web Clipper:超越傳統的剪藏功能
Web Clipper 最強大的地方在於支持極其靈活的模板,能提取作者、發佈時間等元數據,甚至支持條件判斷和循環等邏輯操作。
Defuddle.md:專注清洗的抽取層
Defuddle 將網頁抽取能力獨立開放,能自動清洗廣告和推薦區等雜訊。它提供多種訪問方式,包括瀏覽器直接訪問、URL 接口調用以及插件集成。
開源與開放:挑戰市場現狀
與市面上試圖鎖定用戶的剪藏插件不同,Defuddle 是開源的,甚至支持本地部署。這對 Jina.ai 等付費 Reader API 構成了競爭壓力。
Obsidian 的理念是 File Over App,讓工具成為用戶可控的系統,而非讓用戶成為 App 的附庸。

我一直很喜歡 Obsidian 的核心理念:本地優先,萬物皆文件,而且是單純的 Markdown 文本文件。在這樣的模式下,筆記完全屬於我們自己,我們可以自由地搭配各種組件或插件,按照自己的習慣去定製操作和工作流。 而且,信息的保存備份同步,都在我們自己的控制下。
我之前介紹過 Obsidian 自家推出的 Web Clipper, 一個網頁剪藏類的瀏覽器插件,同樣秉承了上述的「文件中心」理念,把我們正在瀏覽的網頁內容變為一個Markdown 筆記, 存入 Obsidian 的資料庫中,而且還包含元信息。
最近 Obsidian 推出了 一個新的網站,Defuddle.md,Defuddle 是 Obsidian 本地文件生態系統裏一個非常強力的工具,通俗來說,是 Obsidian Web Clipper 的網頁版。
如果把 Obsidian 看作一個本地筆記的 OS, 我們之前介紹過 CLI(命令行接口),這個 Defuddle 更像Obsidian Web Clipper 的一個 URL 接口。
所以,在詳解 Defuddle 之前,我們先快速回顧一下 Web Clipper。
Obsidian Web Clipper :網頁變 Markdown
聊到 Obsidian Web Clipper,我個人覺得它最吸引人的地方,在於它早就超越了傳統的網頁保存抓取功能。

它不僅僅是把網頁抓下來,更厲害的是它支持極其靈活的 Obsidian 模板。Web Clipper 能夠提取網頁裏的各種元數據(比如作者、發佈時間、甚至特定的頁面元素)。更讓我驚喜的是,它現在還支持條件判斷、循環這些邏輯操作。這意味着,在採集網頁的階段,我們就可以按照自己的規則把內容整理好,直接變成乾淨、結構化的本地 Markdown 文件。
當然弊端是,如果用戶不喜歡默認的整理模板,需要自己配置,這個過程可能會有一些門檻(其實可以讓 AI 來配)。
但總的來說,Obsidian Clipper 完美契合了 Obsidian 的生態,讓網頁內容非常順滑地融入我們個人的知識庫。對於 Power User,又提供了自己搗鼓的空間。不要小看這些 Power User, 那麼多 Obsidian 插件,大多都是用戶自己搗鼓出來的。
Defuddle.md:專注清洗的抽取層
而 Defuddle 的出現,讓我覺得 Obsidian 是把 Web Clipper 背後最核心的網頁抽取能力單獨開放出來了。
如果,大家是某個信息領域的資料收集者,調研者,數據分析者 …… 如果自己又能稍微搗鼓兩下,又或者藉助 AI(包括最近大火的小龍蝦)搗鼓兩下。 那麼Defuddle.md 絕對是一個驚喜!

給 Defuddle 一個連結,它就能幫你清洗掉網頁上的廣告、推薦區等雜亂元素,儘量提取出乾淨的正文和結構化的元數據。它就像是一個專門負責把複雜網頁轉化為標準 Markdown 文本的淨化器。 有了這個,任何人都可以做一個自己的 Web Clipper,而且不用隸屬於 Obsidian。
Defuddle 提供幾種訪問方式。
普通用戶,瀏覽器訪問,輸入需要轉換的網頁網址,查看清洗過的 HTML 或 Markdown AI Agent 或 開發者, 通過 URL 接口,獲取清洗轉換結果 Obsidian 用戶, 直接使用 Web Clipper 插件 即可(背後就是 Defuddle)。
其中最有價值的,我覺得就是 「URL 接口」,想象我是一個小龍蝦,又聾又瞎,按用戶要求收集訪問網頁非常痛苦,又是無頭瀏覽器,又是被屏蔽,即使取得網頁,裏面的雜質噪音又很多; 現在好了,直接調用 Defuddle 一切解決。
而且,很重要的是,Defuddle 是開源的。我們甚至可以自己本地部署。這就很 Obsidian 了。 讓 App 成為用戶自己可以控制的系統,而不是把用戶變成 App 的附庸。
最後
市面上,其實剪藏插件很多,其中不少的目的是鎖定用戶到某個特定App。 而 Obsidian Web Clipper 不同, 因為 Obsidian 理念是 File Over App。 現在,更進一步, Defuddle 被開放出來,大家可以直接用了,而且還是開源的。 所以,有點太闊綽了,反而不適應了。
如果對這類網頁抓取(作為PKM重要組成部分)有興趣的話,之前 Jina.ai 也提供了付費的 Reader API (下圖)。Jina 是很多 AI 從業者的首選,現在則感覺有了一個免費開源的對手。當然,Jina號稱是 AI模型 清洗抓取,還略有不同。

說實話,我現在反而開始擔心 Defuddle 要被人濫用了(或者被屏蔽了)。
