免費利器Jina Reader:一鍵讀取任意網頁、圖片、PDF,AI時代的內容淨化器,還能繞過各種牆
整理版優先睇
Jina Reader:免費神器一鍵將網頁、圖片、PDF變乾淨文本,繞過牆慳token
呢篇文章係由AI開發助手夾克分享嘅,佢最近用OpenClaw揾資訊時發現咗一個好正嘅工具——Jina Reader。佢想解決嘅問題係點樣高效乾淨噉將網上嘅資訊(尤其係有登入牆嘅內容)喂俾AI模型,同時慳返啲token。整體結論係Jina Reader係一個免費嘅「內容淨化器」,可以將任何URL(網頁、圖片、PDF)轉換成LLM友好嘅乾淨Markdown文本,仲可以繞過多種反爬機制。
呢個工具嘅用法好簡單,最直接嘅方法就係喺目標URL前面加上 https://r.jina.ai/ ,唔使任何賬號,即時得到乾淨內容。進階用家可以申請API Key,新用戶免費獲得1000萬token,速率由20次/分鐘提升到500次/分鐘。除咗網頁,佢仲支援圖片同PDF:圖片會用視覺語言模型自動生成描述,PDF做到OCR同結構化提取,複雜排版都搞得掂。
Jina Reader嘅核心優勢在於佢用真實瀏覽器渲染頁面,自動去除廣告、導航同腳本,只保留核心內容,輸出極度乾淨,可以幫AI agent慳超過30%嘅token消耗。佢支援29種語言,中文效果好好。當然都有啲限制,例如免費token適合低併發非商業用途,極少數動態頁面可能需要調校參數。總括而言,呢個工具絕對值得一試,尤其係做RAG、論文速讀或者AI Agent嘅時候。
- Jina Reader可以將任何網頁、圖片、PDF轉換成LLM友好嘅Markdown文本,仲可以繞過推特、知乎、Medium等登入牆,完全免費。
- 最簡單用法係喺URL前加上 https://r.jina.ai/ ,唔使賬號;攞API Key可提升速率到500次/分鐘,新用戶送1000萬token。
- 核心差異係用真實瀏覽器渲染,自動去廣告、提取核心內容,圖片用VLM生成描述,PDF做到OCR同結構化提取,比傳統爬蟲更慳token。
- 啟發:AI時代,「優質輸入」比信息過載更重要,Jina Reader可以將雜亂內容變成「淨菜」,提升AI應用效率。
- 可行動點:新手先用前綴法體驗,然後領取免費token;進階可以整個人RAG、AI Agent,或者用curl批量處理PDF同圖片。
Jina Reader
免費將網頁、圖片、PDF轉換成LLM友好嘅乾淨文本,繞過登入牆,支援API Key。
結構示例
# 普通讀取curl "https://r.jina.ai/https://www.example.com"# 開啓圖像自動描述(強烈推薦!)curl -H "x-with-generated-alt: true""https://r.jina.ai/你的圖片或網頁URL"# 輸出JSON結構化數據curl -H "Accept: application/json""https://r.jina.ai/你的URL"# 讀取PDFcurl "https://r.jina.ai/https://www.nasa.gov/xxx.pdf"
Jina Reader係乜嘢?
Jina Reader係由Jina AI推出嘅一個免費工具,專為AI時代設計。佢嘅核心功能係將任何URL——無論係網頁、圖片定PDF——轉換成LLM友好嘅乾淨文本,主要輸出Markdown格式,亦支援JSON。
佢唔似普通爬蟲咁抓一堆亂七八糟嘅HTML,而係用瀏覽器內核真實渲染頁面,自動去掉廣告、導航、頁腳、腳本,提取核心內容。
圖片方面,佢會用視覺語言模型(VLM)自動生成描述;PDF則做到OCR加結構化提取,連複雜排版都搞得掂。
點樣用(3分鐘上手)
用法好簡單,以下係幾種常用方法:
- 最簡單嘅前綴法:喺瀏覽器直接輸入 https://r.jina.ai/ + 你嘅任意連結,回車就出乾淨Markdown。測試網頁、圖片、PDF都得。
- 進階帶API Key:去 https://jina.ai/reader/ 一鍵生成API Key(新用戶免費1000萬token,唔使信用卡),然後喺請求頭加 Authorization: Bearer 你個key,速率由20次/分鐘提升到500次/分鐘。
- 命令行/Curl:用 curl "https://r.jina.ai/https://www.example.com" 讀取;加 -H "x-with-generated-alt: true" 開啓圖像自動描述;加 -H "Accept: application/json" 輸出JSON結構化數據。
- 搜索功能:用 https://s.jina.ai/ + 搜索詞,可以一鍵返回前5個結果加每個結果嘅乾淨正文,實現帶RAG嘅搜索。
強烈推薦開啓圖像自動描述(加header x-with-generated-alt: true),令文本-only LLM瞬間有『睇圖講話』能力。
點解咁勁?
Jina Reader之所以強大,係因為佢喺幾個方面做到極致:
- 圖像理解能力:默認唔開圖像描述係慳延遲,但加個header就用Jina自家2.4B VLM畀每張圖寫alt文本,令文本-only LLM有睇圖能力。
- PDF處理無敵:複雜排版、多圖PDF、掃描件都能快速轉純文本,適合做ChatPDF、論文速讀、合同分析。
- 成本與性能:免費10M token約等於幾千篇長文,輸出極度乾淨,餵畀OpenClaw、ClaudeCode、Cursor時token消耗能省30%以上,支援29種語言,中文效果極佳。
免費token適合低併發非商業用途;生產環境建議買1B token套餐($50)。
使用建議同進階玩法
視乎你用家層級,有以下建議:
- 新手:先用前綴法玩兩日,感受「白嫖快樂」,然後領取10M token,存起嚟提速用。結合Cursor或Claude Projects,直接將讀到嘅內容扔入去總結、翻譯、分析。
- 進階玩家:可以做個人RAG,每日自動抓取關注嘅Substack/Newsletter,轉成向量存庫;或者構建AI Agent,讓Agent用Reader去實時查最新資訊再決策;亦可以批量處理PDF,寫個Python腳本循環處理一堆論文。
- 影像分析鏈路:圖片URL → Reader描述 → 大模型深度理解。
大家好,我係你哋嘅AI開發助手夾克。
最近用OpenClaw拎資訊嘅時候,發現咗一個幾好嘅工具,X Twitter上面 @RookieRicardoR(耳朵)分享嘅一個神器:喺任何網頁連結前面加上 https://r.jina.ai/,就可以即刻抽取出乾淨嘅正文內容,連Twitter嘅登錄牆都可以輕鬆繞過,而且佢仲可以讀圖片同PDF,直接輸出辨識後嘅乾淨文本。預設速率限制係20次/每分鐘。如果唔夠用嘅話,可以去 https://jina.ai/reader/ ,佢仲會送你一個1000萬token嘅key,完全免費。
測試咗一下,一個圖片URL直接掟入去,就可以直接輸出Markdown描述:“Looking inside of a large, gothic like room with a large, centred, metal table”(大意:行入一個好大嘅哥德式房間,中間有一張大金屬枱)。另一張就係嗰張黑白哥德風格大廳嘅原圖,完美證實咗呢個工具嘅圖像理解能力。
呢個嘢太香了,尤其係畀OpenClaw呢類AI agent用,高效又慳token。今日呢篇文章就同大家分享下。
一、Jina Reader究竟係啲乜?
Jina AI(一間專注搜尋基礎模型嘅公司)推出嘅 Reader API,核心功能就係將任何URL(網頁、PDF、圖片)轉換成 LLM友好 嘅乾淨文本(主要係Markdown,都支援JSON)。
佢唔似普通爬蟲咁抓一大堆亂七八糟嘅HTML,而係:
• 用瀏覽器內核真實渲染頁面 • 自動去掉廣告、導航、頁腳、腳本 • 提取核心內容 • 圖片自動用視覺語言模型(VLM)生成描述 • PDF直接OCR+結構化提取(支援帶大量圖片嘅複雜PDF)
一句話總結:畀你嘅AI餵最乾淨、最慳token嘅“淨菜”。
二、零門檻使用方法(3分鐘上手)
1. 最簡單嘅前綴法(唔使任何賬號)
瀏覽器直接輸入:
https://r.jina.ai/ + 你的任意連結
按Enter就會輸出乾淨Markdown喇!
• 測試網頁:試下任意推文連結、知乎文章、付費牆文章 • 測試圖片:直接掟圖片URL(支援jpg、png等) • 測試PDF:直接掟PDF連結(NASA嗰份經典PDF測試案例超級穩陣)
2. 進階:帶API Key(推薦畀需要高併發嘅)
1. 打開 https://jina.ai/reader/ 2. 一鍵生成API Key(唔使信用卡,新用戶直接送 1000萬免費token,非商業使用完全夠) 3. 喺請求頭加: Authorization: Bearer 你的key
咁樣速率由 20次/分鐘 直接升到 500次/分鐘,如果仲唔夠嘅話,可以俾錢獲取更高,而且按key計費更穩定。
3. 命令行/Curl示例(開發者最愛)
# 普通讀取
curl "https://r.jina.ai/https://www.example.com"
# 開啓圖像自動描述(強烈推薦!)
curl -H "x-with-generated-alt: true""https://r.jina.ai/你的圖片或網頁URL"
# 輸出JSON結構化數據
curl -H "Accept: application/json""https://r.jina.ai/你的URL"
# 讀取PDF
curl "https://r.jina.ai/https://www.nasa.gov/xxx.pdf"
4. 同時仲係一個搜尋神器:s.jina.ai
可以直接 https://s.jina.ai/你的搜索詞 ,會返回前5個結果 + 每個結果嘅乾淨正文,從而一鍵實現“帶RAG嘅搜尋”。
三、分析:點解咁勁?
1. 繞過一切反爬蟲
Twitter登錄牆、知乎鹽選、Medium付費、Substack……基本上全部搞掂。因為佢行嘅係真實瀏覽器渲染,唔係模擬請求。2. 圖像理解能力超強
預設唔開圖像描述係為咗慳延遲,但加個header就會自動用Jina自家2.4B VLM幫每張圖寫alt文本。你嘅文本-only LLM即刻有咗“睇圖講嘢”能力。3. PDF處理超勁
複雜排版、多圖PDF、掃描件都可以快速轉做純文字,適合做ChatPDF、論文速讀、合同分析。4. 成本與性能 • 免費10M token ≈ 幾千篇長文 • 輸出極度乾淨,餵畀OpenClaw/ClaudeCode/Cursor時token消耗可以慳30%以上 • 多語言支援(29種語言),中文效果極好 5. 侷限(客觀咁講) • 極少數動態SPA頁面可能需要加等待選擇器 • 圖像描述預設關閉(手動開就得) • 免費token適合低併發非商業使用,生產環境建議買1B token套餐($50)
四、使用建議與進階玩法
新手建議:
• 先用前綴法玩兩日,感受“白嫖快樂”,領10M token,存起嚟提速用 • 結合Cursor或Claude Projects,將讀到嘅內容直接掟入去總結/翻譯/分析
進階玩家玩法:
• 做個人RAG:每日自動抓取關注嘅Substack/Newsletter,轉成向量存庫 • 構建AI Agent:等Agent用Reader去實時查最新資訊,再決策 • 批量處理PDF:寫個Python腳本,循環處理一堆論文 • 圖像分析鏈路:圖片URL → Reader描述 → 大模型深度理解
小技巧:
• 想指定只抽取某部分內容?加 x-target-selectorheader• 動態頁面加載慢?加 x-wait-for-selector或x-timeout• 想流式輸出? Accept: text/event-stream
結語:AI時代嘅“內容淨化器”
而家資訊過載已經唔係問題,“優質輸入”先係稀缺能力。Jina Reader 可能就係嗰個將互聯網雜亂內容變成“LLM最愛淨菜”嘅神器。佢免費、簡單、強大,仲喺度持續迭代(ReaderLM-v2、Jina VLM都喺背後硬核支撐)。
強烈建議大家去試下,用完歡迎返嚟留言區分享你嘅神級用法。讚好+轉發,下次我哋繼續分享更多免費AI基礎設施神器。AI時代,工具人都要捲起來。
(本文係基於公開推文同官方文檔整理,所有連結都可以直接點擊體驗。如有更新以官網為準)
大家好,我是你們的AI開發助手夾克。
最近使用OpenClaw獲取信息時,發現了一個不錯的工具,X推特上 @RookieRicardoR(耳朵)分享的一個神器:在任意網頁連結前加上 https://r.jina.ai/,就能瞬間提取出乾淨的正文內容,連推特的登錄牆都能輕鬆繞過,而且它還可以讀圖片和 PDF,直接輸出識別後的乾淨文本。默認速率限制是 20 次/每分鐘。如果不夠用的話,可以訪問 https://jina.ai/reader/ ,它還會送你一個 1000萬 token 的 key,完全免費。
測試了一下,一個圖片URL直接扔進去,可以直接輸出Markdown描述:“Looking inside of a large, gothic like room with a large, centred, metal table”(大意:走進一個巨大的哥特式房間,中央有一張大金屬桌)。另一張則是那張黑白哥特風格大廳的原圖,完美印證了工具的圖像理解能力。
這玩意兒太香了,尤其是給OpenClaw之類的AI agent用,高效還省token。今天這篇文章就分享一下。
一、Jina Reader到底是什麼?
Jina AI(一家專注搜索基礎模型的公司)推出的 Reader API,核心功能就是把任何URL(網頁、PDF、圖片)轉換成 LLM友好 的乾淨文本(主要是Markdown,也支持JSON)。
它不像普通爬蟲那樣抓一堆亂七八糟的HTML,而是:
• 用瀏覽器內核真實渲染頁面 • 自動去掉廣告、導航、頁腳、腳本 • 提取核心內容 • 圖片自動用視覺語言模型(VLM)生成描述 • PDF直接OCR+結構化提取(支持帶大量圖片的複雜PDF)
一句話總結:給你的AI喂最乾淨、最省token的“淨菜”。
二、零門檻使用方法(3分鐘上手)
1. 最簡單的前綴法(無需任何賬號)
瀏覽器直接輸入:
https://r.jina.ai/ + 你的任意連結
回車就會輸出乾淨Markdown了!
• 測試網頁:試試任意推文連結、知乎文章、付費牆文章 • 測試圖片:直接丟圖片URL(支持jpg、png等) • 測試PDF:直接丟PDF連結(NASA那份經典PDF測試案例超級穩)
2. 進階:帶API Key(推薦給需要高併發的)
1. 打開 https://jina.ai/reader/ 2. 一鍵生成API Key(無需信用卡,新用戶直接送 1000萬免費token,非商業使用完全夠) 3. 在請求頭加: Authorization: Bearer 你的key
這樣速率從 20次/分鐘 直接提到 500次/分鐘,如果還不夠的話,可以付費獲取更高,而且按key計費更穩定。
3. 命令行/Curl示例(開發者最愛)
# 普通讀取
curl "https://r.jina.ai/https://www.example.com"
# 開啓圖像自動描述(強烈推薦!)
curl -H "x-with-generated-alt: true""https://r.jina.ai/你的圖片或網頁URL"
# 輸出JSON結構化數據
curl -H "Accept: application/json""https://r.jina.ai/你的URL"
# 讀取PDF
curl "https://r.jina.ai/https://www.nasa.gov/xxx.pdf"
4. 同時還是一個搜索神器:s.jina.ai
可以直接 https://s.jina.ai/你的搜索詞 ,會返回前5個結果 + 每個結果的乾淨正文,從而一鍵實現“帶RAG的搜索”。
三、分析:為什麼這麼強?
1. 繞過一切反爬
推特登錄牆、知乎鹽選、Medium付費、Substack……基本全滅。因為它走的是真實瀏覽器渲染,不是模擬請求。2. 圖像理解能力拉滿
默認不開圖像描述是為了省延遲,但加個header就自動用Jina自家2.4B VLM給每張圖寫alt文本。你的文本-only LLM瞬間擁有“看圖說話”能力。3. PDF處理無敵
複雜排版、多圖PDF、掃描件都能快速轉純文本,適合做ChatPDF、論文速讀、合同分析。4. 成本與性能 • 免費10M token ≈ 幾千篇長文 • 輸出極度乾淨,餵給OpenClaw/ClaudeCode/Cursor時token消耗能省30%以上 • 多語言支持(29種語言),中文效果極佳 5. 侷限性(客觀說) • 極少數動態SPA頁面可能需要加等待選擇器 • 圖像描述默認關閉(手動開即可) • 免費token適合低併發非商業使用,生產環境建議買1B token套餐($50)
四、使用建議與進階玩法
新手建議:
• 先用前綴法玩兩天,感受“白嫖快樂”,領10M token,存起來提速用 • 結合Cursor或Claude Projects,把讀到的內容直接扔進去總結/翻譯/分析
進階玩家玩法:
• 做個人RAG:每天自動抓取關注的Substack/Newsletter,轉成向量存庫 • 構建AI Agent:讓Agent用Reader去實時查最新資訊,再決策 • 批量處理PDF:寫個Python腳本,循環處理一堆論文 • 圖像分析鏈路:圖片URL → Reader描述 → 大模型深度理解
小技巧:
• 想指定只提取某部分內容?加 x-target-selectorheader• 動態頁面加載慢?加 x-wait-for-selector或x-timeout• 想流式輸出? Accept: text/event-stream
結語:AI時代的“內容淨化器”
如今信息過載已經不是問題,“優質輸入”才是稀缺能力。Jina Reader 也許就是那個把互聯網雜亂內容變成“LLM最愛淨菜”的神器。它免費、簡單、強大,還在持續迭代(ReaderLM-v2、Jina VLM都在背後硬核支撐)。
強烈建議大家去試試,用完歡迎回來評論區分享你的神級用法。點贊+轉發,下次我們繼續分享更多免費AI基礎設施神器。AI時代,工具人也要捲起來!
(本文基於公開推文與官方文檔整理,所有連結均可直接點擊體驗。如有更新以官網為準)