codex抓取公眾號skill:正文、圖片、連結,能直接存成 Markdown

作者:阿星AI工作室
日期:2026年6月1日 下午9:47
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

阿星介紹用Codex安裝公眾號文章抓取Skill,自動將文章存成Markdown,解決AI抓唔完整嘅問題。

整理版摘要

阿星分享咗佢用Codex安裝一個公眾號文章抓取Skill嘅經驗。佢發現平時想叫AI幫手抓公眾號文章,成日都唔完整,所以試咗阿一AI站嘅Skills,成功抓到標題、作者、發佈時間、正文同5張圖片連結,仲自動生成咗一個.md檔案。呢篇文章主要係教讀者點樣用Codex安裝同執行呢個Skill,包括下載、解壓、讀取SKILL.md、檢查Node.js環境同Puppeteer依賴,最後用腳本抓取文章。阿星仲提到第一次運行時遇到Puppeteer揾唔到Chrome嘅報錯,但用本機Chrome就解決咗,成個過程大約7秒。

呢個Skill包嘅核心係一個Node.js腳本,依賴Puppeteer嚟模擬瀏覽器渲染,再提取公眾號正文容器嘅內容。輸出可以係Markdown檔案或者結構化JSON,適合唔同流程。阿星特別強調,如果只係想保存文章入知識庫,用save-markdown.js就夠;如果想做後續分析,可以直用scrape-wechat.js拎JSON。

最後,阿星話呢個工具最適合內容創作者、知識庫重度用戶同做運營研究嘅人。佢提醒大家,抓取文章要尊重版權,唔好高頻批量請求或者未經授權二次發佈。建議用嚟個人備份同學習,咁樣先用得穩妥。

  • Codex可以通過安裝Skill完整抓取公眾號文章,生成結構化Markdown
  • 方法:下載Skill包後,按SKILL.md指示執行腳本,需注意PuppeteerChrome依賴問題。
  • 差異:相比直接叫AI抓取,呢個Skill包用Puppeteer模擬瀏覽器,抓取更完整,輸出結構化。
  • 啟發:Skill包嘅設計令智能體可以按說明執行複雜任務,係一種可複用嘅工作流模式。
  • 可行動點:如果你經常有保存公眾號文章嘅需要,可以試下安裝呢個Skill,但記得尊重版權,用於個人學習。
值得記低
連結 ayi001.xyz

微信公眾號文章抓取 Skill 資源頁

包含下載地址同使用說明

結構示例

內容結構

內容結構 text
請幫我使用這篇文章裏提到的「微信公眾號文章抓取 Skill」:https://www.ayi001.xyz/articles/190目標:抓取這篇公眾號文章:https://mp.weixin.qq.com/s/xxxxx請按下面步驟執行:
1. 先讀取上面阿一 AI 站文章,找到裏面提到的 Skill 資源頁面或下載地址。
2. 下載並解壓「微信公眾號文章抓取 Skill」。
3. 讀取解壓目錄裏的
SKILL.md 和 references/usage-guide.md。
4. 檢查本機是否具備 Node.js 環境,並安裝或確認 Puppeteer 依賴可用。
5. 如果 Puppeteer 報錯找不到 Chrome,請優先檢查本機是否安裝 Google Chrome;如果已安裝,請使用 PUPPETEER_EXECUTABLE_PATH 指向本機 Chrome 後重新運行。
6. 調用 Skill 裏的 scripts/save-markdown.js 或等價腳本抓
整理重點

安裝同使用方法

阿星先從阿一AI站文章揾到對應資源頁,直接同Codex講安裝就得。如果你已經有Skill包,可以叫智能體跟住步驟做:

  1. 1 先讀取阿一AI站文章,揾到Skill資源頁面或下載地址。
  2. 2 下載並解壓「微信公眾號文章抓取 Skill」。
  3. 3 讀取解壓目錄嘅 SKILL.md 同 references/usage-guide.md。
  4. 4 檢查本機是否具備 Node.js 環境,並安裝或確認 Puppeteer 依賴可用。
  5. 5 如果 Puppeteer 報錯揾唔到 Chrome,優先檢查本機是否安裝 Google Chrome;如果已安裝,用 PUPPETEER_EXECUTABLE_PATH 指向本機 Chrome 後重新運行。
  6. 6 調用 Skill 入面嘅 scripts/save-markdown.js 或等價腳本抓取文章。

Puppeteer 揾唔到 Chrome 係常見初始化問題,唔係抓取邏輯失敗。

阿星第一次運行遇到Puppeteer報錯,但用本機Chrome就解決咗,全程約7秒,終端顯示「已保存: 20260601_福布斯2024中國內地富豪榜:鍾睒睒連續4年成首富.md」。

整理重點

工具原理同能力

呢個工具更接近一個Skill包,唔係獨立App。你可以理解成俾智能體準備嘅一套「任務說明 + 腳本工具 + 使用文檔」。當你叫智能體「調用呢個Skill抓取公眾號文章」,佢會按SKILL.md嘅說明去運行腳本。

  • SKILL.md:話俾智能體知幾時調用呢個能力。
  • README.md:項目說明。
  • package.jsonNode.js依賴配置。
  • scripts/scrape-wechat.js:核心抓取腳本,返回結構化JSON
  • scripts/save-markdown.js:直接生成Markdown檔案。

scrape-wechat.js 輸出結構化JSON,適合接入工作流做摘要、打標籤。

save-markdown.js 適合只係想將文章保存入知識庫嘅用戶。

整理重點

適合邊啲人同注意事項

阿星覺得呢個工具最適合三類人:內容創作者、知識庫重度用戶、做運營產品增長研究嘅人。佢哋成日需要保存同行文章、整理選題、分析結構,或者將文章放入ObsidianNotion、飛書文檔。

手動複製太慢,直接抓取再做分類分析,更接近可複用嘅資料流。

唔建議用成批量搬運工具,要尊重版權同平台規則。

更穩妥嘅用法係保存自己有權限睇嘅文章,用嚟個人備份、學習同分析。唔好高頻批量請求,亦唔好未經授權二次發佈。阿星話:「ok,我是阿星,更多AI應用,我們下期再見!

圖片


哈佬,大家好

我係阿星!

你多數都遇過呢種情況。見到一篇幾好嘅公眾號文章,想叫 AI 幫你拉落嚟,最後都唔完整。

所以我今次試咗阿一嘅skills,佢拎到標題、公眾號名、作者、發佈時間、正文純文字同 5 張圖嘅連結,最後自動生成咗一個 .md 檔案。👇🏻

Image


Image
Image

1、點樣用?

我先係阿一 AI 站嘅文章入面揾到對應嘅資源頁,直接同codex講安裝就得。

如果你已經將 Skill 包下載同解壓縮,可以咁樣同個智能體講:

  
請幫我使用這篇文章裏提到的「微信公眾號文章抓取 Skill」:
https://www.ayi001.xyz/articles/190

目標:抓取這篇公眾號文章:
https://mp.weixin.qq.com/s/xxxxx

請按下面步驟執行:

1. 先讀取上面阿一 AI 站文章,找到裏面提到的 Skill 資源頁面或下載地址。
2. 下載並解壓「微信公眾號文章抓取 Skill」。
3. 讀取解壓目錄裏的 SKILL.md 和 references/usage-guide.md。
4. 檢查本機是否具備 Node.js 環境,並安裝或確認 Puppeteer 依賴可用。
5. 如果 Puppeteer 報錯找不到 Chrome,請優先檢查本機是否安裝 Google Chrome;如果已安裝,請使用 PUPPETEER_EXECUTABLE_PATH 指向本機 Chrome 後重新運行。
6. 調用 Skill 裏的 scripts/save-markdown.js 或等價腳本抓
Image

下載包大約 9.5MB,

解壓縮之後會見到呢啲核心檔案:

  
- SKILL.md:告訴智能體什麼時候調用這個能力。
- README.md:項目說明。
- package.json:Node.js 依賴配置。
- scripts/scrape-wechat.js:核心抓取腳本,返回結構化 JSON。
...
Image

佢嘅 SKILL.md 寫得幾直接:遇到 mp.weixin.qq.com 文章抓取任務嗰陣,調用 scripts/scrape-wechat.js,等 #js_content 出現,再提取標題、作者、發佈時間、公眾號名、正文文字、正文 HTML、圖片連結同正文外鏈。

第一次運行嗰陣遇到 Puppeteer 揾唔到 Chrome 嘅報錯。呢個係 Puppeteer 呢類工具嘅常見初始化問題,唔係抓取邏輯失敗。解決方法有兩個:一個係跟提示安裝 Puppeteer 需要嘅 Chrome;另一個係好似我咁,直接叫佢用本地已經裝好嘅 Google Chrome

今次行得通,用咗大約 7 秒,終端機顯示:已保存: 20260601_福布斯2024中國內地富豪榜:鍾睒睒連續4年成首富.md

Image

生成嘅 Markdown 入麪包含文章標題、公眾號、作者、發佈時間、原文連結、正文,以及圖片列表。呢個說明佢至少喺呢篇文章上係 work 嘅,而且輸出結構對後續整理好 friendly。

但係圖片一開始係會崩嘅,需要你指定一個圖片下載之後上傳嘅位置,我就將佢上傳咗去飛書CLI度

Image


Image

如果你嘅需求只係「將文章保存入知識庫」,save-markdown.js 就夠用。

如果你想將佢接入自己嘅工作流,例如先抓 JSON,再做摘要、打標籤、生成選題庫,就可以直接用 scrape-wechat.js,因為佢返回嘅係結構化 JSON。

2、到底係咩嚟㗎

呢個工具更接近一個 Skill 包。

  
簡單說,Skill 不是一個獨立 App,你可以把它理解成給智能體準備的一套“任務說明 + 腳本工具 + 使用文檔”。當你告訴智能體“調用這個 Skill 抓取公眾號文章”時,智能體會按 SKILL.md 裏的說明去運行腳本。

項目原理如下:


  

這個包裏的核心腳本是 Node.js 寫的,依賴 Puppeteer。Puppeteer 是一個瀏覽器自動化庫,官方文檔的說法是,它可以通過 Chrome DevTools Protocol 和 WebDriver BiDi 自動化 Chrome 與 Firefox。

換句話說,它不是假裝自己在抓網頁源碼,而是真的啓動一個瀏覽器,讓頁面先像正常用戶訪問一樣渲染出來,再去頁面裏找公眾號正文容器。


Image

3、適合邊個用

我覺得佢最適合三類人。

第一類係內容創作者。你成日需要保存同行嘅文章、整理選題、分析標題同結構。

第二類係知識庫重度用戶。你見到好文章,唔想只係收藏連結,因為連結可能會失效,亦唔方便全文搜尋。抓成 Markdown 之後,可以放入 Obsidian、Notion、飛書文檔或者本地數據庫。

第三類係做運營、產品、增長研究嘅人。公眾號入面有好多行業觀察、案例拆解、活動復盤。手動複製太慢,直接抓取之後再做分類分析,會更接近一個可重用嘅資料流。


如果你成日收藏公眾號文章,呢個工具值得試嚇。

但係我唔建議將佢用成批量搬運工具。公眾號文章有版權,抓取都要尊重原作者同平台規則。更穩妥嘅使用方式,係保存自己有權限閲讀嘅文章,用嚟個人備份、學習同分析,唔好高頻批量請求,亦唔好未經授權二次發佈。

ok,我係阿星,

更多AI應用,我哋下期再見!


圖片

圖片


哈嘍,大家好

我是阿星!

你大概率遇到過這種情況。看到一篇不錯的公眾號文章,想讓 AI 幫你抓下來,最後也不完整。

所以我這次試了試阿一的skills,它拿到了標題、公眾號名稱、作者、發佈時間、正文純文本和 5 張圖片連結,最後自動生成了一個 .md 文件。👇🏻

Image


Image
Image

1、怎麼使用?

我先從阿一 AI 站文章裏找到對應資源頁,直接告訴codex安裝就夠了。

如果你已經把 Skill 包下載並解壓,可以這樣對智能體說:

  
請幫我使用這篇文章裏提到的「微信公眾號文章抓取 Skill」:
https://www.ayi001.xyz/articles/190

目標:抓取這篇公眾號文章:
https://mp.weixin.qq.com/s/xxxxx

請按下面步驟執行:

1. 先讀取上面阿一 AI 站文章,找到裏面提到的 Skill 資源頁面或下載地址。
2. 下載並解壓「微信公眾號文章抓取 Skill」。
3. 讀取解壓目錄裏的 SKILL.md 和 references/usage-guide.md。
4. 檢查本機是否具備 Node.js 環境,並安裝或確認 Puppeteer 依賴可用。
5. 如果 Puppeteer 報錯找不到 Chrome,請優先檢查本機是否安裝 Google Chrome;如果已安裝,請使用 PUPPETEER_EXECUTABLE_PATH 指向本機 Chrome 後重新運行。
6. 調用 Skill 裏的 scripts/save-markdown.js 或等價腳本抓
Image

下載包大約 9.5MB,

解壓後能看到這些核心文件:

  
- SKILL.md:告訴智能體什麼時候調用這個能力。
- README.md:項目說明。
- package.json:Node.js 依賴配置。
- scripts/scrape-wechat.js:核心抓取腳本,返回結構化 JSON。
...
Image

它的 SKILL.md 寫得比較直接:遇到 mp.weixin.qq.com 文章抓取任務時,調用 scripts/scrape-wechat.js,等待 #js_content 出現,再提取標題、作者、發佈時間、公眾號名稱、正文文本、正文 HTML、圖片連結和正文外鏈。

第一次運行時遇到了 Puppeteer 找不到 Chrome 的報錯。這是 Puppeteer 類工具的常見初始化問題,不是抓取邏輯失敗。解決方法有兩種:一種是按提示安裝 Puppeteer 需要的 Chrome;另一種是像我這樣,直接讓它使用本機已經安裝好的 Google Chrome

這次跑通了,耗時大約 7 秒,終端返回:已保存: 20260601_福布斯2024中國內地富豪榜:鍾睒睒連續4年成首富.md

Image

生成的 Markdown 裏包含文章標題、公眾號、作者、發佈時間、原文連結、正文,以及圖片列表。這說明它至少在這篇文章上是能工作的,而且輸出結構對後續整理很友好。

但是圖片一開始是會崩的,需要你指定一個圖片下載後上傳的位置,我是把它上傳到了飛書CLI裏

Image


Image

如果你的需求只是“把文章保存進知識庫”,save-markdown.js 就夠用。

如果你想把它接進自己的工作流,比如先抓 JSON,再做摘要、打標籤、生成選題庫,就可以直接用 scrape-wechat.js,因為它返回的是結構化 JSON。

2、到底是什麼東東

這個工具更接近一個 Skill 包。

  
簡單說,Skill 不是一個獨立 App,你可以把它理解成給智能體準備的一套“任務說明 + 腳本工具 + 使用文檔”。當你告訴智能體“調用這個 Skill 抓取公眾號文章”時,智能體會按 SKILL.md 裏的說明去運行腳本。

項目原理如下:


  

這個包裏的核心腳本是 Node.js 寫的,依賴 Puppeteer。Puppeteer 是一個瀏覽器自動化庫,官方文檔的說法是,它可以通過 Chrome DevTools Protocol 和 WebDriver BiDi 自動化 Chrome 與 Firefox。

換句話說,它不是假裝自己在抓網頁源碼,而是真的啓動一個瀏覽器,讓頁面先像正常用戶訪問一樣渲染出來,再去頁面裏找公眾號正文容器。


Image

3、適合誰用

我覺得它最適合三類人。

第一類是內容創作者。你經常需要保存同行文章、整理選題、分析標題和結構。

第二類是知識庫重度用戶。你看到好文章,不想只收藏連結,因為連結可能失效,也不方便全文搜索。抓成 Markdown 之後,可以放進 Obsidian、Notion、飛書文檔或者本地資料庫。

第三類是做運營、產品、增長研究的人。公眾號裏有很多行業觀察、案例拆解、活動覆盤。手動複製太慢,直接抓取後再做分類分析,會更接近一個可複用的資料流。


如果你經常收藏公眾號文章,這個工具值得試一下。

但我不建議把它用成批量搬運工具。公眾號文章有版權,抓取也要尊重原作者和平台規則。更穩妥的使用方式,是保存自己有權限閲讀的文章,用於個人備份、學習和分析,不要高頻批量請求,也不要未經授權二次發佈。

ok,我是阿星,

更多AI應用,我們下期再見!


圖片