codex抓取公眾號skill：正文、圖片、連結，能直接存成 Markdown

作者：阿星AI工作室

日期：2026年6月1日下午9:47

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

阿星介紹用Codex安裝公眾號文章抓取Skill，自動將文章存成Markdown，解決AI抓唔完整嘅問題。

整理版摘要

阿星分享咗佢用Codex安裝一個公眾號文章抓取Skill嘅經驗。佢發現平時想叫AI幫手抓公眾號文章，成日都唔完整，所以試咗阿一AI站嘅Skills，成功抓到標題、作者、發佈時間、正文同5張圖片連結，仲自動生成咗一個.md檔案。呢篇文章主要係教讀者點樣用Codex安裝同執行呢個Skill，包括下載、解壓、讀取SKILL.md、檢查Node.js環境同Puppeteer依賴，最後用腳本抓取文章。阿星仲提到第一次運行時遇到Puppeteer揾唔到Chrome嘅報錯，但用本機Chrome就解決咗，成個過程大約7秒。

呢個Skill包嘅核心係一個Node.js腳本，依賴Puppeteer嚟模擬瀏覽器渲染，再提取公眾號正文容器嘅內容。輸出可以係Markdown檔案或者結構化JSON，適合唔同流程。阿星特別強調，如果只係想保存文章入知識庫，用save-markdown.js就夠；如果想做後續分析，可以直用scrape-wechat.js拎JSON。

最後，阿星話呢個工具最適合內容創作者、知識庫重度用戶同做運營研究嘅人。佢提醒大家，抓取文章要尊重版權，唔好高頻批量請求或者未經授權二次發佈。建議用嚟個人備份同學習，咁樣先用得穩妥。

Codex可以通過安裝Skill完整抓取公眾號文章，生成結構化Markdown。
方法：下載Skill包後，按SKILL.md指示執行腳本，需注意Puppeteer嘅Chrome依賴問題。
差異：相比直接叫AI抓取，呢個Skill包用Puppeteer模擬瀏覽器，抓取更完整，輸出結構化。
啟發：Skill包嘅設計令智能體可以按說明執行複雜任務，係一種可複用嘅工作流模式。
可行動點：如果你經常有保存公眾號文章嘅需要，可以試下安裝呢個Skill，但記得尊重版權，用於個人學習。

值得記低

連結 ayi001.xyz

微信公眾號文章抓取 Skill 資源頁

包含下載地址同使用說明

結構示例

內容結構

內容結構 text

請幫我使用這篇文章裏提到的「微信公眾號文章抓取 Skill」：https://www.ayi001.xyz/articles/190目標：抓取這篇公眾號文章：https://mp.weixin.qq.com/s/xxxxx請按下面步驟執行：
1. 先讀取上面阿一 AI 站文章，找到裏面提到的 Skill 資源頁面或下載地址。
2. 下載並解壓「微信公眾號文章抓取 Skill」。
3. 讀取解壓目錄裏的
SKILL.md 和 references/usage-guide.md。
4. 檢查本機是否具備 Node.js 環境，並安裝或確認 Puppeteer 依賴可用。
5. 如果 Puppeteer 報錯找不到 Chrome，請優先檢查本機是否安裝 Google Chrome；如果已安裝，請使用 PUPPETEER_EXECUTABLE_PATH 指向本機 Chrome 後重新運行。
6. 調用 Skill 裏的 scripts/save-markdown.js 或等價腳本抓

整理重點

安裝同使用方法

阿星先從阿一AI站文章揾到對應資源頁，直接同Codex講安裝就得。如果你已經有Skill包，可以叫智能體跟住步驟做：

1 先讀取阿一AI站文章，揾到Skill資源頁面或下載地址。
2 下載並解壓「微信公眾號文章抓取 Skill」。
3 讀取解壓目錄嘅 SKILL.md 同 references/usage-guide.md。
4 檢查本機是否具備 Node.js 環境，並安裝或確認 Puppeteer 依賴可用。
5 如果 Puppeteer 報錯揾唔到 Chrome，優先檢查本機是否安裝 Google Chrome；如果已安裝，用 PUPPETEER_EXECUTABLE_PATH 指向本機 Chrome 後重新運行。
6 調用 Skill 入面嘅 scripts/save-markdown.js 或等價腳本抓取文章。

Puppeteer 揾唔到 Chrome 係常見初始化問題，唔係抓取邏輯失敗。

阿星第一次運行遇到Puppeteer報錯，但用本機Chrome就解決咗，全程約7秒，終端顯示「已保存: 20260601_福布斯2024中國內地富豪榜：鍾睒睒連續4年成首富.md」。

整理重點

工具原理同能力

呢個工具更接近一個Skill包，唔係獨立App。你可以理解成俾智能體準備嘅一套「任務說明 + 腳本工具 + 使用文檔」。當你叫智能體「調用呢個Skill抓取公眾號文章」，佢會按SKILL.md嘅說明去運行腳本。

SKILL.md：話俾智能體知幾時調用呢個能力。
README.md：項目說明。
package.json：Node.js依賴配置。
scripts/scrape-wechat.js：核心抓取腳本，返回結構化JSON。
scripts/save-markdown.js：直接生成Markdown檔案。

scrape-wechat.js 輸出結構化JSON，適合接入工作流做摘要、打標籤。

save-markdown.js 適合只係想將文章保存入知識庫嘅用戶。

整理重點

適合邊啲人同注意事項

阿星覺得呢個工具最適合三類人：內容創作者、知識庫重度用戶、做運營產品增長研究嘅人。佢哋成日需要保存同行文章、整理選題、分析結構，或者將文章放入Obsidian、Notion、飛書文檔。

手動複製太慢，直接抓取再做分類分析，更接近可複用嘅資料流。

唔建議用成批量搬運工具，要尊重版權同平台規則。

更穩妥嘅用法係保存自己有權限睇嘅文章，用嚟個人備份、學習同分析。唔好高頻批量請求，亦唔好未經授權二次發佈。阿星話：「ok，我是阿星，更多AI應用，我們下期再見！」

哈佬，大家好

我係阿星！

你多數都遇過呢種情況。見到一篇幾好嘅公眾號文章，想叫 AI 幫你拉落嚟，最後都唔完整。

所以我今次試咗阿一嘅skills，佢拎到標題、公眾號名、作者、發佈時間、正文純文字同 5 張圖嘅連結，最後自動生成咗一個 .md 檔案。👇🏻

1、點樣用？

我先係阿一 AI 站嘅文章入面揾到對應嘅資源頁，直接同codex講安裝就得。

如果你已經將 Skill 包下載同解壓縮，可以咁樣同個智能體講：

請幫我使用這篇文章裏提到的「微信公眾號文章抓取 Skill」：
https://www.ayi001.xyz/articles/190

目標：抓取這篇公眾號文章：
https://mp.weixin.qq.com/s/xxxxx

請按下面步驟執行：

1. 先讀取上面阿一 AI 站文章，找到裏面提到的 Skill 資源頁面或下載地址。
2. 下載並解壓「微信公眾號文章抓取 Skill」。
3. 讀取解壓目錄裏的 SKILL.md 和 references/usage-guide.md。
4. 檢查本機是否具備 Node.js 環境，並安裝或確認 Puppeteer 依賴可用。
5. 如果 Puppeteer 報錯找不到 Chrome，請優先檢查本機是否安裝 Google Chrome；如果已安裝，請使用 PUPPETEER_EXECUTABLE_PATH 指向本機 Chrome 後重新運行。
6. 調用 Skill 裏的 scripts/save-markdown.js 或等價腳本抓

下載包大約 9.5MB，

解壓縮之後會見到呢啲核心檔案：

- SKILL.md：告訴智能體什麼時候調用這個能力。
- README.md：項目說明。
- package.json：Node.js 依賴配置。
- scripts/scrape-wechat.js：核心抓取腳本，返回結構化 JSON。
...

佢嘅 SKILL.md 寫得幾直接：遇到 mp.weixin.qq.com 文章抓取任務嗰陣，調用 scripts/scrape-wechat.js，等 #js_content 出現，再提取標題、作者、發佈時間、公眾號名、正文文字、正文 HTML、圖片連結同正文外鏈。

第一次運行嗰陣遇到 Puppeteer 揾唔到 Chrome 嘅報錯。呢個係 Puppeteer 呢類工具嘅常見初始化問題，唔係抓取邏輯失敗。解決方法有兩個：一個係跟提示安裝 Puppeteer 需要嘅 Chrome；另一個係好似我咁，直接叫佢用本地已經裝好嘅 Google Chrome

今次行得通，用咗大約 7 秒，終端機顯示：已保存: 20260601_福布斯2024中國內地富豪榜：鍾睒睒連續4年成首富.md

生成嘅 Markdown 入麪包含文章標題、公眾號、作者、發佈時間、原文連結、正文，以及圖片列表。呢個說明佢至少喺呢篇文章上係 work 嘅，而且輸出結構對後續整理好 friendly。

但係圖片一開始係會崩嘅，需要你指定一個圖片下載之後上傳嘅位置，我就將佢上傳咗去飛書CLI度

如果你嘅需求只係「將文章保存入知識庫」，save-markdown.js 就夠用。

如果你想將佢接入自己嘅工作流，例如先抓 JSON，再做摘要、打標籤、生成選題庫，就可以直接用 scrape-wechat.js，因為佢返回嘅係結構化 JSON。

2、到底係咩嚟㗎

呢個工具更接近一個 Skill 包。

簡單說，Skill 不是一個獨立 App，你可以把它理解成給智能體準備的一套“任務說明 + 腳本工具 + 使用文檔”。當你告訴智能體“調用這個 Skill 抓取公眾號文章”時，智能體會按 SKILL.md 裏的說明去運行腳本。

項目原理如下：


這個包裏的核心腳本是 Node.js 寫的，依賴 Puppeteer。Puppeteer 是一個瀏覽器自動化庫，官方文檔的說法是，它可以通過 Chrome DevTools Protocol 和 WebDriver BiDi 自動化 Chrome 與 Firefox。

換句話說，它不是假裝自己在抓網頁源碼，而是真的啓動一個瀏覽器，讓頁面先像正常用戶訪問一樣渲染出來，再去頁面裏找公眾號正文容器。

3、適合邊個用

我覺得佢最適合三類人。

第一類係內容創作者。你成日需要保存同行嘅文章、整理選題、分析標題同結構。

第二類係知識庫重度用戶。你見到好文章，唔想只係收藏連結，因為連結可能會失效，亦唔方便全文搜尋。抓成 Markdown 之後，可以放入 Obsidian、Notion、飛書文檔或者本地數據庫。

第三類係做運營、產品、增長研究嘅人。公眾號入面有好多行業觀察、案例拆解、活動復盤。手動複製太慢，直接抓取之後再做分類分析，會更接近一個可重用嘅資料流。

如果你成日收藏公眾號文章，呢個工具值得試嚇。

但係我唔建議將佢用成批量搬運工具。公眾號文章有版權，抓取都要尊重原作者同平台規則。更穩妥嘅使用方式，係保存自己有權限閲讀嘅文章，用嚟個人備份、學習同分析，唔好高頻批量請求，亦唔好未經授權二次發佈。

ok，我係阿星，

更多AI應用，我哋下期再見！

哈嘍，大家好

我是阿星！

你大概率遇到過這種情況。看到一篇不錯的公眾號文章，想讓 AI 幫你抓下來，最後也不完整。

所以我這次試了試阿一的skills，它拿到了標題、公眾號名稱、作者、發佈時間、正文純文本和 5 張圖片連結，最後自動生成了一個 .md 文件。👇🏻

1、怎麼使用？

我先從阿一 AI 站文章裏找到對應資源頁，直接告訴codex安裝就夠了。

如果你已經把 Skill 包下載並解壓，可以這樣對智能體說：

請幫我使用這篇文章裏提到的「微信公眾號文章抓取 Skill」：
https://www.ayi001.xyz/articles/190

目標：抓取這篇公眾號文章：
https://mp.weixin.qq.com/s/xxxxx

請按下面步驟執行：

1. 先讀取上面阿一 AI 站文章，找到裏面提到的 Skill 資源頁面或下載地址。
2. 下載並解壓「微信公眾號文章抓取 Skill」。
3. 讀取解壓目錄裏的 SKILL.md 和 references/usage-guide.md。
4. 檢查本機是否具備 Node.js 環境，並安裝或確認 Puppeteer 依賴可用。
5. 如果 Puppeteer 報錯找不到 Chrome，請優先檢查本機是否安裝 Google Chrome；如果已安裝，請使用 PUPPETEER_EXECUTABLE_PATH 指向本機 Chrome 後重新運行。
6. 調用 Skill 裏的 scripts/save-markdown.js 或等價腳本抓

下載包大約 9.5MB，

解壓後能看到這些核心文件：

- SKILL.md：告訴智能體什麼時候調用這個能力。
- README.md：項目說明。
- package.json：Node.js 依賴配置。
- scripts/scrape-wechat.js：核心抓取腳本，返回結構化 JSON。
...

它的 SKILL.md 寫得比較直接：遇到 mp.weixin.qq.com 文章抓取任務時，調用 scripts/scrape-wechat.js，等待 #js_content 出現，再提取標題、作者、發佈時間、公眾號名稱、正文文本、正文 HTML、圖片連結和正文外鏈。

第一次運行時遇到了 Puppeteer 找不到 Chrome 的報錯。這是 Puppeteer 類工具的常見初始化問題，不是抓取邏輯失敗。解決方法有兩種：一種是按提示安裝 Puppeteer 需要的 Chrome；另一種是像我這樣，直接讓它使用本機已經安裝好的 Google Chrome

這次跑通了，耗時大約 7 秒，終端返回：已保存: 20260601_福布斯2024中國內地富豪榜：鍾睒睒連續4年成首富.md

生成的 Markdown 裏包含文章標題、公眾號、作者、發佈時間、原文連結、正文，以及圖片列表。這說明它至少在這篇文章上是能工作的，而且輸出結構對後續整理很友好。

但是圖片一開始是會崩的，需要你指定一個圖片下載後上傳的位置，我是把它上傳到了飛書CLI裏

如果你的需求只是“把文章保存進知識庫”，save-markdown.js 就夠用。

如果你想把它接進自己的工作流，比如先抓 JSON，再做摘要、打標籤、生成選題庫，就可以直接用 scrape-wechat.js，因為它返回的是結構化 JSON。

2、到底是什麼東東

這個工具更接近一個 Skill 包。

簡單說，Skill 不是一個獨立 App，你可以把它理解成給智能體準備的一套“任務說明 + 腳本工具 + 使用文檔”。當你告訴智能體“調用這個 Skill 抓取公眾號文章”時，智能體會按 SKILL.md 裏的說明去運行腳本。

項目原理如下：


這個包裏的核心腳本是 Node.js 寫的，依賴 Puppeteer。Puppeteer 是一個瀏覽器自動化庫，官方文檔的說法是，它可以通過 Chrome DevTools Protocol 和 WebDriver BiDi 自動化 Chrome 與 Firefox。

換句話說，它不是假裝自己在抓網頁源碼，而是真的啓動一個瀏覽器，讓頁面先像正常用戶訪問一樣渲染出來，再去頁面裏找公眾號正文容器。

3、適合誰用

我覺得它最適合三類人。

第一類是內容創作者。你經常需要保存同行文章、整理選題、分析標題和結構。

第二類是知識庫重度用戶。你看到好文章，不想只收藏連結，因為連結可能失效，也不方便全文搜索。抓成 Markdown 之後，可以放進 Obsidian、Notion、飛書文檔或者本地資料庫。

第三類是做運營、產品、增長研究的人。公眾號裏有很多行業觀察、案例拆解、活動覆盤。手動複製太慢，直接抓取後再做分類分析，會更接近一個可複用的資料流。

如果你經常收藏公眾號文章，這個工具值得試一下。

但我不建議把它用成批量搬運工具。公眾號文章有版權，抓取也要尊重原作者和平台規則。更穩妥的使用方式，是保存自己有權限閲讀的文章，用於個人備份、學習和分析，不要高頻批量請求，也不要未經授權二次發佈。

ok，我是阿星，

更多AI應用，我們下期再見！