你一定要知道的15個AI開源項目,裝完直接起飛!

作者:AI科技驛站
日期:2026年4月11日 下午3:00
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

AI 需要工具擴充能力,15個開源項目幫你打造六邊形戰士

整理版摘要

呢篇文章係作者分享佢玩AI編程嘅經驗。佢認為AI再勁都只係一個大腦,需要搭配工具先至發揮到真正實力。作者想解決嘅問題係:點樣令AI具備感知、行動、記憶等能力,而唔係剩係識得嘴炮。整體結論係:開源世界正轉向為AI設計,呢啲工具可以免費部署,令AI變成全能戰士。

作者介紹咗15個開源項目,分為眼睛(Firecrawl等)、手腳(Browser Use等)、閲讀器(MarkItDown等)、耳朵(whisper.cpp等)、記憶(Mem0等)同技能包(Anthropic Skills)等種類。佢強調,而家嘅開源項目唔單止考慮人類用戶體驗,仲要考慮AI調用嘅方便程度,例如輸出Markdown、提供命令行、暴露MCP Server。

尾聲,作者建議讀者收藏呢啲項目,慢慢玩。佢呢篇文章好適合想提升AI生產力嘅開發者,無論係個人使用定係團隊部署,都可以從中獲得啟發。

  • AI 必須配上工具先至有用,呢15個開源項目涵蓋感知、行動、記憶、技能等範疇。
  • Firecrawl 可以幫 AI 獲取最新網頁內容,轉成乾淨 Markdown,係 AI 嘅眼睛。
  • Browser Use 讓 AI 好似真人咁操控瀏覽器,自動填表單、點贊,係 AI 嘅手腳。
  • Mem0 俾 AI 持久記憶,記住用戶喜好同項目技術棧,唔會每次對話都斷片。
  • 開源項目趨勢係面向 AI 設計,輸出 Markdown、命令行同 MCP Server,方便 AI 調用。
整理重點

感知層:AI 嘅眼睛同耳朵

AI 要真正幫到手,首先要有能力感知世界。呢個部分嘅工具幫AI睇網頁、聽語音、讀文件、下載素材。

Firecrawl

Crawl4AI

MarkItDown

whisper.cpp

yt-dlp

  • FirecrawlCrawl4AI 係 AI 嘅眼睛,可以爬取網頁轉成乾淨 Markdown,支援 JavaScript 渲染。
  • MarkItDownMinerUDocling 係閲讀器,將 PDF、Word、Excel 等轉成 AI 易讀嘅格式。
  • whisper.cpp 係耳仔,純本地運行語音轉文字,唔使聯網。
  • yt-dlp 同 FFmpeg 幫 AI 下載同處理音視頻素材。
整理重點

行動層:AI 嘅手腳同遙控器

除咗睇同聽,AI 仲要鬱手鬱腳。呢啲工具令 AI 可以操控瀏覽器、操作網站、調用外部服務。

Browser Use

Playwright

OpenCLI

Composio

  1. 1 Browser Use:基於 Python 嘅瀏覽器自動化框架,支援多標籤頁同自動規劃。
  2. 2 Playwright:微軟開源,已成 AI 操控瀏覽器嘅事實標準。
  3. 3 OpenCLI:將網站變成命令行,輸入一行命令就查科技熱點、B站熱門。
  4. 4 Composio:預集成 1000+ 外部服務,發郵件、創 Issue 只需調一個函數。
整理重點

記憶層:AI 嘅備忘錄同技能包

AI 冇記憶係最大痛點之一。Mem0Anthropic Skills 分別解決長期記憶同專業知識嘅問題。

Mem0

Anthropic Skills

  • Mem0:持久記憶層,記住用戶喜好同技術棧。
  • Anthropic Skills:官方技能倉庫,提供做 PPT、寫文檔、代碼審查等專業指令。
  • vercel-labs/skills:一行命令安裝多種技能包。
整理重點

生態趨勢:開源轉向 AI 友好

呢啲項目反映出開源世界嘅大趨勢:越來越多人從設計之初就考慮 AI 點樣用。

輸出 Markdown

提供命令行

暴露 MCP Server

直接給 AI 準備技能包

  • 以前開源目標係人類開發者,而家 AI 都係用戶。
  • 輸出 Markdown 方便 AI 閲讀,命令行方便 AI 調用。
  • MCP Server 標準化 AI 接入方式。


姐妹們,我又嚟幫你哋慳時間啦。

呢排我玩 AI 編程最大嘅感受係:AI 再勁,佢都係一個大腦

你要俾佢裝對眼、睇網頁,裝手腳、操作瀏覽器,裝對耳、聽得明語音...

如果唔係佢就係一個淨係識得吹水嘅聊天機器。

今日將收埋落箱底嘅寶貝拎出嚟:AI 最鍾意嘅 15 個開源項目

裝咗呢啲,你嘅 AI 即刻升級做六邊形戰士。


1. AI 嘅眼 - 睇得明互聯網

AI 最大嘅痛點:佢攞唔到最新嘅網頁內容

你想叫佢幫你總結某個網站,或者學習某個開源項目嘅文檔,一個冇聯網嘅 AI 一係話你知“訪問唔到”,一係俾一大堆過時嘅垃圾資訊你。

Firecrawl 就係用嚟解決呢個問題嘅。

搜尋網頁、抓取單頁、爬成個網站
轉做乾淨嘅 Markdown 或者 JSON
自帶 JavaScript 渲染同反爬蟲處理
支援 Cursor 、 Claude Code 直接接入

開源: https://github.com/firecrawl/firecrawl

類似嘅仲有 Crawl4AI,對大模型友好嘅爬蟲工具,都可以直接接。


2. AI 嘅手腳 - 操控瀏覽器

唔止想叫 AI 睇網頁,仲想叫佢鬱手?

填表單、批量點讚收藏、後台系統操作... Browser Use 瞭解一下。

係基於 Python 嘅瀏覽器自動化框架,令 AI 好似真人咁操控瀏覽器。

支援點擊、輸入、滾動
多標籤頁操作
自動規劃執行步驟

你同佢講“幫我打開魚皮嘅編程導航網站,揾到 Java 學習路線並截圖”,佢就可以一步步搞掂。

開源: https://github.com/browser-use/browser-use

底層係用微軟嘅 Playwright,呢樣嘢已經成為 AI 操控瀏覽器嘅事實標準。

開源: https://github.com/microsoft/playwright


3. AI 嘅遙控器 - 將一切變成命令行

AI 天生擅長打命令,但你要佢操作 B 站、知乎、 Twitter... 佢就束手無策。

OpenCLI 勁嘅地方在於:可以將任意網站變成命令行接口!

查科技熱點
B 站熱門
知乎熱榜
Twitter 、 Reddit...

打一行命令就搞掂,重用瀏覽器登錄狀態,密碼唔使交出去。

內置幾十個適配器,就好似俾 AI 裝咗個萬能遙控器。

開源: https://github.com/jackwener/opencli


4. AI 嘅閲讀器 - 讀得明各種文件

PDF 、 Word 、 Excel 、 PPT... AI 預設只讀到純文字,你掉個 PDF 俾佢,多數情況下讀唔到乜嘢。

MarkItDown 係微軟開源嘅萬用格式轉換器。

PDF 、 Word 、 Excel 、 PPT
圖片、音頻、 HTML
甚至 YouTube 影片

一次過全部轉做 Markdown 。

安裝就一行命令,仲支援直接接入 AI 編程工具。

開源: https://github.com/microsoft/markitdown

如果遇到排版複雜嘅 PDF ,轉唔到出嚟點算?

試試 MinerU,專攻 PDF 深度解析,可以將公式轉 LaTeX 、表格轉 HTML 、自動提取圖片。

開源: https://github.com/opendatalab/MinerU

或者 Docling, IBM 開源嘅,對複雜文檔嘅版面理解更加強。

開源: https://github.com/docling-project/docling


5. AI 嘅耳 - 聽得明語音

叫 AI 幫你整理會議錄音?首先要將語音轉做文字。

whisper.cpp 係 OpenAI Whisper 嘅 C/C++ 移植版。

純本地運行, CPU 都跑得到
唔需要 GPU ,唔需要聯網
注重私隱嘅人會好開心
支援多語言,自動偵測語種

開源: https://github.com/ggml-org/whisper.cpp


6. AI 嘅下載器 - 獲取素材

叫 AI 總結影片?首先要將素材下載落嚟。

問題係好多平台嘅影片下載唔到...

yt-dlp 呢個神級工具,支援超過一千個網站:

YouTube 、 B 站、 TikTok 、 Twitter...
你想得到嘅基本上都有

純命令行, AI 叫起上嚟超級順滑。

開源: https://github.com/yt-dlp/yt-dlp


7. AI 嘅剪輯師 - 處理音視頻

下載完仲要剪輯、轉碼、加字幕...

FFmpeg 瞭解一下。

呢樣嘢有可能係電腦歷史上最重要嘅開源項目之一。

轉碼、裁剪、拼接
加字幕、提取音頻
轉換格式

一條命令就搞掂。

參數多到人類頭皮發麻,但 AI 記參數就最擅長啦!

開源: https://github.com/FFmpeg/FFmpeg


8. AI 嘅百寶箱 - 調用外部服務

想叫 AI 發電郵、開 GitHub Issue 、更新 Notion 文檔...

每個都要對接唔同嘅 API ,麻煩到死。

Composio 幫 AI 搞掂呢啲麻煩嘢。

預先整合咗 1000+ 外部服務
OAuth 認證、 API 調用、錯誤重試全部處理好
AI 只需調用一個函數

開源: https://github.com/ComposioHQ/composio


9. AI 嘅備忘錄 - 記住你係邊個

同 AI 傾咗好幾輪,一開新對話就全部唔記得...

呢個係因為 AI 冇記憶

Mem0 俾 AI 裝上持久記憶層。

自動提取關鍵資訊儲存到數據庫
下一次對話自動檢索返出嚟
記住你鍾意用邊種編程語言
記住你個項目用咗邊啲技術棧

三層記憶管理:用戶級、對話級、 Agent 級。

開源: https://github.com/mem0ai/mem0


10. AI 嘅技能包 - Agent Skills

頭先都係俾 AI 某啲能力,但 Agent Skills 直接俾 AI 專業知識同做嘢方法。

anthropics/skills 係 Anthropic 官方嘅技能倉庫。

裏面唔係程式碼,而係一份份教 AI 點樣做嘢嘅指令。

點樣做 PPT
點樣寫技術文檔
點樣做程式碼審查

跨工具開放標準, 40+ AI 編程工具都支援。

開源: https://github.com/anthropics/skills

想快啲安裝?用 vercel-labs/skills,一行命令搞掂。

開源: https://github.com/vercel-labs/skills


最後幾句

睇完呢啲項目,你會發現開源世界正在發生變化。

以前嘅開源目標係人類開發者;而家越嚟越多嘅項目,由設計之初就係為 AI 而設。

輸出 Markdown 方便 AI 閲讀
提供命令行方便 AI 調用
暴露 MCP Server 方便 AI 接入
直接俾 AI 準備技能包

以後做開源,可能唔止要考慮“人類用戶體驗點樣”,仲要諗“AI 叫起上嚟方唔方便”。

呢啲項目都係免費開源嘅,可以本地部署。

建議收藏,慢慢玩


有幫助嘅話按個讚先走?



姐妹們,我又來給你們省時間了。

這段時間我玩 AI 編程最大的感受是:AI 再 nb ,它也就是個大腦

你得給它裝眼睛、看網頁,裝手腳、操作瀏覽器,裝耳朵、聽懂語音...

要不它就是個只會嘴炮的聊天機器。

今天把壓箱底的寶貝拿出來:AI 最喜歡的 15 個開源項目

裝上這些,你的 AI 立地升級成六邊形戰士。


1. AI 的眼睛 - 看懂互聯網

AI 最大的痛:它,獲取不到最新的網頁內容

你想讓它幫你總結某個網站、或者學習某個開源項目的文檔,一個沒聯網的 AI 要麼告訴你“訪問不了”,要麼給你一堆過時的垃圾信息。

Firecrawl 就是來解決這個問題的。

搜索網頁、抓取單頁、爬整站
轉成乾淨的 Markdown 或 JSON
自帶 JavaScript 渲染和反爬處理
支持 Cursor 、 Claude Code 直接接入

開源: https://github.com/firecrawl/firecrawl

類似的還有 Crawl4AI,對大模型友好的爬蟲工具,也能直接接。


2. AI 的手腳 - 操控瀏覽器

不止想讓 AI 看網頁,還想讓它動手?

填表單、批量點贊收藏、後台系統操作... Browser Use 瞭解一下。

基於 Python 的瀏覽器自動化框架,讓 AI 像真人一樣操控瀏覽器。

支持點擊、輸入、滾動
多標籤頁操作
自動規劃執行步驟

你跟它說“幫我打開魚皮的編程導航網站,找到 Java 學習路線並截圖”,它就能一步步搞定。

開源: https://github.com/browser-use/browser-use

底層用的是微軟的 Playwright,這玩意兒已經成了 AI 操控瀏覽器的事實標準。

開源: https://github.com/microsoft/playwright


3. AI 的遙控器 - 把一切變成命令行

AI 天然擅長敲命令,但你讓它操作 B 站、知乎、 Twitter... 它就抓瞎了。

OpenCLI 牛批的地方在於:能把任意網站變成命令行接口!

查科技熱點
B 站熱門
知乎熱榜
Twitter 、 Reddit...

輸入一行命令就搞定,複用瀏覽器登錄狀態,密碼不用交出去。

內置幾十個適配器,就像給 AI 裝了個萬能遙控器。

開源: https://github.com/jackwener/opencli


4. AI 的閲讀器 - 讀懂各種文件

PDF 、 Word 、 Excel 、 PPT... AI 默認只能讀純文本,你丟個 PDF 給它,大概率讀不出個屁。

MarkItDown 是微軟開源的萬能格式轉換器。

PDF 、 Word 、 Excel 、 PPT
圖片、音頻、 HTML
甚至 YouTube 視頻

一把梭全轉成 Markdown 。

安裝就一行命令,還支持直接接入 AI 編程工具。

開源: https://github.com/microsoft/markitdown

如果遇到排版複雜的 PDF ,轉不出來怎麼辦?

試試 MinerU,專攻 PDF 深度解析,能把公式轉 LaTeX 、表格轉 HTML 、自動提取圖片。

開源: https://github.com/opendatalab/MinerU

或者 Docling, IBM 開源的,複雜文檔的版面理解更強。

開源: https://github.com/docling-project/docling


5. AI 的耳朵 - 聽懂語音

讓 AI 幫你整理會議錄音?先得把語音轉成文字。

whisper.cpp 是 OpenAI Whisper 的 C/C++ 移植版。

純本地運行, CPU 也能跑
不需要 GPU ,不需要聯網
隱私黨狂喜
支持多語言,自動檢測語種

開源: https://github.com/ggml-org/whisper.cpp


6. AI 的下載器 - 獲取素材

讓 AI 總結視���?先把素材下下來。

問題是很多平台的視頻下不了...

yt-dlp 這個神級工具,支持上千個網站:

YouTube 、 B 站、 TikTok 、 Twitter...
你能想到的基本都有

純命令行, AI 調用起來超級絲滑。

開源: https://github.com/yt-dlp/yt-dlp


7. AI 的剪輯師 - 處理音視頻

下載完了還得剪輯、轉碼、加字幕...

FFmpeg 瞭解一下。

這玩意兒可能是計算機歷史上最重要的開源項目之一。

轉碼、裁剪、拼接
加字幕、提取音頻
轉換格式

一條命令就搞定。

參數多到人類頭皮發麻,但 AI 記參數可太擅長了!

開源: https://github.com/FFmpeg/FFmpeg


8. AI 的百寶箱 - 調用外部服務

想讓 AI 發郵件、創建 GitHub Issue 、更新 Notion 文檔...

每個都要對接不同的 API ,麻煩死。

Composio 幫 AI 搞定這些髒活累活。

預集成 1000+ 外部服務
OAuth 認證、 API 調用、錯誤重試全搞定
AI 只需要調一個函數

開源: https://github.com/ComposioHQ/composio


9. AI 的備忘錄 - 記住你是誰

跟 AI 聊了好幾輪,一開新對話全忘了...

這是因為 AI 沒有記憶

Mem0 給 AI 裝上持久記憶層。

自動提取關鍵信息存到數據庫
下次對話自動檢索出來
記住你喜歡用什麼編程語言
記住你的項目用了什麼技術棧

三層記憶管理:用戶級、會話級、 Agent 級。

開源: https://github.com/mem0ai/mem0


10. AI 的技能包 - Agent Skills

前面都是給 AI 某種能力,但 Agent Skills 直接給 AI 專業知識和做事方法。

anthropics/skills 是 Anthropic 官方的技能倉庫。

裏面不是代碼,是一份份教 AI 怎麼做事的指令。

怎麼做 PPT
怎麼寫技術文檔
怎麼代碼審查

跨工具開放標準, 40+ AI 編程工具都支持。

開源: https://github.com/anthropics/skills

想快速安裝?用 vercel-labs/skills,一行命令搞定。

開源: https://github.com/vercel-labs/skills


最後幾句

看完這些項目,你會發現開源世界正在發生變化。

以前的開源目標是人類開發者;現在越來越多的項目,從設計之初就是給 AI 用的。

輸出 Markdown 方便 AI 閲讀
提供命令行方便 AI 調用
暴露 MCP Server 方便 AI 接入
直接給 AI 準備技能包

以後做開源,可能不光要考慮“人類用戶體驗怎麼樣”,還得想想“AI 調用起來方便不方便”。

這些項目都是免費開源的,可以本地部署。

建議收藏,慢慢玩


有幫助的點個贊再走?