你一定要知道的15個AI開源項目,裝完直接起飛!
整理版優先睇
AI 需要工具擴充能力,15個開源項目幫你打造六邊形戰士
呢篇文章係作者分享佢玩AI編程嘅經驗。佢認為AI再勁都只係一個大腦,需要搭配工具先至發揮到真正實力。作者想解決嘅問題係:點樣令AI具備感知、行動、記憶等能力,而唔係剩係識得嘴炮。整體結論係:開源世界正轉向為AI設計,呢啲工具可以免費部署,令AI變成全能戰士。
作者介紹咗15個開源項目,分為眼睛(Firecrawl等)、手腳(Browser Use等)、閲讀器(MarkItDown等)、耳朵(whisper.cpp等)、記憶(Mem0等)同技能包(Anthropic Skills)等種類。佢強調,而家嘅開源項目唔單止考慮人類用戶體驗,仲要考慮AI調用嘅方便程度,例如輸出Markdown、提供命令行、暴露MCP Server。
尾聲,作者建議讀者收藏呢啲項目,慢慢玩。佢呢篇文章好適合想提升AI生產力嘅開發者,無論係個人使用定係團隊部署,都可以從中獲得啟發。
- AI 必須配上工具先至有用,呢15個開源項目涵蓋感知、行動、記憶、技能等範疇。
- Firecrawl 可以幫 AI 獲取最新網頁內容,轉成乾淨 Markdown,係 AI 嘅眼睛。
- Browser Use 讓 AI 好似真人咁操控瀏覽器,自動填表單、點贊,係 AI 嘅手腳。
- Mem0 俾 AI 持久記憶,記住用戶喜好同項目技術棧,唔會每次對話都斷片。
- 開源項目趨勢係面向 AI 設計,輸出 Markdown、命令行同 MCP Server,方便 AI 調用。
感知層:AI 嘅眼睛同耳朵
AI 要真正幫到手,首先要有能力感知世界。呢個部分嘅工具幫AI睇網頁、聽語音、讀文件、下載素材。
Firecrawl
Crawl4AI
MarkItDown
whisper.cpp
yt-dlp
- Firecrawl 同 Crawl4AI 係 AI 嘅眼睛,可以爬取網頁轉成乾淨 Markdown,支援 JavaScript 渲染。
- MarkItDown、MinerU 同 Docling 係閲讀器,將 PDF、Word、Excel 等轉成 AI 易讀嘅格式。
- whisper.cpp 係耳仔,純本地運行語音轉文字,唔使聯網。
- yt-dlp 同 FFmpeg 幫 AI 下載同處理音視頻素材。
行動層:AI 嘅手腳同遙控器
除咗睇同聽,AI 仲要鬱手鬱腳。呢啲工具令 AI 可以操控瀏覽器、操作網站、調用外部服務。
Browser Use
Playwright
OpenCLI
Composio
- 1 Browser Use:基於 Python 嘅瀏覽器自動化框架,支援多標籤頁同自動規劃。
- 2 Playwright:微軟開源,已成 AI 操控瀏覽器嘅事實標準。
- 3 OpenCLI:將網站變成命令行,輸入一行命令就查科技熱點、B站熱門。
- 4 Composio:預集成 1000+ 外部服務,發郵件、創 Issue 只需調一個函數。
記憶層:AI 嘅備忘錄同技能包
AI 冇記憶係最大痛點之一。Mem0 同 Anthropic Skills 分別解決長期記憶同專業知識嘅問題。
Mem0
Anthropic Skills
- Mem0:持久記憶層,記住用戶喜好同技術棧。
- Anthropic Skills:官方技能倉庫,提供做 PPT、寫文檔、代碼審查等專業指令。
- vercel-labs/skills:一行命令安裝多種技能包。
生態趨勢:開源轉向 AI 友好
呢啲項目反映出開源世界嘅大趨勢:越來越多人從設計之初就考慮 AI 點樣用。
輸出 Markdown
提供命令行
暴露 MCP Server
直接給 AI 準備技能包
- 以前開源目標係人類開發者,而家 AI 都係用戶。
- 輸出 Markdown 方便 AI 閲讀,命令行方便 AI 調用。
- MCP Server 標準化 AI 接入方式。
姐妹們,我又嚟幫你哋慳時間啦。
呢排我玩 AI 編程最大嘅感受係:AI 再勁,佢都係一個大腦。
你要俾佢裝對眼、睇網頁,裝手腳、操作瀏覽器,裝對耳、聽得明語音...
如果唔係佢就係一個淨係識得吹水嘅聊天機器。
今日將收埋落箱底嘅寶貝拎出嚟:AI 最鍾意嘅 15 個開源項目。
裝咗呢啲,你嘅 AI 即刻升級做六邊形戰士。
1. AI 嘅眼 - 睇得明互聯網
AI 最大嘅痛點:佢攞唔到最新嘅網頁內容。
你想叫佢幫你總結某個網站,或者學習某個開源項目嘅文檔,一個冇聯網嘅 AI 一係話你知“訪問唔到”,一係俾一大堆過時嘅垃圾資訊你。
Firecrawl 就係用嚟解決呢個問題嘅。
開源: https://github.com/firecrawl/firecrawl
類似嘅仲有 Crawl4AI,對大模型友好嘅爬蟲工具,都可以直接接。
2. AI 嘅手腳 - 操控瀏覽器
唔止想叫 AI 睇網頁,仲想叫佢鬱手?
填表單、批量點讚收藏、後台系統操作... Browser Use 瞭解一下。
係基於 Python 嘅瀏覽器自動化框架,令 AI 好似真人咁操控瀏覽器。
你同佢講“幫我打開魚皮嘅編程導航網站,揾到 Java 學習路線並截圖”,佢就可以一步步搞掂。
開源: https://github.com/browser-use/browser-use
底層係用微軟嘅 Playwright,呢樣嘢已經成為 AI 操控瀏覽器嘅事實標準。
開源: https://github.com/microsoft/playwright
3. AI 嘅遙控器 - 將一切變成命令行
AI 天生擅長打命令,但你要佢操作 B 站、知乎、 Twitter... 佢就束手無策。
OpenCLI 勁嘅地方在於:可以將任意網站變成命令行接口!
打一行命令就搞掂,重用瀏覽器登錄狀態,密碼唔使交出去。
內置幾十個適配器,就好似俾 AI 裝咗個萬能遙控器。
開源: https://github.com/jackwener/opencli
4. AI 嘅閲讀器 - 讀得明各種文件
PDF 、 Word 、 Excel 、 PPT... AI 預設只讀到純文字,你掉個 PDF 俾佢,多數情況下讀唔到乜嘢。
MarkItDown 係微軟開源嘅萬用格式轉換器。
一次過全部轉做 Markdown 。
安裝就一行命令,仲支援直接接入 AI 編程工具。
開源: https://github.com/microsoft/markitdown
如果遇到排版複雜嘅 PDF ,轉唔到出嚟點算?
試試 MinerU,專攻 PDF 深度解析,可以將公式轉 LaTeX 、表格轉 HTML 、自動提取圖片。
開源: https://github.com/opendatalab/MinerU
或者 Docling, IBM 開源嘅,對複雜文檔嘅版面理解更加強。
開源: https://github.com/docling-project/docling
5. AI 嘅耳 - 聽得明語音
叫 AI 幫你整理會議錄音?首先要將語音轉做文字。
whisper.cpp 係 OpenAI Whisper 嘅 C/C++ 移植版。
開源: https://github.com/ggml-org/whisper.cpp
6. AI 嘅下載器 - 獲取素材
叫 AI 總結影片?首先要將素材下載落嚟。
問題係好多平台嘅影片下載唔到...
yt-dlp 呢個神級工具,支援超過一千個網站:
純命令行, AI 叫起上嚟超級順滑。
開源: https://github.com/yt-dlp/yt-dlp
7. AI 嘅剪輯師 - 處理音視頻
下載完仲要剪輯、轉碼、加字幕...
FFmpeg 瞭解一下。
呢樣嘢有可能係電腦歷史上最重要嘅開源項目之一。
一條命令就搞掂。
參數多到人類頭皮發麻,但 AI 記參數就最擅長啦!
開源: https://github.com/FFmpeg/FFmpeg
8. AI 嘅百寶箱 - 調用外部服務
想叫 AI 發電郵、開 GitHub Issue 、更新 Notion 文檔...
每個都要對接唔同嘅 API ,麻煩到死。
Composio 幫 AI 搞掂呢啲麻煩嘢。
開源: https://github.com/ComposioHQ/composio
9. AI 嘅備忘錄 - 記住你係邊個
同 AI 傾咗好幾輪,一開新對話就全部唔記得...
呢個係因為 AI 冇記憶。
Mem0 俾 AI 裝上持久記憶層。
三層記憶管理:用戶級、對話級、 Agent 級。
開源: https://github.com/mem0ai/mem0
10. AI 嘅技能包 - Agent Skills
頭先都係俾 AI 某啲能力,但 Agent Skills 直接俾 AI 專業知識同做嘢方法。
anthropics/skills 係 Anthropic 官方嘅技能倉庫。
裏面唔係程式碼,而係一份份教 AI 點樣做嘢嘅指令。
跨工具開放標準, 40+ AI 編程工具都支援。
開源: https://github.com/anthropics/skills
想快啲安裝?用 vercel-labs/skills,一行命令搞掂。
開源: https://github.com/vercel-labs/skills
最後幾句
睇完呢啲項目,你會發現開源世界正在發生變化。
以前嘅開源目標係人類開發者;而家越嚟越多嘅項目,由設計之初就係為 AI 而設。
以後做開源,可能唔止要考慮“人類用戶體驗點樣”,仲要諗“AI 叫起上嚟方唔方便”。
呢啲項目都係免費開源嘅,可以本地部署。
建議收藏,慢慢玩。
有幫助嘅話按個讚先走?
姐妹們,我又來給你們省時間了。
這段時間我玩 AI 編程最大的感受是:AI 再 nb ,它也就是個大腦。
你得給它裝眼睛、看網頁,裝手腳、操作瀏覽器,裝耳朵、聽懂語音...
要不它就是個只會嘴炮的聊天機器。
今天把壓箱底的寶貝拿出來:AI 最喜歡的 15 個開源項目。
裝上這些,你的 AI 立地升級成六邊形戰士。
1. AI 的眼睛 - 看懂互聯網
AI 最大的痛:它,獲取不到最新的網頁內容。
你想讓它幫你總結某個網站、或者學習某個開源項目的文檔,一個沒聯網的 AI 要麼告訴你“訪問不了”,要麼給你一堆過時的垃圾信息。
Firecrawl 就是來解決這個問題的。
開源: https://github.com/firecrawl/firecrawl
類似的還有 Crawl4AI,對大模型友好的爬蟲工具,也能直接接。
2. AI 的手腳 - 操控瀏覽器
不止想讓 AI 看網頁,還想讓它動手?
填表單、批量點贊收藏、後台系統操作... Browser Use 瞭解一下。
基於 Python 的瀏覽器自動化框架,讓 AI 像真人一樣操控瀏覽器。
你跟它說“幫我打開魚皮的編程導航網站,找到 Java 學習路線並截圖”,它就能一步步搞定。
開源: https://github.com/browser-use/browser-use
底層用的是微軟的 Playwright,這玩意兒已經成了 AI 操控瀏覽器的事實標準。
開源: https://github.com/microsoft/playwright
3. AI 的遙控器 - 把一切變成命令行
AI 天然擅長敲命令,但你讓它操作 B 站、知乎、 Twitter... 它就抓瞎了。
OpenCLI 牛批的地方在於:能把任意網站變成命令行接口!
輸入一行命令就搞定,複用瀏覽器登錄狀態,密碼不用交出去。
內置幾十個適配器,就像給 AI 裝了個萬能遙控器。
開源: https://github.com/jackwener/opencli
4. AI 的閲讀器 - 讀懂各種文件
PDF 、 Word 、 Excel 、 PPT... AI 默認只能讀純文本,你丟個 PDF 給它,大概率讀不出個屁。
MarkItDown 是微軟開源的萬能格式轉換器。
一把梭全轉成 Markdown 。
安裝就一行命令,還支持直接接入 AI 編程工具。
開源: https://github.com/microsoft/markitdown
如果遇到排版複雜的 PDF ,轉不出來怎麼辦?
試試 MinerU,專攻 PDF 深度解析,能把公式轉 LaTeX 、表格轉 HTML 、自動提取圖片。
開源: https://github.com/opendatalab/MinerU
或者 Docling, IBM 開源的,複雜文檔的版面理解更強。
開源: https://github.com/docling-project/docling
5. AI 的耳朵 - 聽懂語音
讓 AI 幫你整理會議錄音?先得把語音轉成文字。
whisper.cpp 是 OpenAI Whisper 的 C/C++ 移植版。
開源: https://github.com/ggml-org/whisper.cpp
6. AI 的下載器 - 獲取素材
讓 AI 總結視���?先把素材下下來。
問題是很多平台的視頻下不了...
yt-dlp 這個神級工具,支持上千個網站:
純命令行, AI 調用起來超級絲滑。
開源: https://github.com/yt-dlp/yt-dlp
7. AI 的剪輯師 - 處理音視頻
下載完了還得剪輯、轉碼、加字幕...
FFmpeg 瞭解一下。
這玩意兒可能是計算機歷史上最重要的開源項目之一。
一條命令就搞定。
參數多到人類頭皮發麻,但 AI 記參數可太擅長了!
開源: https://github.com/FFmpeg/FFmpeg
8. AI 的百寶箱 - 調用外部服務
想讓 AI 發郵件、創建 GitHub Issue 、更新 Notion 文檔...
每個都要對接不同的 API ,麻煩死。
Composio 幫 AI 搞定這些髒活累活。
開源: https://github.com/ComposioHQ/composio
9. AI 的備忘錄 - 記住你是誰
跟 AI 聊了好幾輪,一開新對話全忘了...
這是因為 AI 沒有記憶。
Mem0 給 AI 裝上持久記憶層。
三層記憶管理:用戶級、會話級、 Agent 級。
開源: https://github.com/mem0ai/mem0
10. AI 的技能包 - Agent Skills
前面都是給 AI 某種能力,但 Agent Skills 直接給 AI 專業知識和做事方法。
anthropics/skills 是 Anthropic 官方的技能倉庫。
裏面不是代碼,是一份份教 AI 怎麼做事的指令。
跨工具開放標準, 40+ AI 編程工具都支持。
開源: https://github.com/anthropics/skills
想快速安裝?用 vercel-labs/skills,一行命令搞定。
開源: https://github.com/vercel-labs/skills
最後幾句
看完這些項目,你會發現開源世界正在發生變化。
以前的開源目標是人類開發者;現在越來越多的項目,從設計之初就是給 AI 用的。
以後做開源,可能不光要考慮“人類用戶體驗怎麼樣”,還得想想“AI 調用起來方便不方便”。
這些項目都是免費開源的,可以本地部署。
建議收藏,慢慢玩。
有幫助的點個贊再走?