VoiceBox:開源的本地AI語音工作室,一站式解決ElevenLabs聲音克隆 + WisprFlow語音輸入需求
整理版優先睇
VoiceBox 將 ElevenLabs 聲音克隆同 WisprFlow 語音輸入合併,成為完全本地免費嘅 AI 語音工作室
呢篇文章介紹咗由 Spacedrive 創始人 Jamie Pine 開發嘅開源項目 VoiceBox。佢想解決嘅問題係現有語音工具好似 ElevenLabs 同 WisprFlow 雖然強大,但要付費同埋有私隱風險。整體結論係 VoiceBox 整合咗語音輸入(STT)同輸出(TTS),完全本地運行、免費,數據唔會離開電腦。
VoiceBox 支援聲音克隆、7 種 TTS 引擎、全局語音輸入、Agent 語音輸出(通過 MCP 協議),仲有多軌 Stories 編輯器同人格設定。安裝簡單,幾秒音頻就可以克隆聲音,引擎可按需切換。最大優勢係完全免費、無 API Key、無次數限制,對重視私隱嘅用戶嚟講係好大吸引力。
無論係內容創作者、AI Agent 開發者定普通用家,VoiceBox 都提供咗高質素本地替代方案。雖然硬件要求比較高(建議 16GB+ RAM 同 GPU),但長遠性價比好高。呢個工具代表咗本地 AI 嘅趨勢,將封閉能力還俾用戶,值得一試。
- 結論:VoiceBox 係免費本地語音方案,整合輸入輸出,私隱安全。
- 方法:幾秒音頻即可零樣本聲音克隆,支援多種 TTS 引擎按需切換。
- 差異:全局語音輸入同 MCP Agent 整合係獨特功能,其他工具少見。
- 啟發:本地 AI 工具將專業級能力平民化,減少對雲端服務嘅依賴。
- 可行動點:下載安裝,先用預設聲音試玩,再克隆自己聲音,最後探索 Agent 整合。
VoiceBox GitHub
原始碼同最新版本
VoiceBox 官網
下載同介紹
VoiceBox 文檔
官方文件
VoiceBox 係咩嘢?
VoiceBox 係一款本地優先嘅 AI 語音工作室,號稱「開源版 ElevenLabs + WisprFlow 合體」。佢將語音輸入(STT)同輸出(TTS)完整閉環喺你電腦上面行,數據永唔出本地。
完全免費、無 API Key、無次數限制
由 Jamie Pine(Spacedrive 創始人)開發,項目好活躍,下載量已經超過 80 萬。
- 聲音克隆:幾秒音頻就能零樣本克隆任意聲音,支援 23 種語言。
- 7 種 TTS 引擎:Qwen3-TTS、Chatterbox、LuxTTS、Kokoro 等,各有特色可切換。
- 全局語音輸入:全局熱鍵,按住說話自動轉文字貼到任何 App。
- AI Agent 語音輸出:支援 MCP 協議,Claude Code 等 Agent 可以用你嘅聲音「開口講嘢」。
- 其他功能:多軌 Stories 編輯器、音效處理、人格設定、REST API 等。
數據永唔出本地
安裝同快速上手
去官網 https://voicebox.sh/ 下載對應系統嘅安裝包,macOS、Windows 都得,Linux 可經 Docker 或源碼。安裝好直接開,無需搞 Python 環境,因為係 Tauri + Rust 構建,輕量高效。
無需配置 Python 環境
首次開機會引導下載必要模型,建議有獨立顯卡嘅用 GPU 加速(Apple Silicon 用 MLX,NVIDIA 用 CUDA)。
- 1 上傳音頻或直接錄音,幾秒就可以。
- 2 系統用 Whisper 轉錄文字,生成 Profile。
- 3 可以多樣本提升質素。
- 4 選擇 Profile 同引擎,點擊生成語音。
支援長文本自動分塊加交叉淡化,避免生硬
核心功能詳解同使用技巧
語音克隆方面,唔同引擎有唔同優勢。Qwen3-TTS 質素高,支援自然語言指令;Chatterbox 語言最廣,有情感標籤;LuxTTS 輕量快;Kokoro 內置名人聲音。
可以先用輕量引擎測試,再切換高質引擎最終渲染
Chatterbox 語言支援 23 種,仲有情感標籤
人格設定可以俾 Profile 附加性格描述,然後用 Rewrite 或者 Compose 令 LLM 按性格改寫台詞。Agent 透過 MCP 整合後,可以實現真正有「聲音個性」嘅對話。
多軌 Stories 編輯器好似 DAW 咁拖時間線做多角色對話
優勢、限制同建議
優勢方面,本地運行零訂閲費,長期用好抵;集成度高,輸入輸出編輯 Agent 一站式;社區活躍迭代快。
硬件要求高,高質模型需要 GPU 同 16GB+ RAM
社區活躍,下載量超 80 萬,迭代快
限制方面,克隆效果依賴樣本質素,複雜情感可能仍有瑕疵;項目仲比較新,有機會遇到 Bug。Linux 支援需要一定動手能力。
對於中等以上硬件、重視私隱嘅用戶,係極佳選擇
本地 AI 工具將封閉能力還俾用戶
- 入門用戶:先玩預設聲音,再克隆自己聲音。
- 內容創作者:用 Stories 編輯器做播客配音。
- 開發者:探索 MCP 同 API 整合。
- 硬件優化:盡量用 Apple Silicon 或 NVIDIA 卡,內存 16GB+。
- 替代方案:硬件不足可用雲服務過渡,或者結合其他本地工具。
最近喺X(Twitter)上面碌到@0xMulight分享嘅一個開源項目,個想法都幾好,有人將ElevenLabs嘅聲音克隆和WisprFlow嘅全局語音輸入二合為一,整咗個完全本地運行嘅免費語音工具:VoiceBox。
呢個項目而家已經收穫咗大量關注同下載,作者Jamie Pine(Spacedrive創辦人)背景好紮實,項目迭代都幾活躍,值得留意嚇。

今日就嚟詳細講下呢個工具,希望幫到緊做緊內容創作、AI Agent開發或者對本地私隱工具感興趣嘅朋友。
一、VoiceBox究竟係咩嘢?
VoiceBox是一款本地優先嘅AI語音工作室,號稱「開源版嘅ElevenLabs + WisprFlow合體」。佢將語音輸入(STT)同輸出(TTS)完整閉環喺你電腦上面行,數據永遠唔會離開本地。

核心亮點:
• 聲音克隆:幾秒音頻就可以零樣本克隆任意聲音,支援23種語言。 • 7款TTS引擎:Qwen3-TTS、Chatterbox系列、LuxTTS、HumeAI TADA、Kokoro等模型,各有特色,可以按需要切換。 • 全局語音輸入:全局熱鍵,撳住講嘢就可以轉做文字再貼落任何應用程式度。 • AI Agent語音輸出:支援MCP協議,可以俾Claude Code、OpenClaw等Agent用你克隆嘅聲音「開口講嘢」。 • 額外功能:多軌Stories編輯器、音效處理、人格設定、本地LLM潤色、REST API等。
最大優勢:完全免費、冇API Key、冇次數限制、冇私隱洩漏嘅憂慮。適合播客、影片配音、長音頻生成、遊戲NPC、Agent交互等場景。
二、安裝同快速上手
1. 下載安裝
官網 https://voicebox.sh/ 提供咗macOS(ARM/Intel)、Windows MSI安裝包。Linux用戶可以經Docker或者源碼構建。下載之後直接安裝就得,唔使額外配置Python環境(Tauri + Rust構建,輕量高效)。
2. 首次啟動
打開之後會引導下載必要模型(Whisper用嚟轉錄,TTS引擎可以按需要下載)。建議有獨立顯示卡嘅用戶優先試GPU加速(Apple Silicon用MLX,NVIDIA用CUDA等)。3. 創建第一個聲音Profile ◦ 上載音頻檔案(支援WAV/MP3等,幾秒就得)。 ◦ 或者直接用咪高峯錄音。 ◦ 或者系統音頻捕獲(都可以從B站/YouTube/Podcast直接克隆)。 ◦ 系統自動用Whisper轉錄文字,生成Profile。支援多樣本提升質素。 4. 生成語音
輸入文字,揀Profile同引擎,撳生成。支援長文本自動分塊+交叉淡化,避免生硬。生成之後可以預覽、加音效(變調、混響、壓縮等),保存唔同版本。
三、核心功能詳解同使用技巧
1. 語音克隆同TTS生成
唔同引擎嘅優勢唔同:
• Qwen3-TTS:克隆質素高,支援自然語言指令(例如「慢慢講,帶啲温暖」)。 • Chatterbox:語言支援最廣(23種),Turbo版支援[laugh]、[sigh]等情感標籤。 • LuxTTS:輕量快速,適合CPU或者快速迭代。 • Kokoro:內置50+預設名人聲音(例如Morgan Freeman風格)。
技巧:可以先用輕量引擎測試,再切換高質素引擎最終渲染。長腳本用Stories編輯器做多角色對話,好似DAW咁拖拽時間線編輯。

2. 全局語音輸入(Dictation)
撳住全局熱鍵(macOS預設⌘⌥,Windows Ctrl+Alt)講嘢,放開之後文字會自動貼落當前焦點嘅輸入框。支援Whisper唔同大細模型平衡速度/精準度,仲有本地LLM清理「um」「ah」等口語。
實用場景:寫文件、傾偈、寫程式註解時直接講嘢,可以大大提升效率。Agent都可以經MCP調用,等佢哋「開口講嘢」俾反饋。
3. 人格(Personalities)同Agent集成
畀Profile附加人格描述(例如「1940s偵探風格」),然後用「Rewrite」或者「Compose」等LLM按性格改寫/生成台詞。Agent集成了之後,可以實現真正有「聲音個性」嘅交互。
4. API同擴展
本地運行REST API(預設端口17493),可以輕鬆集成落自己嘅腳本、App或者遊戲度。MCP支援可以畀編碼Agent無縫調用。
四、分析:優勢、侷限同適用人羣
優勢:
• 私隱同成本:本地運行,零訂閲費,長期使用極具性價比。 • 集成度高:輸入+輸出+編輯+Agent一站式解決,體驗流暢。 • 社區活躍:迭代快(近期v0.5.0係一個大更新),下載量已經超過80萬。 • 跨平台:覆蓋咗主流系統同硬件。
潛在侷限:
• 硬件要求:高質素模型需要一定GPU/記憶體(尤其係多引擎同時用)。低配機可能會慢或者只能用CPU/輕量模型。 • 克隆效果:依賴樣本質素同引擎,複雜情感或者極短樣本仍然可能有瑕疵(但已經遠遠超越早期開源工具)。 • 成熟度:作為相對較新嘅項目,間中可能會遇到Bug或者模型下載問題(官方有Troubleshooting指南)。 • Linux支援:預編譯包暫時唔係好完善,需要一定嘅動手能力。
總體評價:對有中等以上硬件、重視私隱或者成日用語音工具嘅用戶嚟講,係極佳嘅選擇。佢唔可以完全取代雲服務(雲服務喺超大規模或者特定優化場景仍有優勢),但可以提供一個強大、自由嘅本地替代方案。
五、使用建議
• 入門用戶:先下載安裝,用預設聲音玩嚇,熟習界面之後再克隆自己把聲。 • 內容創作者:結合Stories編輯器做播客/影片配音,效果鏈預設可以重用。 • 開發者/AI愛好者:重點探索MCP集成同API,等你嘅Agent「生猛」起嚟。 • 硬件優化:優先試Apple Silicon或者NVIDIA顯示卡;記憶體建議16GB或以上;模型按需要下載,避免霸曬空間。 • 進階:備份Profile以防數據目錄出問題。 • 替代方案:如果硬件唔夠,可以先用雲服務過渡;或者結合其他本地工具(例如Ollama)擴展。
VoiceBox代表咗本地AI工具嘅一個趨勢:將曾經昂貴、封閉嘅能力還返俾用戶。佢可以令普通創作者同開發者都可以輕鬆擁有專業級語音能力,而唔使擔心費用同私隱。
參考連結:
• GitHub: https://github.com/jamiepine/voicebox • 官網: https://voicebox.sh/ • 文檔: https://docs.voicebox.sh/
(本文係根據公開項目資訊整理,觀點只供參考。AI工具發展好快,建議以官方最新版本為準。)
最近在X(Twitter)上刷到@0xMulight分享的一個開源項目,想法不錯,有人把ElevenLabs的聲音克隆和WisprFlow的全局語音輸入合二為一,做成了完全本地運行的免費語音工具:VoiceBox。
這個項目目前已收穫大量關注和下載,作者Jamie Pine(Spacedrive創始人)背景紮實,項目迭代也比較活躍,值得關注一下。

今天就來詳細聊聊這個工具,希望能幫到正在做內容創作、AI Agent開發或對本地隱私工具感興趣的朋友。
一、VoiceBox到底是什麼?
VoiceBox是一款本地優先的AI語音工作室,號稱“開源版的ElevenLabs + WisprFlow合體”。它把語音輸入(STT)和輸出(TTS)完整閉環跑在你的電腦上,數據永不出本地。

核心亮點:
• 聲音克隆:幾秒音頻就能零樣本克隆任意聲音,支持23種語言。 • 7種TTS引擎:Qwen3-TTS、Chatterbox系列、LuxTTS、HumeAI TADA、Kokoro等模型,各有特色,可按需切換。 • 全局語音輸入:全局熱鍵,按住說話即可轉文字並粘貼到任意應用裏。 • AI Agent語音輸出:支持MCP協議,可以讓Claude Code、OpenClaw等Agent用你克隆的聲音“開口說話”。 • 額外功能:多軌Stories編輯器、音效處理、人格設定、本地LLM潤色、REST API等。
最大優勢:完全免費、無API Key、無次數限制、無隱私泄露顧慮。適合播客、視頻配音、長音頻生成、遊戲NPC、Agent交互等場景。
二、安裝與快速上手
1. 下載安裝
官網 https://voicebox.sh/ 提供了macOS(ARM/Intel)、Windows MSI安裝包。Linux用戶可通過Docker或源碼構建。下載後直接安裝即可,無需額外配置Python環境(Tauri + Rust構建,輕量高效)。
2. 首次啓動
打開後會引導下載必要模型(Whisper用於轉錄,TTS引擎可以按需下載)。建議有獨立顯卡的用戶優先用GPU加速(Apple Silicon用MLX,NVIDIA用CUDA等)。3. 創建第一個聲音Profile ◦ 上傳音頻文件(支持WAV/MP3等,幾秒即可)。 ◦ 或直接麥克風錄音。 ◦ 或系統音頻捕獲(也可以從B站/YouTube/Podcast直接克隆)。 ◦ 系統自動用Whisper轉錄文字,生成Profile。支持多樣本提升質量。 4. 生成語音
輸入文字,選擇Profile和引擎,點擊生成。支持長文本自動分塊+交叉淡化,避免生硬。生成後可預覽、添加音效(變調、混響、壓縮等),保存不同版本。
三、核心功能詳解與使用技巧
1. 語音克隆與TTS生成
不同引擎優勢不同:
• Qwen3-TTS:克隆質量高,支持自然語言指令(如“慢慢說,帶點温暖”)。 • Chatterbox:語言支持最廣(23種),Turbo版支持[laugh]、[sigh]等情感標籤。 • LuxTTS:輕量快速,適合CPU或快速迭代。 • Kokoro:內置50+預設名人聲音(如Morgan Freeman風格)。
技巧:可以先用輕量引擎測試,再切換高質量引擎最終渲染。長腳本用Stories編輯器做多角色對話,像DAW一樣拖拽時間線編輯。

2. 全局語音輸入(Dictation)
按住全局熱鍵(macOS默認⌘⌥,Windows Ctrl+Alt)說話,鬆開後文字自動粘貼到當前焦點輸入框。支持Whisper不同大小模型平衡速度/精度,還有本地LLM清理“um”“ah”等口語。
實用場景:寫文檔、聊天、代碼註釋時直接說話,可以極大提升效率。Agent也可通過MCP調用,讓它們“開口說話”進行反饋。
3. 人格(Personalities)與Agent集成
給Profile附加人格描述(如“1940s偵探風格”),然後用“Rewrite”或“Compose”讓LLM按性格改寫/生成台詞。Agent集成後,可實現真正有“聲音個性”的交互。
4. API與擴展
本地運行REST API(默認端口17493),可以輕鬆集成到自己的腳本、App或遊戲中。MCP支持可以讓編碼Agent無縫調用。
四、分析:優勢、侷限與適用人羣
優勢:
• 隱私與成本:本地運行,零訂閲費,長期使用極具性價比。 • 集成度高:輸入+輸出+編輯+Agent一站式解決,體驗流暢。 • 社區活躍:迭代快(近期v0.5.0是個大更新),下載量已超80萬。 • 跨平台:覆蓋了主流系統和硬件。
潛在侷限:
• 硬件要求:高質量模型需要一定GPU/內存(尤其是多引擎同時用)。低配機可能慢或只能用CPU/輕量模型。 • 克隆效果:依賴樣本質量和引擎,複雜情感或極短樣本仍可能有瑕疵(但已遠超早期開源工具)。 • 成熟度:作為相對較新的項目,偶爾可能遇Bug或模型下載問題(官方有Troubleshooting指南)。 • Linux支持:預編譯包暫不完善,需要一定的動手能力。
總體評價:對有中等以上硬件、重視隱私或頻繁使用語音工具的用戶來說,是極佳的選擇。它不能完全取代雲服務(雲服務在超大規模或特定優化場景仍有優勢),但可以提供一個強大、自由的本地替代方案。
五、使用建議
• 入門用戶:先下載安裝,用預設聲音玩起來,熟悉界面後再克隆自己的聲音。 • 內容創作者:結合Stories編輯器做播客/視頻配音,效果鏈預設可複用。 • 開發者/AI愛好者:重點探索MCP集成和API,讓你的Agent“活”起來。 • 硬件優化:優先用Apple Silicon或NVIDIA卡;內存建議16GB+;模型按需下載,避免佔滿空間。 • 進階:備份Profile以防數據目錄問題。 • 替代方案:如果硬件不足,可以先用雲服務過渡;或結合其他本地工具(如Ollama)擴展。
VoiceBox代表了本地AI工具的一個趨勢:把曾經昂貴、封閉的能力還給用戶。它可以讓普通創作者和開發者也能輕鬆擁有專業級語音能力,而無需擔心費用和隱私。
參考連結:
• GitHub: https://github.com/jamiepine/voicebox • 官網: https://voicebox.sh/ • 文檔: https://docs.voicebox.sh/
(本文基於公開項目信息整理,觀點僅供參考。AI工具發展迅速,建議以官方最新版本為準。)
