VoiceBox：開源的本地AI語音工作室，一站式解決ElevenLabs聲音克隆 + WisprFlow語音輸入需求

作者：惡人筆記

日期：2026年5月21日上午7:40

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

VoiceBox 將 ElevenLabs 聲音克隆同 WisprFlow 語音輸入合併，成為完全本地免費嘅 AI 語音工作室

整理版摘要

呢篇文章介紹咗由 Spacedrive 創始人 Jamie Pine 開發嘅開源項目 VoiceBox。佢想解決嘅問題係現有語音工具好似 ElevenLabs 同 WisprFlow 雖然強大，但要付費同埋有私隱風險。整體結論係 VoiceBox 整合咗語音輸入（STT）同輸出（TTS），完全本地運行、免費，數據唔會離開電腦。

VoiceBox 支援聲音克隆、7 種 TTS 引擎、全局語音輸入、Agent 語音輸出（通過 MCP 協議），仲有多軌 Stories 編輯器同人格設定。安裝簡單，幾秒音頻就可以克隆聲音，引擎可按需切換。最大優勢係完全免費、無 API Key、無次數限制，對重視私隱嘅用戶嚟講係好大吸引力。

無論係內容創作者、AI Agent 開發者定普通用家，VoiceBox 都提供咗高質素本地替代方案。雖然硬件要求比較高（建議 16GB+ RAM 同 GPU），但長遠性價比好高。呢個工具代表咗本地 AI 嘅趨勢，將封閉能力還俾用戶，值得一試。

結論：VoiceBox 係免費本地語音方案，整合輸入輸出，私隱安全。
方法：幾秒音頻即可零樣本聲音克隆，支援多種 TTS 引擎按需切換。
差異：全局語音輸入同 MCP Agent 整合係獨特功能，其他工具少見。
啟發：本地 AI 工具將專業級能力平民化，減少對雲端服務嘅依賴。
可行動點：下載安裝，先用預設聲音試玩，再克隆自己聲音，最後探索 Agent 整合。

值得記低

連結 github.com

VoiceBox GitHub

原始碼同最新版本

連結 voicebox.sh

VoiceBox 官網

下載同介紹

連結 docs.voicebox.sh

VoiceBox 文檔

官方文件

整理重點

VoiceBox 係咩嘢？

VoiceBox 係一款本地優先嘅 AI 語音工作室，號稱「開源版 ElevenLabs + WisprFlow 合體」。佢將語音輸入（STT）同輸出（TTS）完整閉環喺你電腦上面行，數據永唔出本地。

完全免費、無 API Key、無次數限制

由 Jamie Pine（Spacedrive 創始人）開發，項目好活躍，下載量已經超過 80 萬。

聲音克隆：幾秒音頻就能零樣本克隆任意聲音，支援 23 種語言。
7 種 TTS 引擎：Qwen3-TTS、Chatterbox、LuxTTS、Kokoro 等，各有特色可切換。
全局語音輸入：全局熱鍵，按住說話自動轉文字貼到任何 App。
AI Agent 語音輸出：支援 MCP 協議，Claude Code 等 Agent 可以用你嘅聲音「開口講嘢」。
其他功能：多軌 Stories 編輯器、音效處理、人格設定、REST API 等。

數據永唔出本地

整理重點

安裝同快速上手

去官網 https://voicebox.sh/ 下載對應系統嘅安裝包，macOS、Windows 都得，Linux 可經 Docker 或源碼。安裝好直接開，無需搞 Python 環境，因為係 Tauri + Rust 構建，輕量高效。

無需配置 Python 環境

首次開機會引導下載必要模型，建議有獨立顯卡嘅用 GPU 加速（Apple Silicon 用 MLX，NVIDIA 用 CUDA）。

1 上傳音頻或直接錄音，幾秒就可以。
2 系統用 Whisper 轉錄文字，生成 Profile。
3 可以多樣本提升質素。
4 選擇 Profile 同引擎，點擊生成語音。

支援長文本自動分塊加交叉淡化，避免生硬

整理重點

核心功能詳解同使用技巧

語音克隆方面，唔同引擎有唔同優勢。Qwen3-TTS 質素高，支援自然語言指令；Chatterbox 語言最廣，有情感標籤；LuxTTS 輕量快；Kokoro 內置名人聲音。

可以先用輕量引擎測試，再切換高質引擎最終渲染

Chatterbox 語言支援 23 種，仲有情感標籤

人格設定可以俾 Profile 附加性格描述，然後用 Rewrite 或者 Compose 令 LLM 按性格改寫台詞。Agent 透過 MCP 整合後，可以實現真正有「聲音個性」嘅對話。

多軌 Stories 編輯器好似 DAW 咁拖時間線做多角色對話

整理重點

優勢、限制同建議

優勢方面，本地運行零訂閲費，長期用好抵；集成度高，輸入輸出編輯 Agent 一站式；社區活躍迭代快。

硬件要求高，高質模型需要 GPU 同 16GB+ RAM

社區活躍，下載量超 80 萬，迭代快

限制方面，克隆效果依賴樣本質素，複雜情感可能仍有瑕疵；項目仲比較新，有機會遇到 Bug。Linux 支援需要一定動手能力。

對於中等以上硬件、重視私隱嘅用戶，係極佳選擇

本地 AI 工具將封閉能力還俾用戶

入門用戶：先玩預設聲音，再克隆自己聲音。
內容創作者：用 Stories 編輯器做播客配音。
開發者：探索 MCP 同 API 整合。
硬件優化：盡量用 Apple Silicon 或 NVIDIA 卡，內存 16GB+。
替代方案：硬件不足可用雲服務過渡，或者結合其他本地工具。

最近喺X（Twitter）上面碌到@0xMulight分享嘅一個開源項目，個想法都幾好，有人將ElevenLabs嘅聲音克隆和WisprFlow嘅全局語音輸入二合為一，整咗個完全本地運行嘅免費語音工具：VoiceBox。

呢個項目而家已經收穫咗大量關注同下載，作者Jamie Pine（Spacedrive創辦人）背景好紮實，項目迭代都幾活躍，值得留意嚇。

今日就嚟詳細講下呢個工具，希望幫到緊做緊內容創作、AI Agent開發或者對本地私隱工具感興趣嘅朋友。

一、VoiceBox究竟係咩嘢？

VoiceBox是一款本地優先嘅AI語音工作室，號稱「開源版嘅ElevenLabs + WisprFlow合體」。佢將語音輸入（STT）同輸出（TTS）完整閉環喺你電腦上面行，數據永遠唔會離開本地。

核心亮點：

• 聲音克隆：幾秒音頻就可以零樣本克隆任意聲音，支援23種語言。
• 7款TTS引擎：Qwen3-TTS、Chatterbox系列、LuxTTS、HumeAI TADA、Kokoro等模型，各有特色，可以按需要切換。
• 全局語音輸入：全局熱鍵，撳住講嘢就可以轉做文字再貼落任何應用程式度。
• AI Agent語音輸出：支援MCP協議，可以俾Claude Code、OpenClaw等Agent用你克隆嘅聲音「開口講嘢」。
• 額外功能：多軌Stories編輯器、音效處理、人格設定、本地LLM潤色、REST API等。

最大優勢：完全免費、冇API Key、冇次數限制、冇私隱洩漏嘅憂慮。適合播客、影片配音、長音頻生成、遊戲NPC、Agent交互等場景。

二、安裝同快速上手

1. 下載安裝
官網 https://voicebox.sh/ 提供咗macOS（ARM/Intel）、Windows MSI安裝包。Linux用戶可以經Docker或者源碼構建。下載之後直接安裝就得，唔使額外配置Python環境（Tauri + Rust構建，輕量高效）。
2. 首次啟動
打開之後會引導下載必要模型（Whisper用嚟轉錄，TTS引擎可以按需要下載）。建議有獨立顯示卡嘅用戶優先試GPU加速（Apple Silicon用MLX，NVIDIA用CUDA等）。
3. 創建第一個聲音Profile

◦ 上載音頻檔案（支援WAV/MP3等，幾秒就得）。
◦ 或者直接用咪高峯錄音。
◦ 或者系統音頻捕獲（都可以從B站/YouTube/Podcast直接克隆）。
◦ 系統自動用Whisper轉錄文字，生成Profile。支援多樣本提升質素。

4. 生成語音
輸入文字，揀Profile同引擎，撳生成。支援長文本自動分塊+交叉淡化，避免生硬。生成之後可以預覽、加音效（變調、混響、壓縮等），保存唔同版本。

三、核心功能詳解同使用技巧

1. 語音克隆同TTS生成
唔同引擎嘅優勢唔同：

• Qwen3-TTS：克隆質素高，支援自然語言指令（例如「慢慢講，帶啲温暖」）。
• Chatterbox：語言支援最廣（23種），Turbo版支援[laugh]、[sigh]等情感標籤。
• LuxTTS：輕量快速，適合CPU或者快速迭代。
• Kokoro：內置50+預設名人聲音（例如Morgan Freeman風格）。

技巧：可以先用輕量引擎測試，再切換高質素引擎最終渲染。長腳本用Stories編輯器做多角色對話，好似DAW咁拖拽時間線編輯。

2. 全局語音輸入（Dictation）
撳住全局熱鍵（macOS預設⌘⌥，Windows Ctrl+Alt）講嘢，放開之後文字會自動貼落當前焦點嘅輸入框。支援Whisper唔同大細模型平衡速度/精準度，仲有本地LLM清理「um」「ah」等口語。

實用場景：寫文件、傾偈、寫程式註解時直接講嘢，可以大大提升效率。Agent都可以經MCP調用，等佢哋「開口講嘢」俾反饋。

3. 人格（Personalities）同Agent集成
畀Profile附加人格描述（例如「1940s偵探風格」），然後用「Rewrite」或者「Compose」等LLM按性格改寫/生成台詞。Agent集成了之後，可以實現真正有「聲音個性」嘅交互。

4. API同擴展
本地運行REST API（預設端口17493），可以輕鬆集成落自己嘅腳本、App或者遊戲度。MCP支援可以畀編碼Agent無縫調用。

四、分析：優勢、侷限同適用人羣

優勢：

• 私隱同成本：本地運行，零訂閲費，長期使用極具性價比。
• 集成度高：輸入+輸出+編輯+Agent一站式解決，體驗流暢。
• 社區活躍：迭代快（近期v0.5.0係一個大更新），下載量已經超過80萬。
• 跨平台：覆蓋咗主流系統同硬件。

潛在侷限：

• 硬件要求：高質素模型需要一定GPU/記憶體（尤其係多引擎同時用）。低配機可能會慢或者只能用CPU/輕量模型。
• 克隆效果：依賴樣本質素同引擎，複雜情感或者極短樣本仍然可能有瑕疵（但已經遠遠超越早期開源工具）。
• 成熟度：作為相對較新嘅項目，間中可能會遇到Bug或者模型下載問題（官方有Troubleshooting指南）。
• Linux支援：預編譯包暫時唔係好完善，需要一定嘅動手能力。

總體評價：對有中等以上硬件、重視私隱或者成日用語音工具嘅用戶嚟講，係極佳嘅選擇。佢唔可以完全取代雲服務（雲服務喺超大規模或者特定優化場景仍有優勢），但可以提供一個強大、自由嘅本地替代方案。

五、使用建議

• 入門用戶：先下載安裝，用預設聲音玩嚇，熟習界面之後再克隆自己把聲。
• 內容創作者：結合Stories編輯器做播客/影片配音，效果鏈預設可以重用。
• 開發者/AI愛好者：重點探索MCP集成同API，等你嘅Agent「生猛」起嚟。
• 硬件優化：優先試Apple Silicon或者NVIDIA顯示卡；記憶體建議16GB或以上；模型按需要下載，避免霸曬空間。
• 進階：備份Profile以防數據目錄出問題。
• 替代方案：如果硬件唔夠，可以先用雲服務過渡；或者結合其他本地工具（例如Ollama）擴展。

VoiceBox代表咗本地AI工具嘅一個趨勢：將曾經昂貴、封閉嘅能力還返俾用戶。佢可以令普通創作者同開發者都可以輕鬆擁有專業級語音能力，而唔使擔心費用同私隱。

參考連結：

• GitHub: https://github.com/jamiepine/voicebox
• 官網: https://voicebox.sh/
• 文檔: https://docs.voicebox.sh/

（本文係根據公開項目資訊整理，觀點只供參考。AI工具發展好快，建議以官方最新版本為準。）

最近在X（Twitter）上刷到@0xMulight分享的一個開源項目，想法不錯，有人把ElevenLabs的聲音克隆和WisprFlow的全局語音輸入合二為一，做成了完全本地運行的免費語音工具：VoiceBox。

這個項目目前已收穫大量關注和下載，作者Jamie Pine（Spacedrive創始人）背景紮實，項目迭代也比較活躍，值得關注一下。

今天就來詳細聊聊這個工具，希望能幫到正在做內容創作、AI Agent開發或對本地隱私工具感興趣的朋友。

一、VoiceBox到底是什麼？

VoiceBox是一款本地優先的AI語音工作室，號稱“開源版的ElevenLabs + WisprFlow合體”。它把語音輸入（STT）和輸出（TTS）完整閉環跑在你的電腦上，數據永不出本地。

核心亮點：

• 聲音克隆：幾秒音頻就能零樣本克隆任意聲音，支持23種語言。
• 7種TTS引擎：Qwen3-TTS、Chatterbox系列、LuxTTS、HumeAI TADA、Kokoro等模型，各有特色，可按需切換。
• 全局語音輸入：全局熱鍵，按住說話即可轉文字並粘貼到任意應用裏。
• AI Agent語音輸出：支持MCP協議，可以讓Claude Code、OpenClaw等Agent用你克隆的聲音“開口說話”。
• 額外功能：多軌Stories編輯器、音效處理、人格設定、本地LLM潤色、REST API等。

最大優勢：完全免費、無API Key、無次數限制、無隱私泄露顧慮。適合播客、視頻配音、長音頻生成、遊戲NPC、Agent交互等場景。

二、安裝與快速上手

1. 下載安裝
官網 https://voicebox.sh/ 提供了macOS（ARM/Intel）、Windows MSI安裝包。Linux用戶可通過Docker或源碼構建。下載後直接安裝即可，無需額外配置Python環境（Tauri + Rust構建，輕量高效）。
2. 首次啓動
打開後會引導下載必要模型（Whisper用於轉錄，TTS引擎可以按需下載）。建議有獨立顯卡的用戶優先用GPU加速（Apple Silicon用MLX，NVIDIA用CUDA等）。
3. 創建第一個聲音Profile

◦ 上傳音頻文件（支持WAV/MP3等，幾秒即可）。
◦ 或直接麥克風錄音。
◦ 或系統音頻捕獲（也可以從B站/YouTube/Podcast直接克隆）。
◦ 系統自動用Whisper轉錄文字，生成Profile。支持多樣本提升質量。

4. 生成語音
輸入文字，選擇Profile和引擎，點擊生成。支持長文本自動分塊+交叉淡化，避免生硬。生成後可預覽、添加音效（變調、混響、壓縮等），保存不同版本。

三、核心功能詳解與使用技巧

1. 語音克隆與TTS生成
不同引擎優勢不同：

• Qwen3-TTS：克隆質量高，支持自然語言指令（如“慢慢說，帶點温暖”）。
• Chatterbox：語言支持最廣（23種），Turbo版支持[laugh]、[sigh]等情感標籤。
• LuxTTS：輕量快速，適合CPU或快速迭代。
• Kokoro：內置50+預設名人聲音（如Morgan Freeman風格）。

技巧：可以先用輕量引擎測試，再切換高質量引擎最終渲染。長腳本用Stories編輯器做多角色對話，像DAW一樣拖拽時間線編輯。

2. 全局語音輸入（Dictation）
按住全局熱鍵（macOS默認⌘⌥，Windows Ctrl+Alt）說話，鬆開後文字自動粘貼到當前焦點輸入框。支持Whisper不同大小模型平衡速度/精度，還有本地LLM清理“um”“ah”等口語。

實用場景：寫文檔、聊天、代碼註釋時直接說話，可以極大提升效率。Agent也可通過MCP調用，讓它們“開口說話”進行反饋。

3. 人格（Personalities）與Agent集成
給Profile附加人格描述（如“1940s偵探風格”），然後用“Rewrite”或“Compose”讓LLM按性格改寫/生成台詞。Agent集成後，可實現真正有“聲音個性”的交互。

4. API與擴展
本地運行REST API（默認端口17493），可以輕鬆集成到自己的腳本、App或遊戲中。MCP支持可以讓編碼Agent無縫調用。

四、分析：優勢、侷限與適用人羣

優勢：

• 隱私與成本：本地運行，零訂閲費，長期使用極具性價比。
• 集成度高：輸入+輸出+編輯+Agent一站式解決，體驗流暢。
• 社區活躍：迭代快（近期v0.5.0是個大更新），下載量已超80萬。
• 跨平台：覆蓋了主流系統和硬件。

潛在侷限：

• 硬件要求：高質量模型需要一定GPU/內存（尤其是多引擎同時用）。低配機可能慢或只能用CPU/輕量模型。
• 克隆效果：依賴樣本質量和引擎，複雜情感或極短樣本仍可能有瑕疵（但已遠超早期開源工具）。
• 成熟度：作為相對較新的項目，偶爾可能遇Bug或模型下載問題（官方有Troubleshooting指南）。
• Linux支持：預編譯包暫不完善，需要一定的動手能力。

總體評價：對有中等以上硬件、重視隱私或頻繁使用語音工具的用戶來說，是極佳的選擇。它不能完全取代雲服務（雲服務在超大規模或特定優化場景仍有優勢），但可以提供一個強大、自由的本地替代方案。

五、使用建議

• 入門用戶：先下載安裝，用預設聲音玩起來，熟悉界面後再克隆自己的聲音。
• 內容創作者：結合Stories編輯器做播客/視頻配音，效果鏈預設可複用。
• 開發者/AI愛好者：重點探索MCP集成和API，讓你的Agent“活”起來。
• 硬件優化：優先用Apple Silicon或NVIDIA卡；內存建議16GB+；模型按需下載，避免佔滿空間。
• 進階：備份Profile以防數據目錄問題。
• 替代方案：如果硬件不足，可以先用雲服務過渡；或結合其他本地工具（如Ollama）擴展。

VoiceBox代表了本地AI工具的一個趨勢：把曾經昂貴、封閉的能力還給用戶。它可以讓普通創作者和開發者也能輕鬆擁有專業級語音能力，而無需擔心費用和隱私。

參考連結：

• GitHub: https://github.com/jamiepine/voicebox
• 官網: https://voicebox.sh/
• 文檔: https://docs.voicebox.sh/

（本文基於公開項目信息整理，觀點僅供參考。AI工具發展迅速，建議以官方最新版本為準。）