VoiceBox:開源的本地AI語音工作室,一站式解決ElevenLabs聲音克隆 + WisprFlow語音輸入需求

作者:惡人筆記
日期:2026年5月21日 上午7:40
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

VoiceBoxElevenLabs 聲音克隆同 WisprFlow 語音輸入合併,成為完全本地免費嘅 AI 語音工作室

整理版摘要

呢篇文章介紹咗由 Spacedrive 創始人 Jamie Pine 開發嘅開源項目 VoiceBox。佢想解決嘅問題係現有語音工具好似 ElevenLabs 同 WisprFlow 雖然強大,但要付費同埋有私隱風險。整體結論係 VoiceBox 整合咗語音輸入(STT)同輸出(TTS),完全本地運行、免費,數據唔會離開電腦。

VoiceBox 支援聲音克隆、7 種 TTS 引擎、全局語音輸入、Agent 語音輸出(通過 MCP 協議),仲有多軌 Stories 編輯器同人格設定。安裝簡單,幾秒音頻就可以克隆聲音,引擎可按需切換。最大優勢係完全免費、無 API Key、無次數限制,對重視私隱嘅用戶嚟講係好大吸引力。

無論係內容創作者、AI Agent 開發者定普通用家,VoiceBox 都提供咗高質素本地替代方案。雖然硬件要求比較高(建議 16GB+ RAMGPU),但長遠性價比好高。呢個工具代表咗本地 AI 嘅趨勢,將封閉能力還俾用戶,值得一試。

  • 結論VoiceBox 係免費本地語音方案,整合輸入輸出,私隱安全。
  • 方法:幾秒音頻即可零樣本聲音克隆,支援多種 TTS 引擎按需切換。
  • 差異:全局語音輸入同 MCP Agent 整合係獨特功能,其他工具少見。
  • 啟發:本地 AI 工具將專業級能力平民化,減少對雲端服務嘅依賴。
  • 可行動點:下載安裝,先用預設聲音試玩,再克隆自己聲音,最後探索 Agent 整合。
值得記低
連結 github.com

VoiceBox GitHub

原始碼同最新版本

連結 voicebox.sh

VoiceBox 官網

下載同介紹

連結 docs.voicebox.sh

VoiceBox 文檔

官方文件

整理重點

VoiceBox 係咩嘢?

VoiceBox 係一款本地優先嘅 AI 語音工作室,號稱「開源版 ElevenLabs + WisprFlow 合體」。佢將語音輸入(STT)同輸出(TTS)完整閉環喺你電腦上面行,數據永唔出本地。

完全免費、無 API Key、無次數限制

Jamie PineSpacedrive 創始人)開發,項目好活躍,下載量已經超過 80 萬。

  • 聲音克隆:幾秒音頻就能零樣本克隆任意聲音,支援 23 種語言。
  • 7 種 TTS 引擎Qwen3-TTSChatterboxLuxTTS、Kokoro 等,各有特色可切換。
  • 全局語音輸入:全局熱鍵,按住說話自動轉文字貼到任何 App。
  • AI Agent 語音輸出:支援 MCP 協議,Claude Code 等 Agent 可以用你嘅聲音「開口講嘢」。
  • 其他功能:多軌 Stories 編輯器、音效處理、人格設定、REST API 等。

數據永唔出本地

整理重點

安裝同快速上手

去官網 https://voicebox.sh/ 下載對應系統嘅安裝包,macOS、Windows 都得,Linux 可經 Docker 或源碼。安裝好直接開,無需搞 Python 環境,因為係 Tauri + Rust 構建,輕量高效。

無需配置 Python 環境

首次開機會引導下載必要模型,建議有獨立顯卡嘅用 GPU 加速(Apple SiliconMLXNVIDIA 用 CUDA)。

  1. 1 上傳音頻或直接錄音,幾秒就可以。
  2. 2 系統用 Whisper 轉錄文字,生成 Profile
  3. 3 可以多樣本提升質素。
  4. 4 選擇 Profile 同引擎,點擊生成語音。

支援長文本自動分塊加交叉淡化,避免生硬

整理重點

核心功能詳解同使用技巧

語音克隆方面,唔同引擎有唔同優勢。Qwen3-TTS 質素高,支援自然語言指令;Chatterbox 語言最廣,有情感標籤;LuxTTS 輕量快;Kokoro 內置名人聲音。

可以先用輕量引擎測試,再切換高質引擎最終渲染

Chatterbox 語言支援 23 種,仲有情感標籤

人格設定可以俾 Profile 附加性格描述,然後用 Rewrite 或者 Compose 令 LLM 按性格改寫台詞。Agent 透過 MCP 整合後,可以實現真正有「聲音個性」嘅對話。

多軌 Stories 編輯器好似 DAW 咁拖時間線做多角色對話

整理重點

優勢、限制同建議

優勢方面,本地運行零訂閲費,長期用好抵;集成度高,輸入輸出編輯 Agent 一站式;社區活躍迭代快。

硬件要求高,高質模型需要 GPU 同 16GB+ RAM

社區活躍,下載量超 80 萬,迭代快

限制方面,克隆效果依賴樣本質素,複雜情感可能仍有瑕疵;項目仲比較新,有機會遇到 BugLinux 支援需要一定動手能力。

對於中等以上硬件、重視私隱嘅用戶,係極佳選擇

本地 AI 工具將封閉能力還俾用戶

  • 入門用戶:先玩預設聲音,再克隆自己聲音。
  • 內容創作者:用 Stories 編輯器做播客配音。
  • 開發者:探索 MCPAPI 整合。
  • 硬件優化:盡量用 Apple SiliconNVIDIA 卡,內存 16GB+。
  • 替代方案:硬件不足可用雲服務過渡,或者結合其他本地工具。

最近喺X(Twitter)上面碌到@0xMulight分享嘅一個開源項目,個想法都幾好,有人將ElevenLabs嘅聲音克隆WisprFlow嘅全局語音輸入二合為一,整咗個完全本地運行嘅免費語音工具:VoiceBox

呢個項目而家已經收穫咗大量關注同下載,作者Jamie Pine(Spacedrive創辦人)背景好紮實,項目迭代都幾活躍,值得留意嚇。

圖片

今日就嚟詳細講下呢個工具,希望幫到緊做緊內容創作、AI Agent開發或者對本地私隱工具感興趣嘅朋友。

一、VoiceBox究竟係咩嘢?

VoiceBox是一款本地優先嘅AI語音工作室,號稱「開源版嘅ElevenLabs + WisprFlow合體」。佢將語音輸入(STT)同輸出(TTS)完整閉環喺你電腦上面行,數據永遠唔會離開本地。

圖片

核心亮點

  • • 聲音克隆:幾秒音頻就可以零樣本克隆任意聲音,支援23種語言。
  • • 7款TTS引擎:Qwen3-TTS、Chatterbox系列、LuxTTS、HumeAI TADA、Kokoro等模型,各有特色,可以按需要切換。
  • • 全局語音輸入:全局熱鍵,撳住講嘢就可以轉做文字再貼落任何應用程式度。
  • • AI Agent語音輸出:支援MCP協議,可以俾Claude Code、OpenClaw等Agent用你克隆嘅聲音「開口講嘢」。
  • • 額外功能:多軌Stories編輯器、音效處理、人格設定、本地LLM潤色、REST API等。

最大優勢:完全免費、冇API Key、冇次數限制、冇私隱洩漏嘅憂慮。適合播客、影片配音、長音頻生成、遊戲NPC、Agent交互等場景。

二、安裝同快速上手

  1. 1. 下載安裝
    官網 https://voicebox.sh/ 提供咗macOS(ARM/Intel)、Windows MSI安裝包。Linux用戶可以經Docker或者源碼構建。下載之後直接安裝就得,唔使額外配置Python環境(Tauri + Rust構建,輕量高效)。
    圖片
  2. 2. 首次啟動
    打開之後會引導下載必要模型(Whisper用嚟轉錄,TTS引擎可以按需要下載)。建議有獨立顯示卡嘅用戶優先試GPU加速(Apple Silicon用MLX,NVIDIA用CUDA等)。
  3. 3. 創建第一個聲音Profile
    • ◦ 上載音頻檔案(支援WAV/MP3等,幾秒就得)。
    • ◦ 或者直接用咪高峯錄音。
    • ◦ 或者系統音頻捕獲(都可以從B站/YouTube/Podcast直接克隆)。
    • ◦ 系統自動用Whisper轉錄文字,生成Profile。支援多樣本提升質素。
  4. 4. 生成語音
    輸入文字,揀Profile同引擎,撳生成。支援長文本自動分塊+交叉淡化,避免生硬。生成之後可以預覽、加音效(變調、混響、壓縮等),保存唔同版本。

三、核心功能詳解同使用技巧

1. 語音克隆同TTS生成
唔同引擎嘅優勢唔同:

  • • Qwen3-TTS:克隆質素高,支援自然語言指令(例如「慢慢講,帶啲温暖」)。
  • • Chatterbox:語言支援最廣(23種),Turbo版支援[laugh]、[sigh]等情感標籤。
  • • LuxTTS:輕量快速,適合CPU或者快速迭代。
  • • Kokoro:內置50+預設名人聲音(例如Morgan Freeman風格)。

技巧:可以先用輕量引擎測試,再切換高質素引擎最終渲染。長腳本用Stories編輯器做多角色對話,好似DAW咁拖拽時間線編輯。

圖片

2. 全局語音輸入(Dictation)
撳住全局熱鍵(macOS預設⌘⌥,Windows Ctrl+Alt)講嘢,放開之後文字會自動貼落當前焦點嘅輸入框。支援Whisper唔同大細模型平衡速度/精準度,仲有本地LLM清理「um」「ah」等口語。

實用場景:寫文件、傾偈、寫程式註解時直接講嘢,可以大大提升效率。Agent都可以經MCP調用,等佢哋「開口講嘢」俾反饋。

3. 人格(Personalities)同Agent集成
畀Profile附加人格描述(例如「1940s偵探風格」),然後用「Rewrite」或者「Compose」等LLM按性格改寫/生成台詞。Agent集成了之後,可以實現真正有「聲音個性」嘅交互。

4. API同擴展
本地運行REST API(預設端口17493),可以輕鬆集成落自己嘅腳本、App或者遊戲度。MCP支援可以畀編碼Agent無縫調用。

四、分析:優勢、侷限同適用人羣

優勢

  • • 私隱同成本:本地運行,零訂閲費,長期使用極具性價比。
  • • 集成度高:輸入+輸出+編輯+Agent一站式解決,體驗流暢。
  • • 社區活躍:迭代快(近期v0.5.0係一個大更新),下載量已經超過80萬。
  • • 跨平台:覆蓋咗主流系統同硬件。

潛在侷限

  • • 硬件要求:高質素模型需要一定GPU/記憶體(尤其係多引擎同時用)。低配機可能會慢或者只能用CPU/輕量模型。
  • • 克隆效果:依賴樣本質素同引擎,複雜情感或者極短樣本仍然可能有瑕疵(但已經遠遠超越早期開源工具)。
  • • 成熟度:作為相對較新嘅項目,間中可能會遇到Bug或者模型下載問題(官方有Troubleshooting指南)。
  • • Linux支援:預編譯包暫時唔係好完善,需要一定嘅動手能力。

總體評價:對有中等以上硬件、重視私隱或者成日用語音工具嘅用戶嚟講,係極佳嘅選擇。佢唔可以完全取代雲服務(雲服務喺超大規模或者特定優化場景仍有優勢),但可以提供一個強大、自由嘅本地替代方案。

五、使用建議

  • • 入門用戶:先下載安裝,用預設聲音玩嚇,熟習界面之後再克隆自己把聲。
  • • 內容創作者:結合Stories編輯器做播客/影片配音,效果鏈預設可以重用。
  • • 開發者/AI愛好者:重點探索MCP集成同API,等你嘅Agent「生猛」起嚟。
  • • 硬件優化:優先試Apple Silicon或者NVIDIA顯示卡;記憶體建議16GB或以上;模型按需要下載,避免霸曬空間。
  • • 進階:備份Profile以防數據目錄出問題。
  • • 替代方案:如果硬件唔夠,可以先用雲服務過渡;或者結合其他本地工具(例如Ollama)擴展。

VoiceBox代表咗本地AI工具嘅一個趨勢:將曾經昂貴、封閉嘅能力還返俾用戶。佢可以令普通創作者同開發者都可以輕鬆擁有專業級語音能力,而唔使擔心費用同私隱。

參考連結

  • • GitHub: https://github.com/jamiepine/voicebox
  • • 官網: https://voicebox.sh/
  • • 文檔: https://docs.voicebox.sh/

(本文係根據公開項目資訊整理,觀點只供參考。AI工具發展好快,建議以官方最新版本為準。)

最近在X(Twitter)上刷到@0xMulight分享的一個開源項目,想法不錯,有人把ElevenLabs的聲音克隆WisprFlow的全局語音輸入合二為一,做成了完全本地運行的免費語音工具:VoiceBox

這個項目目前已收穫大量關注和下載,作者Jamie Pine(Spacedrive創始人)背景紮實,項目迭代也比較活躍,值得關注一下。

圖片

今天就來詳細聊聊這個工具,希望能幫到正在做內容創作、AI Agent開發或對本地隱私工具感興趣的朋友。

一、VoiceBox到底是什麼?

VoiceBox是一款本地優先的AI語音工作室,號稱“開源版的ElevenLabs + WisprFlow合體”。它把語音輸入(STT)和輸出(TTS)完整閉環跑在你的電腦上,數據永不出本地。

圖片

核心亮點

  • • 聲音克隆:幾秒音頻就能零樣本克隆任意聲音,支持23種語言。
  • • 7種TTS引擎:Qwen3-TTS、Chatterbox系列、LuxTTS、HumeAI TADA、Kokoro等模型,各有特色,可按需切換。
  • • 全局語音輸入:全局熱鍵,按住說話即可轉文字並粘貼到任意應用裏。
  • • AI Agent語音輸出:支持MCP協議,可以讓Claude Code、OpenClaw等Agent用你克隆的聲音“開口說話”。
  • • 額外功能:多軌Stories編輯器、音效處理、人格設定、本地LLM潤色、REST API等。

最大優勢:完全免費、無API Key、無次數限制、無隱私泄露顧慮。適合播客、視頻配音、長音頻生成、遊戲NPC、Agent交互等場景。

二、安裝與快速上手

  1. 1. 下載安裝
    官網 https://voicebox.sh/ 提供了macOS(ARM/Intel)、Windows MSI安裝包。Linux用戶可通過Docker或源碼構建。下載後直接安裝即可,無需額外配置Python環境(Tauri + Rust構建,輕量高效)。
    圖片
  2. 2. 首次啓動
    打開後會引導下載必要模型(Whisper用於轉錄,TTS引擎可以按需下載)。建議有獨立顯卡的用戶優先用GPU加速(Apple Silicon用MLX,NVIDIA用CUDA等)。
  3. 3. 創建第一個聲音Profile
    • ◦ 上傳音頻文件(支持WAV/MP3等,幾秒即可)。
    • ◦ 或直接麥克風錄音。
    • ◦ 或系統音頻捕獲(也可以從B站/YouTube/Podcast直接克隆)。
    • ◦ 系統自動用Whisper轉錄文字,生成Profile。支持多樣本提升質量。
  4. 4. 生成語音
    輸入文字,選擇Profile和引擎,點擊生成。支持長文本自動分塊+交叉淡化,避免生硬。生成後可預覽、添加音效(變調、混響、壓縮等),保存不同版本。

三、核心功能詳解與使用技巧

1. 語音克隆與TTS生成
不同引擎優勢不同:

  • • Qwen3-TTS:克隆質量高,支持自然語言指令(如“慢慢說,帶點温暖”)。
  • • Chatterbox:語言支持最廣(23種),Turbo版支持[laugh]、[sigh]等情感標籤。
  • • LuxTTS:輕量快速,適合CPU或快速迭代。
  • • Kokoro:內置50+預設名人聲音(如Morgan Freeman風格)。

技巧:可以先用輕量引擎測試,再切換高質量引擎最終渲染。長腳本用Stories編輯器做多角色對話,像DAW一樣拖拽時間線編輯。

圖片

2. 全局語音輸入(Dictation)
按住全局熱鍵(macOS默認⌘⌥,Windows Ctrl+Alt)說話,鬆開後文字自動粘貼到當前焦點輸入框。支持Whisper不同大小模型平衡速度/精度,還有本地LLM清理“um”“ah”等口語。

實用場景:寫文檔、聊天、代碼註釋時直接說話,可以極大提升效率。Agent也可通過MCP調用,讓它們“開口說話”進行反饋。

3. 人格(Personalities)與Agent集成
給Profile附加人格描述(如“1940s偵探風格”),然後用“Rewrite”或“Compose”讓LLM按性格改寫/生成台詞。Agent集成後,可實現真正有“聲音個性”的交互。

4. API與擴展
本地運行REST API(默認端口17493),可以輕鬆集成到自己的腳本、App或遊戲中。MCP支持可以讓編碼Agent無縫調用。

四、分析:優勢、侷限與適用人羣

優勢

  • • 隱私與成本:本地運行,零訂閲費,長期使用極具性價比。
  • • 集成度高:輸入+輸出+編輯+Agent一站式解決,體驗流暢。
  • • 社區活躍:迭代快(近期v0.5.0是個大更新),下載量已超80萬。
  • • 跨平台:覆蓋了主流系統和硬件。

潛在侷限

  • • 硬件要求:高質量模型需要一定GPU/內存(尤其是多引擎同時用)。低配機可能慢或只能用CPU/輕量模型。
  • • 克隆效果:依賴樣本質量和引擎,複雜情感或極短樣本仍可能有瑕疵(但已遠超早期開源工具)。
  • • 成熟度:作為相對較新的項目,偶爾可能遇Bug或模型下載問題(官方有Troubleshooting指南)。
  • • Linux支持:預編譯包暫不完善,需要一定的動手能力。

總體評價:對有中等以上硬件、重視隱私或頻繁使用語音工具的用戶來說,是極佳的選擇。它不能完全取代雲服務(雲服務在超大規模或特定優化場景仍有優勢),但可以提供一個強大、自由的本地替代方案。

五、使用建議

  • • 入門用戶:先下載安裝,用預設聲音玩起來,熟悉界面後再克隆自己的聲音。
  • • 內容創作者:結合Stories編輯器做播客/視頻配音,效果鏈預設可複用。
  • • 開發者/AI愛好者:重點探索MCP集成和API,讓你的Agent“活”起來。
  • • 硬件優化:優先用Apple Silicon或NVIDIA卡;內存建議16GB+;模型按需下載,避免佔滿空間。
  • • 進階:備份Profile以防數據目錄問題。
  • • 替代方案:如果硬件不足,可以先用雲服務過渡;或結合其他本地工具(如Ollama)擴展。

VoiceBox代表了本地AI工具的一個趨勢:把曾經昂貴、封閉的能力還給用戶。它可以讓普通創作者和開發者也能輕鬆擁有專業級語音能力,而無需擔心費用和隱私。

參考連結

  • • GitHub: https://github.com/jamiepine/voicebox
  • • 官網: https://voicebox.sh/
  • • 文檔: https://docs.voicebox.sh/

(本文基於公開項目信息整理,觀點僅供參考。AI工具發展迅速,建議以官方最新版本為準。)