本地跑一個免費ElevenLabs：3分鐘克隆你的聲音，API Key都省了

作者：有料黑科技

日期：2026年5月20日上午9:00

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

VoiceBox 係一個免費開源嘅本地語音克隆同 TTS 工具，3分鐘就可以克隆你把聲，唔使 API Key，數據全部喺你電腦。

整理版摘要

呢篇文章係由開源工具筆記作者 Min Li 所寫，介紹一個叫 VoiceBox 嘅開源項目。VoiceBox 係一個可以喺本地運行嘅語音克隆同 TTS 工具，採用 MIT 協議，GitHub 上有超過 26,000 星。作者想解決嘅問題係：市面上嘅語音服務多數要 API Key、收費，而且數據要上雲端，有私隱疑慮。VoiceBox 嘅解決方案係完全免費、本地運行、唔限次數，而且支援聲音克隆——只要一段 10 秒錄音，就可以生成相似嘅語音。

安裝方面，VoiceBox 支援 Windows 同 macOS，只要 8GB RAM 同 5GB 硬盤就得。有 NVIDIA GPU 會快好多，但冇 GPU 嘅 CPU 模式都用到，只係慢啲。操作好簡單：建立個人檔案、上傳 10-30 秒錄音、輸入文字，就出到語音。第一次會下載模型，之後秒出。

VoiceBox 內置 7 個引擎，Qwen3-TTS 綜合質量最好，支援 10 種語言；另外有 Chatterbox Turbo 支援情感標籤（例如 [laugh]），適合做播客；LuxTTS 係 CPU 上最快嘅；Kokoro 最細但唔支援克隆。最重要係，VoiceBox 仲提供一個本地 REST API，可以俾你嘅 Agent 或腳本調用，唔使註冊同填 API Key。總括嚟講，VoiceBox 係一個功能全面、易用又免費嘅本地語音解決方案。

VoiceBox 係開源、免費、本地運行，聲音克隆同 TTS 都唔限次數，數據唔離開你電腦。
安裝簡單：Windows 用 .msi，macOS 用 .app，最低要求 8GB RAM 同 5GB 硬盤，有 GPU 生成快 5-10 倍。
用 10-30 秒錄音就可以克隆聲音，操作只需三個步驟：建立檔案、上傳錄音、輸入文字生成。
內置 7 個引擎，Qwen3-TTS 綜合最好，Chatterbox Turbo 支援情感標籤，LuxTTS 適合 CPU，Kokoro 快速測試用。
提供本地 REST API，可以整合到任何程式，毋須 API Key，真正無限使用。

值得記低

連結

VoiceBox GitHub 倉庫

GitHub 項目頁面，包含源碼同安裝檔

連結

VoiceBox 官網

官方網站，有更多資訊

連結

VoiceBox 文檔

詳細使用文檔

整理重點

免費開源本地語音工具

VoiceBox 係一個開源嘅語音克隆同 TTS 工具，GitHub 上有超過 26,000 星。

佢採用 MIT 協議，完全本地跑，唔需要 API Key，數據唔會離開你電腦。

你只需要一段 10 秒錄音，就可以克隆你把聲，或者為 Agent 配一個固定聲線。仲有 TTS 功能，文字轉語音。

整理重點

一鍵安裝，系統要求

Windows 用戶可以直接從 GitHub Releases 下載 .msi 檔，雙擊安裝。macOS 用戶就下載 .app.tar.gz，解壓後拖入 Applications 資料夾。

最低要求係 8GB RAM 同 5GB 硬盤，有 NVIDIA GPU 會快 5-10 倍，但冇 GPU 都用到，只係慢啲。

作者測試 CPU 模式，大約慢 8 倍，但仍然可以用。

整理重點

10秒錄音，克隆你嘅聲音

操作好簡單，分三步：

1 左側 Profiles → + New Profile，起個名。
2 上傳 10-30 秒清晰錄音，支援 WAV 或 MP3。
3 去 Generate 頁揀檔案，輸入文字，一按即生成。

第一次會自動下載模型，之後就秒出，成個過程唔使 3 分鐘。

生成出來嘅語音同你把聲好似。

整理重點

7個引擎，點揀好？

VoiceBox 內置

7 個引擎

，但大部份情況下你只需要記住一個：

其他引擎都有各自特色：

Chatterbox Multilingual：支援 23 種語言，適合小語種。
Chatterbox Turbo：支援情感標籤，例如 [laugh]、[sigh]，生成語音會笑同嘆氣，做播客同有聲書好有用。
LuxTTS：CPU 上最快，150 倍實時，48kHz，冇 GPU 嘅機器首選。
Kokoro：最細，150MB 顯記憶體，但唔支援克隆，只有預設音色，快速測試用。
TADA（HumeAI）：可以一氣生成超過 700 秒連貫語音，但食資源，要 8GB 顯存起步。
Qwen CustomVoice：支援用自然語言描述語氣，例如「温暖、對話感、微微笑」，會照住生成。

Chatterbox Turbo 支援情感標籤，例如 [laugh]、[sigh]，做播客好實用。

LuxTTS 係 CPU 上最快嘅引擎，150 倍實時速度。

TADA 可以一氣生成超過 700 秒嘅連貫語音，適合長文本。

整理重點

本地API，自由整合

VoiceBox 啟動後會係本地開一個

REST API

，地址係

127.0.0.1:17493

。你嘅腳本、Agent 或任何可以發 HTTP 請求嘅工具都可以調用。

唔使註冊，唔使填 API Key，唔計數。

調用示例 bash

curl -X POST http://127.0.0.1:17493/tts \
 -H "Content-Type: application/json" \
 -d '{"text":"你好世界","profile":"my-voice"}'

TECH · NOTES

本地行一個免費ElevenLabs
3分鐘複製你嘅聲音

開源 + 本地行 + API Key 都慳返

Min Li / 開源工具筆記 / 閲讀 4 分鐘

◎ 導語

VoiceBox，開源，本地行，MIT 授權。GitHub 26,893 星佢可以做聲音複製——畀你一段 10 秒錄音，生成出嚟嘅語音同你好似。都可以畀 Agent 配一個固定聲線。仲有一個 TTS 功能，文字轉語音。

⚡ 最緊要

唔需要 API Key，冇限制次數，數據全部喺你電腦度。

安裝唔麻煩

WindowsGitHub Releases 下載 .msi雙擊就裝完。

macOS：下載 .app.tar.gz解壓縮然後拖入 Applications。

8GB RAM、5GB 硬碟就得。有 NVIDIA GPU 梗係好，生成速度快 5-10 倍；冇 GPU 都得，不過要等耐少少——我試咗 CPU 模式，大概慢 8 倍左右，用得。

02	/ 10秒錄音複製聲音

▶ 操作步驟

建檔案

左邊 Profiles → + New Profile，改個名。

傳錄音

10-30 秒清晰語音，WAV / MP3 都得。

點生成

Generate 頁揀檔案，輸入文字，即刻出。

第一次佢會自己下載模型，等一陣。之後即刻出。唔使 3 分鐘。

03	/ 7個引擎，先用Qwen3-TTS

VoiceBox 內置咗 7 個引擎，唔使驚，大多數情況下你淨係需要知道一個。

⚡ 一句講曬

Qwen3-TTS

綜合質素最好，支援中文在內嘅 10 種語言，Apple Silicon 上用 MLX 加速，速度接近 CUDA。唔知揀邊個就揀佢。

淨低幾個簡單講下——

▸ Chatterbox Multilingual：23 種語言，做細語種用。

▸ Chatterbox Turbo：呢個幾得意，支援情感標籤。輸入 [laugh]、[sigh]，生成嘅語音真係會笑同嘆氣。做播客同有聲書嘅時候呢個功能好實用。

▸ LuxTTS：CPU 上行最快嘅，150 倍即時，48kHz。冇 GPU 嘅機就用呢個。

▸ Kokoro：最細，150MB VRAM，但唔支援複製，得預設音色。攞嚟快速測試夠用。

▸ TADA（HumeAI）：可以一口氣生成 700 秒以上連貫語音。食資源，8GB VRAM 起錶。

▸ Qwen CustomVoice：支援用自然語言描述語氣——「温暖、對話感、微微笑」咁寫，佢會跟住生成。

04	/ 佢仲係一個本地語音API

VoiceBox 啟動之後會喺本地開一個 REST API：127.0.0.1:17493。

你嘅腳本、你嘅 Agent、是但乜嘢可以發 HTTP 請求嘅嘢都可以調用。唔使註冊，唔使填 Key，唔計次數。

</> 調用示例

01curl -X POST http://127.0.0.1:17493/tts \
02  -H "Content-Type: application/json" \
03  -d '{"text":"你好世界","profile":"my-voice"}'

▸ 項目地址：github.com/jamiepine/voicebox

▸ 官網：voicebox.sh

▸ 文件：docs.voicebox.sh

★ 系統要求

macOS 11+ / Windows 10+，8GB RAM，5GB 儲存。推薦 16GB RAM + NVIDIA GPU。

TECH · NOTES

本地跑一個免費ElevenLabs
3分鐘克隆你的聲音

開源 + 本地跑 + API Key 都省了

Min Li / 開源工具筆記 / 閲讀 4 min

◎ 導語

VoiceBox，開源，本地跑，MIT 協議。GitHub 26,893 星。它能做聲音克隆——給你一段 10 秒錄音，生成出來的語音跟你像。也能給 Agent 配個固定聲線。還有一個 TTS 功能，文字轉語音。

⚡ 最關鍵

不需要 API Key，不限次數，數據全在你電腦上。

安裝不折騰

Windows：GitHub Releases 下載 .msi，雙擊裝完。

macOS：下載 .app.tar.gz，解壓拖進 Applications。

8GB 內存、5GB 硬盤就行。有 NVIDIA GPU 當然好，生成速度快 5-10 倍；沒有 GPU 也能跑，就是等得久一點——我試了一下 CPU 模式，大概慢 8 倍左右，能用。

02	/ 10秒錄音克隆聲音

▶ 操作步驟

建檔案

左側 Profiles → + New Profile，起個名字。

傳錄音

10-30 秒清晰語音，WAV / MP3 都行。

點生成

Generate 頁選檔案，輸入文字，秒出。

第一次它會自己下載模型，等一會兒。之後秒出。不到 3 分鐘。

03	/ 7個引擎，先用Qwen3-TTS

VoiceBox 內置了 7 個引擎，別慌，大多數情況下你只需要知道一個。

⚡ 一句話

Qwen3-TTS

綜合質量最好，支持中文在內的 10 種語言，Apple Silicon 上用 MLX 加速，速度接近 CUDA。不知道選什麼就選它。

剩下幾個簡單說一下——

▸ Chatterbox Multilingual：23 種語言，做小語種用。

▸ Chatterbox Turbo：這個有意思，支持情感標籤。輸入 [laugh]、[sigh]，生成的語音真的會笑和嘆氣。做播客和有聲書的時候這個功能很實用。

▸ LuxTTS：CPU 上跑最快的，150 倍實時，48kHz。沒 GPU 的機器用這個。

▸ Kokoro：最小，150MB 顯存，但不支持克隆，只有預設音色。拿來快速測試夠了。

▸ TADA（HumeAI）：能一口氣生成 700 秒以上連貫語音。吃資源，8GB 顯存起步。

▸ Qwen CustomVoice：支持用自然語言描述語氣——"温暖、對話感、微微笑"這樣寫，它會照着生成。

04	/ 還是一個本地語音API

VoiceBox 啓動後會在本地開一個 REST API：127.0.0.1:17493。

你的腳本、你的 Agent、隨便什麼能發 HTTP 請求的東西都能調。不註冊，不填 Key，不計數。

</> 調用示例

01curl -X POST http://127.0.0.1:17493/tts \
02  -H "Content-Type: application/json" \
03  -d '{"text":"你好世界","profile":"my-voice"}'

▸ 項目地址：github.com/jamiepine/voicebox

▸ 官網：voicebox.sh

▸ 文檔：docs.voicebox.sh

★ 系統要求

macOS 11+ / Windows 10+，8GB RAM，5GB 存儲。推薦 16GB RAM + NVIDIA GPU。

免費開源本地語音工具

一鍵安裝，系統要求

10秒錄音，克隆你嘅聲音

7個引擎，點揀好？

本地API，自由整合

本地行一個免費ElevenLabs3分鐘複製你嘅聲音

本地跑一個免費ElevenLabs3分鐘克隆你的聲音

本地行一個免費ElevenLabs
3分鐘複製你嘅聲音

本地跑一個免費ElevenLabs
3分鐘克隆你的聲音