開源 ElevenLabs 平替來了！OmniVoice Studio 本地免費實現電影級配音

作者：GitHubStore

日期：2026年5月14日下午12:33

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

OmniVoice Studio 開源免費，本地運行實現電影級配音與語音克隆

整理版摘要

呢篇文章介紹嘅係 OmniVoice Studio，一個由開發者 debpalash 整嘅開源項目，目標係做一個免費、本地運行嘅 ElevenLabs 平替。作者想解決嘅問題係：市面上嘅語音克隆同配音工具多數要聯網、畀錢，而且有私隱風險。呢個工具完全唔使 API Key，全部喺自己電腦跑，支援 Windows、macOS、Linux。

OmniVoice Studio 嘅核心功能好豐富：3 秒音頻就可以零樣本複製把聲，支援 646 種語言；仲可以調節性別、年齡、口音、情感等參數。輸入一個 YouTube 連結或者本地影片，佢會自動轉錄、翻譯、重新配音，最後輸出 MP4。另外，佢有個全局快捷鍵聽寫功能，按 ⌘+⇧+Space 就可以喺任何軟件度即時轉錄語音。人聲分離、說話人區分呢啲專業功能都有齊，仲內置 Meta 嘅 AudioSeal 水印技術，確保生成內容可追溯。

硬件方面，呢個工具對顯存好友好，8GB 顯存都可以通過自動卸載機制正常運行。佢支援 CUDA、MPS、ROCm 等加速，仲可以多引擎切換，例如 OmniVoice、CosyVoice 3、MLX-Audio 等。成個項目開源，可以自行修改同部署。總括嚟講，呢個係一個功能全面、私隱安全、免費開源嘅語音處理工具。

OmniVoice Studio 係開源免費、本地運行嘅語音克隆同配音工具，媲美 ElevenLabs。
只需 3 秒音頻即可零樣本克隆聲音，支援 646 種語言。
完全本地處理，唔使上傳數據，保護私隱；支援多引擎切換同 GPU 自動檢測。
開源社羣可以自行修改同部署，適合有自託管需求嘅開發者。
可以立即下載桌面應用或使用 Docker 一鍵部署，8GB 顯存已經夠用。

值得記低

連結 github.com

OmniVoice Studio GitHub

開源項目主頁

整理重點

核心功能一覽

OmniVoice Studio 最吸引嘅地方係佢嘅零樣本語音克隆功能。

只需 3 秒音頻，就可以完美復刻任何一把聲

而且支援多達 646 種語言，無論你講咩話都得。

精細語音設計：可以調節性別、年齡、口音、情感、語速等
智能視頻配音：輸入影片或 YouTube 連結，自動轉錄、翻譯、配音
全局聽寫小部件：任何軟件按快捷鍵即可實時轉錄語音並自動貼上
人聲分離：基於 Demucs，乾淨分離人聲保留背景
說話人區分：自動判斷邊個講嘢
批量處理：一次拖 50 個影片，掛機搞掂
AI 水印：內置 Meta AudioSeal，生成內容可追溯

全局快捷鍵 ⌘+⇧+Space 聽寫

整理重點

安裝方式靈活多變

呢個工具支援三大平台：Windows、macOS 同 Linux，安裝方法有三種。

最推薦係用桌面應用

直接下載安裝包（DMG/MSI/AppImage），首次會自動下載模型。

1 桌面應用：最簡單，下載就開得。
2 Docker 一鍵部署：適合伺服器或用容器嘅用戶，一條命令搞掂。
3 從源碼運行：適合開發者，git clone 後用 bun 啟動，支援熱重載。

Docker 部署支援 CPU 同 NVIDIA GPU

源碼運行方便二次開發

整理重點

技術細節與硬件支援

OmniVoice Studio 用咗多個先進嘅 AI 模型，核心 TTS 引擎係 OmniVoice，基於擴散語言模型架構。

擴散語言模型（Diffusion Language Model）架構

仲可以切換其他引擎，例如 CosyVoice 3、MLX-Audio（Apple Silicon 專屬）、VoxCPM2 等。

CosyVoice 3 同 MLX-Audio 都係可選引擎

語音識別用 WhisperX 做主力，配合 Faster-Whisper 同 MLX-Whisper；說話人區分由 Pyannote-audio 負責。

WhisperX 帶時間戳同說話人區分

人聲分離：Demucs（保留背景音樂）
音頻水印：Meta AudioSeal（抗壓縮）
音效處理：Pedalboard
格式轉換：pydub + soundfile
下載工具：yt-dlp

支援 CUDA、MPS、ROCm 自動檢測

項目簡介

即時聽寫 + 3秒零樣本語音克隆 + 646種語言視頻配音，全程本地運行，唔使賬户、唔使API金鑰！

佢可以令你喺自己嘅電腦上完成：

3秒音頻實現任意聲音克隆
電影級視頻自動配音（支援 YouTube 連結直接轉配音）
全局快捷鍵即時聽寫（任何軟件都用得）
人聲分離、說話人區分、AI水印等專業功能

全部本地運行，完全免費開源！

特點

🎙️ 零樣本語音克隆：只需3秒音頻，就可以完美復刻聲音，支援 646種語言
🎨 精細語音設計：可以調節性別、年齡、口音、情感、語速、音高、方言等
🎬 智能視頻配音：輸入視頻或YouTube連結 → 自動轉錄 → 翻譯 → 重新配音 → 輸出新的MP4
⌨️ 全局聽寫小工具：按 ⌘ + ⇧ + Space 就可以喺任何應用程式中即時轉錄並自動貼上
🔊 人聲分離：基於 Demucs，可以從音樂中乾淨分離人聲並保留背景
👥 說話人區分：自動判斷視頻入面邊個講緊嘢
📦 批量處理：一次過拖入50個視頻，掛機自動完成
🛡️ AI水印：內置 Meta AudioSeal，生成嘅內容可以追溯
🔐 100% 本地私隱：唔使聯網、唔使上傳數據

支援嘅平台同安裝方法

OmniVoice Studio 支援 Windows、macOS、Linux 三大平台，提供以下三種使用方式：

1. 最推薦 - 桌面應用（最簡單）
直接下載安裝包（macOS DMG / Windows MSI / Linux AppImage），安裝之後啟動就可以。第一次會自動下載所需模型，之後用起嚟好方便。

2. Docker 一鍵部署
適合有伺服器或者鍾意容器化嘅用戶，一條命令就可以啟動，支援 CPU 同 NVIDIA GPU。

3. 從源碼運行（開發者推薦）

git clone https://github.com/debpalash/OmniVoice-Studio.git
cd OmniVoice-Studio
bun install && bun run dev

支援熱重載，方便二次開發同修改。

關鍵技術

主要 TTS 引擎（多引擎可以切換）：

OmniVoice（默認，自研/集成）：600+ 語言零樣本語音克隆。基於 Diffusion Language Model（擴散語言模型）架構，離散非自迴歸（NAR），支援指令跟隨（Instruct）、語音設計（性別、年齡、口音、情感等）。
支援其他引擎：CosyVoice 3、MLX-Audio（Apple Silicon 專屬：Kokoro、Qwen3-TTS 等）、VoxCPM2、MOSS-TTS-Nano、KittenTTS（輕量英文）。

語音識別（ASR）：

WhisperX（主要）：帶時間戳同說話人區分。
Faster-Whisper（fallback）。
MLX-Whisper（Apple Silicon 加速）。

說話人區分（Diarization）：Pyannote-audio + WhisperX。
人聲分離：Demucs（保留背景音樂）。
其他音頻處理：

AudioSeal（Meta）：AI 生成音頻隱形水印（抗壓縮）。
Pedalboard：音頻效果處理。
pydub + soundfile：音頻格式轉換。
yt-dlp：YouTube 視頻下載與處理。

GPU/硬件加速：

自動檢測：CUDA（NVIDIA）、MPS（Apple Silicon）、ROCm（AMD）、CPU。
VRAM 感知自動卸載（≤8GB 時 TTS 卸載到 CPU）。
Torch + Torchaudio（PyTorch 2.8+）。

項目對顯存要求友好，8GB顯存都可以透過自動卸載機制正常運行。

項目地址

https://github.com/debpalash/OmniVoice-Studio

如果你覺得呢篇文章唔錯，唔好唔記得讚好、分享、轉發俾更多需要嘅朋友哦！

需要買雲伺服器或者其他雲產品？

歡迎聯絡獲取專屬折扣同優惠方案！

技術 / 產品交流掃QR code加入交流羣，備註格式：「開發語言-城市-暱稱」

其他合作請註明來意

項目簡介

實時聽寫 + 3秒零樣本語音克隆 + 646種語言視頻配音，全程本地運行，無需賬號、無需API密鑰！

它能讓你在自己的電腦上完成：

3秒音頻實現任意聲音克隆
電影級視頻自動配音（支持 YouTube 連結直接轉配音）
全局快捷鍵實時聽寫（任意軟件都能用）
人聲分離、說話人區分、AI水印等專業功能

全部本地運行，完全免費開源！

特點

🎙️ 零樣本語音克隆：只需3秒音頻，就能完美復刻聲音，支持 646種語言
🎨 精細語音設計：可調節性別、年齡、口音、情感、語速、音高、方言等
🎬 智能視頻配音：輸入視頻或YouTube連結 → 自動轉錄 → 翻譯 → 重新配音 → 輸出新MP4
⌨️ 全局聽寫小部件：按 ⌘ + ⇧ + Space 即可在任意應用中實時轉錄並自動粘貼
🔊 人聲分離：基於 Demucs，可從音樂中乾淨分離人聲並保留背景
👥 說話人區分：自動判斷視頻裏誰在說話
📦 批量處理：一次拖入50個視頻，掛機自動完成
🛡️ AI水印：內置 Meta AudioSeal，生成的內容可追溯
🔐 100% 本地隱私：無需聯網、無需上傳數據

支持的平台與安裝方式

OmniVoice Studio 支持 Windows、macOS、Linux 三大平台，提供以下三種使用方式：

1. 最推薦 - 桌面應用（最簡單）
直接下載安裝包（macOS DMG / Windows MSI / Linux AppImage），安裝後啓動即可。首次會自動下載所需模型，之後使用非常方便。

2. Docker 一鍵部署
適合有服務器或喜歡容器化的用戶，一條命令即可啓動，支持 CPU 和 NVIDIA GPU。

3. 從源碼運行（開發者推薦）

git clone https://github.com/debpalash/OmniVoice-Studio.git
cd OmniVoice-Studio
bun install && bun run dev

支持熱重載，方便二次開發和修改。

關鍵技術

主要 TTS 引擎（多引擎可切換）：

OmniVoice（默認，自研/集成）：600+ 語言零樣本語音克隆。基於 Diffusion Language Model（擴散語言模型）架構，離散非自迴歸（NAR），支持指令跟隨（Instruct）、語音設計（性別、年齡、口音、情感等）。
支持其他引擎：CosyVoice 3、MLX-Audio（Apple Silicon 專屬：Kokoro、Qwen3-TTS 等）、VoxCPM2、MOSS-TTS-Nano、KittenTTS（輕量英文）。

語音識別（ASR）：

WhisperX（主要）：帶時間戳和說話人區分。
Faster-Whisper（fallback）。
MLX-Whisper（Apple Silicon 加速）。

說話人區分（Diarization）：Pyannote-audio + WhisperX。
人聲分離：Demucs（保留背景音樂）。
其他音頻處理：

AudioSeal（Meta）：AI 生成音頻隱形水印（抗壓縮）。
Pedalboard：音頻效果處理。
pydub + soundfile：音頻格式轉換。
yt-dlp：YouTube 視頻下載與處理。

GPU/硬件加速：

自動檢測：CUDA（NVIDIA）、MPS（Apple Silicon）、ROCm（AMD）、CPU。
VRAM 感知自動卸載（≤8GB 時 TTS 卸載到 CPU）。
Torch + Torchaudio（PyTorch 2.8+）。

項目對顯存要求友好，8GB顯存也能通過自動卸載機制正常運行。

項目地址

https://github.com/debpalash/OmniVoice-Studio

如果你覺得這篇文章不錯，別忘了點贊、在看、轉發給更多需要的小夥伴哦！

需要購買雲服務器或其他雲產品？

歡迎聯繫獲取專屬折扣與優惠方案！

技術 / 產品交流掃碼加入交流羣，備註格式：「開發語言-城市-暱稱」

其他合作請註明來意