開源 ElevenLabs 平替來了!OmniVoice Studio 本地免費實現電影級配音
整理版優先睇
OmniVoice Studio 開源免費,本地運行實現電影級配音與語音克隆
呢篇文章介紹嘅係 OmniVoice Studio,一個由開發者 debpalash 整嘅開源項目,目標係做一個免費、本地運行嘅 ElevenLabs 平替。作者想解決嘅問題係:市面上嘅語音克隆同配音工具多數要聯網、畀錢,而且有私隱風險。呢個工具完全唔使 API Key,全部喺自己電腦跑,支援 Windows、macOS、Linux。
OmniVoice Studio 嘅核心功能好豐富:3 秒音頻就可以零樣本複製把聲,支援 646 種語言;仲可以調節性別、年齡、口音、情感等參數。輸入一個 YouTube 連結或者本地影片,佢會自動轉錄、翻譯、重新配音,最後輸出 MP4。另外,佢有個全局快捷鍵聽寫功能,按 ⌘+⇧+Space 就可以喺任何軟件度即時轉錄語音。人聲分離、說話人區分呢啲專業功能都有齊,仲內置 Meta 嘅 AudioSeal 水印技術,確保生成內容可追溯。
硬件方面,呢個工具對顯存好友好,8GB 顯存都可以通過自動卸載機制正常運行。佢支援 CUDA、MPS、ROCm 等加速,仲可以多引擎切換,例如 OmniVoice、CosyVoice 3、MLX-Audio 等。成個項目開源,可以自行修改同部署。總括嚟講,呢個係一個功能全面、私隱安全、免費開源嘅語音處理工具。
- OmniVoice Studio 係開源免費、本地運行嘅語音克隆同配音工具,媲美 ElevenLabs。
- 只需 3 秒音頻即可零樣本克隆聲音,支援 646 種語言。
- 完全本地處理,唔使上傳數據,保護私隱;支援多引擎切換同 GPU 自動檢測。
- 開源社羣可以自行修改同部署,適合有自託管需求嘅開發者。
- 可以立即下載桌面應用或使用 Docker 一鍵部署,8GB 顯存已經夠用。
OmniVoice Studio GitHub
開源項目主頁
核心功能一覽
OmniVoice Studio 最吸引嘅地方係佢嘅零樣本語音克隆功能。
只需 3 秒音頻,就可以完美復刻任何一把聲
而且支援多達 646 種語言,無論你講咩話都得。
- 精細語音設計:可以調節性別、年齡、口音、情感、語速等
- 智能視頻配音:輸入影片或 YouTube 連結,自動轉錄、翻譯、配音
- 全局聽寫小部件:任何軟件按快捷鍵即可實時轉錄語音並自動貼上
- 人聲分離:基於 Demucs,乾淨分離人聲保留背景
- 說話人區分:自動判斷邊個講嘢
- 批量處理:一次拖 50 個影片,掛機搞掂
- AI 水印:內置 Meta AudioSeal,生成內容可追溯
全局快捷鍵 ⌘+⇧+Space 聽寫
安裝方式靈活多變
呢個工具支援三大平台:Windows、macOS 同 Linux,安裝方法有三種。
最推薦係用桌面應用
直接下載安裝包(DMG/MSI/AppImage),首次會自動下載模型。
- 1 桌面應用:最簡單,下載就開得。
- 2 Docker 一鍵部署:適合伺服器或用容器嘅用戶,一條命令搞掂。
- 3 從源碼運行:適合開發者,git clone 後用 bun 啟動,支援熱重載。
Docker 部署支援 CPU 同 NVIDIA GPU
源碼運行方便二次開發
技術細節與硬件支援
OmniVoice Studio 用咗多個先進嘅 AI 模型,核心 TTS 引擎係 OmniVoice,基於擴散語言模型架構。
擴散語言模型(Diffusion Language Model)架構
仲可以切換其他引擎,例如 CosyVoice 3、MLX-Audio(Apple Silicon 專屬)、VoxCPM2 等。
CosyVoice 3 同 MLX-Audio 都係可選引擎
語音識別用 WhisperX 做主力,配合 Faster-Whisper 同 MLX-Whisper;說話人區分由 Pyannote-audio 負責。
WhisperX 帶時間戳同說話人區分
- 人聲分離:Demucs(保留背景音樂)
- 音頻水印:Meta AudioSeal(抗壓縮)
- 音效處理:Pedalboard
- 格式轉換:pydub + soundfile
- 下載工具:yt-dlp
支援 CUDA、MPS、ROCm 自動檢測
項目簡介
即時聽寫 + 3秒零樣本語音克隆 + 646種語言視頻配音,全程本地運行,唔使賬户、唔使API金鑰!
佢可以令你喺自己嘅電腦上完成:
3秒音頻實現任意聲音克隆 電影級視頻自動配音(支援 YouTube 連結直接轉配音) 全局快捷鍵即時聽寫(任何軟件都用得) 人聲分離、說話人區分、AI水印等專業功能
全部本地運行,完全免費開源!
特點
🎙️ 零樣本語音克隆:只需3秒音頻,就可以完美復刻聲音,支援 646種語言 🎨 精細語音設計:可以調節性別、年齡、口音、情感、語速、音高、方言等 🎬 智能視頻配音:輸入視頻或YouTube連結 → 自動轉錄 → 翻譯 → 重新配音 → 輸出新的MP4 ⌨️ 全局聽寫小工具:按 ⌘ + ⇧ + Space就可以喺任何應用程式中即時轉錄並自動貼上🔊 人聲分離:基於 Demucs,可以從音樂中乾淨分離人聲並保留背景 👥 說話人區分:自動判斷視頻入面邊個講緊嘢 📦 批量處理:一次過拖入50個視頻,掛機自動完成 🛡️ AI水印:內置 Meta AudioSeal,生成嘅內容可以追溯 🔐 100% 本地私隱:唔使聯網、唔使上傳數據
支援嘅平台同安裝方法
OmniVoice Studio 支援 Windows、macOS、Linux 三大平台,提供以下三種使用方式:
1. 最推薦 - 桌面應用(最簡單)
直接下載安裝包(macOS DMG / Windows MSI / Linux AppImage),安裝之後啟動就可以。第一次會自動下載所需模型,之後用起嚟好方便。
2. Docker 一鍵部署
適合有伺服器或者鍾意容器化嘅用戶,一條命令就可以啟動,支援 CPU 同 NVIDIA GPU。
3. 從源碼運行(開發者推薦)
git clone https://github.com/debpalash/OmniVoice-Studio.git
cd OmniVoice-Studio
bun install && bun run dev
支援熱重載,方便二次開發同修改。
關鍵技術
主要 TTS 引擎(多引擎可以切換):
OmniVoice(默認,自研/集成):600+ 語言零樣本語音克隆。基於 Diffusion Language Model(擴散語言模型)架構,離散非自迴歸(NAR),支援指令跟隨(Instruct)、語音設計(性別、年齡、口音、情感等)。 支援其他引擎:CosyVoice 3、MLX-Audio(Apple Silicon 專屬:Kokoro、Qwen3-TTS 等)、VoxCPM2、MOSS-TTS-Nano、KittenTTS(輕量英文)。 語音識別(ASR):
WhisperX(主要):帶時間戳同說話人區分。 Faster-Whisper(fallback)。 MLX-Whisper(Apple Silicon 加速)。 說話人區分(Diarization):Pyannote-audio + WhisperX。
人聲分離:Demucs(保留背景音樂)。
其他音頻處理:
AudioSeal(Meta):AI 生成音頻隱形水印(抗壓縮)。 Pedalboard:音頻效果處理。 pydub + soundfile:音頻格式轉換。 yt-dlp:YouTube 視頻下載與處理。 GPU/硬件加速:
自動檢測:CUDA(NVIDIA)、MPS(Apple Silicon)、ROCm(AMD)、CPU。 VRAM 感知自動卸載(≤8GB 時 TTS 卸載到 CPU)。 Torch + Torchaudio(PyTorch 2.8+)。
項目對顯存要求友好,8GB顯存都可以透過自動卸載機制正常運行。
項目地址
https://github.com/debpalash/OmniVoice-Studio
如果你覺得呢篇文章唔錯,唔好唔記得讚好、分享、轉發俾更多需要嘅朋友哦!
需要買雲伺服器或者其他雲產品?
歡迎聯絡獲取專屬折扣同優惠方案!
技術 / 產品交流掃QR code加入交流羣,備註格式:「開發語言-城市-暱稱」
其他合作請註明來意

項目簡介
實時聽寫 + 3秒零樣本語音克隆 + 646種語言視頻配音,全程本地運行,無需賬號、無需API密鑰!
它能讓你在自己的電腦上完成:
3秒音頻實現任意聲音克隆 電影級視頻自動配音(支持 YouTube 連結直接轉配音) 全局快捷鍵實時聽寫(任意軟件都能用) 人聲分離、說話人區分、AI水印等專業功能
全部本地運行,完全免費開源!
特點
🎙️ 零樣本語音克隆:只需3秒音頻,就能完美復刻聲音,支持 646種語言 🎨 精細語音設計:可調節性別、年齡、口音、情感、語速、音高、方言等 🎬 智能視頻配音:輸入視頻或YouTube連結 → 自動轉錄 → 翻譯 → 重新配音 → 輸出新MP4 ⌨️ 全局聽寫小部件:按 ⌘ + ⇧ + Space即可在任意應用中實時轉錄並自動粘貼🔊 人聲分離:基於 Demucs,可從音樂中乾淨分離人聲並保留背景 👥 說話人區分:自動判斷視頻裏誰在說話 📦 批量處理:一次拖入50個視頻,掛機自動完成 🛡️ AI水印:內置 Meta AudioSeal,生成的內容可追溯 🔐 100% 本地隱私:無需聯網、無需上傳數據
支持的平台與安裝方式
OmniVoice Studio 支持 Windows、macOS、Linux 三大平台,提供以下三種使用方式:
1. 最推薦 - 桌面應用(最簡單)
直接下載安裝包(macOS DMG / Windows MSI / Linux AppImage),安裝後啓動即可。首次會自動下載所需模型,之後使用非常方便。
2. Docker 一鍵部署
適合有服務器或喜歡容器化的用戶,一條命令即可啓動,支持 CPU 和 NVIDIA GPU。
3. 從源碼運行(開發者推薦)
git clone https://github.com/debpalash/OmniVoice-Studio.git
cd OmniVoice-Studio
bun install && bun run dev
支持熱重載,方便二次開發和修改。
關鍵技術
主要 TTS 引擎(多引擎可切換):
OmniVoice(默認,自研/集成):600+ 語言零樣本語音克隆。基於 Diffusion Language Model(擴散語言模型)架構,離散非自迴歸(NAR),支持指令跟隨(Instruct)、語音設計(性別、年齡、口音、情感等)。 支持其他引擎:CosyVoice 3、MLX-Audio(Apple Silicon 專屬:Kokoro、Qwen3-TTS 等)、VoxCPM2、MOSS-TTS-Nano、KittenTTS(輕量英文)。 語音識別(ASR):
WhisperX(主要):帶時間戳和說話人區分。 Faster-Whisper(fallback)。 MLX-Whisper(Apple Silicon 加速)。 說話人區分(Diarization):Pyannote-audio + WhisperX。
人聲分離:Demucs(保留背景音樂)。
其他音頻處理:
AudioSeal(Meta):AI 生成音頻隱形水印(抗壓縮)。 Pedalboard:音頻效果處理。 pydub + soundfile:音頻格式轉換。 yt-dlp:YouTube 視頻下載與處理。 GPU/硬件加速:
自動檢測:CUDA(NVIDIA)、MPS(Apple Silicon)、ROCm(AMD)、CPU。 VRAM 感知自動卸載(≤8GB 時 TTS 卸載到 CPU)。 Torch + Torchaudio(PyTorch 2.8+)。
項目對顯存要求友好,8GB顯存也能通過自動卸載機制正常運行。
項目地址
https://github.com/debpalash/OmniVoice-Studio
如果你覺得這篇文章不錯,別忘了點贊、在看、轉發給更多需要的小夥伴哦!
需要購買雲服務器或其他雲產品?
歡迎聯繫獲取專屬折扣與優惠方案!
技術 / 產品交流掃碼加入交流羣,備註格式:「開發語言-城市-暱稱」
其他合作請註明來意
