開源 ElevenLabs 平替來了!OmniVoice Studio 本地免費實現電影級配音

作者:GitHubStore
日期:2026年5月14日 下午12:33
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

OmniVoice Studio 開源免費,本地運行實現電影級配音與語音克隆

整理版摘要

呢篇文章介紹嘅係 OmniVoice Studio,一個由開發者 debpalash 整嘅開源項目,目標係做一個免費、本地運行嘅 ElevenLabs 平替。作者想解決嘅問題係:市面上嘅語音克隆同配音工具多數要聯網、畀錢,而且有私隱風險。呢個工具完全唔使 API Key,全部喺自己電腦跑,支援 Windows、macOS、Linux。

OmniVoice Studio 嘅核心功能好豐富:3 秒音頻就可以零樣本複製把聲,支援 646 種語言;仲可以調節性別、年齡、口音、情感等參數。輸入一個 YouTube 連結或者本地影片,佢會自動轉錄、翻譯、重新配音,最後輸出 MP4。另外,佢有個全局快捷鍵聽寫功能,按 ⌘+⇧+Space 就可以喺任何軟件度即時轉錄語音。人聲分離、說話人區分呢啲專業功能都有齊,仲內置 Meta 嘅 AudioSeal 水印技術,確保生成內容可追溯。

硬件方面,呢個工具對顯存好友好,8GB 顯存都可以通過自動卸載機制正常運行。佢支援 CUDAMPSROCm 等加速,仲可以多引擎切換,例如 OmniVoice、CosyVoice 3、MLX-Audio 等。成個項目開源,可以自行修改同部署。總括嚟講,呢個係一個功能全面、私隱安全、免費開源嘅語音處理工具。

  • OmniVoice Studio 係開源免費、本地運行嘅語音克隆同配音工具,媲美 ElevenLabs
  • 只需 3 秒音頻即可零樣本克隆聲音,支援 646 種語言。
  • 完全本地處理,唔使上傳數據,保護私隱;支援多引擎切換同 GPU 自動檢測。
  • 開源社羣可以自行修改同部署,適合有自託管需求嘅開發者。
  • 可以立即下載桌面應用或使用 Docker 一鍵部署,8GB 顯存已經夠用。
值得記低
連結 github.com

OmniVoice Studio GitHub

開源項目主頁

整理重點

核心功能一覽

OmniVoice Studio 最吸引嘅地方係佢嘅零樣本語音克隆功能。

只需 3 秒音頻,就可以完美復刻任何一把聲

而且支援多達 646 種語言,無論你講咩話都得。

  • 精細語音設計:可以調節性別、年齡、口音、情感、語速等
  • 智能視頻配音:輸入影片或 YouTube 連結,自動轉錄、翻譯、配音
  • 全局聽寫小部件:任何軟件按快捷鍵即可實時轉錄語音並自動貼上
  • 人聲分離:基於 Demucs,乾淨分離人聲保留背景
  • 說話人區分:自動判斷邊個講嘢
  • 批量處理:一次拖 50 個影片,掛機搞掂
  • AI 水印:內置 Meta AudioSeal,生成內容可追溯

全局快捷鍵 ⌘+⇧+Space 聽寫

整理重點

安裝方式靈活多變

呢個工具支援三大平台Windows、macOS 同 Linux,安裝方法有三種。

最推薦係用桌面應用

直接下載安裝包(DMG/MSI/AppImage),首次會自動下載模型。

  1. 1 桌面應用:最簡單,下載就開得。
  2. 2 Docker 一鍵部署:適合伺服器或用容器嘅用戶,一條命令搞掂。
  3. 3 從源碼運行:適合開發者,git clone 後用 bun 啟動,支援熱重載。

Docker 部署支援 CPUNVIDIA GPU

源碼運行方便二次開發

整理重點

技術細節與硬件支援

OmniVoice Studio 用咗多個先進嘅 AI 模型,核心 TTS 引擎係 OmniVoice,基於擴散語言模型架構。

擴散語言模型(Diffusion Language Model)架構

仲可以切換其他引擎,例如 CosyVoice 3、MLX-AudioApple Silicon 專屬)、VoxCPM2 等。

CosyVoice 3 同 MLX-Audio 都係可選引擎

語音識別用 WhisperX 做主力,配合 Faster-WhisperMLX-Whisper;說話人區分由 Pyannote-audio 負責。

WhisperX 帶時間戳同說話人區分

  • 人聲分離Demucs(保留背景音樂)
  • 音頻水印Meta AudioSeal(抗壓縮)
  • 音效處理Pedalboard
  • 格式轉換:pydub + soundfile
  • 下載工具:yt-dlp

支援 CUDAMPSROCm 自動檢測


項目簡介

即時聽寫 + 3秒零樣本語音克隆 + 646種語言視頻配音,全程本地運行,唔使賬户、唔使API金鑰!

佢可以令你喺自己嘅電腦上完成:

  • 3秒音頻實現任意聲音克隆
  • 電影級視頻自動配音(支援 YouTube 連結直接轉配音)
  • 全局快捷鍵即時聽寫(任何軟件都用得)
  • 人聲分離、說話人區分、AI水印等專業功能

全部本地運行,完全免費開源!

特點

  • 🎙️ 零樣本語音克隆:只需3秒音頻,就可以完美復刻聲音,支援 646種語言
  • 🎨 精細語音設計:可以調節性別、年齡、口音、情感、語速、音高、方言等
  • 🎬 智能視頻配音:輸入視頻或YouTube連結 → 自動轉錄 → 翻譯 → 重新配音 → 輸出新的MP4
  • ⌨️ 全局聽寫小工具:按 ⌘ + ⇧ + Space 就可以喺任何應用程式中即時轉錄並自動貼上
  • 🔊 人聲分離:基於 Demucs,可以從音樂中乾淨分離人聲並保留背景
  • 👥 說話人區分:自動判斷視頻入面邊個講緊嘢
  • 📦 批量處理:一次過拖入50個視頻,掛機自動完成
  • 🛡️ AI水印:內置 Meta AudioSeal,生成嘅內容可以追溯
  • 🔐 100% 本地私隱:唔使聯網、唔使上傳數據

支援嘅平台同安裝方法

OmniVoice Studio 支援 Windows、macOS、Linux 三大平台,提供以下三種使用方式:

1. 最推薦 - 桌面應用(最簡單)
直接下載安裝包(macOS DMG / Windows MSI / Linux AppImage),安裝之後啟動就可以。第一次會自動下載所需模型,之後用起嚟好方便。

2. Docker 一鍵部署
適合有伺服器或者鍾意容器化嘅用戶,一條命令就可以啟動,支援 CPU 同 NVIDIA GPU。

3. 從源碼運行(開發者推薦)

git clone https://github.com/debpalash/OmniVoice-Studio.git
cd OmniVoice-Studio
bun install && bun run dev

支援熱重載,方便二次開發同修改。

關鍵技術

  • 主要 TTS 引擎(多引擎可以切換):

    • OmniVoice(默認,自研/集成):600+ 語言零樣本語音克隆。基於 Diffusion Language Model(擴散語言模型)架構,離散非自迴歸(NAR),支援指令跟隨(Instruct)、語音設計(性別、年齡、口音、情感等)。
    • 支援其他引擎:CosyVoice 3、MLX-Audio(Apple Silicon 專屬:Kokoro、Qwen3-TTS 等)、VoxCPM2、MOSS-TTS-Nano、KittenTTS(輕量英文)。
  • 語音識別(ASR)

    • WhisperX(主要):帶時間戳同說話人區分。
    • Faster-Whisper(fallback)。
    • MLX-Whisper(Apple Silicon 加速)。
  • 說話人區分(Diarization)Pyannote-audio + WhisperX。

  • 人聲分離Demucs(保留背景音樂)。

  • 其他音頻處理

    • AudioSeal(Meta):AI 生成音頻隱形水印(抗壓縮)。
    • Pedalboard:音頻效果處理。
    • pydub + soundfile:音頻格式轉換。
    • yt-dlp:YouTube 視頻下載與處理。
  • GPU/硬件加速

    • 自動檢測:CUDA(NVIDIA)、MPS(Apple Silicon)、ROCm(AMD)、CPU。
    • VRAM 感知自動卸載(≤8GB 時 TTS 卸載到 CPU)。
    • Torch + Torchaudio(PyTorch 2.8+)。

項目對顯存要求友好,8GB顯存都可以透過自動卸載機制正常運行。

項目地址

https://github.com/debpalash/OmniVoice-Studio



如果你覺得呢篇文章唔錯,唔好唔記得讚好、分享、轉發俾更多需要嘅朋友哦!


需要買雲伺服器或者其他雲產品?

歡迎聯絡獲取專屬折扣同優惠方案!

技術 / 產品交流掃QR code加入交流羣,備註格式:「開發語言-城市-暱稱」

其他合作請註明來意


圖片



項目簡介

實時聽寫 + 3秒零樣本語音克隆 + 646種語言視頻配音,全程本地運行,無需賬號、無需API密鑰!

它能讓你在自己的電腦上完成:

  • 3秒音頻實現任意聲音克隆
  • 電影級視頻自動配音(支持 YouTube 連結直接轉配音)
  • 全局快捷鍵實時聽寫(任意軟件都能用)
  • 人聲分離、說話人區分、AI水印等專業功能

全部本地運行,完全免費開源!

特點

  • 🎙️ 零樣本語音克隆:只需3秒音頻,就能完美復刻聲音,支持 646種語言
  • 🎨 精細語音設計:可調節性別、年齡、口音、情感、語速、音高、方言等
  • 🎬 智能視頻配音:輸入視頻或YouTube連結 → 自動轉錄 → 翻譯 → 重新配音 → 輸出新MP4
  • ⌨️ 全局聽寫小部件:按 ⌘ + ⇧ + Space 即可在任意應用中實時轉錄並自動粘貼
  • 🔊 人聲分離:基於 Demucs,可從音樂中乾淨分離人聲並保留背景
  • 👥 說話人區分:自動判斷視頻裏誰在說話
  • 📦 批量處理:一次拖入50個視頻,掛機自動完成
  • 🛡️ AI水印:內置 Meta AudioSeal,生成的內容可追溯
  • 🔐 100% 本地隱私:無需聯網、無需上傳數據

支持的平台與安裝方式

OmniVoice Studio 支持 Windows、macOS、Linux 三大平台,提供以下三種使用方式:

1. 最推薦 - 桌面應用(最簡單)
直接下載安裝包(macOS DMG / Windows MSI / Linux AppImage),安裝後啓動即可。首次會自動下載所需模型,之後使用非常方便。

2. Docker 一鍵部署
適合有服務器或喜歡容器化的用戶,一條命令即可啓動,支持 CPU 和 NVIDIA GPU。

3. 從源碼運行(開發者推薦)

git clone https://github.com/debpalash/OmniVoice-Studio.git
cd OmniVoice-Studio
bun install && bun run dev

支持熱重載,方便二次開發和修改。

關鍵技術

  • 主要 TTS 引擎(多引擎可切換):

    • OmniVoice(默認,自研/集成):600+ 語言零樣本語音克隆。基於 Diffusion Language Model(擴散語言模型)架構,離散非自迴歸(NAR),支持指令跟隨(Instruct)、語音設計(性別、年齡、口音、情感等)。
    • 支持其他引擎:CosyVoice 3、MLX-Audio(Apple Silicon 專屬:Kokoro、Qwen3-TTS 等)、VoxCPM2、MOSS-TTS-Nano、KittenTTS(輕量英文)。
  • 語音識別(ASR)

    • WhisperX(主要):帶時間戳和說話人區分。
    • Faster-Whisper(fallback)。
    • MLX-Whisper(Apple Silicon 加速)。
  • 說話人區分(Diarization)Pyannote-audio + WhisperX。

  • 人聲分離Demucs(保留背景音樂)。

  • 其他音頻處理

    • AudioSeal(Meta):AI 生成音頻隱形水印(抗壓縮)。
    • Pedalboard:音頻效果處理。
    • pydub + soundfile:音頻格式轉換。
    • yt-dlp:YouTube 視頻下載與處理。
  • GPU/硬件加速

    • 自動檢測:CUDA(NVIDIA)、MPS(Apple Silicon)、ROCm(AMD)、CPU。
    • VRAM 感知自動卸載(≤8GB 時 TTS 卸載到 CPU)。
    • Torch + Torchaudio(PyTorch 2.8+)。

項目對顯存要求友好,8GB顯存也能通過自動卸載機制正常運行。

項目地址

https://github.com/debpalash/OmniVoice-Studio



如果你覺得這篇文章不錯,別忘了點贊、在看、轉發給更多需要的小夥伴哦!


需要購買雲服務器或其他雲產品?

歡迎聯繫獲取專屬折扣與優惠方案!

技術 / 產品交流掃碼加入交流羣,備註格式:「開發語言-城市-暱稱」

其他合作請註明來意


圖片