一鍵做有聲書 ,終於找到了本地方案 。
整理版優先睇
abogen 係一個開源工具,可以將 EPUB、PDF 等文檔一鍵轉成有聲書,同步生成字級別精準字幕,完全本地運行。
呢篇文章係介紹一個名叫 abogen 嘅開源項目,GitHub 上 Star 超過 4600。作者留意到市面上雖然有唔少文本轉語音工具,但普遍存在語音效果麻麻、字幕同音頻唔同步等問題。abogen 嘅出現,正好將文檔解析、語音合成、字幕生成同章節管理整合埋一齊,做到自動化。
abogen 用咗 Kokoro-82M 呢個開源 TTS 模型,支援多種語言同聲線。最特別嘅係佢可以做到字級別嘅字幕同步,唔似一般工具得句子級時間戳。用戶可以匯入 EPUB、PDF、TXT、Markdown、字幕等多種格式,自動偵測章節,然後輸出 WAV、FLAC、MP3、OPUS 或 M4B(帶章節標記)音頻。佢重有語音混合器、批量隊列等功能。
整體嚟講,abogen 係一套本地方案,數據唔會上傳雲端,可以斷網使用。雖然有啲小缺點好似縮寫處理同情感一致性仲有改善空間,但對於轉技術書做有聲書或視頻配音呢類場景,已經好夠用。文章最後推薦有興趣嘅人去 GitHub 睇源碼。
- abogen 係一個整合文檔解析、語音合成、字幕同步同章節管理嘅開源工具,可以一鍵生成有聲書。
- 用戶只需拖入 EPUB/PDF 等文件,選擇語音同輸出格式,點擊 Start 即可,全程自動化。
- 與其他 TTS 工具相比,abogen 做到字級別字幕同步,支援多種字幕格式,仲有語音混合器同批量處理。
- 完全本地運行,數據安全,離線可用,適合注重私隱嘅用戶。
- 有文本轉語音需求嘅人可以下載試用,支援 Windows ZIP、pip、Docker 安裝。
abogen GitHub 倉庫
開源地址,包含源碼、文檔同安裝指引。
市面 TTS 工具嘅痛點同 abogen 嘅出現
市面上嘅文本轉語音工具選擇唔少,但好多都有語音效果欠佳、字幕同音頻唔同步呢啲問題。如果你想匯入多種文檔格式,仲要支援本地運行,啱用嘅工具真係唔多。
abogen 將成個有聲書製作流程打通,從文檔剖析到語音合成、字幕變動再到章節管理,全部自動化
abogen 就係為咗解決呢啲問題而嚟,佢將 EPUB、PDF、文本、Markdown 或者字幕文件轉成高質量音頻,自動生成同步字幕,而且完全本地運行。
核心功能同實測表現
abogen 使用 Kokoro-82M 呢個開源 TTS 模型,參數規模 82M,支援美式英語、英式英語、中文、法語、日語等多種語言,每種都有男聲同女聲可選。
- 1 文檔解析:支援 EPUB、PDF、TXT、Markdown、SRT、ASS、VTT,自動檢測章節。
- 2 語音合成:多語言多聲線,質素高。
- 3 字幕同步:字級別精準,多種模式同格式。
- 4 章節管理:可配置靜默間隙、封面圖片、作者、標題。
- 5 輸出格式:WAV、FLAC、MP3、OPUS、M4B(帶章節標記)。
有用戶實測:50 頁 PDF 約 5 分鐘生成 21 分鐘音頻;RTX 2060 Mobile 處理 3000 字符只需 11 秒,生成 3 分 28 秒音頻。
進階功能同安裝方式
語音混合器可以將唔同語音模型按權重混合,創建獨特聲音,仲可以保存成 Profile
批量處理方面,隊列模式支援一次過加多個文件,每個文件有獨立設置,亦可以用全局設定統一覆蓋,進度實時顯示,任務可隨時取消或刪除。
Web UI 版本重提供 Supertonic TTS 引擎、LLM 文本規範化、Audiobookshelf 整合等高級功能,不過目前只限 Web UI,桌面 GUI 功能穩定但較少。
# pip 安裝
pip install abogen
abogen # 啓動桌面 GUI
abogen-web # 啓動 Web UI
# Docker 部署
docker build -t abogen .
docker run --rm -p 8808:8808 -v ~/abogen-data:/data abogen
缺點同適用場景
社區提到一啲問題:縮寫處理(好似 Mr. 同 Mrs.)偶爾出錯,長文本情感一致性唔夠穩定,省略號停頓處理都有優化空間。
不過對轉技術書做有聲書或者 YouTube、TikTok 視頻配音呢啲場景,影響不大
揾配音要錢,自己錄要時間,字幕同步又要手動調。abogen 將呢啲成本全部慳返,拖個文檔入去,等幾分鐘,音頻同字幕就有齊。
今日同大家介紹一款好實用嘅神器。
GitHub開源咗唔夠一年,Star直接衝到4600。

而家市面上嘅文字轉語音工具都幾多,不過大多數只係滿足到一部分需求。
語音效果麻麻,字幕同音頻唔同步。呢啲都成日會遇到嘅問題。
如果你仲想可以導入多種文檔,支援本地運行。
咁可以揀嘅工具真係唔多。
最近見到一個叫abogen嘅項目,啱啱將呢啲功能打包成一套完整嘅解決方案。
佢其實係用嚟將EPUB、PDF、文字、Markdown或者字幕文件轉成高質素音頻,仲會自動生成同步字幕嘅工具。。

佢唔係就咁將文字轉成語音咁簡單,如果淨係得呢個功能,就真係冇乜好推薦。
佢最有價值嘅地方係,成個有聲書嘅製作流程都打通曬。
由文檔剖析、語音合成、字幕調整,再到章節管理,成個流程基本上唔需要手動去搞。
處理過程中會顯示日誌進度。
廢話少講,睇嘢先。
打開軟件,介面好乾淨。
上面係文字檔案嘅輸入位置,下面就係各種設定,撳一下就搞掂。

用起上嚟都好簡單,直接拖一個EPUB或PDF檔案入去,揀好語音同輸出格式,撳一下Start就開始生成。

睇網友測試嘅結果,效果唔錯。
揾資料嘅時候,我見到一個日本用戶喺Qiita上分享過實測成果:
50頁嘅PDF檔案,用咗大約5分鐘生成咗21分鐘嘅音頻。

仲有一位用戶。
佢用咗一張RTX 2060 Mobile低階筆記本GPU,3000字符嘅文字11秒就處理完,最後生成3分28秒嘅音頻。
由上邊兩位網友嘅實測結果嚟睇,效果唔錯。
再睇下佢係點做到嘅
01 文字轉高質素語音做得幾紮實
abogen用咗Kokoro-82M呢個開源TTS模型,佢嘅參數規模係82M。
當然佢支援嘅語言都好多。
美式英文、英式英文、中文、法文、西班牙文、日文、葡萄牙文、意大利文、印地文,全部都有。

每種語音模型都有男聲同女聲可以揀。
02 字幕精準同步係佢同普通TTS工具拉開距離嘅地方
佢生成嘅字幕唔係粗略嘅句子級時間標記,而係做到字級別嘅精確同步。
字幕生成模式有幾種:
句子級、單詞級、Sentence + Comma、Sentence + Highlighting同Line模式。
輸出格式支援SRT、ASS wide、ASS narrow、ASS centered。常見字幕需求都滿足到。

不過有一個問題要注意,單詞級字幕目前只支援英文。
非英文語言會用句子級或者音頻時長計時方式。
03 多格式文檔解析都做得幾完整
EPUB、PDF、TXT、Markdown、SRT、ASS、VTT呢啲格式全部可以直接拖入介面。
EPUB同PDF仲會自動偵測章節,你可以揀將某啲章節單獨保存,或者將所有章節合併成一個音頻檔案。
04 章節管理幾方便。
喺章節之間,你仲可以設定一段靜默間隙,封面圖片、作者、標題呢啲資訊,都會自動嵌入到輸出檔案入面。
輸出嘅音頻格式包括WAV、FLAC、MP3、OPUS同M4B,其中M4B格式帶有章節標記,可以直接放落有聲書播放器入面用。
除咗核心轉換功能,abogen仲有啲幾好嘅細節
語音混合器功能幾得意。

你可以將唔同嘅語音模型按權重溝埋一齊,創造出獨特嘅自訂聲音。
例如將一個男聲同一個女聲按70:30比例混合。
試聽滿意之後,仲可以保存做Profile,下次可以直接叫用。
批量處理都做得幾完整。

隊列模式可以一次過加入多個檔案,每個檔案都可以保持各自獨立嘅設定,但亦可以用全域設定嚟統一覆蓋,處理進度會實時顯示,任務可以隨時取消或者刪除。
如果你需要更高級嘅功能。
Web UI版本仲提供咗Supertonic TTS引擎、LLM文字規範化、Audiobookshelf同Calibre OPDS整合、多角色、EPUB 3打包管道等功能。

不過呢啲功能暫時仲係得Web UI版本先有。
桌面GUI版本嘅功能比較穩定,但係數量就少啲。
睇完呢啲功能,最低門檻嘅上手方式其實好簡單
Windows用戶可以直接下載倉庫嘅ZIP包,解壓之後執行WINDOWS_INSTALL.bat,呢個腳本會自動裝好所有依賴,包括CUDA同Python。
都可以用pip安裝:
pip install abogen
abogen # 啓動桌面 GUI
abogen-web # 啓動 Web UI
Docker部署都支援:
docker build -t abogen .
docker run --rm -p 8808:8808 -v ~/abogen-data:/data abogen
成個工具完全本地運行。
數據唔會上傳到雲端,HuggingFace Hub嘅遙測功能預設係禁用嘅,Kokoro嘅網絡訪問亦可以關閉。
喺離線模式下,只要提前下載好模型同語音包,就可以完全斷網使用。
到呢度,缺點都同大家講講
社羣嘅討論入面都有提到一啲難題:
縮寫處理(例如Mr.同Mrs.)間中會出錯,長文本嘅情感一致性唔係咁穩定,省略號嘅停頓處理都有改善空間。
但係講真,如果你只係想將自己囤落嘅技術書轉成有聲書方便消化,或者幫YouTube、TikTok影片配音,呢啲其實影響唔大。
寫喺最後
揾配音要俾錢,自己錄又要花時間,字幕同步仲要手動去校。abogen將呢啲成本全部慳返。
拖一個文件入去,等幾分鐘,音頻同字幕就有齊。
雖然話AI有聲書喺市場上仲有啲爭議,但係用嚟消化技術書、做影片配音,呢啲場景完全夠用。
有文字轉音頻需求嘅朋友,推薦試下。
項目基於MIT協議開放,有興趣嘅朋友,可以去GitHub倉庫睇下源碼同文檔。
開源地址:https://github.com/denizsafak/abogen
既然都睇到呢度,歡迎順手讚好、在看、轉發,亦可以點個星標⭐,接收最新文章,我哋下期見!
今天來給各位介紹一款相當實用的神器。
GitHub 開源不到一年,Star 直接衝到 4600。

現在市面上的文本轉語音工具能找不到不少,不過大多數也只能滿足一部分需求。
語音效果欠佳,字幕與音頻不同步。這些都是時常會碰到的毛病。
假如你還想多種文檔的導入,支持本地運行。
那能找到的工具確實不多。
最近注意到一個名為 abogen 的項目,恰好把這些能力都打包進了一套完整的解決方案當中。
它其實就是用來把 EPUB,PDF,文本,Markdown 或者字幕文件轉成高質量音頻。自動生成同步字幕的工具。

它並不只是簡單地把文字轉成語音,要真是隻有這個功能的話,那就真的沒什麼好推薦的了。
它最有價值的地方在於,把整個有聲書的製作流程都給打通了。
從文檔剖析,語音合成,字幕變動,再到章節管理,這一整套操作基本上都不需要手動去幹預。
處理的過程中會顯示日誌進度。
廢話少說,先看東西
打開軟件,界面整體很乾淨。
上面是文本文件的輸入的地方,下面就是各種設置,通過點擊就可以設置。

用起來也簡單,直接拖進去一個 EPUB 或 PDF 文件,選好語音和輸出格式,點一下 Start 就開始生成了。

從網友測出來結果來看,效果不錯。
找資料的時候,我看到一個日本用戶在 Qiita 上分享過實測成果:
50 頁的 PDF 文件,用了大概 5 分鐘生成了 21 分鐘的音頻。

還有一位用戶。
他用了一塊 RTX 2060 Mobile 低端筆記本 GPU,3000 字符的文本 11 秒就處理完了,最後生成 3 分 28 秒的音頻。
從上面兩位網友的實測結果來看,效果不錯。
再看看它是怎麼做到的
01 文本轉高質量語音這件事做得挺紮實
abogen 用了 Kokoro-82M 這個開源 TTS 模型,它的參數規模是 82M。
自然它支持的語言也很多。
美式英語,英式英語,中文,法語,西班牙語,日語,葡萄牙語,意大利語,印地語這些全都覆蓋到了。

每種語音模型都有男聲和女聲可選。
02 字幕精準同步是它和普通 TTS 工具拉開差距的地方
它生成的字幕不是那種粗略的句子級時間戳,而是能夠做到字級別的精確同步。
字幕生成模式有好幾種:
句子級,單詞級,Sentence + Comma,Sentence + Highlighting 以及 Line 模式。
輸出格式支持 SRT,ASS wide,ASS narrow,ASS centered。常見字幕需求都可以滿足。

不過有一個問題要注意一下,單詞級字幕目前只支持英語。
非英語語言會使用句子級或音頻時長計時方式。
03 多格式文檔解析也做得比較完整
EPUB,PDF,TXT,Markdown,SRT,ASS,VTT 這些格式全都可以直接拖入界面。
EPUB 和 PDF 還會自動檢測出章節,你可以選擇把某些章節單獨保存下來,也可以把所有章節合併成一個音頻文件。
04 章節管理挺省事的。
在章節之間,你還能去配置一段靜默間隙,封面圖片,作者,標題這些信息,都會自動嵌入到輸出的文件裏。
輸出的音頻格式包括 WAV,FLAC,MP3,OPUS 以及 M4B,其中 M4B 格式帶有章節標記,這樣可以直接放到有聲書播放器裏面使用。
除了核心轉換功能,abogen 還有一些好的細節
語音混合器功能挺有意思。

你可以把不同的語音模型按照權重混合在一起,創建出獨特的自定義聲音。
例如把一個男聲和一個女聲按照 70:30 的比例混合。
試聽滿意之後,還可以保存成 Profile,方便下次直接調用。
批量處理也做得比較完整。

隊列模式允許一次性添加多個文件,每個文件都能維持各自獨立的設置,但也可以用全局設置來進行統一覆蓋,處理進度會實時,顯示,任務可以隨時取消或者刪除。
你若需要更高級的功能。
Web UI 版本還提供了 Supertonic TTS 引擎,LLM 文本規範化,Audiobookshelf 和 Calibre OPDS 集成,多角色,EPUB 3 打包管道等能力。

只是這些功能目前還只存在於 Web UI 當中。
桌面 GUI 版本的功能相對穩定,但數量要少一些。
看完這些功能,最低門檻的上手方式其實很簡單
Windows 用戶可以直接下載倉庫的 ZIP 包,解壓之後運行 WINDOWS_INSTALL.bat,這個腳本會自動把所有依賴都裝好,包括 CUDA 和 Python。
也可用 pip 安裝:
pip install abogen
abogen # 啓動桌面 GUI
abogen-web # 啓動 Web UI
Docker 部署也支持:
docker build -t abogen .
docker run --rm -p 8808:8808 -v ~/abogen-data:/data abogen
整個工具完全本地運行。
數據不會上傳到雲端,HuggingFace Hub 的遙測功能默認是禁用的,Kokoro 的網絡訪問也可以關掉。
在離線模式下。只要提前下載好模型和語音包,就完全可以斷網使用。
到這裏缺點也給大家提提
社區的討論中也提到過一些難題:
縮寫處理(像 Mr. 和 Mrs.)偶爾會出錯,長文本的情感一致性還不夠穩定,省略號的停頓處理也有優化的空間。
但說實話,假如你只是想把自己積壓的技術書轉成有聲書,方便消化,或者給 YouTube,TikTok 視頻配音,這些其實影響不大。
寫在最後
找配音要花錢,自己錄又要花時間,字幕同步還得手動去調。abogen 把這些成本全都省掉了。
拖一個文檔進去,等上幾分鐘,音頻和字幕就都有了。
雖說 AI 有聲書在市場上還有些爭議,但用來消化技術書,做視頻配音,這些場景完全夠用。
有文本轉音頻需求的朋友,推薦試試看。
項目基於 MIT 協議開放,感興趣的同學,可以去 GitHub 倉庫翻看源碼和文檔。
開源地址:https://github.com/denizsafak/abogen
既然都看到這兒了,歡迎隨手點贊,在看,轉發,也可以點個星標⭐,接收最新的文章,我們下期見!