一鍵做有聲書，終於找到了本地方案。

作者：開源日記

日期：2026年5月30日下午3:18

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

abogen 係一個開源工具，可以將 EPUB、PDF 等文檔一鍵轉成有聲書，同步生成字級別精準字幕，完全本地運行。

整理版摘要

呢篇文章係介紹一個名叫 abogen 嘅開源項目，GitHub 上 Star 超過 4600。作者留意到市面上雖然有唔少文本轉語音工具，但普遍存在語音效果麻麻、字幕同音頻唔同步等問題。abogen 嘅出現，正好將文檔解析、語音合成、字幕生成同章節管理整合埋一齊，做到自動化。

abogen 用咗 Kokoro-82M 呢個開源 TTS 模型，支援多種語言同聲線。最特別嘅係佢可以做到字級別嘅字幕同步，唔似一般工具得句子級時間戳。用戶可以匯入 EPUB、PDF、TXT、Markdown、字幕等多種格式，自動偵測章節，然後輸出 WAV、FLAC、MP3、OPUS 或 M4B（帶章節標記）音頻。佢重有語音混合器、批量隊列等功能。

整體嚟講，abogen 係一套本地方案，數據唔會上傳雲端，可以斷網使用。雖然有啲小缺點好似縮寫處理同情感一致性仲有改善空間，但對於轉技術書做有聲書或視頻配音呢類場景，已經好夠用。文章最後推薦有興趣嘅人去 GitHub 睇源碼。

abogen 係一個整合文檔解析、語音合成、字幕同步同章節管理嘅開源工具，可以一鍵生成有聲書。
用戶只需拖入 EPUB/PDF 等文件，選擇語音同輸出格式，點擊 Start 即可，全程自動化。
與其他 TTS 工具相比，abogen 做到字級別字幕同步，支援多種字幕格式，仲有語音混合器同批量處理。
完全本地運行，數據安全，離線可用，適合注重私隱嘅用戶。
有文本轉語音需求嘅人可以下載試用，支援 Windows ZIP、pip、Docker 安裝。

值得記低

連結 github.com

abogen GitHub 倉庫

開源地址，包含源碼、文檔同安裝指引。

整理重點

市面 TTS 工具嘅痛點同 abogen 嘅出現

市面上嘅文本轉語音工具選擇唔少，但好多都有語音效果欠佳、字幕同音頻唔同步呢啲問題。如果你想匯入多種文檔格式，仲要支援本地運行，啱用嘅工具真係唔多。

abogen 將成個有聲書製作流程打通，從文檔剖析到語音合成、字幕變動再到章節管理，全部自動化

abogen 就係為咗解決呢啲問題而嚟，佢將 EPUB、PDF、文本、Markdown 或者字幕文件轉成高質量音頻，自動生成同步字幕，而且完全本地運行。

整理重點

核心功能同實測表現

abogen 使用 Kokoro-82M 呢個開源 TTS 模型，參數規模 82M，支援美式英語、英式英語、中文、法語、日語等多種語言，每種都有男聲同女聲可選。

1 文檔解析：支援 EPUB、PDF、TXT、Markdown、SRT、ASS、VTT，自動檢測章節。
2 語音合成：多語言多聲線，質素高。
3 字幕同步：字級別精準，多種模式同格式。
4 章節管理：可配置靜默間隙、封面圖片、作者、標題。
5 輸出格式：WAV、FLAC、MP3、OPUS、M4B（帶章節標記）。

有用戶實測：50 頁 PDF 約 5 分鐘生成 21 分鐘音頻；RTX 2060 Mobile 處理 3000 字符只需 11 秒，生成 3 分 28 秒音頻。

整理重點

進階功能同安裝方式

語音混合器可以將唔同語音模型按權重混合，創建獨特聲音，仲可以保存成 Profile

批量處理方面，隊列模式支援一次過加多個文件，每個文件有獨立設置，亦可以用全局設定統一覆蓋，進度實時顯示，任務可隨時取消或刪除。

Web UI 版本重提供 Supertonic TTS 引擎、LLM 文本規範化、Audiobookshelf 整合等高級功能，不過目前只限 Web UI，桌面 GUI 功能穩定但較少。

安裝命令 bash

# pip 安裝
pip install abogen
abogen # 啓動桌面 GUI
abogen-web # 啓動 Web UI

# Docker 部署
docker build -t abogen .
docker run --rm -p 8808:8808 -v ~/abogen-data:/data abogen

整理重點

缺點同適用場景

社區提到一啲問題：縮寫處理（好似 Mr. 同 Mrs.）偶爾出錯，長文本情感一致性唔夠穩定，省略號停頓處理都有優化空間。

不過對轉技術書做有聲書或者 YouTube、TikTok 視頻配音呢啲場景，影響不大

揾配音要錢，自己錄要時間，字幕同步又要手動調。abogen 將呢啲成本全部慳返，拖個文檔入去，等幾分鐘，音頻同字幕就有齊。

今日同大家介紹一款好實用嘅神器。

GitHub開源咗唔夠一年，Star直接衝到4600。

而家市面上嘅文字轉語音工具都幾多，不過大多數只係滿足到一部分需求。

語音效果麻麻，字幕同音頻唔同步。呢啲都成日會遇到嘅問題。

如果你仲想可以導入多種文檔，支援本地運行。

咁可以揀嘅工具真係唔多。

最近見到一個叫abogen嘅項目，啱啱將呢啲功能打包成一套完整嘅解決方案。

佢其實係用嚟將EPUB、PDF、文字、Markdown或者字幕文件轉成高質素音頻，仲會自動生成同步字幕嘅工具。。

佢唔係就咁將文字轉成語音咁簡單，如果淨係得呢個功能，就真係冇乜好推薦。

佢最有價值嘅地方係，成個有聲書嘅製作流程都打通曬。

由文檔剖析、語音合成、字幕調整，再到章節管理，成個流程基本上唔需要手動去搞。

處理過程中會顯示日誌進度。

廢話少講，睇嘢先。

打開軟件，介面好乾淨。

上面係文字檔案嘅輸入位置，下面就係各種設定，撳一下就搞掂。

用起上嚟都好簡單，直接拖一個EPUB或PDF檔案入去，揀好語音同輸出格式，撳一下Start就開始生成。

睇網友測試嘅結果，效果唔錯。

揾資料嘅時候，我見到一個日本用戶喺Qiita上分享過實測成果：

50頁嘅PDF檔案，用咗大約5分鐘生成咗21分鐘嘅音頻。

仲有一位用戶。

佢用咗一張RTX 2060 Mobile低階筆記本GPU，3000字符嘅文字11秒就處理完，最後生成3分28秒嘅音頻。

由上邊兩位網友嘅實測結果嚟睇，效果唔錯。

再睇下佢係點做到嘅

01 文字轉高質素語音做得幾紮實

abogen用咗Kokoro-82M呢個開源TTS模型，佢嘅參數規模係82M。

當然佢支援嘅語言都好多。

美式英文、英式英文、中文、法文、西班牙文、日文、葡萄牙文、意大利文、印地文，全部都有。

每種語音模型都有男聲同女聲可以揀。

02 字幕精準同步係佢同普通TTS工具拉開距離嘅地方

佢生成嘅字幕唔係粗略嘅句子級時間標記，而係做到字級別嘅精確同步。

字幕生成模式有幾種：

句子級、單詞級、Sentence + Comma、Sentence + Highlighting同Line模式。

輸出格式支援SRT、ASS wide、ASS narrow、ASS centered。常見字幕需求都滿足到。

不過有一個問題要注意，單詞級字幕目前只支援英文。

非英文語言會用句子級或者音頻時長計時方式。

03 多格式文檔解析都做得幾完整

EPUB、PDF、TXT、Markdown、SRT、ASS、VTT呢啲格式全部可以直接拖入介面。

EPUB同PDF仲會自動偵測章節，你可以揀將某啲章節單獨保存，或者將所有章節合併成一個音頻檔案。

04 章節管理幾方便。

喺章節之間，你仲可以設定一段靜默間隙，封面圖片、作者、標題呢啲資訊，都會自動嵌入到輸出檔案入面。

輸出嘅音頻格式包括WAV、FLAC、MP3、OPUS同M4B，其中M4B格式帶有章節標記，可以直接放落有聲書播放器入面用。

除咗核心轉換功能，abogen仲有啲幾好嘅細節

語音混合器功能幾得意。

你可以將唔同嘅語音模型按權重溝埋一齊，創造出獨特嘅自訂聲音。

例如將一個男聲同一個女聲按70:30比例混合。

試聽滿意之後，仲可以保存做Profile，下次可以直接叫用。

批量處理都做得幾完整。

隊列模式可以一次過加入多個檔案，每個檔案都可以保持各自獨立嘅設定，但亦可以用全域設定嚟統一覆蓋，處理進度會實時顯示，任務可以隨時取消或者刪除。

如果你需要更高級嘅功能。

Web UI版本仲提供咗Supertonic TTS引擎、LLM文字規範化、Audiobookshelf同Calibre OPDS整合、多角色、EPUB 3打包管道等功能。

不過呢啲功能暫時仲係得Web UI版本先有。

桌面GUI版本嘅功能比較穩定，但係數量就少啲。

睇完呢啲功能，最低門檻嘅上手方式其實好簡單

Windows用戶可以直接下載倉庫嘅ZIP包，解壓之後執行WINDOWS_INSTALL.bat，呢個腳本會自動裝好所有依賴，包括CUDA同Python。

都可以用pip安裝：

pip install abogen
abogen  # 啓動桌面 GUI
abogen-web  # 啓動 Web UI

Docker部署都支援：

docker build -t abogen .
docker run --rm -p 8808:8808 -v ~/abogen-data:/data abogen

成個工具完全本地運行。

數據唔會上傳到雲端，HuggingFace Hub嘅遙測功能預設係禁用嘅，Kokoro嘅網絡訪問亦可以關閉。

喺離線模式下，只要提前下載好模型同語音包，就可以完全斷網使用。

到呢度，缺點都同大家講講

社羣嘅討論入面都有提到一啲難題：

縮寫處理（例如Mr.同Mrs.）間中會出錯，長文本嘅情感一致性唔係咁穩定，省略號嘅停頓處理都有改善空間。

但係講真，如果你只係想將自己囤落嘅技術書轉成有聲書方便消化，或者幫YouTube、TikTok影片配音，呢啲其實影響唔大。

寫喺最後

揾配音要俾錢，自己錄又要花時間，字幕同步仲要手動去校。abogen將呢啲成本全部慳返。

拖一個文件入去，等幾分鐘，音頻同字幕就有齊。

雖然話AI有聲書喺市場上仲有啲爭議，但係用嚟消化技術書、做影片配音，呢啲場景完全夠用。

有文字轉音頻需求嘅朋友，推薦試下。

項目基於MIT協議開放，有興趣嘅朋友，可以去GitHub倉庫睇下源碼同文檔。

開源地址：https://github.com/denizsafak/abogen

既然都睇到呢度，歡迎順手讚好、在看、轉發，亦可以點個星標⭐，接收最新文章，我哋下期見！

今天來給各位介紹一款相當實用的神器。

GitHub 開源不到一年，Star 直接衝到 4600。

現在市面上的文本轉語音工具能找不到不少，不過大多數也只能滿足一部分需求。

語音效果欠佳，字幕與音頻不同步。這些都是時常會碰到的毛病。

假如你還想多種文檔的導入，支持本地運行。

那能找到的工具確實不多。

最近注意到一個名為 abogen 的項目，恰好把這些能力都打包進了一套完整的解決方案當中。

它其實就是用來把 EPUB，PDF，文本，Markdown 或者字幕文件轉成高質量音頻。自動生成同步字幕的工具。

它並不只是簡單地把文字轉成語音，要真是隻有這個功能的話，那就真的沒什麼好推薦的了。

它最有價值的地方在於，把整個有聲書的製作流程都給打通了。

從文檔剖析，語音合成，字幕變動，再到章節管理，這一整套操作基本上都不需要手動去幹預。

處理的過程中會顯示日誌進度。

廢話少說，先看東西

打開軟件，界面整體很乾淨。

上面是文本文件的輸入的地方，下面就是各種設置，通過點擊就可以設置。

用起來也簡單，直接拖進去一個 EPUB 或 PDF 文件，選好語音和輸出格式，點一下 Start 就開始生成了。

從網友測出來結果來看，效果不錯。

找資料的時候，我看到一個日本用戶在 Qiita 上分享過實測成果：

50 頁的 PDF 文件，用了大概 5 分鐘生成了 21 分鐘的音頻。

還有一位用戶。

他用了一塊 RTX 2060 Mobile 低端筆記本 GPU，3000 字符的文本 11 秒就處理完了，最後生成 3 分 28 秒的音頻。

從上面兩位網友的實測結果來看，效果不錯。

再看看它是怎麼做到的

01 文本轉高質量語音這件事做得挺紮實

abogen 用了 Kokoro-82M 這個開源 TTS 模型，它的參數規模是 82M。

自然它支持的語言也很多。

美式英語，英式英語，中文，法語，西班牙語，日語，葡萄牙語，意大利語，印地語這些全都覆蓋到了。

每種語音模型都有男聲和女聲可選。

02 字幕精準同步是它和普通 TTS 工具拉開差距的地方

它生成的字幕不是那種粗略的句子級時間戳，而是能夠做到字級別的精確同步。

字幕生成模式有好幾種：

句子級，單詞級，Sentence + Comma，Sentence + Highlighting 以及 Line 模式。

輸出格式支持 SRT，ASS wide，ASS narrow，ASS centered。常見字幕需求都可以滿足。

不過有一個問題要注意一下，單詞級字幕目前只支持英語。

非英語語言會使用句子級或音頻時長計時方式。

03 多格式文檔解析也做得比較完整

EPUB，PDF，TXT，Markdown，SRT，ASS，VTT 這些格式全都可以直接拖入界面。

EPUB 和 PDF 還會自動檢測出章節，你可以選擇把某些章節單獨保存下來，也可以把所有章節合併成一個音頻文件。

04 章節管理挺省事的。

在章節之間，你還能去配置一段靜默間隙，封面圖片，作者，標題這些信息，都會自動嵌入到輸出的文件裏。

輸出的音頻格式包括 WAV，FLAC，MP3，OPUS 以及 M4B，其中 M4B 格式帶有章節標記，這樣可以直接放到有聲書播放器裏面使用。

除了核心轉換功能，abogen 還有一些好的細節

語音混合器功能挺有意思。

你可以把不同的語音模型按照權重混合在一起，創建出獨特的自定義聲音。

例如把一個男聲和一個女聲按照 70:30 的比例混合。

試聽滿意之後，還可以保存成 Profile，方便下次直接調用。

批量處理也做得比較完整。

隊列模式允許一次性添加多個文件，每個文件都能維持各自獨立的設置，但也可以用全局設置來進行統一覆蓋，處理進度會實時，顯示，任務可以隨時取消或者刪除。

你若需要更高級的功能。

Web UI 版本還提供了 Supertonic TTS 引擎，LLM 文本規範化，Audiobookshelf 和 Calibre OPDS 集成，多角色，EPUB 3 打包管道等能力。

只是這些功能目前還只存在於 Web UI 當中。

桌面 GUI 版本的功能相對穩定，但數量要少一些。

看完這些功能，最低門檻的上手方式其實很簡單

Windows 用戶可以直接下載倉庫的 ZIP 包，解壓之後運行 WINDOWS_INSTALL.bat，這個腳本會自動把所有依賴都裝好，包括 CUDA 和 Python。

也可用 pip 安裝：

pip install abogen
abogen  # 啓動桌面 GUI
abogen-web  # 啓動 Web UI

Docker 部署也支持：

docker build -t abogen .
docker run --rm -p 8808:8808 -v ~/abogen-data:/data abogen

整個工具完全本地運行。

數據不會上傳到雲端，HuggingFace Hub 的遙測功能默認是禁用的，Kokoro 的網絡訪問也可以關掉。

在離線模式下。只要提前下載好模型和語音包，就完全可以斷網使用。

到這裏缺點也給大家提提

社區的討論中也提到過一些難題：

縮寫處理（像 Mr. 和 Mrs.）偶爾會出錯，長文本的情感一致性還不夠穩定，省略號的停頓處理也有優化的空間。

但說實話，假如你只是想把自己積壓的技術書轉成有聲書，方便消化，或者給 YouTube，TikTok 視頻配音，這些其實影響不大。

寫在最後

找配音要花錢，自己錄又要花時間，字幕同步還得手動去調。abogen 把這些成本全都省掉了。

拖一個文檔進去，等上幾分鐘，音頻和字幕就都有了。

雖說 AI 有聲書在市場上還有些爭議，但用來消化技術書，做視頻配音，這些場景完全夠用。

有文本轉音頻需求的朋友，推薦試試看。

項目基於 MIT 協議開放，感興趣的同學，可以去 GitHub 倉庫翻看源碼和文檔。

開源地址：https://github.com/denizsafak/abogen

既然都看到這兒了，歡迎隨手點贊，在看，轉發，也可以點個星標⭐，接收最新的文章，我們下期見！