Ebook2Audiobook:
一个能将电子书转换为有声书的工具,支持利用 XTTSv2、Bark 等多种 TTS 模型,可实现语音克隆,支持超过 1110 种语言,能将电子书按章节分割并添加元数据。可以使用 CPU 或者 GPU 进行加速运算,内存最低需 4GB,推荐 8GB 。

功能:
- • 📖 使用 Calibre 将 eBooks 转换为文本格式。
- • 📚 将 eBooks 拆分为章节,以组织音频。
- • 🎙️ 使用 Coqui XTTSv2 和 Fairseq 的高质量文本转语音。
- • 🗣️ 可选的语音克隆,使用你自己的语音文件。
- • 🌍 支持 1107 种语言(默认是英语)。
- • 🖥️ 设计为在 4GB RAM 上运行。
支持的电子书格式:
.epub .pdf. mobi .txt .html .rtf .chm .lit .pdb .fb2 .odt .cbr .cbz .prc .lrf .pml .snb .cbc .rb .tcr
安装
Docker Compose(CPU)
services:
ebook2audiobook:
image: athomasson2/ebook2audiobook:cpu
container_name: ebook2audiobook
ports:
- 7860:7860
volumes:
- /vol1/1000/docker/ebook2audiobook/input_folder:/app/input_folder
- /vol1/1000/docker/ebook2audiobook/audiobooks:/app/audiobooks
restart: always
Docker Compose(GPU)
services:
ebook2audiobook:
image: athomasson2/ebook2audiobook:latest
container_name: ebook2audiobook
ports:
- 7860:7860
volumes:
- /vol1/1000/docker/ebook2audiobook/input_folder:/app/input_folder
- /vol1/1000/docker/ebook2audiobook/audiobooks:/app/audiobooks
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: all
capabilities: [gpu]
restart: always
参数说明(更多参数建议去看文档)
:::
athomasson2/ebook2audiobook:cpu(版本):使用 GPU 更换为 latest
/app/input_folder(路径):输入电子书
/app/audiobooks(路径):输出有声书
:::
使用
浏览器中输入 http://NAS的IP:7860
就能看到界面

这个界面其实是中文的

滑到最底部,这里有一个设置按钮

为了截图方便,这里我切换成深色模式了

选择电子书(测试的话先别选太大的)

转换的语音设置为中文

TIP:选择上传的不清楚为什么会提示检测网络问题,有可能需要下载一些运行文件

声音可以选择自带默认的,也可以上传 wav 文件

选择当前部署容器对应的平台(目前没什么用,应该是还没整合好)

XTTS、Bark 和 Tacotron 的区别如下:
XTTS 擅长多语言语音克隆,Bark 强于多样化语音风格与非语音生成,Tacotron 则以高质量基础语音合成为核心
可以选择不同的 TTS 引擎(XTTS,Bark,Tacotron),切换不同下面显示所需设备性能也不一样

最后可以选择输出格式

其他默认不懂的即可,点击生成

右下角会显示需要多长时间,我的文本大小 7.8KB,大概需要花费 3 分钟左右

后台能看到显卡是显存大概占用 4G 左右

内存占用也不小,在 4.5G 左右

在 /audiobooks 路径下,也可以看到生成的音频文件

生成完成后,音频可以点击下载和**,不过效果只能说一般般

如果效果不满意,这里还可以进行调节

总结
作为一款电子书转有声书工具,支持电子书格式和转换语言还是挺多的,能满足不同用户的基础需求。不过对硬件设备有要求,显卡显存起码需要 4GB,其他资源占用也比较多,对低配置设备压力很大。至于生成的效果,个人感觉比较一般,可能是需要调节其他参数。
综合推荐:⭐⭐⭐(支持格式多,但需优化细节)
使用体验:⭐⭐⭐(手上简单,不过有一些问题)
部署难易:⭐⭐(简单)