B 站开源 IndexTTS！支持文本转语音 + 声音克隆，教你 NAS 上部署

NasBox · 2025-9-15 09:09:37

IndexTTS：

一款能实现情感表达与说话人身份的解耦，可独立控制音色和情感。在零样本设置下，模型能准确复刻目标音色（来自音色提示），同时完美还原指定的情感语调（来自风格提示）。

架构总览：

在线演示：

https://index-tts.github.io/index-tts2.github.io

安装

Docker Compose（CPU）

services:  index-tts:    image: luojiecong/index-tts:1.5-20250727-9098497    container_name: index-tts    restart: unless-stopped    ports:      - 7860:7860    volumes:      - ./tmp:/tmp

Docker Compose（GPU）

services:  index-tts:    image: luojiecong/index-tts:1.5-20250727-9098497    container_name: index-tts    restart: unless-stopped    ports:      - 7860:7860    volumes:      - ./tmp:/tmp    deploy:    resources:      reservations:        devices:          - driver: nvidia            count: all            capabilities: [gpu]

使用

浏览器中输入 http://NAS的IP:7860 就能看到界面

操作很简单，只需要上传音频和输入文本就能生成音频了

可以点击下面参考音频，会自动配置好，最后点击生成语音即可

这里是直接用 CPU 跑的（独显驱动太旧不支持调用），大概用时 2 分钟不到

生成音频的效果非常不错，确实有点东西的

这里我上传音频和输入文本进行合成，文字比较多越多需要时间就越长

最后大概用了 3 分钟多才合成完毕，效果不错可以明显感觉到情感和语气停顿

如果需要更多参数配置，可以展开下面的“高级生成参数设置”

支持 API 方式进行调用

总结

IndexTTS2 作为一款具备工业级水准的文本转语音模型，其核心优势在于实现了高度自然的情感表达与多模态情感控制能力，为语音合成领域带来了显著突破。

在使用体验方面，界面交互设计友好，操作流程简洁：只需上传音频并输入文本，即可生成语音；针对进阶需求，还提供高级参数设置功能；同时支持 API 调用，便于集成到各类应用场景中。实际测试中，即使只用 CPU 也能运行，而且生成语音效果不错。

综合推荐：⭐⭐⭐⭐（情感表达突出，适用场景广泛）

使用体验：⭐⭐⭐⭐（操作简单，效果出色）

部署难易：⭐⭐（简单）

星风天蓝 · 2025-9-15 16:30:17

基础CPU配置要求是什么型号？

一點墨 · 2025-9-16 09:45:55

支持api调用吗

屯屯鼠 · 2025-9-16 18:19:16

我记得GitHub官方地址没有image的呀，这是谁打包好了吗😄

屯屯鼠 · 2025-9-16 20:06:20

我拉了一下镜像，16个G**，还好我的docker空间够大

		自动登录	找回密码
密码			立即注册

B 站开源 IndexTTS！支持文本转语音 + 声音克隆，教你 NAS 上部署

安装

使用

总结

社区上线纪念勋章

fnOS1.0上线纪念勋章

EVO2产品纪念