IndexTTS:
一款能实现情感表达与说话人身份的解耦,可独立控制音色和情感。在零样本设置下,模型能准确复刻目标音色(来自音色提示),同时完美还原指定的情感语调(来自风格提示)。

架构总览:

在线演示:
https://index-tts.github.io/index-tts2.github.io
安装
Docker Compose(CPU)
services: index-tts: image: luojiecong/index-tts:1.5-20250727-9098497 container_name: index-tts restart: unless-stopped ports: - 7860:7860 volumes: - ./tmp:/tmp
Docker Compose(GPU)
services: index-tts: image: luojiecong/index-tts:1.5-20250727-9098497 container_name: index-tts restart: unless-stopped ports: - 7860:7860 volumes: - ./tmp:/tmp deploy: resources: reservations: devices: - driver: nvidia count: all capabilities: [gpu]
使用
浏览器中输入 http://NAS的IP:7860
就能看到界面

操作很简单,只需要上传音频和输入文本就能生成音频了

可以点击下面参考音频,会自动配置好,最后点击生成语音即可

这里是直接用 CPU 跑的(独显驱动太旧不支持调用),大概用时 2 分钟不到

生成音频的效果非常不错,确实有点东西的

这里我上传音频和输入文本进行合成,文字比较多越多需要时间就越长

最后大概用了 3 分钟多才合成完毕,效果不错可以明显感觉到情感和语气停顿

如果需要更多参数配置,可以展开下面的“高级生成参数设置”

支持 API 方式进行调用

总结
IndexTTS2 作为一款具备工业级水准的文本转语音模型,其核心优势在于实现了高度自然的情感表达与多模态情感控制能力,为语音合成领域带来了显著突破。
在使用体验方面,界面交互设计友好,操作流程简洁:只需上传音频并输入文本,即可生成语音;针对进阶需求,还提供高级参数设置功能;同时支持 API 调用,便于集成到各类应用场景中。实际测试中,即使只用 CPU 也能运行,而且生成语音效果不错。
综合推荐:⭐⭐⭐⭐(情感表达突出,适用场景广泛)
使用体验:⭐⭐⭐⭐(操作简单,效果出色)
部署难易:⭐⭐(简单)