收起左侧

B 站开源 IndexTTS!支持文本转语音 + 声音克隆,教你 NAS 上部署

2
回复
176
查看
[ 复制链接 ]

31

主题

9

回帖

0

牛值

fnOS系统内测组

社区上线纪念勋章

IndexTTS:

一款能实现情感表达与说话人身份的解耦,可独立控制音色和情感。在零样本设置下,模型能准确复刻目标音色(来自音色提示),同时完美还原指定的情感语调(来自风格提示)。

架构总览:

在线演示:

https://index-tts.github.io/index-tts2.github.io

安装

Docker Compose(CPU)

services:  index-tts:    image: luojiecong/index-tts:1.5-20250727-9098497    container_name: index-tts    restart: unless-stopped    ports:      - 7860:7860    volumes:      - ./tmp:/tmp

Docker Compose(GPU)

services:  index-tts:    image: luojiecong/index-tts:1.5-20250727-9098497    container_name: index-tts    restart: unless-stopped    ports:      - 7860:7860    volumes:      - ./tmp:/tmp    deploy:    resources:      reservations:        devices:          - driver: nvidia            count: all            capabilities: [gpu]

使用

浏览器中输入 http://NAS的IP:7860 就能看到界面

操作很简单,只需要上传音频和输入文本就能生成音频了

可以点击下面参考音频,会自动配置好,最后点击生成语音即可

这里是直接用 CPU 跑的(独显驱动太旧不支持调用),大概用时 2 分钟不到

生成音频的效果非常不错,确实有点东西的

这里我上传音频和输入文本进行合成,文字比较多越多需要时间就越长

最后大概用了 3 分钟多才合成完毕,效果不错可以明显感觉到情感和语气停顿

如果需要更多参数配置,可以展开下面的“高级生成参数设置”

支持 API 方式进行调用

总结

IndexTTS2 作为一款具备工业级水准的文本转语音模型,其核心优势在于实现了高度自然的情感表达与多模态情感控制能力,为语音合成领域带来了显著突破。

在使用体验方面,界面交互设计友好,操作流程简洁:只需上传音频并输入文本,即可生成语音;针对进阶需求,还提供高级参数设置功能;同时支持 API 调用,便于集成到各类应用场景中。实际测试中,即使只用 CPU 也能运行,而且生成语音效果不错。

综合推荐:⭐⭐⭐⭐(情感表达突出,适用场景广泛)

使用体验:⭐⭐⭐⭐(操作简单,效果出色)

部署难易:⭐⭐(简单)

收藏
送赞
分享

5

主题

18

回帖

0

牛值

江湖小虾

基础CPU配置要求是什么型号?

2

主题

42

回帖

0

牛值

江湖小虾

支持api调用吗

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则