收起左侧

CosyVoice 2.0 – 阿里开源 AI 语音合成,NAS 本地部署指南,3 秒实现语音克隆

2
回复
146
查看
[ 复制链接 ]

24

主题

7

回帖

0

牛值

fnOS系统内测组

社区上线纪念勋章

CosyVoice:

一款开源多语言语音生成模型,由阿里通义实验室 FunAudioLLM 团队开发。主要用于文本转语音合成(TTS),提供推理、训练和部署全栈能力。

图片

主要特性:

  • • 多种语言
    支持语言:中文、英文、日文、韩文、中国方言(粤语、四川话、上海话、天津话、武汉话等)
    跨语言和混合语言:支持跨语言和代码切换场景的零镜头语音克隆。
  • • 超低延迟
    双向流媒体支持:CosyVoice 2.0 集成了离线和流媒体建模技术。
    快速首包合成:在保持高质量音频输出的同时,实现低至 150ms 的延迟。
  • • 高精度
    改进的发音:与 CosyVoice 1.0 版本相比,将发音错误减少 50% 到 1.0%。
    基准测试成就:在 Seed-TTS 评估集的硬测试集中获得最低的字符错误率。
  • • 稳定性强
    音色一致性:确保零镜头和跨语言语音合成的可靠语音一致性。
    跨语言合成:与 1.0 版本相比有显著改进。
  • • 自然体验
    增强的韵律和音质:改进了合成音频的对齐方式,将 MOS 评估分数从 5.4 提高到 5.53。
    情感和方言灵活性:现在支持更精细的情感控制和口音调整。

演示 Demo:

https://fun-audio-llm.github.io/

https://funaudiollm.github.io/cosyvoice2/

https://funaudiollm.github.io/cosyvoice3/

模型下载

如果没有模型,先不要着急下载!部署的时候会自动下载的,如果后面实在是网络问题下载不了,才考虑手动下载。

推荐预训练模型有:

  • • CosyVoice2-0.5B:是 CosyVoice 2.0 版本中的一个模型,推荐用于获取更好的性能。它基于预训练的文本基座大模型,采用全尺度量化等技术,相比 CosyVoice 1.0,发音错误率降低 30% 到 50%,MOS 评分从 5.4 升至 5.53,支持双向流式合成,首包合成延迟低至 150ms,同时支持多语言和跨语言语音合成。
  • • CosyVoice-300M:可能是 CosyVoice 1.0 版本中的一个模型,与 CosyVoice2-0.5B 相比,在性能和技术架构上可能相对较旧,发音错误率等指标可能不如 CosyVoice2-0.5B。
  • • CosyVoice-300M-SFT:是经过 SFT(Speech Fine-Tuning)微调的模型,内置了多个预训练的音色,适合立即部署使用,无需进行额外的大量训练即可投入实际应用。
  • • CosyVoice-300M-Instruct:支持通过指令文本进行精细调整,允许对说话人身份、说话风格和副语言特征进行精细控制,支持富文本和自然语言输入,通过情感指令显著提高了情感控制的准确性。
  • • CosyVoice-ttsfrd:是 CosyVoice 系列中一个支持零样本、跨语言和基于指令推理的模型,它能够轻松应对多种任务,可生成各种语言和风格的高质量语音,具有快速推理和高效训练的特点,适合用于语音助手、有声读物等多种应用场景。

可以根据实际情况选择

CosyVoice2-0.5B:
https://www.modelscope.cn/models/iic/CosyVoice2-0.5B
CosyVoice-300M:
https://www.modelscope.cn/iic/CosyVoice-300M
CosyVoice-300M-SFT:
https://www.modelscope.cn/iic/CosyVoice-300M-SFT
CosyVoice-300M-Instruct:
https://www.modelscope.cn/iic/CosyVoice-300M-Instruct
CosyVoice-ttsfrd:
https://www.modelscope.cn/iic/CosyVoice-ttsfrd

SDK 方式下载

from modelscope import snapshot_download
snapshot_download('iic/CosyVoice2-0.5B', local_dir='pretrained_models/CosyVoice2-0.5B')
snapshot_download('iic/CosyVoice-300M', local_dir='pretrained_models/CosyVoice-300M')
snapshot_download('iic/CosyVoice-300M-SFT', local_dir='pretrained_models/CosyVoice-300M-SFT')
snapshot_download('iic/CosyVoice-300M-Instruct', local_dir='pretrained_models/CosyVoice-300M-Instruct')
snapshot_download('iic/CosyVoice-ttsfrd', local_dir='pretrained_models/CosyVoice-ttsfrd')

Git 方式下载


mkdir -p pretrained_models
git clone https://www.modelscope.cn/iic/CosyVoice2-0.5B.git pretrained_models/CosyVoice2-0.5B
git clone https://www.modelscope.cn/iic/CosyVoice-300M.git pretrained_models/CosyVoice-300M
git clone https://www.modelscope.cn/iic/CosyVoice-300M-SFT.git pretrained_models/CosyVoice-300M-SFT
git clone https://www.modelscope.cn/iic/CosyVoice-300M-Instruct.git pretrained_models/CosyVoice-300M-Instruct
git clone https://www.modelscope.cn/iic/CosyVoice-ttsfrd.git pretrained_models/CosyVoice-ttsfrd

安装

Docker Compose

services:
cosyvoice:
    image: bobui/cosyvoice:h20_v2.20250801
    container_name: cosyvoice
    restart: unless-stopped
    ports:
      - 50000:50000
    volumes:
      - ./models:/root/.cache/modelscope/hub
    command: >
      /bin/bash -c "cd /opt/CosyVoice/CosyVoice && python3 webui.py --port 50000 --model_dir iic/CosyVoice-300M-SFT"
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]

TIP:镜像比较大有 11.4 GB,模型建议下载 iic/CosyVoice-300M 个人感觉效果更好,也可以下载版本最新的 CosyVoice2-0.5B 更准确、更稳定、更快且更好的语音生成能力。

参数说明(更多参数,建议去看文档)

:::tips
MODELSCOPE_CACHE(环境变量,可选):用于指定模型缓存目录

/root/.cache/modelscope/hub(路径,可选):默认模型缓存目录

python3 webui.py(命令,可选):启动 Web 页面(还有 GRPC 和 FastAPI 接口)

--port 50000(命令,可选):监听指定端口

--model_dir iic/CosyVoice-300M(命令,可选):指定远程模型(如果已经有模型可以替换为本地路径)

:::

接口说明

:::tips
Web 页面接口

cd /opt/CosyVoice/CosyVoice && python3 webui.py

GRPC 接口(除了服务端,也有客户端)

cd /opt/CosyVoice/CosyVoice/runtime/python/grpc && python3 server.py

FastAPI 接口(除了服务端,也有客户端)

cd /opt/CosyVoice/CosyVoice/runtime/python/fastapi && python3 server.py

:::

构建项目启动后,容器会自动下载模型

图片

显示这个就说明已经下载完了

图片

下载 iic/CosyVoice-300M 和 CosyVoice2-0.5B 模型,有可能预训练音色无法选择,因为仓库没有用于记录说话人特征的 spk2info.pt 文件

图片

可以去其他内置有预训练的音色的模型下载 spk2info.pt 文件,也可以下载别人分享的文件

https://www.modelscope.cn/models/iic/CosyVoice-300M-SFT/files

https://pan.baidu.com/s/1gqcFcy4GuvtT6QaDomTSHg?pwd=6666

图片

使用

浏览器中输入 http://NAS的IP:50000就能看到界面

图片

界面使用起来不是很复杂,下面讲一下怎么简单实用(为更好截图效果,这里我切换为深色模式)

图片

最上面是输入合成文本,到时候合成的语音内容就是段话了

图片

预训练音色

接下来需要选择推理模式,先试试预训练音色,选择已经训练好的角色

图片

流式推理就是文本被分割成小块,不需要等全部推理完成才播放,推理完一小段就可以播放,可以更快响应

图片

随机推理种子,可以让模型生成结果的有随机性

图片

点击生成音频,大概 3s 就能快速生成

图片

此时 GPU 显存占用在 3.4GB,利用率在 60%左右

图片

极速复刻

顾名思义就是克隆音色,还是挺有意思的

图片

可以上传音频,也可以直接录制

图片

下面输入上传或者录制音频里的内容

https://pan.baidu.com/s/12xXynv9vVeEtoX34omVnHQ?pwd=6666

图片

点击生成音频,生成速度就比之前要慢一些了,大概用了 17s 左右

图片

GPU 的利用率也更高了

图片

API 使用

另外两个功能就不详细介绍了,这里提一下比较容易被忽略的 API 使用的按钮

图片

具体方式可以简单参考,这里就不展开了

图片

总结

这个教程很早之前就已经在弄了,不过一直没部署成功。如果是第一次部署没有人一步步指导,还是有不小难度的。首先容器比较大,网络不好下载可能会中断;虽然网上部署教程不少,基本上都是略过很多东西,当然部署一次没问题后看起来就简单多了。

CosyVoice 支持多语言、低延迟语音合成,能 3 秒语音克隆,适用于情感语音聊天、交互式播客和富有表现力的有声读物旁白等应用。如果你有独显,也对 AI 这方面有兴趣,非常推荐可以部署一个试试!

综合推荐:⭐⭐⭐(前提是要有独显,以及上手教程)

使用体验:⭐⭐⭐⭐(合成速度快,语音更有情感)

部署难易:⭐⭐⭐⭐(有点难度,别乱折腾)

收藏
送赞
分享

1

主题

77

回帖

0

牛值

初出茅庐

这种对硬件有什么要求

5

主题

90

回帖

0

牛值

初出茅庐

社区上线纪念勋章

**,看到这里就想如果飞牛 的硬件支持外挂GPU就好了,但是根据流出的图看到算是标准的NAS了,正正方方的很多机械,GPU肯定无了
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则