收起左侧

AngeVoice:适合 NAS 自托管的中文 TTS 语音合成服务

0
回复
28
查看
[ 复制链接 ]

1

主题

4

回帖

0

牛值

系统先锋体验团🛩️

最近在折腾 NAS 上的 AI 应用,整理了一个比较适合自托管的中文 TTS 项目:AngeVoice。
项目地址:
https://github.com/ang77712829/AngeVoice
AngeVoice 不是重新训练的新模型,而是把 Kokoro 中文 TTS 和可选的 MOSS-TTS-Nano 封装成一个更适合 NAS / Docker 长期运行的语音合成服务。
简单来说,就是可以把 NAS 变成一个本地文字转语音服务,用来给 AI 助手、阅读器、有声书、小智后端、自动化脚本等提供语音输出。

image.png

主要功能:
• 支持中文 TTS 语音合成
• 内置 Web UI,可以直接浏览器输入文字生成语音
• 支持 OpenAI 兼容接口 /v1/audio/speech
• 支持 WebSocket 流式输出
• 支持批量合成 ZIP
• 支持 Kokoro,MOSS-TTS-Nano 可选开启
• 支持 Docker CPU / GPU 部署
• 有健康检查、请求统计、缓存、限流等服务化功能

image.png

我觉得它比较适合 NAS 用户的地方是:
它不是单纯的模型推理脚本,而是更像一个可以长期运行的本地 TTS 服务。部署好以后,内网其他应用都可以通过 API 调它。
比如可以用在:
• AI Agent 语音回复
• 小智 ESP32 / 智能音箱后端
• 阅读器朗读
• 有声书生成
• 自动化脚本语音播报
• 视频配音草稿
• 家庭通知提醒
部署方面目前主要推荐 Docker。
CPU 版:
git clone https://github.com/ang77712829/AngeVoice.git
cd AngeVoice/docker/cpu
docker compose up -d
GPU 版:
git clone https://github.com/ang77712829/AngeVoice.git
cd AngeVoice/docker/gpu
docker compose up -d
默认端口:
CPU:http://你的NAS地址:8100
GPU:http://你的NAS地址:8101

image.png
硬件方面,如果只是体验 Kokoro,普通 CPU 也能跑,建议 8GB 内存以上,16GB 更舒服。
如果要折腾 MOSS 或参考音频克隆,最好有 NVIDIA 显卡,CPU 上体验可能会比较慢。

image.png

目前项目还在持续完善,适合喜欢折腾 Docker、AI、本地语音服务的 NAS 用户。
如果只是想找一个手机上点开即用的 TTS App,它可能不是最简单的选择;但如果想在 NAS 上自建一个中文 TTS 后端,还是挺值得试试的。
项目地址:
https://github.com/ang77712829/AngeVoice
欢迎大家测试反馈,也可以联系我在线进行试用,我目前的 NAS 配置是 i3-9100T + 16GB 内存 + Tesla P4。Kokoro 流式生成速度还不错,MOSS 也可以折腾,但这类轻量 TTS 模型本身参数规模有限,音质和自然度不能和大型商业 TTS 服务硬比,更适合本地化、自托管、低成本使用场景。

收藏
送赞
分享

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则