收起左侧

AngeVoice:适合 NAS 自托管的中文 TTS 语音合成服务

21
回复
1210
查看
[ 复制链接 ]

1

主题

17

回帖

0

牛值

系统先锋体验团🛩️

2026-5-10 03:14:14 显示全部楼层 阅读模式

最近在折腾 NAS 上的 AI 应用,整理了一个比较适合自托管的中文 TTS 项目:AngeVoice。
项目地址:
https://github.com/ang77712829/AngeVoice
AngeVoice 不是重新训练的新模型,而是把 Kokoro 中文 TTS 和可选的 MOSS-TTS-Nano 封装成一个更适合 NAS / Docker 长期运行的语音合成服务。
简单来说,就是可以把 NAS 变成一个本地文字转语音服务,用来给 AI 助手、阅读器、有声书、小智后端、自动化脚本等提供语音输出。

image.png

主要功能:
• 支持中文 TTS 语音合成
• 内置 Web UI,可以直接浏览器输入文字生成语音
• 支持 OpenAI 兼容接口 /v1/audio/speech
• 支持 WebSocket 流式输出
• 支持批量合成 ZIP
• 支持 Kokoro,MOSS-TTS-Nano 可选开启
• 支持 Docker CPU / GPU 部署
• 有健康检查、请求统计、缓存、限流等服务化功能

image.png

我觉得它比较适合 NAS 用户的地方是:
它不是单纯的模型推理脚本,而是更像一个可以长期运行的本地 TTS 服务。部署好以后,内网其他应用都可以通过 API 调它。
比如可以用在:
• AI Agent 语音回复
• 小智 ESP32 / 智能音箱后端
• 阅读器朗读
• 有声书生成
• 自动化脚本语音播报
• 视频配音草稿
• 家庭通知提醒
部署方面目前主要推荐 Docker。
CPU 版:
git clone https://github.com/ang77712829/AngeVoice.git
cd AngeVoice/docker/cpu
docker compose up -d
GPU 版:
git clone https://github.com/ang77712829/AngeVoice.git
cd AngeVoice/docker/gpu
docker compose up -d
默认端口:
CPU:http://你的NAS地址:8100
GPU:http://你的NAS地址:8101

image.png
硬件方面,如果只是体验 Kokoro,普通 CPU 也能跑,建议 8GB 内存以上,16GB 更舒服。
如果要折腾 MOSS 或参考音频克隆,最好有 NVIDIA 显卡,CPU 上体验可能会比较慢。

image.png

目前项目还在持续完善,适合喜欢折腾 Docker、AI、本地语音服务的 NAS 用户。
如果只是想找一个手机上点开即用的 TTS App,它可能不是最简单的选择;但如果想在 NAS 上自建一个中文 TTS 后端,还是挺值得试试的。
项目地址:
https://github.com/ang77712829/AngeVoice
欢迎大家测试反馈,也可以联系我在线进行试用,我目前的 NAS 配置是 i3-9100T + 16GB 内存 + Tesla P4。Kokoro 流式生成速度还不错,MOSS 也可以折腾,但这类轻量 TTS 模型本身参数规模有限,音质和自然度不能和大型商业 TTS 服务硬比,更适合本地化、自托管、低成本使用场景。

收藏
送赞
分享

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x

1

主题

17

回帖

0

牛值

系统先锋体验团🛩️

2026-5-16 18:25:52 楼主 显示全部楼层

image.png

补充一组实测资源占用。

这张图是我这边用 i3-9100T 跑 MOSS 克隆模式,合成 1W 字左右长文本时的资源占用。合成过程中 CPU 大概在 75% 左右,内存占用约 5.8GB,整体是可以接受的,速度也能满足流式实时对话的需求。

另外现在也不需要特意手动关闭容器。AngeVoice 在空闲约 10 分钟后会自动释放模型,释放后容器内存占用大概会降到 200MB 左右,对 NAS 用户会友好很多。

所以这版 2.6.5.0 不只是能跑 GPU,CPU 模式下也已经有比较实用的可用性了。当然长文本合成还会继续优化,目前偶尔仍可能有短暂卡顿或局部不自然,但相比之前版本,稳定性和整体体验已经提升很多。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x

1

主题

17

回帖

0

牛值

系统先锋体验团🛩️

前天 20:42 楼主 显示全部楼层

最近更新了下可以支持飞牛商店fpk包安装了,之前用的 ghcr.io镜像可能不太好加速拉下来,已经改成默认dockerhub的了,要是有什么安装或者使用方面的问题欢迎随时反馈。

1

主题

17

回帖

0

牛值

系统先锋体验团🛩️

2026-5-11 07:06:02 楼主 显示全部楼层

这次又做了一轮体验优化,重点改进了一键安装和 MOSS 流式体验。

现在支持一行命令极速安装,会自动检测当前机器环境,并根据配置推荐合适的部署方式:

bash <(curl -fsSL https://raw.githubusercontent.com/ang77712829/AngeVoice/main/scripts/install.sh)

安装脚本会尽量自动判断 CPU / GPU / 老显卡环境,减少手动选择和配置的步骤,比较适合 NAS、家用服务器和 Docker 用户快速部署体验。

另外,这次也把运行配置拆分到了独立的 angevoice.env 文件里,docker-compose.yml 不再塞一大堆环境变量,整体会更清爽,也更方便后续修改配置、升级和排查问题。

MOSS 方面也继续做了优化,目前流式合成和参考音频克隆的体验比之前更顺一些,长文本流式输出的稳定性也更好。

不过目前 /admin 管理界面还有一些细节问题,暂时没有在这一版里强行修,计划放到下个版本一起整理。当前这版主要还是优先把安装、配置和 MOSS 生成体验打磨得更顺手一些。

项目地址:
https://github.com/ang77712829/AngeVoice

欢迎大家测试反馈。

1

主题

17

回帖

0

牛值

系统先锋体验团🛩️

2026-5-11 07:06:52 楼主 显示全部楼层

这次又做了一轮体验优化,重点改进了一键安装和 MOSS 流式体验。

现在支持一行命令极速安装,会自动检测当前机器环境,并根据配置推荐合适的部署方式:

bash <(curl -fsSL https://raw.githubusercontent.com/ang77712829/AngeVoice/main/scripts/install.sh)

安装脚本会尽量自动判断 CPU / GPU / 老显卡环境,减少手动选择和配置的步骤,比较适合 NAS、家用服务器和 Docker 用户快速部署体验。

另外,这次也把运行配置拆分到了独立的 angevoice.env 文件里,docker-compose.yml 不再塞一大堆环境变量,整体会更清爽,也更方便后续修改配置、升级和排查问题。

MOSS 方面也继续做了优化,目前流式合成和参考音频克隆的体验比之前更顺一些,长文本流式输出的稳定性也更好。

不过目前 /admin 管理界面还有一些细节问题,暂时没有在这一版里强行修,计划放到下个版本一起整理。当前这版主要还是优先把安装、配置和 MOSS 生成体验打磨得更顺手一些。

项目地址:
https://github.com/ang77712829/AngeVoice

欢迎大家测试反馈。

2

主题

83

回帖

0

牛值

初出茅庐

2026-5-11 09:03:39 显示全部楼层

• AI Agent 语音回复
• 小智 ESP32 / 智能音箱后端
• 阅读器朗读
• 有声书生成
• 自动化脚本语音播报
• 视频配音草稿
• 家庭通知提醒

大佬,能写个案例抄抄作业吗?

额,你说的是哪个案例?可以直接用api调用的啊。  详情 回复
2026-5-11 13:44

1

主题

17

回帖

0

牛值

系统先锋体验团🛩️

2026-5-11 13:44:54 楼主 显示全部楼层
一點墨 发表于 2026-5-11 09:03
• AI Agent 语音回复
• 小智 ESP32 / 智能音箱后端
• 阅读器朗读

额,你说的是哪个案例?可以直接用api调用的啊。
另外做了小智的直接适配,接入会更容易了。  详情 回复
2026-5-11 20:02

1

主题

17

回帖

0

牛值

系统先锋体验团🛩️

2026-5-11 20:02:28 楼主 显示全部楼层
安歌 发表于 2026-5-11 13:44
额,你说的是哪个案例?可以直接用api调用的啊。

另外做了小智的直接适配,接入会更容易了。

5

主题

111

回帖

0

牛值

初出茅庐

2026-5-11 23:05:59 显示全部楼层

商店里的轻阅读不知道如何直接调用这个,因为用轻阅读本身指定的本地语音,因为nas性能不足,慢的要命看,基本上只能调用在线edge

下载看了下轻阅读已经内置了语音推理框架模块,没有接入其他tts的api的选项,所以大概接入不了。。  详情 回复
2026-5-11 23:31

1

主题

17

回帖

0

牛值

系统先锋体验团🛩️

2026-5-11 23:31:23 楼主 显示全部楼层
moneycwq 发表于 2026-5-11 23:05
商店里的轻阅读不知道如何直接调用这个,因为用轻阅读本身指定的本地语音,因为nas性能不足,慢的要命看, ...

下载看了下轻阅读已经内置了语音推理框架模块,没有接入其他tts的api的选项,所以大概接入不了。。

65

主题

97

回帖

0

牛值

小有名气

2026-5-13 14:48:27 显示全部楼层

模型kokoro v1.1 chinese 运行良好, MOSS-TTS-Nano 怎么获得,选择后半天切换不过去,下载也不知道从什么地方下载。

没有模型的话会从huggingface上自动下载的,需要等会儿。。也可以看下容器日志看下载的进度。  详情 回复
2026-5-13 18:21

1

主题

17

回帖

0

牛值

系统先锋体验团🛩️

2026-5-13 18:21:06 楼主 显示全部楼层
15166205993 发表于 2026-5-13 14:48
模型kokoro v1.1 chinese 运行良好, MOSS-TTS-Nano 怎么获得,选择后半天切换不过去,下载也不知道从什么 ...

没有模型的话会从huggingface上自动下载的,需要等会儿。。也可以看下容器日志看下载的进度。
能给出手工下载链接个上传路径吗?  详情 回复
2026-5-14 08:03

65

主题

97

回帖

0

牛值

小有名气

2026-5-14 08:03:20 显示全部楼层
安歌 发表于 2026-5-13 18:21
没有模型的话会从huggingface上自动下载的,需要等会儿。。也可以看下容器日志看下载的进度。 ...

能给出手工下载链接个上传路径吗?
论坛直接发链接需要审核很久,,所以大概看不到,,要是还有问题的话可以加qq:1025358966或者微信15308643167,,解答会快一点。。  详情 回复
2026-5-14 09:46

65

主题

97

回帖

0

牛值

小有名气

2026-5-14 08:08:17 显示全部楼层

重启容器,所有功能均正常,过一段时间,再次打开发现音色库失效(0),重启容器后音色库恢复。如此往返。。。

image.png

重启容器后

image.png

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
因为我设置了默认10分钟空闲后弹出所有模型来释放资源,降低nas的资源开销,再点击生成或者api调用就可以正常加载使用了,如果想常驻的话可以把angevoice.env里面的600秒改成0,这样就是常驻了,至于模型你可以去魔  详情 回复
2026-5-14 09:41

1

主题

17

回帖

0

牛值

系统先锋体验团🛩️

2026-5-14 09:41:27 楼主 显示全部楼层
15166205993 发表于 2026-5-14 08:08
重启容器,所有功能均正常,过一段时间,再次打开发现音色库失效(0),重启容器后音色库恢复。如此往返。 ...

因为我设置了默认10分钟空闲后弹出所有模型来释放资源,降低nas的资源开销,再点击生成或者api调用就可以正常加载使用了,如果想常驻的话可以把angevoice.env里面的600秒改成0,这样就是常驻了,至于模型你可以去魔搭搜索下moss-tts-nano,下载后放入moss_models文件夹内,有做持久化挂载的,大概这个结构,另外angevoice.env里面所有的变量我几乎都写了注释是调整什么的。。github仓库或者web控制台里面有写常见问题和部署方法,也可以看看哦。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x

1

主题

17

回帖

0

牛值

系统先锋体验团🛩️

2026-5-14 09:46:52 楼主 显示全部楼层
15166205993 发表于 2026-5-14 08:03
能给出手工下载链接个上传路径吗?

论坛直接发链接需要审核很久,,所以大概看不到,,

1

主题

17

回帖

0

牛值

系统先锋体验团🛩️

2026-5-16 18:21:21 楼主 显示全部楼层

AngeVoice 2.6.5.0 已经发布了,这版主要集中在长文本合成体验、MOSS 稳定性和 Admin 后台管理上,不是单纯加功能,而是把实际部署中遇到的问题系统性修了一轮。

这次重点优化了 MOSS 长文本合成的分句、静音压缩、音频拼接、流式缓冲和默认参数。之前长文本里比较容易出现的长停顿、失真、变音、重复读等问题,概率已经明显下降。默认配置也重新调整为更适合 NAS、老显卡和 8GB 显存环境的安全档,避免参数过激导致显存爆满或频繁 fallback。

Admin 后台也做了一轮重构,现在分成 Dashboard、Models、Tuning、Security、Diagnostics 几个区域,可以直接查看运行状态、模型状态、API Key、调参配置和诊断信息,也支持保存运行时配置、套用预设、导出 ENV。对于飞牛、NAS、Docker Compose 用户来说,部署和调参会方便很多。

我这边用 i3-9100T 实测,CPU 模式下也可以比较流畅地运行 MOSS 克隆模式,并完成 1W 字左右的长文本合成。合成过程中资源占用在可接受范围内,速度也已经可以支撑流式实时对话场景。相比前几个版本,长文本稳定性、自然度和可用性都有明显提升。

当然目前还没有做到完全完美,极长文本下偶尔仍可能出现短暂卡顿或局部不自然的问题,后续还会继续优化切片策略、MOSS 解码、流式缓冲和低显存保护。

简单说,2.6.5.0 这一版的目标是让 AngeVoice 从“能跑起来”继续往“更稳定、更适合实际部署”推进,尤其是 NAS 用户、CPU 用户、长文本 TTS 和本地语音克隆场景。
CPU.png

image.png

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x

7

主题

17

回帖

0

牛值

江湖小虾

2026-5-17 13:46:37 显示全部楼层

为什么我网页端提示这个

Repo id must be in the form 'repo_name' or 'namespace/repo_name': '/app/models'. Use `repo_type` argument if needed.

我看了下,模型没问题啊

这个应该是模型没有拉下来,,把/app/models 作为 repo_id,已经修复了,,重新发了个包。。。  详情 回复
2026-5-17 16:25

1

主题

17

回帖

0

牛值

系统先锋体验团🛩️

2026-5-17 16:25:29 楼主 显示全部楼层
雷怒魄酷 发表于 2026-5-17 13:46
为什么我网页端提示这个
Repo id must be in the form 'repo_name' or 'namespace/repo_name': '/app/model ...

这个应该是模型没有拉下来,,把/app/models 作为 repo_id,已经修复了,,重新发了个包。。。
中英文夹杂效果不好  详情 回复
2026-5-18 20:50
moss-tts这个模型下载放哪里?? 你知道的,国内不能访问抱脸  详情 回复
2026-5-18 20:44

7

主题

17

回帖

0

牛值

江湖小虾

2026-5-18 20:44:20 显示全部楼层
安歌 发表于 2026-5-17 16:25
这个应该是模型没有拉下来,,把/app/models 作为 repo_id,已经修复了,,重新发了个包。。。 ...

moss-tts这个模型下载放哪里??
你知道的,国内不能访问抱脸

7

主题

17

回帖

0

牛值

江湖小虾

2026-5-18 20:50:08 显示全部楼层
安歌 发表于 2026-5-17 16:25
这个应该是模型没有拉下来,,把/app/models 作为 repo_id,已经修复了,,重新发了个包。。。 ...

中英文夹杂效果不好
准备优化分词器了,我设置了自动路由到魔搭没效果吗?魔搭上也有模型的,你可以去魔搭下载,在看看github上的文档,放入对应的持久化文件夹就可以了。  详情 回复
2026-5-18 21:33

1

主题

17

回帖

0

牛值

系统先锋体验团🛩️

2026-5-18 21:33:01 楼主 显示全部楼层
雷怒魄酷 发表于 2026-5-18 20:50
中英文夹杂效果不好

准备优化分词器了,我设置了自动路由到魔搭没效果吗?魔搭上也有模型的,你可以去魔搭下载,在看看github上的文档,放入对应的持久化文件夹就可以了。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则