AngeVoice：适合 NAS 自托管的中文 TTS 语音合成服务

安歌 · 2026-5-10 03:14:14

最近在折腾 NAS 上的 AI 应用，整理了一个比较适合自托管的中文 TTS 项目：AngeVoice。
项目地址：
https://github.com/ang77712829/AngeVoice
AngeVoice 不是重新训练的新模型，而是把 Kokoro 中文 TTS 和可选的 MOSS-TTS-Nano 封装成一个更适合 NAS / Docker 长期运行的语音合成服务。
简单来说，就是可以把 NAS 变成一个本地文字转语音服务，用来给 AI 助手、阅读器、有声书、小智后端、自动化脚本等提供语音输出。

主要功能：
• 支持中文 TTS 语音合成
• 内置 Web UI，可以直接浏览器输入文字生成语音
• 支持 OpenAI 兼容接口 /v1/audio/speech
• 支持 WebSocket 流式输出
• 支持批量合成 ZIP
• 支持 Kokoro，MOSS-TTS-Nano 可选开启
• 支持 Docker CPU / GPU 部署
• 有健康检查、请求统计、缓存、限流等服务化功能

我觉得它比较适合 NAS 用户的地方是：
它不是单纯的模型推理脚本，而是更像一个可以长期运行的本地 TTS 服务。部署好以后，内网其他应用都可以通过 API 调它。
比如可以用在：
• AI Agent 语音回复
• 小智 ESP32 / 智能音箱后端
• 阅读器朗读
• 有声书生成
• 自动化脚本语音播报
• 视频配音草稿
• 家庭通知提醒
部署方面目前主要推荐 Docker。
CPU 版：
git clone https://github.com/ang77712829/AngeVoice.git
cd AngeVoice/docker/cpu
docker compose up -d
GPU 版：
git clone https://github.com/ang77712829/AngeVoice.git
cd AngeVoice/docker/gpu
docker compose up -d
默认端口：
CPU：http://你的NAS地址:8100
GPU：http://你的NAS地址:8101

硬件方面，如果只是体验 Kokoro，普通 CPU 也能跑，建议 8GB 内存以上，16GB 更舒服。
如果要折腾 MOSS 或参考音频克隆，最好有 NVIDIA 显卡，CPU 上体验可能会比较慢。

目前项目还在持续完善，适合喜欢折腾 Docker、AI、本地语音服务的 NAS 用户。
如果只是想找一个手机上点开即用的 TTS App，它可能不是最简单的选择；但如果想在 NAS 上自建一个中文 TTS 后端，还是挺值得试试的。
项目地址：
https://github.com/ang77712829/AngeVoice
欢迎大家测试反馈，也可以联系我在线进行试用，我目前的 NAS 配置是 i3-9100T + 16GB 内存 + Tesla P4。Kokoro 流式生成速度还不错，MOSS 也可以折腾，但这类轻量 TTS 模型本身参数规模有限，音质和自然度不能和大型商业 TTS 服务硬比，更适合本地化、自托管、低成本使用场景。

安歌 · 2026-5-16 18:25:52

补充一组实测资源占用。

这张图是我这边用 i3-9100T 跑 MOSS 克隆模式，合成 1W 字左右长文本时的资源占用。合成过程中 CPU 大概在 75% 左右，内存占用约 5.8GB，整体是可以接受的，速度也能满足流式实时对话的需求。

另外现在也不需要特意手动关闭容器。AngeVoice 在空闲约 10 分钟后会自动释放模型，释放后容器内存占用大概会降到 200MB 左右，对 NAS 用户会友好很多。

所以这版 2.6.5.0 不只是能跑 GPU，CPU 模式下也已经有比较实用的可用性了。当然长文本合成还会继续优化，目前偶尔仍可能有短暂卡顿或局部不自然，但相比之前版本，稳定性和整体体验已经提升很多。

安歌 · 2026-6-9 20:42:49

最近更新了下可以支持飞牛商店fpk包安装了，之前用的 ghcr.io镜像可能不太好加速拉下来，已经改成默认dockerhub的了，要是有什么安装或者使用方面的问题欢迎随时反馈。

安歌 · 2026-5-11 07:06:02

这次又做了一轮体验优化，重点改进了一键安装和 MOSS 流式体验。

现在支持一行命令极速安装，会自动检测当前机器环境，并根据配置推荐合适的部署方式：

bash <(curl -fsSL https://raw.githubusercontent.com/ang77712829/AngeVoice/main/scripts/install.sh)

安装脚本会尽量自动判断 CPU / GPU / 老显卡环境，减少手动选择和配置的步骤，比较适合 NAS、家用服务器和 Docker 用户快速部署体验。

另外，这次也把运行配置拆分到了独立的 angevoice.env 文件里，docker-compose.yml 不再塞一大堆环境变量，整体会更清爽，也更方便后续修改配置、升级和排查问题。

MOSS 方面也继续做了优化，目前流式合成和参考音频克隆的体验比之前更顺一些，长文本流式输出的稳定性也更好。

不过目前 /admin 管理界面还有一些细节问题，暂时没有在这一版里强行修，计划放到下个版本一起整理。当前这版主要还是优先把安装、配置和 MOSS 生成体验打磨得更顺手一些。

项目地址：
https://github.com/ang77712829/AngeVoice

欢迎大家测试反馈。

安歌 · 2026-5-11 07:06:52

这次又做了一轮体验优化，重点改进了一键安装和 MOSS 流式体验。

现在支持一行命令极速安装，会自动检测当前机器环境，并根据配置推荐合适的部署方式：

bash <(curl -fsSL https://raw.githubusercontent.com/ang77712829/AngeVoice/main/scripts/install.sh)

安装脚本会尽量自动判断 CPU / GPU / 老显卡环境，减少手动选择和配置的步骤，比较适合 NAS、家用服务器和 Docker 用户快速部署体验。

另外，这次也把运行配置拆分到了独立的 angevoice.env 文件里，docker-compose.yml 不再塞一大堆环境变量，整体会更清爽，也更方便后续修改配置、升级和排查问题。

MOSS 方面也继续做了优化，目前流式合成和参考音频克隆的体验比之前更顺一些，长文本流式输出的稳定性也更好。

不过目前 /admin 管理界面还有一些细节问题，暂时没有在这一版里强行修，计划放到下个版本一起整理。当前这版主要还是优先把安装、配置和 MOSS 生成体验打磨得更顺手一些。

项目地址：
https://github.com/ang77712829/AngeVoice

欢迎大家测试反馈。

一點墨 · 2026-5-11 09:03:39

• AI Agent 语音回复
• 小智 ESP32 / 智能音箱后端
• 阅读器朗读
• 有声书生成
• 自动化脚本语音播报
• 视频配音草稿
• 家庭通知提醒

大佬，能写个案例抄抄作业吗？

安歌 · 2026-5-11 13:44:54

一點墨发表于 2026-5-11 09:03
• AI Agent 语音回复
• 小智 ESP32 / 智能音箱后端
• 阅读器朗读

额，你说的是哪个案例？可以直接用api调用的啊。

安歌 · 2026-5-11 20:02:28

安歌发表于 2026-5-11 13:44
额，你说的是哪个案例？可以直接用api调用的啊。

另外做了小智的直接适配，接入会更容易了。

moneycwq · 2026-5-11 23:05:59

商店里的轻阅读不知道如何直接调用这个，因为用轻阅读本身指定的本地语音，因为nas性能不足，慢的要命看，基本上只能调用在线edge

安歌 · 2026-5-11 23:31:23

moneycwq 发表于 2026-5-11 23:05
商店里的轻阅读不知道如何直接调用这个，因为用轻阅读本身指定的本地语音，因为nas性能不足，慢的要命看， ...

下载看了下轻阅读已经内置了语音推理框架模块，没有接入其他tts的api的选项，所以大概接入不了。。

15166205993 · 2026-5-13 14:48:27

模型kokoro v1.1 chinese 运行良好， MOSS-TTS-Nano 怎么获得，选择后半天切换不过去，下载也不知道从什么地方下载。

安歌 · 2026-5-13 18:21:06

15166205993 发表于 2026-5-13 14:48
模型kokoro v1.1 chinese 运行良好， MOSS-TTS-Nano 怎么获得，选择后半天切换不过去，下载也不知道从什么 ...

没有模型的话会从huggingface上自动下载的，需要等会儿。。也可以看下容器日志看下载的进度。

15166205993 · 2026-5-14 08:03:20

安歌发表于 2026-5-13 18:21
没有模型的话会从huggingface上自动下载的，需要等会儿。。也可以看下容器日志看下载的进度。 ...

能给出手工下载链接个上传路径吗？

15166205993 · 2026-5-14 08:08:17

重启容器，所有功能均正常，过一段时间，再次打开发现音色库失效（0），重启容器后音色库恢复。如此往返。。。

重启容器后

安歌 · 2026-5-14 09:41:27

15166205993 发表于 2026-5-14 08:08
重启容器，所有功能均正常，过一段时间，再次打开发现音色库失效（0），重启容器后音色库恢复。如此往返。 ...

因为我设置了默认10分钟空闲后弹出所有模型来释放资源，降低nas的资源开销，再点击生成或者api调用就可以正常加载使用了，如果想常驻的话可以把angevoice.env里面的600秒改成0，这样就是常驻了，至于模型你可以去魔搭搜索下moss-tts-nano，下载后放入moss_models文件夹内，有做持久化挂载的，大概这个结构，另外angevoice.env里面所有的变量我几乎都写了注释是调整什么的。。github仓库或者web控制台里面有写常见问题和部署方法，也可以看看哦。

安歌 · 2026-5-14 09:46:52

15166205993 发表于 2026-5-14 08:03
能给出手工下载链接个上传路径吗？

论坛直接发链接需要审核很久，，所以大概看不到，，

安歌 · 2026-5-16 18:21:21

AngeVoice 2.6.5.0 已经发布了，这版主要集中在长文本合成体验、MOSS 稳定性和 Admin 后台管理上，不是单纯加功能，而是把实际部署中遇到的问题系统性修了一轮。

这次重点优化了 MOSS 长文本合成的分句、静音压缩、音频拼接、流式缓冲和默认参数。之前长文本里比较容易出现的长停顿、失真、变音、重复读等问题，概率已经明显下降。默认配置也重新调整为更适合 NAS、老显卡和 8GB 显存环境的安全档，避免参数过激导致显存爆满或频繁 fallback。

Admin 后台也做了一轮重构，现在分成 Dashboard、Models、Tuning、Security、Diagnostics 几个区域，可以直接查看运行状态、模型状态、API Key、调参配置和诊断信息，也支持保存运行时配置、套用预设、导出 ENV。对于飞牛、NAS、Docker Compose 用户来说，部署和调参会方便很多。

我这边用 i3-9100T 实测，CPU 模式下也可以比较流畅地运行 MOSS 克隆模式，并完成 1W 字左右的长文本合成。合成过程中资源占用在可接受范围内，速度也已经可以支撑流式实时对话场景。相比前几个版本，长文本稳定性、自然度和可用性都有明显提升。

当然目前还没有做到完全完美，极长文本下偶尔仍可能出现短暂卡顿或局部不自然的问题，后续还会继续优化切片策略、MOSS 解码、流式缓冲和低显存保护。

简单说，2.6.5.0 这一版的目标是让 AngeVoice 从“能跑起来”继续往“更稳定、更适合实际部署”推进，尤其是 NAS 用户、CPU 用户、长文本 TTS 和本地语音克隆场景。

雷怒魄酷 · 2026-5-17 13:46:37

为什么我网页端提示这个

Repo id must be in the form 'repo_name' or 'namespace/repo_name': '/app/models'. Use `repo_type` argument if needed.

我看了下，模型没问题啊

安歌 · 2026-5-17 16:25:29

雷怒魄酷发表于 2026-5-17 13:46
为什么我网页端提示这个
Repo id must be in the form 'repo_name' or 'namespace/repo_name': '/app/model ...

这个应该是模型没有拉下来，，把/app/models 作为 repo_id，已经修复了，，重新发了个包。。。

雷怒魄酷 · 2026-5-18 20:44:20

安歌发表于 2026-5-17 16:25
这个应该是模型没有拉下来，，把/app/models 作为 repo_id，已经修复了，，重新发了个包。。。 ...

moss-tts这个模型下载放哪里？？
你知道的，国内不能访问抱脸

雷怒魄酷 · 2026-5-18 20:50:08

安歌发表于 2026-5-17 16:25
这个应该是模型没有拉下来，，把/app/models 作为 repo_id，已经修复了，，重新发了个包。。。 ...

中英文夹杂效果不好

安歌 · 2026-5-18 21:33:01

雷怒魄酷发表于 2026-5-18 20:50
中英文夹杂效果不好

准备优化分词器了，我设置了自动路由到魔搭没效果吗？魔搭上也有模型的，你可以去魔搭下载，在看看github上的文档，放入对应的持久化文件夹就可以了。

		自动登录	找回密码
密码			立即注册

AngeVoice：适合 NAS 自托管的中文 TTS 语音合成服务

本帖子中包含更多资源

本帖子中包含更多资源

大佬，能写个案例抄抄作业吗？

点评

点评

点评

点评

点评

点评

本帖子中包含更多资源

点评

本帖子中包含更多资源

本帖子中包含更多资源

点评

点评

点评

浏览过的版块