收起左侧

SubtitlePipeline:全自动语言识别生成字幕并翻译入库

11
回复
1294
查看
[ 复制链接 ]

2

主题

9

回帖

0

牛值

江湖小虾

2026-4-10 11:08:49 显示全部楼层 阅读模式

SubtitlePipeline(https://github.com/saaak/SubtitlePipeline) 是一个 Docker 部署的服务,指定媒体目录后全自动完成:扫描视频 → 提取音频 → WhisperX 语音识别 → LLM 翻译 → 生成 .srt 字幕。 自动为媒体库中的每个视频生成中文字幕,输出到视频同目录,同时支持配置生成的字幕文件名格式(影片.zh.srt 、影片.forced.zh.srt 等),这样就可以自动挂载到 Jellyfin / Emby / Plex 等流媒体服务器。

Docker Compose 启动

docker compose up --build -d

挂载目录

路径 用途
/data 输入视频文件(你的媒体库目录)
/output 备用输出目录
/models WhisperX 模型存储
/config SQLite 数据库和配置

实测过程中使用了一个近 3 小时的视频,用的 whisper 的 small 模型。在 i5-12490f 下语音转文字跑了 20 分钟左右,剩下的翻译等步骤很快,总共用时 20 分钟多点。small 模型效果就那样吧,识别效果一般,不过基本上能看懂意思了。 有些大模型 API 会拦截 NSFW 内容的翻译,可以通过配置自定义 system prompt 解决。

测试视频

最终的效果如下图所示,基本能看懂在讲啥

最终效果

收藏
送赞
分享

8

主题

34

回帖

0

牛值

初出茅庐

2026-4-10 17:08:10 显示全部楼层

这个好啊,是中文生成中文还是西文生成中文啊。

whisper模型识别日语,然后大模型翻译成中文  详情 回复
2026-4-10 17:35

2

主题

9

回帖

0

牛值

江湖小虾

2026-4-10 17:35:09 楼主 显示全部楼层
he7830 发表于 2026-4-10 17:08
这个好啊,是中文生成中文还是西文生成中文啊。

whisper模型识别日语,然后大模型翻译成中文

0

主题

1

回帖

0

牛值

系统先锋体验团🛩️

2026-4-26 20:51:56 显示全部楼层

请问这个在docker下怎么调用amd的gpu?

amd目前还不支持,等我这两天试试能不能适配一下  详情 回复
2026-4-27 09:47

2

主题

9

回帖

0

牛值

江湖小虾

2026-4-27 09:47:24 楼主 显示全部楼层
7°x 发表于 2026-4-26 20:51
请问这个在docker下怎么调用amd的gpu?

amd目前还不支持,等我这两天试试能不能适配一下

1

主题

3

回帖

0

牛值

江湖小虾

2026-5-11 12:36:37 显示全部楼层

我用AI也写了个,视频源订阅(解析输入的网页列表)、下载(yt-dlp)、文件名LLM翻译、语音识别因为NAS性能有限改为了远端调用(NAS分离音频推送到自己PC跑whisper识别生成字幕)、LLM字幕翻译。

有的网站yt-dlp支持解析列表,有的只支持下载视频,不支持解析的就让AI自己研究怎么添加。

1

主题

28

回帖

0

牛值

系统先锋体验团🛩️

2026-5-13 12:35:23 显示全部楼层

模型下载失败。

1

主题

28

回帖

0

牛值

系统先锋体验团🛩️

2026-5-13 12:37:16 显示全部楼层

能本地AI和远程API调用二选一吗。。。本地NAS才什么性能。。。

在开发把语音识别部分支持单独部署,这样可以远程调用高性能机器进行语音识别部分。同时也在开发支持自定义语音识别api  详情 回复
2026-5-15 17:53

8

主题

14

回帖

0

牛值

江湖小虾

2026-5-14 18:39:22 显示全部楼层

镜像拉取超时

5

主题

36

回帖

0

牛值

fnOS系统内测组

飞牛百度网盘玩家fnOS1.0上线纪念勋章

2026-5-14 21:09:59 显示全部楼层

有计划出win桌面端么,可能用主力机的显卡跑这个有挺大优势的,奈何我是A卡cry

win桌面端有很多开源方案可以直接运行,github搜whisper有很多项目,不打算重复造轮子了。 在考虑把语音识别部分支持单独部署,这样可以远程调用高性能机器进行语音识别部分  详情 回复
2026-5-15 17:52

2

主题

9

回帖

0

牛值

江湖小虾

2026-5-15 17:52:14 楼主 显示全部楼层
红豆 发表于 2026-5-14 21:09
有计划出win桌面端么,可能用主力机的显卡跑这个有挺大优势的,奈何我是A卡
...

win桌面端有很多开源方案可以直接运行,github搜whisper有很多项目,不打算重复造轮子了。
在考虑把语音识别部分支持单独部署,这样可以远程调用高性能机器进行语音识别部分
1

查看全部评分

2

主题

9

回帖

0

牛值

江湖小虾

2026-5-15 17:53:12 楼主 显示全部楼层
反派角色 发表于 2026-5-13 12:37
能本地AI和远程API调用二选一吗。。。本地NAS才什么性能。。。

在开发把语音识别部分支持单独部署,这样可以远程调用高性能机器进行语音识别部分。同时也在开发支持自定义语音识别api
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则