前言
竹瓜最近试了好多AI编程工具有trae、cursor、vscode的插件cline、geminicli、claude code 烧掉了2亿多的token,还没统计免费的gemini 2.5pro,都浅浅尝试了一圈后还是选择用claude code加claude-sonnet-4来进行开发。全程我没有写一行代码,全部由claude code完成。甚至测试大部分都是claude code自己写测试脚本自己测自己改。
项目名是VideoWhisper,已上传GitHub,相关的镜像也已上传至dockerhub。
VideoWhisper能做什么?
VideoWhisper是一个智能视频转文本处理系统,支持语音转录和AI内容分析。仅需一个硅基流动API即可完成全流程
项目地址如下
https://github.com/zhuguadundan/VideoWhisper
主要功能
- • 🎬 视频处理: 支持油管、B站等主流平台,仅需一个视频链接自动下载转录成文本。快速预览转录完成后立即显示逐字稿,无需等待总结分析完成。
- • 🤖 AI分析: 集成硅基流动进行智能摘要和内容分析
- • 📁 文件管理: 完整的任务历史和文件批量管理
- • ⚙️ 在线配置: Web界面直接配置API密钥
- • 🐳 容器部署: Docker一键部署,简单易用
相关功能截图





部署
docker部署
还是以飞牛为例在文件管理docker文件夹下新增VideoWhisper文件夹,返回docker界面--compose--新增项目--填入项目名称,路径选择刚创建的VideoWhisper文件夹,来源选择创建docker-compose.yml 粘贴入以下代码点击启动


services:
videowhisper:
image: zhugua/videowhisper:latest
container_name: videowhisper-app
ports:
- "5009:5000"
volumes:
# 配置文件映射
- ./config:/app/config
# 数据目录映射 - 支持新的任务结构
- ./output:/app/output
- ./temp:/app/temp
- ./logs:/app/logs
# 可选:如果需要持久化任务历史
- ./data:/app/data
environment:
- TZ=Asia/Shanghai
- FLASK_ENV=production
- PYTHONPATH=/app
# 设置文件权限相关环境变量
- PYTHONUNBUFFERED=1
restart: unless-stopped
# 健康检查
healthcheck:
test: ["CMD", "curl", "-f", "http://localhost:5000/api/health"]
interval: 30s
timeout: 10s
retries: 3
start_period: 40s
# 资源限制(可选)
deploy:
resources:
limits:
memory: 2G
cpus: '1.0'
reservations:
memory: 512M
cpus: '0.25'
等待项目启动之后用浏览器打开http://你的飞牛ip:5009 即可看到项目界面
Windows部署
需要安装Python,如果未安装需在 https://www.python.org/downloads/
下载安装Python
在项目地址 https://github.com/zhuguadundan/VideoWhisper 点击右上角code,在下拉中选择download zip 下载压缩文件,下载完成后找个文件夹解压

解压完成后在文件地址栏输入cmd回车打开命令提示符

在命令提示符中鼠标右键粘贴命令 pip install -r requirements.txt
等待依赖安装完成

装完依赖在文件夹中找到install-ffmpeg-en.ps1文件右键选择第二个使用powershell运行等待ffmpeg安装完成

依赖和ffmpeg安装完成后在文件夹地址栏输入cmd打开命令提示符输入 python run.py
回车,即可在浏览器打开http://127.0.0.1:5000看到项目界面,红色警告不用管意思是开发环境不是生产环境。命令提示符的黑框不要关缩小到doc栏就行

使用
在项目界面点击右上角的API设置

在语音识别服务和AI文本处理服务的api key栏填入硅基流动的api密钥,油管cookie先不用管碰到机器人验证错误时在过来添加,点击下方的保存配置,拉到最上面左上角返回首页


回到首页就能正常使用了,5-10分钟的视频大概2分钟左右出逐字稿4分钟左右出完整的总结报告

然后说一下cookie获取以chrome浏览器为例,打开一个视频地址按下键盘F12,再按F5刷新一下界面
在network选项卡,选择第一条找到cookie全部复制然后去API设置界面粘贴就行。

如果在network选项卡找不到cookie,浏览器存储cookie的位置是在application选项卡左侧的cookie 注意这里复制需要一条一条复制全部的名称和值格式是name=value

只有触发反爬机制后才需填写cookie正常能下载音频就不用管
最后
感谢硅基流动,硅基流动送的赠金实在太多了用不完才萌生出这个项目,GitHub上还有一些视频转录文本的工具,有的用的火山引擎的api赠送太少价格太贵或者自部署模型转录的占用太高,而且没有视频链接一键转录的功能。然后是claude code实在太好用了搭配claude code router方便的使用别的模型或者第三方中转站。感兴趣的小伙伴也可以试试,祝大伙玩得开心,下期见!