本项目构建了一套从视频下载到多平台分发的全自动化流水线。立项背景是内容创作者每天花费大量时间在视频下载、字幕制作、剪辑去重、多平台发布等重复性工作上。
核心功能模块:
1. 多平台视频采集:支持B站、抖音、快手、YouTube等主流平台视频下载。
2. 智能转写配音:Whisper语音转文字 + 背景音乐自动混音 + AI解说生成。
3. 画面去重:基于帧间相似度对比,自动识别并裁剪重复/低信息量画面。
4. AI内容润色:大模型优化字幕文本,自动生成标题、简介、标签。
5. 批量发布调度:对接各平台API,支持定时发布与发布状态追踪。
6. 仪表盘监控:实时查看处理进度、成功率、Token消耗等运营指标。
整体采用流水线(Pipeline)架构,每个处理节点独立可替换。
- 视频下载层:yt-dlp + 各平台专用解析器,统一输出标准格式。
- 音频处理层:FFmpeg 提取音轨 → Whisper Large-v3 转写 → 自定义混音模块叠加背景音乐。
- 画面处理层:OpenCV 逐帧相似度计算,阈值0.92以上自动标记为重复帧并裁剪。
- AI增强层:调用小米MiMo V2.5多模态模型进行视频内容理解,DeepSeek API进行文本润色和标题生成。
- 发布层:各平台SDK封装为统一接口,支持B站/抖音/快手/YouTube一键分发。
- 我负责整个流水线的架构设计和核心模块开发。最大难点是长视频(>1小时)的Whisper转写内存管理,通过分段处理+流式输出将显存占用从12GB降至4GB以下,确保RTX 4060(7GB)流畅运行。已处理视频186个,成功率达92.5%。