一、立项背景和目标
随着短视频电商的快速发展,带货视频需求量激增,传统人工剪辑存在效率低、成本高、产出不稳定等痛点。运营团队每天需从多个平台采集素材视频,经过下载、精剪、配音、字幕、水印等多道工序才能产出成品,流程高度依赖人工,重复劳动多且容易出错。
本项目旨在构建一套智能视频剪辑工作流系统,将任务管理、自动化编排与后端微服务相结合,实现从素材采集到成品输出的全链路自动化。核心目标:大幅提升视频生产效率、降低人力成本;借助 AI 大模型实现智能场景评分与内容筛选,保障剪辑质量;通过标准化流水线确保产出视频在时长、画幅、字幕、配音等维度上的一致性。
二、软件功能与核心功能模块
系统采用微服务架构,由三大核心服务构成:
1. 视频下载服务:支持抖音、快手、B站、YouTube 等主流平台的视频采集,自动转码为标准格式并提取元数据,为后续环节提供规范化输入。
2. 智能剪辑服务:核心处理引擎,包含七步流水线——速度调整、智能精剪(场景检测 + AI 评分 + 最优选取)、9:16 竖屏裁剪与镜像翻转、字幕翻译烧录、背景模糊填充、BGM 替换与音量调节,将长视频自动精剪为符合投放标准的竖屏短视频。
3. 视频合成服务:负责成品的多层合成,包括水印、Logo、主副标题、分段文案字幕、数据截图定时叠加,以及 TTS 口播语音混音,输出最终成品。
辅助模块包括:字幕处理(AI 硬字幕检测 → 嵌入字幕提取 → 语音转写,三级降级)、双通道翻译、文案智能分割与时间轴分配、集中式配置管理等。
三、业务流程与功能路径
任务触发:运营人员在任务管理平台创建任务,填入视频链接、文案、标题等信息。自动化工作流定时轮询,检测到新任务后启动处理流水线。
素材获取:工作流调用下载服务,自动采集并转码原始视频,返回标准化素材。
智能剪辑:素材自动流转至剪辑服务,系统进行场景检测,调用 AI 大模型对各场景进行商品相关性评分,选取最优场景组合无缝拼接,再依次完成画幅适配、字幕处理、背景模糊、BGM 混音等后处理。
成品合成:剪辑后的视频连同文案、标题、截图等素材传入合成服务,系统完成文案分割、TTS 口播生成、多层视觉与音频元素合成,输出成品视频。
状态回写:合成完成后任务状态自动更新为"剪辑完成",运营人员可直接取用投放。
整条链路实现了从任务创建到成品交付的全程自动化,将原本数小时的人工剪辑缩短至分钟级完成。
一、整体架构与技术栈
系统采用微服务 + 工作流编排架构,分为三层:
调度层:Notion 管理任务,n8n 负责工作流编排,实现定时轮询、串行调用、状态回写的自动化闭环。
服务层:三个 Python FastAPI 异步微服务分别承担视频下载、智能剪辑、合成处理,通过 REST API 解耦,可独立部署。
AI 能力层:接入豆包大模型(场景评分、商品检测、字幕识别)、火山引擎(TTS 语音合成、ASR 语音识别)、百度翻译等外部服务提供智能决策。
视频处理核心依赖 FFmpeg 复杂滤镜图合成和 PySceneDetect 场景检测,下载使用 yt-dlp 多平台适配。设计上强调渐进式降级——每个关键环节设有备选链路(场景检测失败回退固定分割,豆包不可用切百度翻译,AI 评分异常走纯规则打分),确保流水线不因单点故障中断。
二、我的负责模块与成果
我独立完成整个系统的架构设计与全部开发,核心成果:
智能剪辑引擎:场景检测 + AI 评分 + 贪心选取,将 60-120 秒素材精剪至 20 秒内,商品关键帧命中率 85%+。
多层合成器:基于 FFmpeg 滤镜图实现 7 层视觉元素 + 多轨音频一次性合成,单条耗时 30 秒内。
字幕处理链路:AI 硬字幕检测 → 嵌入字幕提取 → 语音转写三级降级,识别覆盖率从 60% 提升至 95%+。
TTS 口播集成:字级时间戳语音合成,文案字幕与口播对齐精度达毫秒级。
全流程效率:端到端单条视频约 3 分钟产出,相较人工提升约 20 倍,日均稳定产出 100+ 条。
三、难点与解决方案
1. FFmpeg 滤镜图复杂度与路径兼容
多层文字、图片、音频叠加时滤镜链极易出错,Windows 下字体路径含冒号被 FFmpeg 误解析为协议前缀导致合成失败。方案:封装 _escape_fontfile() 统一转义,采用分层构建滤镜图方式逐层叠加,便于定位问题。
2. AI 评分波动与降级策略
豆包评分存在波动且偶尔超时,影响剪辑稳定性。方案:设计双轨机制——AI 可用时商品检测权重 50% 为主导,不可用时切换纯规则打分(音频能量 35% + 运动活跃度 30% + 位置 20% + 时长 15%),并引入场景类型加分补偿语义理解缺失。
3. TTS 时间戳与文案分段对齐
火山引擎返回整段字级时间戳,业务需按分段显示字幕并触发截图,粒度不一致。方案:实现逐字反向映射算法确定各段精确起止时间,并建立关键词触发机制("播放"→ 播放量截图、"点赞"→ 互动截图),使截图出现与口播语义同步。
4. 多平台编码兼容
部分平台视频使用 ByteVC1 等非标编码,下游处理频繁异常。方案:下载环节统一强制转码为 H.264 + AAC 标准 MP4,以标准化输入消除兼容性问题。