场景:面向家庭安防场景,针对用户对包裹相关事件(投递、家人取件、快递员取件、包裹盗窃)的高关注需求,基于视觉大语
言模型(VLM)的视频理解能力,构建多类别事件识别系统。
任务:负责视频多模态大模型的选型、训练与压缩, 构建覆盖图文预训练 → 安防垂域微调 → 偏好对齐(DPO) 的完整训练体
系,并设计轻量化方案以支持边端部署。
模型指标:在7k测试集上, 在精准率98%约束下,召回率达到93%;
模型优化:基于 VILA 1.5 架构,构建多阶段训练流程(图文对齐 + 多模态预训练 + 指令微调 + DPO),针对“快递员取
件”和“包裹偷盗”等易混淆类别,引入 DPO 进行偏好对齐,类间混淆率降低约1%;
模型压缩:
token压缩:针对 SgLIP2 输出视觉 token 冗余问题,提出高效token压缩策略( 196→9),显著降低计算开销,使推
理时间由4.9s降低至0.5s(约10×加速)召回率仅下降0.6%;
模型小型化:通过结构轻量化设计将模型规模由3B压缩至1.3B, 显存占用降低30%以上, 推理速度提升约2倍,性能基
本无损;
仿真设计:设计基于关键动作的抽帧策略与动态缓存建模方案,实现边缘端轻量化部署,并提升事件识别的稳定性,在端到
端1.2w真实用户数据上验证,在精准率98%条件下,包裹事件平均召回率达到91%。