改进传统基于实体检测和协同过滤的短视频推荐方式,转为利用多模态 ai 技术的推荐方式,解决原有推荐方式缺乏语义理解的缺点。自动生成视频描述和视频推荐标签,降低用户使用难度
功能:
1. 利用多模态召回以及倒排索引检索视频
2.实现对视频内容理解并回答问题
1. 主导 Clip 预训练框架设计(ViVit + Bert),通过对比学习实现视频关键帧与描述的语义对齐,在 8 卡 4000+GPU 小时算力下完成 3000 万+ tokens 训练,语义匹配度提升30%,为推荐系统提供高精度特征提取基础。2. 微调 Blip 模型生成视频描述,用户生成描述认可率从 65%提升至 80%(+15%),显著降低用户生产内容门槛。3. 构建 Query2Label 多标签分类 post trtraining 流程,优化多标签生成逻辑,实现推荐标签召回率 0.76(较传统协同过滤提升 22%),支撑精准内容分发。4. 部署端到端模型服务至阿里云,支持视频描述与推荐标签动态生成。