项目目的:针对IPC(智能摄像头)场景下的猫狗目标检测、实例分割与颜色分类任务,构建轻量级多任务模型,实现检测、分割、颜色识别一体化 pipeline,支持边缘设备实时推理。
技术栈:PyTorch、NanoDet-Plus、ShuffleNetV2、PicoSAM3、OpenCV、HSV颜色空间、模型蒸馏、知识蒸馏、GFL Loss、Mosaic数据增强、TensorRT部署、NCNN量化、SAM3辅助标注、Docker容器化、分布式任务调度。
项目流程:
1、数据集构建:
• 采集IPC摄像头猫狗图像5万+张,实例数量10万+,训练集60%、验证集30%、测试集10%
• 基于SAM3半自动化标注系统,使用Docker多卡多实例并行部署,35万张图片标注耗时8小时
• 通过置信度阈值过滤和人工校验控制标注质量,针对测试集添加1000张hardcase(遮挡、逆光等易误检漏检场景),提升模型鲁棒性
2、目标检测(NanoDet-Plus):
• 采用ShuffleNetV2 x1轻量化backbone,anchor-free检测范式
• 使用AdamW优化器训练300 epochs,采用GFL Loss(Generalized Focal Loss)平衡分类与定位精度
• 结合Mosaic+MixUp数据增强提升模型鲁棒性,Test-Time Augmentation(TTA)推理时提升mAP
• 使用IoU-aware分类回归优化定位精度,mAP@0.50:0.95达78.8%,AP@0.50达94.3%
• 分析不同目标尺度(small/medium/large)的检测性能,针对小目标AP仅46.1%的问题设计FPN/BiFPN特征金字塔优化
3、实例分割(PicoSAM3):
• 基于SAM3教师模型生成软标签,通过PicoSAM3蒸馏方法压缩模型,设计蒸馏温度参数平衡软标签分布
• 使用Dice Loss + Mask IoU Loss缓解分割类别不平衡,Soft Mask Supervision进行细粒度监督
• 蒸馏后学生模型在保持分割精度的同时大幅降低计算量,适合边缘部署
4、颜色分类:
• 基于HSV颜色空间进行猫狗颜色识别,计算高效,适合边缘设备实时推理
5、模型压缩与部署:
• 完成INT8/FP16量化实验,TensorRT加速推理,NCNN边缘部署,ONNX模型转换打通跨框架部署
• 记录边缘设备推理延迟与QPS指标,建立完整的模型压缩-量化-部署闭环
6、模型调优:
• 通过Bad case分析(漏检/误检样本)进行数据增强和loss weight调整,难例挖掘(OHEM)与focal loss优化
• 针对小目标检测AP仅46.1%的短板,补充训练数据提升检测效果
项目成果:目标检测mAP@0.50:0.95达78.8%,AP@0.50达94.3%;构建完整的多任务CV pipeline(检测+分割+颜色分类);完成模型量化压缩与边缘部署,具备大模型压缩与端到端部署经验;基于SAM3辅助标注系统实现35万张图片高效标注,AI辅助标注+人工校验提升标注效率5倍以上。