随着自动驾驶技术的快速发展,车辆需要具备对周围环境的高精度、实时感知能力,以保证行驶安全并支撑智能交通、城市管理等应用。然而,单一传感器存在局限:相机具备丰富语义信息,但深度估计容易受遮挡、光照、动态模糊影响;而LiDAR提供几何精确性,但数据稀疏且对小目标不敏感。
因此本项目提出了一种目标检测技术,以突破多传感器异构性与模态差异,构建一个动态跨模态雷视融合的3D目标检测框架。主要目标包括:
1.构建统一的鸟瞰图(BEV)表示空间,实现相机与LiDAR的高效对齐与互补;
2.提升动态环境下的检测鲁棒性,解决快速运动、遮挡带来的不稳定问题;
3.通过跨域注意力机制实现关键目标的多尺度增强,确保检测的精确性和一致性。
本系统由三个核心模块构成:首先通过超源模态构建将相机伪点云与LiDAR点云统一到BEV空间,兼顾语义信息与几何精度;其次利用动态回溯时序融合引入多帧历史特征,提升动态环境下的检测连续性与鲁棒性;最后通过跨域注意力引导融合在关键区域选择性供应超源特征,强化多尺度和多模态表示,并结合Transformer检测头输出精确的三维目标结果。
系统整体流程包括:首先采集多视角相机图像和LiDAR点云,并完成统一特征对齐;随后在BEV空间生成超源特征,通过时序融合与跨模态注意力机制实现特征增强;最终将融合后的BEV表示输入检测模块,输出目标类别、位置和运动状态,形成可直接服务于自动驾驶决策、路径规划和交通监测的检测结果。
该项目由本人独立完成,项目整体核心思路是在统一BEV空间下实现多模态数据的对齐与融合。该项目可以分为四个模块:超源模态构建模块,动态回溯时序融合模块,跨域注意力引导融合模块以及检测与输出模块。项目采用PyTorch与MMDetection3D作为深度学习框架,基于nuScenes多模态数据集进行实验。在特征构建上,相机端使用ResNet主干网络结合深度预测生成伪点云,LiDAR端采用PointPillars进行稀疏点云编码,并通过LSS投影与FPN实现多尺度BEV表示。在时序建模中,引入3D卷积与轻量化Transformer的动态回溯融合模块以增强跨帧一致性;在跨模态融合中,利用Cross-Attention与Mask Calibration对关键区域进行选择性特征供应。最终,检测头采用基于Transformer的TransFusion架构,结合Focal Loss、L1 Loss与IoU Loss输出目标类别与三维边界框。