自动驾驶采标系列五：图像与激光雷达联合目标检测方法

标注猿的第56篇原创一个用数据视角看AI世界的标注猿前几篇文章分别介绍了基于图像的目标检测方法和基于激光雷达的检测方法，对图片和激光雷达各自的检测方案有了一定了解，但是我们在标注过程中也会发现，这两年在自动驾驶领域单独的标注需求还是比较少的，点云的联合标注和融合标注等是比较常见的。那么我们就用本篇文章的篇幅来学习图像与激光雷达联合的目标检测方法，来从算法理论的角度来尝试理解，点云联合标注和融合标注

AI数据标注猿

4545人浏览 · 2022-03-09 14:45:45

AI数据标注猿 · 2022-03-09 14:45:45 发布

标注猿的第56篇原创

一个用数据视角看AI世界的标注猿

前几篇文章分别介绍了基于图像的目标检测方法和基于激光雷达的检测方法，对图片和激光雷达各自的检测方案有了一定了解，但是我们在标注过程中也会发现，这两年在自动驾驶领域单独的标注需求还是比较少的，点云的联合标注和融合标注等是比较常见的。

那么我们就用本篇文章的篇幅来学习图像与激光雷达联合的目标检测方法，来从算法理论的角度来尝试理解，点云联合标注和融合标注等多传感器联合应用的逻辑。

图像与激光雷达联合目标检测方法

目前主要的方法集中于图像和激光雷达联合目标检测。但是图像与激光雷达联合目标检测方法存在一些难点，其数据结构和类型不同，点云是不规则且无序的，图像是规则有序且离散的。

目前存在的一些方法可以主要分为前-中期融合和后期融合，其中大多数方法都使用前-中期融合。

前-中期融合：也称为特征级融合，是一种在数据层级或者特征层进行融合交互的策略，常见的融合方式为对激光雷达和图像都采用各自的特征提取模块，然后在后续的网络中进行融合，达到特征融合的效果。
1. 3D-CVF：是一种基于体素的融合方式，其对于激光雷达点云采用体素的方法做特征提取，然后将相机的像素转化到点云的BEV（Bird's Eye View,鸟瞰图）视图下，其中转化的大小是激光雷达特征图的两倍，包含了更多的细节信息。
  
  其设计了专门的转化模块，来完成将图像转化到BEV的过程。其主要过程可以描述为：
  
  投影过程得到一个相机平面内，该平面是图像特征到BEV视图的稠密体素表达。将激光雷达划分的体素中心投影到相机平面上。采用邻插值（以距离为权重），将最近的4个像素的图像特征插值LiDAR的体素。
2. MV3D：即多视点三维网络，是一个以激光雷达点云和RGB图像为输入，预测定向三维边界的传感器融合框架。其使用紧凑的多视图表示对稀疏的3D点云进行编码。
  
  该网络有两个子网络组成：一个是用于生成三维目标建议，另一个是用于多视图特征融合。
  
  建议网络从三维点云的鸟瞰图中有效的生成三维候选框。该方法设计了一种深度融合方案结合来自多个视图的区域级特性，并支持不同路径的中间层之间的交互。
3. PointPainting：是一种基于点的融合方式，其融合过程是采用二维语义分割信息通过LiDAR信息和图像信息的变换矩阵融合到点上，在采用常见的3D目标检测方法进行检测。
  
  实际上该方法可以理解为对语义分割出的物体多了一些信息作为引导，得到更好的检测精度。
4. EPnet：也是基于点的融合方式，其融合过程由三部分组成：Grid Generator、Image Sampler和LI-Fusion Layer。
  
  根据三维激光与图像的外参，Grid Generator将三维激光的每一个点投影到原始图像上。
  
  Image Sampler在利用图像特征图与原始图像的比例关系以及双线性插值得到对应的图像特征图特征。
  
  为了减少图像的遮挡以及深度不确定性对融合造成的影响，LI-Fusion Layer利用点云特征估计对应图像特征的重要程度并筛选，具体是将点云特征与图像特征经过若干操作学习得到权重值，权重值与图像特征相乘再与点云特征串联作为最后的融合特征。
后期融合：是在决策层面的特征融合，这样融合的好处在与两种模态的网络结构质检互不干扰，可以独自训练和组合；但是也存在一定的缺点，在决策层做融合对原始数据信息融合最少。

对于二维图像检测处理的二维检测结果，我们采用混合表示的方式表示两种模态的检测结果:

这样就可以把该结果表示为一个系数的四维张量。
1. CLOCs：是一种后期融合方法，其经历三个主要阶段。
  1. 第一阶段：2D和3D的目标检测器分别提出区域提议；
  2. 第二阶段：将两种模态的区域提议编码成稀疏张量；
  3. 第三阶段：对于非空的元素采用二维卷积做对应的特征融合。
2. 对于二维图像检测处理的二维检测结果，我们采用混合表示的方式表示两种模态的检测结果:
  1. 第一项：表示在图像中的第i个检测结果和点云中的第j个结果之间的几何一致性。
  2. 第二项：是二维检测的第i个检测到的物体的置信度分数。
  3. 第三项：在点云场景下的置信度分数。
  4. 第四项：表示在点云场景下检测到的第j个物体到地面的归一化距离。