首页天道酬勤多模态视域是什么(多模态技术)

多模态视域是什么(多模态技术)

admin 12-02 05:53 318次浏览

00-1010论文来源:2020 IROS

本文提出了一种新的摄像机-激光雷达候选目标融合网络。CLOCs提供了低复杂度的多模态融合框架,显著提高了单模态检测框架的性能。CLOCs在任何2D和3D检测器输出的候选项接受NMS检测之前运行(因为NMS可能会错误地抑制正确的检测帧),并利用其几何和语义的一致性来产生更精确的2D和3D检测结果,这在KITTI上实现了SOTA性能。

0 基本信息

上图显示,远距离只探测几个点云是非常困难的。(a)激光雷达-只错过了车辆检查,以及(b)时钟纠正了问题;(e)LIDAR-仅红色虚线表示检测缺失,红色实线表示检测过度,以及(g)问题得到纠正。

融合方法可分为以下三种:

早期融合:特征提取前的原始数据融合可以充分利用多模态信息,但对数据对齐敏感,引入复杂结构,需要像素级对齐。

2.深度融合:从原始数据中提取特征后,将其融合到特征图层中。同样,它对数据对齐也很敏感,并且引入了复杂的结构,需要像素级对齐。

3.后期融合:首先分别检测图像和LIDAR点云,然后提出建议,再进行融合。它们仅在检测层面相关,多模态数据不需要与其他模态同步或对齐,只需要在最终融合步骤中进行联合对齐和标签数据即可。

00-1010基于2D图像的三维目标检测;基于点云的三维目标检测:基于多模式融合的三维目标检测:基于多模融合的三维检测性能低于仅激光雷达方法的可能原因如下:

将原始点云转化为BEV图像会丢失空间信息;用于融合不同模式的特征向量的裁剪和大小调整操作可能会破坏不同模式的特征结构。图像是高分辨率和密集数据,而LIDAR点云是低分辨率和稀疏数据,因此融合这两种不同类型的数据结构并不容易。为了使2D图像和三维LIDAR点云中的特征向量具有相同的大小或长度,那么加入、聚集或平均可能导致这些特征向量之间的不准确对应,这不是特征融合的最佳方法。为了使不同模式的特征更好地对应,MMF利用连续卷积构造密集LIDAR BEV特征图,然后与密集图像特征图进行逐点融合,效果良好。PI-RCNN在2020 AAAI上提出的PACF模块也是点状的很好融合。

1 Abstract

4.1 2D和3D目标检测

使用相机和LIDAR的校准参数,LIDAR坐标中的3D包围盒可以精确投影到像面上,如下图所示。

4.2为什么要熔断检测候选盒?

对于后期融合方法,两种方法仅在检测层面相关,多模态数据不需要与其他模态同步或对齐,只有最终融合步骤需要联合对齐和标签数据。两种方法输出的检测结果更有利于网络编码(只剩下2D和3D检测候选帧,没有过多的冗余背景)。

h1 class="pgc-h-arrow-right">5 Camera-LiDAR Object Candidates

5.1 Geometric and Semantic Consistencies(几何和语义一致性)

Geometric consistency:2D和3D检测器正确检测的目标在图像平面边界框相同(如图二所示),而false positive不太可能有相同的边界框姿态上的小错误也会减少重叠区域。因此,本文做法是:将3D检测结果的角点依据相机校准参数投影到2D图像平面,再与2D检测的2D边界框计算IoU,以量化2D和3D检测的几何一致性。

Semantic consistency:检测器会输出多个类别的预测,但只融合相同类别标签的检测框。该阶段不使用阈值或使用很低的阈值(即:该阶段不滤除检测候选)。

5.2 网络结构

稀疏张量编码:目的是将所有单独的2D和3D检测候选框转换为一致的联合候选检测框,以输入融合网络。

2D 候选框:

3D 候选框:

有一点需要注意的是:做fusion之前,先不做NMS。对于k个2D候选框和n个3D候选框,构建一个k*n*4的张量T:

第一项表示在图像中第i个检测框和点云中第j个检测框的几何一致性,即IoU;第二项是2D检测的第i个检测框的置信度分数;第三项是3D检测的第j个检测框的置信度分数;第四项表示在3D检测到的第j个检测框到地面的归一化距离。对于T,有2点需要注意:

若IoU=0,则去除;对于1,存在一种特殊情况:若3D检测框投影到2D后的IoU=0,但依然将3D检测框的信息保留,同时将2D检测框置信度设为-1,因为3D检测可能检测到2D检测不到的物体,尤其对于遮挡等情况。

6 Experiments

2D检测框架:RRC、MS-CNN、cascade-RCNN

3D检测框架:SECOND、pointpillar、pointRCNN、PV-RCNN

图四说明,对于距离较远的物体,CLOCs提升更明显,因为距离较远时点云较少,此时加入2D信息会很好的涨点

Ablation实验

DeepRust匹配:有更好的方法吗?JAVA线程安全性之voliate正则表达式的基本语法有哪些雷士灯具管理系统
2019全球最具价值品牌100强(2019中国十大榜样品牌) 多模态视域是什么(多模态文体学)
相关内容