PolarFormer:极transformer的多摄像头3D目标检测

2024-06-19  |  来源:互联网 159浏览
百检网是一家专业的第三方检测机构平台,为你提供各类型的第三方检测服务,检测范围涵盖各行各业,全程实物实检 可追溯可溯源,只做真是检测。本文百检网为你介绍关于汽车领域的相关专业知识,更多信息可以关注我们官网网站-百检网。

arXiv上传2022年6月30日“PolarFormer: Multi-camera 3D Object Detection with Polar Transformers“,作者来自复旦大学张利教授团队。

自动驾驶中的3D目标检测旨在推理3D世界中感兴趣目标的“what”和“where”。现有的3D目标检测方法遵循以往2D目标检测的传统思路,通常采用垂直轴的标准笛卡尔坐标系。然而,这不符合自车透视几何性质,因为每个车载摄像机,都以径向(非垂直)轴成像几何楔形(wedge)内参,去感知世界。因此,本文提倡利用*坐标系,并提出一种*transformer(PolarFormer),以多摄像机2D图像作为输入,用于BEV空间更精确3D目标检测。

具体来说,设计一种不受输入结构形状限制、基于交叉注意的*检测头(Polar detection head),用于处理不规则的*网格(Polar grids)。为了解决沿*距离维度(Polar's distance dimension)的无约束目标尺度变化,进一步引入一种多尺度*表征(Polar representation)学习策略。通过几何约束下序列到序列(seq-to-seq)的方式,该模型从相应图像观测的光栅化*佳利用*表征。在nuScenes数据集上的全面实验表明,PolarFormer显著优于*先进的3D目标检测方案,并且在BEV语义分割任务上具有竞争力。

3D目标检测是在无约束的真实场景中实现自主驾驶的一种能力,旨在预测3D世界中感兴趣的单目标位置、尺寸和方向。尽管有良好的成本优势,但基于多摄像机的3D目标检测仍然有特别大的挑战性。为了获得3D表示,通常利用密集深度估计,但不仅计算成本高,而且容易出错。

为了绕过深度估计,*近的方法利用基于查询(query)的2D检测,学习一组稀疏和虚拟嵌入,用于多摄像机3D目标检测,但无法有效建模目标之间的几何结构。通常,在2D或3D空间中采用垂直轴的经典笛卡尔坐标系。这在很大程度上受到所用卷积模型的限制。

相反,在自车的透视图中,每个摄像机下感知的物理世界,是摄像机成像几何楔形内参的形状,具有径向非垂直轴。考虑到这种成像特性,*坐标系应该比通常采用的笛卡尔坐标系更合适、更自然地用于3D目标检测。事实上,*坐标已在一些基于激光雷达的3D感知方法中得到利用。然而,由于卷积网络仅限于矩形网格结构和局部感受野,其在算法上受到限制。

在3D目标检测中,得到了一组N个单目视图,包括输入图像和摄像头内外参。PolarFormer的目标是从多个摄像机视图中学习有效的*BEV表征,以便在*坐标系中预测目标的位置、大小、方向和速度。

PolarFormer由以下部件组成:跨平面编码器**生成每个输入图像的多尺度特征表示,具备一个跨平面注意机制,其中*查询(Polar queries )处理输入图像在BEV生成3D特征。然后,*对齐(Polar alignment)模块聚集来自多个摄像机视图的*射线(Polar rays),生成结构化*图(Polar map)。此外,*BEV编码器(Polar BEV encoder)通过多尺度特征交互增强*特征(Polar features)。*后,*检测头对*图(Polar map)进行解码,并在*坐标系中预测目标。

为解决具有多粒度细节的无约束目标尺度变化问题,考虑了一种多尺度*BEV表征结构。不同尺度的图像特征有独特的跨平面编码器,并在共享*BEV编码器中相互交互。然后,多尺度*BEV图由*解码头(Polar decoder head)查询。PolarFormer的总体架构如图所示:

跨平面编码器的目标是将图像与*射线相关联。根据摄像机的几何模型,对于任何摄像机坐标(x(C), y(C), z(C)),转换到图像坐标(x(I), y(I))可以描述为:

对任何*BEV坐标

设fn,u,w表示来自第n摄像机、第u尺度和第w列的图像列,ṗn,u,w表示引入的相应*射线查询。跨平面注意力表述为:

沿方位(azimuth)轴叠加*射线特征pn,u,w,得到第n个摄像机和和第u个尺度的*特征图(即*BEV表征)pn,u为:

这种基于序列-到-序列交叉注意的编码器可以对几何成像进行先验编码,并隐式有效地学习深度的替代。

*对齐模块将*射线从不同的摄像机坐标转换为共享的世界坐标。以多视点*特征图和摄像机矩阵为输入,生成相干*BEV图,覆盖所有摄像机视图。具体来说,**在柱坐标系中均匀生成一组三维点 G(P) = (ρ(P), φ(P), z(P)) 表示。然后将这些点投影到第n个摄像机的图像平面,检索*射线的索引如下:

第u个尺度的相干*BEV图如下生成:

*对齐模块通过沿z轴生成这些点来整合不同高度的特征。学习*坐标表征优于笛卡尔坐标,因为信息损失*小,与原始视觉数据的一致性更高。

利用多尺度特征图处理*坐标中的目标尺度变化。为此,*BEV编码器在相邻像素之间跨多尺度特征地图执行信息交换。形式上,设{Gu}为输入的多尺度*特征图,xˆ为每个查询元素q的参考点的归一化坐标,引入一个多尺度可变形注意模块,如下所示:

作为查询,多尺度特征图中的每个像素利用相邻像素和跨尺度像素的信息。这样在所有特征尺度上学习更丰富的语义。

*解码器解码上述多尺度*特征,在*坐标中进行预测。构造有变形注意的*BEV解码器。

与编码器的2D参考点不同,这里的参考点位于3D柱坐标中,当投影到BEV时,等同于*坐标。每个解码器层的分类分支输出置信度分向量,回归分支的关键学习目标是*坐标,而不是笛卡尔坐标,如图所示:

参考点(ρ,φ,z)在解码器中迭代细化。有了参考点,回归分支输出偏移量dρ、dφ和dz。方向θ和速度v的学习目标相对于目标的方位角,并分解除为正交分量θφ、θρ、vφ和vρ,定义如下:

将目标大小l、w和h回归为对数l、对数w和对数h。分别采用focal loss和L1 loss进行分类和回归。如图是生成多尺度*BEV图的示意图:

实验结果如下:


关于汽车领域的相关的专业知识就为大家介绍到这里了,更多相关的行业知识可以关注我们。百检网是一个大型的综合性知识分享型平台,持续为您分享各类行业知识。做检测 上百检!百检网只做真实检测。