PolarFormer：极transformer的多摄像头3D目标检测-百检网

首页
法律法规
PolarFormer：极transformer的多摄像头3D目标检测

百检网是一家专业的第三方检测机构平台，为你提供各类型的第三方检测服务，检测范围涵盖各行各业，全程实物实检可追溯可溯源，只做真是检测。本文百检网为你介绍关于汽车领域的相关专业知识，更多信息可以关注我们官网网站-百检网。

arXiv上传2022年6月30日“PolarFormer: Multi-camera 3D Object Detection with Polar Transformers“，作者来自复旦大学张利教授团队。

自动驾驶中的3D目标检测旨在推理3D世界中感兴趣目标的“what”和“where”。现有的3D目标检测方法遵循以往2D目标检测的传统思路，通常采用垂直轴的标准笛卡尔坐标系。然而，这不符合自车透视几何性质，因为每个车载摄像机，都以径向（非垂直）轴成像几何楔形（wedge）内参，去感知世界。因此，本文提倡利用*坐标系，并提出一种*transformer（PolarFormer），以多摄像机2D图像作为输入，用于BEV空间更精确3D目标检测。

具体来说，设计一种不受输入结构形状限制、基于交叉注意的*检测头（Polar detection head），用于处理不规则的*网格（Polar grids）。为了解决沿*距离维度（Polar's distance dimension）的无约束目标尺度变化，进一步引入一种多尺度*表征（Polar representation）学习策略。通过几何约束下序列到序列（seq-to-seq）的方式，该模型从相应图像观测的光栅化*佳利用*表征。在nuScenes数据集上的全面实验表明，PolarFormer显著优于*先进的3D目标检测方案，并且在BEV语义分割任务上具有竞争力。

3D目标检测是在无约束的真实场景中实现自主驾驶的一种能力，旨在预测3D世界中感兴趣的单目标位置、尺寸和方向。尽管有良好的成本优势，但基于多摄像机的3D目标检测仍然有特别大的挑战性。为了获得3D表示，通常利用密集深度估计，但不仅计算成本高，而且容易出错。

为了绕过深度估计，*近的方法利用基于查询（query）的2D检测，学习一组稀疏和虚拟嵌入，用于多摄像机3D目标检测，但无法有效建模目标之间的几何结构。通常，在2D或3D空间中采用垂直轴的经典笛卡尔坐标系。这在很大程度上受到所用卷积模型的限制。

相反，在自车的透视图中，每个摄像机下感知的物理世界，是摄像机成像几何楔形内参的形状，具有径向非垂直轴。考虑到这种成像特性，*坐标系应该比通常采用的笛卡尔坐标系更合适、更自然地用于3D目标检测。事实上，*坐标已在一些基于激光雷达的3D感知方法中得到利用。然而，由于卷积网络仅限于矩形网格结构和局部感受野，其在算法上受到限制。

在3D目标检测中，得到了一组N个单目视图，包括输入图像和摄像头内外参。PolarFormer的目标是从多个摄像机视图中学习有效的*BEV表征，以便在*坐标系中预测目标的位置、大小、方向和速度。

PolarFormer由以下部件组成：跨平面编码器**生成每个输入图像的多尺度特征表示，具备一个跨平面注意机制，其中*查询（Polar queries ）处理输入图像在BEV生成3D特征。然后，*对齐（Polar alignment）模块聚集来自多个摄像机视图的*射线（Polar rays），生成结构化*图（Polar map）。此外，*BEV编码器（Polar BEV encoder）通过多尺度特征交互增强*特征（Polar features）。*后，*检测头对*图（Polar map）进行解码，并在*坐标系中预测目标。

为解决具有多粒度细节的无约束目标尺度变化问题，考虑了一种多尺度*BEV表征结构。不同尺度的图像特征有独特的跨平面编码器，并在共享*BEV编码器中相互交互。然后，多尺度*BEV图由*解码头（Polar decoder head）查询。PolarFormer的总体架构如图所示：

跨平面编码器的目标是将图像与*射线相关联。根据摄像机的几何模型，对于任何摄像机坐标(x(C), y(C), z(C))，转换到图像坐标(x(I), y(I))可以描述为：

对任何*BEV坐标

设fn,u,w表示来自第n摄像机、第u尺度和第w列的图像列，ṗn,u,w表示引入的相应*射线查询。跨平面注意力表述为：

沿方位（azimuth）轴叠加*射线特征pn,u,w，得到第n个摄像机和和第u个尺度的*特征图（即*BEV表征）pn,u为：

这种基于序列-到-序列交叉注意的编码器可以对几何成像进行先验编码，并隐式有效地学习深度的替代。

*对齐模块将*射线从不同的摄像机坐标转换为共享的世界坐标。以多视点*特征图和摄像机矩阵为输入，生成相干*BEV图，覆盖所有摄像机视图。具体来说，**在柱坐标系中均匀生成一组三维点 G(P) = (ρ(P), φ(P), z(P)) 表示。然后将这些点投影到第n个摄像机的图像平面，检索*射线的索引如下：

第u个尺度的相干*BEV图如下生成：

*对齐模块通过沿z轴生成这些点来整合不同高度的特征。学习*坐标表征优于笛卡尔坐标，因为信息损失*小，与原始视觉数据的一致性更高。

利用多尺度特征图处理*坐标中的目标尺度变化。为此，*BEV编码器在相邻像素之间跨多尺度特征地图执行信息交换。形式上，设{Gu}为输入的多尺度*特征图，xˆ为每个查询元素q的参考点的归一化坐标，引入一个多尺度可变形注意模块，如下所示：

作为查询，多尺度特征图中的每个像素利用相邻像素和跨尺度像素的信息。这样在所有特征尺度上学习更丰富的语义。

*解码器解码上述多尺度*特征，在*坐标中进行预测。构造有变形注意的*BEV解码器。

与编码器的2D参考点不同，这里的参考点位于3D柱坐标中，当投影到BEV时，等同于*坐标。每个解码器层的分类分支输出置信度分向量，回归分支的关键学习目标是*坐标，而不是笛卡尔坐标，如图所示：

参考点（ρ，φ，z）在解码器中迭代细化。有了参考点，回归分支输出偏移量dρ、dφ和dz。方向θ和速度v的学习目标相对于目标的方位角，并分解除为正交分量θφ、θρ、vφ和vρ，定义如下：

将目标大小l、w和h回归为对数l、对数w和对数h。分别采用focal loss和L1 loss进行分类和回归。如图是生成多尺度*BEV图的示意图：

实验结果如下：

关于汽车领域的相关的专业知识就为大家介绍到这里了，更多相关的行业知识可以关注我们。百检网是一个大型的综合性知识分享型平台，持续为您分享各类行业知识。做检测上百检！百检网只做真实检测。