StopNet：为城市自动驾驶的可扩展轨迹预测和占有预测方法-百检网

首页
法律法规
StopNet：为城市自动驾驶的可扩展轨迹预测和占有预测方法

百检网是一家专业的第三方检测机构平台，为你提供各类型的第三方检测服务，检测范围涵盖各行各业，全程实物实检可追溯可溯源，只做真是检测。本文百检网为你介绍关于汽车领域的相关专业知识，更多信息可以关注我们官网网站-百检网。

arXiv2022年6月2日上传论文“StopNet: Scalable Trajectory and Occupancy Prediction for Urban Autonomous Driving“，来自韩国的朝鲜大学和谷歌WayMo。

介绍了一种运动预测（行为预测）方法，StopNet，如图所示，在不牺牲准确性的情况下满足密集城市环境自动驾驶的延迟要求。全场景的稀疏输入表征，允许StopNet扩展到数百个带可靠延迟道路智体的预测轨迹。

除了预测轨迹外，场景编码器还可以预测全场景的概率占用网格（occupancy grids），作为一种适用于繁忙城市环境的补充输出表征。占用网格允许自动驾驶车辆共同推理智体群的行为，而无需处理其中智体各自轨迹。

在三个数据集证明了稀疏输入表征和模型在计算和准确性方面的有效性。按照标准指标，联合训练一致的轨迹和占用率预测改善了性能。

自动驾驶车辆（AV）需要不断评估这个所有来自其他道路智体未来可能运动所在的空间，以便能够为其自己维护安全有效的运动规划。此运动预测和重新规划任务是AV连续执行的众多过程之一，因此至关重要的是，要在期待的延迟要求下完成。

另一方面，在密集的城市环境中运行时，AV可能会在其视野内遇到数百个动态智体的场景，要考虑在有大量行人的体育或音乐场馆旁边驾驶。在这种环境中自动驾驶需要一个运动预测和规划系统要 1）快速2）随智体数量扩展。

现有的运动预测方法不能满足上述要求。模型通常需要40-50ms以上的时间进行推断。这种可扩展问题在公开基准测试中没有得到解决，在报告中经常被忽略。提出的方法通常使用光栅（基于渲染的）输入表示法，这需要昂贵的CNN进行处理。

*近，有人提出基于稀疏点的输入表征方法，比如矢量图。这些方法提高了精度，减少了模型参数的数量。然而，为了提高准确性，这些方法采取以智体为中心（agent- centric）的场景表征，需要从每个智体角度重新编码道路点和智体点。这些方法的延迟随着推理智体的数量呈线性增长，因此不适合繁忙的城市环境。

这项工作StopNet，是一种关注延迟和扩展性的运动预测方法。开发一种新的全场景（Whole-scene）稀疏输入表征，可以同时对包括所有智体的场景输入进行编码。借鉴3D目标检测，开发一个PointPillars启发的场景编码器，其同时处理从所有智体中采样的稀疏点，从而形成一个非常快速的轨迹预测模型，延迟则大多是对于智体数不变。

AV通常将预测轨迹和不确定性视为规划约束，因此在繁忙场景中规划算法的延迟也会增加。StopNet的全场景编码器还支持预测概率占用网格这种致密输出格式，捕获地图中任何给定网格单元被某个智体部分占用的概率。

这种输出表征允许AV规划器对繁忙场景中全占有网格情况进行推理，无需去处理单个轨迹，因此需要几乎恒定不变的计算操作。占用网格的另一个吸引人特性是，对检测、跟踪噪声和忽隐忽现（flicker）等具有鲁棒性，因为模型随时间独立于智体身份推理占用网格情况。

通过联合训练设置，StopNet也是**个方法将轨迹集和占用网格统一为运动预测两种原型。这些输出表征与直观一致性损失联系在一起：当每个智体的轨迹输出分布转换为占有概率分布时，应该与总占有概率分布保持一致。这种方式进行联合训练的结果，可以获得*先进的轨迹预测性能。

假设每个智体在任何时候都可以用一个有方向的边框表示，给定场景中所有智体在固定数量输入时间步的状态观测序列，轨迹预测任务，定义为对场景中的所有智体在固定时间范围T预测未来位置。预测一组K轨迹，其中包括每个智体的相关概率，还预测了每个轨迹航点的二维高斯不确定性。

占用率预测任务定义为预测占用率网格。占用网格中的每个单元包含一个范围[0,1]内值，表示在时间T任何一个智体边框的任何部分与该网格单元重叠的概率。在BEV空间把未来智体边框渲染为二进制图，构建真值占用率网格。由于规划器对不同的智体类的反应不同，要为每个智体类预测不同的占用网格。

如图所示，设定以AV位置为中心的全场景坐标系，t=0。所有当前和过去的智体状态（包括AV）都转换到此固定坐标系。模型输入包括三组点，每个都有相关的特征向量。智体点（车和行人）构建来自每个智体边框内均匀采样的固定数点。所有输入时间步的智体点共存。每个智体点都带有状态属性加一个one-hot编码的时间。道路元素点从道路结构的直线和曲线中均匀采样而得。每个道路点编码位置和元素类型。红绿灯点位于其控制的车道末端。属性包括位置、时间和红绿灯状态。

如图显示StopNet体系结构的概览：包括一个编码器，一个ResNet主干网，还有两个头部用于解码来自共享场景特征的轨迹和占用率预测。

受PointPillar的启发，StopNet编码器将点集P分解为x-y平面M×N柱的均匀网格。然后对每个柱的点进行增强，其中有到点平均的距离和到柱中心的偏移。然后，用PointNet的简化版对每个支柱中所有点的特征进行编码和聚合。特别是，应用线性全连接（FC）层，然后是BatchNorm和ReLU对每个点进行编码。

在每个支柱内的所有点上应用max操作，计算每个支柱的特征向量，如下所示：

然后，编码器生成的M×N特征图通过ResNet主干进行处理，重塑为W×H，与在场景智体当前位置渲染的二进制占用网格连接在一起。接着，轨迹解码器和占用网格解码器共享生成的特征图，生成模型的*终预测。

为预测轨迹，采用MultiPath的轨迹解码器架构和损失函数。轨迹解码器从全场景特征提取每个智体位置为中心的大小为11×11补丁，从而在每个智体基操作。请注意，虽然轨迹预测头是以智体为中心，但模型计算的大部分是全场景，这决定了总处理时间。

轨迹解码器使用一组固定的预聚类潜轨迹作为锚点集，通过*近欧氏距离为真值轨迹分配锚点。对于每个锚点，解码器从锚点轨迹回归每个航点delta，在每个时间步产生一个混合高斯（Gaussian mixture）。损失包括锚点的softmax交叉熵分类损失和锚点内平方L2回归损失。

占用率网格解码器，通过一个非常轻量级CNN一次处理全场景特征图，在每个时间步t重复该CNN，为每个类生成occupancy logits作为单独的通道。对logits应用sigmoid函数，获得每个格的占用率。占用率损失定义为

除了对轨迹解码器和占用率解码器同训练之外，一致性损失在鼓励每个智体轨迹预测和全场景占用网格率之间的一致性是有用的。具有*高预测可能性的轨迹预测渲染为定向边界框，并通过智体类聚合。与预测占用率输出的一致性，计算类似于和真值的交叉熵计算。

模型*全面变型的损失函数总结如下

该数据集是Waymo Open Motion数据集的修订版，重点关注拥挤场景。它包含超过1300万个场景，跨越美国多个城市地区500多小时的真实驾驶。这些场景包含动态智体、交通灯和道路网络信息。所有场景都包含至少20个动态智体。另外还测试了Interaction & Argoverse数据集。

训练模型包括三种变型：MT仅使用轨迹损失进行训练，MO仅使用占用率损失进行训练，MTO使用联合训练和一致性损失。所有模型都使用Adam优化器从头开始训练，学习率为0.0004，批处理大小为8。梯度范数剪裁为0.1以上。损失权重为λo=100.0、λs=1.0、λr=0.16和λc=10.0，使用 light grid search确定。

输入FOV为160m×160m，对应AV的有效感知范围为80m。编码器使用M×N=80×80柱。从所有智体边框的内部统一采样8×8个输入点。占用率解码器的分辨率为W×H=400×400，预测未来在T=10个线性间隔时间段*多6秒的占用率，即T∈ {0.6, 1.2, . . . , 6.0}。

占有率测度采用soft IOU：

实验结果如下：

如图比较不同模型编码器的（a）flops数量和（b）可学习参数数量（对数尺度）。红色虚线突出显示实验中如上表的80×80柱配置。

如图显示StopNet的可扩展性：对于以智体为中心的模型，延迟随智体数量而线性增长。

如图是StopNet的占用率预测和轨迹预测示例：左四列是真值和预测占用率网格可视化为彩色编码的等高线（从红色表示近期到紫色表示远期），其中每个等高线包含概率>0.5的值。右列：对于轨迹，不同颜色映射到不同智体。虚线表示道路点，黑框表示t=0时智体的当前位置。

如图比较占用率预测模型MO与车辆占用率预测中轨迹模型MT的两个版本，即采用有高斯和无高斯的不确定性训练。虽然MO直接预测占有率，但MT模型的前六条轨迹输出已转换（渲染）为占有率网格表示。结果表明，丰富的非参数表征更适合于占有率预测。

关于汽车领域的相关的专业知识就为大家介绍到这里了，更多相关的行业知识可以关注我们。百检网是一个大型的综合性知识分享型平台，持续为您分享各类行业知识。做检测上百检！百检网只做真实检测。