端到端自动驾驶新范式!GenAD:运动预测和规划新SOTA!

端到端自动驾驶新范式!GenAD:运动预测和规划新SOTA!

首页模拟经营学校驾驶3D更新时间:2024-05-09

来源:计算机视觉工坊

添加小助理:dddvision,备注:自动驾驶,拉你入群。文末附行业细分群

0. 这篇文章干了啥?

一句话总结:GenAD将自动驾驶视为一个生成建模问题。

大多数现有的端到端自动驾驶模型由多个模块组成,并遵循感知、运动预测和规划的流水线。比如UniAD逐步执行地图感知、检测、跟踪、运动预测、占用预测和规划模块,以提高系统的鲁棒性。但是现有管道的预测和规划的串行设计忽略了自车与其他交通参与者之间可能的未来互动。例如自车的车道变换会影响后方车辆的动作,进而影响自车的规划。这种高阶交互不能通过当前设计的规划前的运动预测有效建模。此外,未来的轨迹高度结构化并共享共同先验(例如,大多数轨迹是连续的直线)。然而,大多数现有方法未考虑到这种结构先验,导致预测和规划不准确。

因此,这篇文章提出了一个生成式端到端自动驾驶(GenAD)框架,可以同时使用统一的未来轨迹生成模型执行运动预测和规划。基于生成建模,GenAD实现了具有高效性的基于视觉的规划性能的最新水平。

下面一起来阅读一下这项工作~

1. 论文信息

标题:GenAD: Generative End-to-End Autonomous Driving

作者:Wenzhao Zheng, Ruiqi Song, Xianda Guo, Long Chen

机构:加州大学伯克利分校、Waytous、中国科学院自动化研究所

原文链接:https://arxiv.org/abs/2402.11502

代码链接:https://github.com/wzzheng/GenAD

2. 摘要

直接从原始传感器生成规划结果一直以来都是自动驾驶的一个长期期望解决方案,并且近期引起了越来越多的关注。大多数现有的端到端自动驾驶方法将这个问题分解为感知、运动预测和规划。然而,我们认为传统的渐进式流水线仍然不能全面地对整个交通演变过程建模,例如,未来自车与其他交通参与者之间的互动以及结构轨迹先验。在本文中,我们探索了一种新的端到端自动驾驶范式,关键在于预测自车和周围环境在给定过去场景的情况下如何演变。我们提出了GenAD,一个将自动驾驶转化为生成建模问题的生成框架。我们提出了一个以实例为中心的场景标记器,首先将周围场景转换为地图感知的实例标记。然后,我们采用变分自动编码器来学习结构潜空间中的未来轨迹分布,以进行轨迹先验建模。我们进一步采用了一个时间模型来捕捉潜空间中的代理和自车移动,以生成更有效的未来轨迹。最后,GenAD通过在学习的结构潜空间中对实例标记进行条件采样,并利用学习的时间模型生成未来同时执行运动预测和规划。在广泛使用的nuScenes基准测试中进行的大量实验证明,所提出的GenAD在具有高效率的视觉中心端到端自动驾驶中实现了最先进的性能。

3. 效果展示

GenAD结果的可视化及与VAD的比较。GenAD利用周围的相机输入提供感知、运动预测和规划结果。

4. 主要贡献

(1)提出了一个生成式端到端自动驾驶(GenAD)框架,将自动驾驶建模为轨迹生成问题,以释放端到端方法的全部潜力。

(2)GenAD提出了一个场景分词器来获取以实例为中心的场景表示,这些表示侧重于实例但也整合了地图信息。为了实现这一目标,GenAD使用主干网络来提取每个周围摄像头的图像特征,然后将它们转换成三维鸟瞰(BEV)空间。

(3)进一步使用交叉注意力来细化来自BEV特征的高级地图和代理令牌。然后,添加一个自车令牌,并使用自车-代理自注意力来捕捉它们的高阶交互。进一步使用交叉注意力注入地图信息,以获取具有地图意识的实例令牌。

(4)为了建模未来轨迹的结构先验,学习一个变分自动编码器将地面真实轨迹映射到考虑运动预测和驾驶规划的不确定性的高斯分布。然后,使用一个简单但有效的门控循环单元(GRU)来执行自回归,以在潜在结构空间中模拟实例移动。在推理期间,从学习的分布中采样,条件是以实例为中心的场景表示,因此可以预测不同的可能未来。

5. 具体原理

提出的生成式端到端自动驾驶框架与传统管道的比较。 大多数现有的方法遵循感知、预测和规划的串行设计。他们通常忽略了自我车与其他智能体之间的高层交互以及现实轨迹的结构先验。GenAD将自动驾驶建模为一个未来生成问题,在结构化的潜在轨迹空间中同时进行运动预测和自我规划。

GenAD的生成式端到端自动驾驶框架。 给定周围图像作为输入,使用图像backbone来提取多尺度特征,然后使用BEV编码器来获得BEV令牌。然后,使用交叉注意力和可变形交叉注意力将BEV令牌分别转换为mAP和agent令牌。通过一个额外的自我标记,使用自我注意力来实现自我-智能*互,并使用交叉注意力进一步结合地图信息,以获得以实例为中心的场景表示。将这种表示映射到一个结构化的潜在轨迹空间,该空间是使用地面-真相未来轨迹联合学习的。最后,使用未来轨迹生成器来产生未来轨迹,以同时完成运动预测和规划。

6 结果

在nuScenes val数据集上与最先进的方法在运动规划性能上进行了比较。 ▽表示所有预测帧的平均值。FPS使用单个RTX 3090 GPU在相同环境下测量。

感知和预测性能。 进一步评估了自动驾驶的生成框架的感知和预测性能。TPM和LFTG分别表示轨迹先验建模和潜在未来轨迹生成。GenAD模型与VADtiny进行了比较,二者具有相似的模型大小。使用平均精度(mAP)来衡量3D目标检测性能,并使用mAP@0.5、mAP@1.0和mAP@1.5来评估预测地图的质量。对于运动预测,报告了汽车和行人的端到端预测准确度(EPA),这是一种更公平的端到端方法度量,以避免受到错误检测代理的影响。对于运动规划,报告了1秒、2秒和3秒的平均L2误差和碰撞率(CR)。观察到,GenAD在所有任务中的性能都优于VAD,而推断速度相似。具体来说,通过考虑自车对其他代理的影响,GenAD实现了更好的运动预测性能。GenAD还在3D检测和地图分割方面表现出优越性能,显示出感知、预测和规划之间更好的一致性。

实例中心场景表示的影响。 进行了消融研究,分析了实例中心场景表示的有效性。首先将提出的方法添加到VAD-tiny中,观察到L2误差和碰撞率都有大幅提高。还通过掩盖自注意力矩阵来移除GenAD模型中的自车与代理的互动,以解剖其效果。发现碰撞率性能大幅下降。作者认为这是因为没有考虑自车与其他代理之间的高阶互动,很难学习到真实的轨迹潜在分布。

自动驾驶生成框架的影响。 作者还分析了提出的未来轨迹生成模型的设计,该模型由两个模块组成:轨迹先验建模(TPM)和潜在未来轨迹生成(LFTG)。当仅使用TPM时,直接从潜在空间解码整个轨迹。仅使用LFTG模块时,使用门控循环单元逐渐生成给定实例中心场景表示的路标点。两个模块都是有效的,并且提高了规划性能。将这两个模块结合起来进一步提高了性能,释放了潜在轨迹先验建模的全部潜力。

7. 总结 & 未来工作

这篇文章提出了一个生成式端到端自动驾驶(GenAD)框架,用于更好地从视觉输入进行规划。作者调查了自动驾驶的传统串行设计------感知、预测和规划,并提出了一个生成式框架,以实现高阶自我代理交互,并利用学习到的结构先验生成更准确的未来轨迹。在广泛采用的nuScenes数据集上进行了大量实验,并展示了所提出的GenAD的最新规划性能。未来,探索其他生成建模方法,如生成对抗网络或扩散模型,用于端到端自动驾驶将是有趣的。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

下载

在公众号「计算机视觉工坊」后台,回复「3dcv」,即可获取工业3D视觉、SLAM、自动驾驶、三维重建、事件相机、无人机等近千余篇最新顶会论文;巴塞罗那自治大学和慕尼黑工业大学3D视觉和视觉导航精品课件;相机标定、结构光、三维重建、SLAM,深度估计、模型部署、3D目标检测等学习资料。

3D视觉方向交流群成立啦

目前工坊已经建立了3D视觉方向多个社群,包括SLAM、工业3D视觉、自动驾驶、三维重建、无人机方向,细分群包括:

[工业3D视觉]相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

[SLAM]视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

[自动驾驶]深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

[三维重建]NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

[无人机]四旋翼建模、无人机飞控等

除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

大家可以添加小助理: dddvisiona,备注:加群 方向 学校|公司, 小助理会拉你入群。

查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved