复杂驾驶人机交互！LMDrive：第一个基于LLM的闭环端到端自动驾驶（学校驾驶3D）

来源：计算机视觉工坊

在公众号「计算机视觉工坊」后台，回复「原论文」可获取论文pdf、代码、数据集、主页链接

v：dddvisiona，备注：自动驾驶，拉你入群。文末附行业细分群

1. 写在前面

今天笔者为大家分享一篇最新的自动驾驶的开源工作LMDrive，是一种端到端的、闭环的、基于LLM的自动驾驶框架，通过多模态多视角传感器数据和自然语言指令与动态环境进行交互。

下面一起来阅读一下这项工作~

2. 摘要

尽管最近在自动驾驶领域取得了重大进展，但当遇到长尾不可预见事件和具有挑战性的城市场景时，现代方法仍然难以奏效，并可能导致严重事故。一方面，大型语言模型( Large Language Models，LLM )已经显示出接近"人工智能"的令人印象深刻的推理能力。另一方面，以往的自动驾驶方法往往依赖于有限格式的输入(例如传感器数据和导航航路点)，限制了车辆对语言信息的理解能力和与人类的交互能力。为此，本文引入了LMDrive，一种新颖的语言引导、端到端、闭环的自动驾驶框架。LMDrive将多模态传感器数据与自然语言指令进行了独特的处理和集成，实现了在现实教学环境中与人类和导航软件的交互。为了促进基于语言的闭环自动驾驶的进一步研究，我们还公开发布了相应的数据集，其中包括大约64K的指令跟随数据片段，以及测试系统处理复杂指令和具有挑战性的驾驶场景能力的LangAuto基准测试集。为了验证LMDrive的有效性，进行了大量的闭环实验。据我们所知，我们是第一个利用LLMs实现闭环端到端自动驾驶的工作。

3. 效果展示

LMDrive以语言指令和多模态多视角传感器数据为输入，实时输出控制信号，实现复杂场景下的驱动。

官网上也开放了交互式Demo，感兴趣的读者可以看一下效果。

4. 具体原理是什么？

LMDrive模型的结构包括两个主要部分：1 )处理多视图多模态传感器数据(相机和LiDAR)的视觉编码器，用于场景理解和生成视觉Token；2 )一个大的语言模型及其相关组件(词法分析、Q - Former和适配器)，它处理所有的历史视觉Token和语言指令(导航指令和可选通知指令)，以预测控制信号和给定指令是否完成。

视觉编码器的详细结构，将多视角多模态传感器数据作为输入。在预训练阶段，视觉编码器附加预测头，执行预训练任务(目标检测、交通灯状态分类和未来路点预测)。

5. 数据集介绍

这篇文章开源了一个约64K个序列的数据集，其中每个序列包括一个导航指令，多个通知指令，多模态多视角传感器数据序列和控制信号。序列的持续时间从2秒到20秒不等。

采集的数据有相应标注的导航指令和可选的通知指令2个示例。

6. 和其他SOTA方法的对比

6个LLM骨干网在LangAuto基准上的性能比较。

7. 总结

这篇文章提出了LMDrive，一种语言引导的、端到端的、闭环的自动驾驶框架。LMDrive融合了自然语言指令和多模态传感器数据，能够在复杂的驾驶场景中实现类人的交互和导航。还提出了语言引导的驾驶数据集，包括大约64K的多模态数据序列和相应的导航指令。建立了用于评估考虑自然语言指令的自动驾驶系统的LangAuto基准。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

下载

在公众号「计算机视觉工坊」后台，回复「3dcv」,即可获取工业3D视觉、SLAM、自动驾驶、三维重建、事件相机、无人机等近千余篇最新顶会论文；巴塞罗那自治大学和慕尼黑工业大学3D视觉和视觉导航精品课件；相机标定、结构光、三维重建、SLAM，深度估计、模型部署、3D目标检测等学习资料。

3D视觉方向交流群成立啦

目前工坊已经建立了3D视觉方向多个社群，包括SLAM、工业3D视觉、自动驾驶、三维重建、无人机方向，细分群包括：

[工业3D视觉]相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

[SLAM]视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

[自动驾驶]深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

[三维重建]NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

[无人机]四旋翼建模、等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群