复杂驾驶人机交互!LMDrive:第一个基于LLM的闭环端到端自动驾驶

复杂驾驶人机交互!LMDrive:第一个基于LLM的闭环端到端自动驾驶

首页模拟经营学校驾驶3D更新时间:2024-05-07

来源:计算机视觉工坊

在公众号「计算机视觉工坊」后台,回复「原论文」可获取论文pdf、代码、数据集、主页链接

v:dddvisiona,备注:自动驾驶,拉你入群。文末附行业细分群

1. 写在前面

今天笔者为大家分享一篇最新的自动驾驶的开源工作LMDrive,是一种端到端的、闭环的、基于LLM的自动驾驶框架,通过多模态多视角传感器数据和自然语言指令与动态环境进行交互。

下面一起来阅读一下这项工作~

2. 摘要

尽管最近在自动驾驶领域取得了重大进展,但当遇到长尾不可预见事件和具有挑战性的城市场景时,现代方法仍然难以奏效,并可能导致严重事故。一方面,大型语言模型( Large Language Models,LLM )已经显示出接近"人工智能"的令人印象深刻的推理能力。另一方面,以往的自动驾驶方法往往依赖于有限格式的输入(例如传感器数据和导航航路点),限制了车辆对语言信息的理解能力和与人类的交互能力。为此,本文引入了LMDrive,一种新颖的语言引导、端到端、闭环的自动驾驶框架。LMDrive将多模态传感器数据与自然语言指令进行了独特的处理和集成,实现了在现实教学环境中与人类和导航软件的交互。为了促进基于语言的闭环自动驾驶的进一步研究,我们还公开发布了相应的数据集,其中包括大约64K的指令跟随数据片段,以及测试系统处理复杂指令和具有挑战性的驾驶场景能力的LangAuto基准测试集。为了验证LMDrive的有效性,进行了大量的闭环实验。据我们所知,我们是第一个利用LLMs实现闭环端到端自动驾驶的工作。

3. 效果展示

LMDrive以语言指令和多模态多视角传感器数据为输入,实时输出控制信号,实现复杂场景下的驱动。

官网上也开放了交互式Demo,感兴趣的读者可以看一下效果。

4. 具体原理是什么?

LMDrive模型的结构包括两个主要部分:1 )处理多视图多模态传感器数据(相机和LiDAR)的视觉编码器,用于场景理解和生成视觉Token;2 )一个大的语言模型及其相关组件(词法分析、Q - Former和适配器),它处理所有的历史视觉Token和语言指令(导航指令和可选通知指令),以预测控制信号和给定指令是否完成。

视觉编码器的详细结构,将多视角多模态传感器数据作为输入。在预训练阶段,视觉编码器附加预测头,执行预训练任务(目标检测、交通灯状态分类和未来路点预测)。

5. 数据集介绍

这篇文章开源了一个约64K个序列的数据集,其中每个序列包括一个导航指令,多个通知指令,多模态多视角传感器数据序列和控制信号。序列的持续时间从2秒到20秒不等。

采集的数据有相应标注的导航指令和可选的通知指令2个示例。

6. 和其他SOTA方法的对比

6个LLM骨干网在LangAuto基准上的性能比较。

7. 总结

这篇文章提出了LMDrive,一种语言引导的、端到端的、闭环的自动驾驶框架。LMDrive融合了自然语言指令和多模态传感器数据,能够在复杂的驾驶场景中实现类人的交互和导航。还提出了语言引导的驾驶数据集,包括大约64K的多模态数据序列和相应的导航指令。建立了用于评估考虑自然语言指令的自动驾驶系统的LangAuto基准。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

下载

在公众号「计算机视觉工坊」后台,回复「3dcv」,即可获取工业3D视觉、SLAM、自动驾驶、三维重建、事件相机、无人机等近千余篇最新顶会论文;巴塞罗那自治大学和慕尼黑工业大学3D视觉和视觉导航精品课件;相机标定、结构光、三维重建、SLAM,深度估计、模型部署、3D目标检测等学习资料。

3D视觉方向交流群成立啦

目前工坊已经建立了3D视觉方向多个社群,包括SLAM、工业3D视觉、自动驾驶、三维重建、无人机方向,细分群包括:

[工业3D视觉]相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

[SLAM]视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

[自动驾驶]深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

[三维重建]NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

[无人机]四旋翼建模、等

除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

大家可以添加小助理v: dddvisiona,备注:加群 方向 学校|公司, 小助理会拉你入群。

查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved