学会在几分钟内顺利驾驶（在小型赛车上强化学习）（微型RC赛车）

在这篇文章中，我们将看到如何在几分钟内训练自动赛车以及如何平稳控制。该方法基于强化学习（RL）并在仿真（Donkey Car模拟器）中呈现，旨在适用于现实世界。它建立在一家名为Wayve.ai的创业公司的工作基础之上，该公司专注于自动驾驶。

视频

简介：赛车比赛

自从几年前创建DIY Robocars以来，现在存在许多自动赛车比赛（例如Toulouse Robot Race，Iron Car ......）。在那些目标很简单：你有一辆赛车，它必须尽可能快地停留在轨道上，只给出车载摄像头的图像作为输入。

自驾车挑战是进入机器人技术的好方法。为了便于学习，开发了开源自动驾驶平台Donkey Car。在它的生态系统中，现在有一个以小型机器人为特色的统一模拟器。我们将测试这款Donkey Car的方法。

大纲

在简要回顾了小型自动驾驶汽车比赛中使用的不同方法之后，我们将介绍强化学习的内容，然后详细介绍我们的方法。

用于自驾车比赛的方法：线路跟踪和行为克隆

预测轨道中心的位置

作为一种方法，许多竞争者使用监督学习来重现人类驾驶员的行为。为此，人们需要在几圈内手动驾驶汽车，记录摄像机图像和来自操纵杆的相关控制输入。然后，训练模型以再现人类驾驶。然而，这种技术并不是非常强大，需要对每个轨道进行均匀的驱动和再训练，因为它的推广非常糟糕。

什么是强化学习（RL）以及我们为什么要使用它？

鉴于上述问题，强化学习（RL）似乎是一个有趣的选择。

在强化学习设置中，代理（或机器人）作用于其环境并接收奖励作为反馈。它可以是一个积极的奖励（机器人做了一些好事）或负面奖励（机器人应该受到惩罚）。

机器人的目标是最大化累积奖励。为此，它通过与世界的互动来学习所谓的政策（或行为/控制者），将其感官输入映射到行动。

在例子中，输入是摄像机图像，动作是油门和转向角。因此，如果我们以汽车停留在轨道上并最大化其速度的方式对奖励进行建模，那么我们就完成了！

稳定基线：易于使用的强化学习库

这是强化学习的美妙之处，你需要很少的假设（这里只设计奖励功能），它会直接优化你想要的东西（在赛道上快速赢得比赛！）。

注意：这不是第一篇关于小型自动驾驶汽车强化学习的博客文章，但与之前的方法相比，所提出的技术只需几分钟（而非数小时）即可学习良好而顺畅的控制政策（~5到10）平滑控制器的分钟，非常平滑的控制器约20分钟）。

现在我们已经简要介绍了什么是RL，我们将详细介绍，从解剖Wayve.ai方法开始，这是我们方法的基础。

学习驾驶一天 - Wayve.ai方法的关键要素

Wayve.ai描述了一种在简单的道路上训练现实世界中的自动驾驶汽车的方法。该方法由几个关键元素组成。

首先，他们训练特征提取器（这里是变分自动编码器或VAE）将图像压缩到较低维度的空间。该模型经过训练以重建输入图像，但包含一个瓶颈，迫使其压缩信息。

从原始数据中提取相关信息的这一步骤称为状态表示学习（SRL），是我的主要研究课题。这显然可以减少搜索空间，从而加快培训速度。下面的图表显示了SRL和端到端强化学习之间的联系，也就是说，从像素直接学习控制策略。

注意：训练自动编码器不是提取有用功能的唯一解决方案，您也可以训练例如逆动力学模型。

政策学习中的特征提取解耦

第二个关键要素是使用名为Deep Deterministic Policy Gradient（DDPG）的RL算法，该算法使用VAE特征作为输入来学习控制策略。每个剧集后都会更新此政策。该算法的一个重要方面是，它有一个记忆，被称为重播缓冲区，在那里它与它的环境之间的相互作用被记录下来，可以“回放”之后。因此，即使汽车不与世界互动，它也可以从这个缓冲区中获取经验来更新其政策。

对汽车进行培训，以便在人为干预之前最大化行驶的米数。这是最后的关键因素：一旦汽车开始离开，人类操作员就会结束这一事件。这种提前终止非常重要（如Deep Mimic所示）并且可以防止汽车探索无法解决任务的区域。

学会在几分钟内开车 - 更新的方法

尽管Wayve.ai技术原则上可以起作用，但是它有一些问题需要解决，以便将其应用于自动驾驶的RC车。

首先，因为在每集之后训练特征提取器（VAE），所以特征的分布不是静止的。也就是说，这些特征随着时间的推移而发生变化，并可能导致政策培训的不稳定性。此外，在笔记本电脑上（没有GPU）训练VAE的速度非常慢，因此我们希望避免在每集后重新训练VAE。

为了解决这两个问题，我决定事先训练VAE并使用Google Colab笔记本来保存我的电脑。这样，策略就会使用固定的特征提取器进行训练。

在下图中，我们将探讨VAE学到了什么。我们在其潜在空间中导航（使用滑块）并观察重建的图像。