掌握离散世界模型的Atari——深度强化学习代理（像素梦想家Dreamer）

深度强化学习（RL）使人工代理可以随着时间的推移改进其决策。传统的无模型方法通过大量的尝试和错误与环境进行交互，从而了解哪些操作在不同情况下是成功的。相反，深度RL的最新进展使基于模型的方法能够从图像输入中学习准确的世界模型并将其用于计划。世界模型可以从更少的交互中学习，从离线数据中进行概括，实现前瞻性探索，并允许在多个任务之间重用知识。

尽管具有有趣的优势，但是现有的世界模型（例如SimPLe）仍不够准确，无法与最具竞争力的强化学习基准测试中的顶级无模型方法进行竞争-迄今为止，完善的Atari基准测试需要无模型算法，例如DQN，IQN和Rainbow，以达到人类水平的性能。结果，许多研究人员转而专注于开发特定于任务的计划方法，例如VPN和MuZero，通过预测预期任务奖励的总和来学习。但是，这些方法特定于单个任务，尚不清楚它们将多大程度地推广到新任务或从无监督的数据集中学习。最近在计算机视觉无监督表示学习的突破类似于1，2 ]，世界模型的目的是学习环境是比任何特定的任务，后来更有效地解决任务更普遍的模式。

今天，google与DeepMind 和多伦多大学合作，推出了DreamerV2，这是第一个基于世界模型的RL代理，可以在Atari基准上实现人类水平的性能。它构成了Dreamer代理的第二代，该代理仅在从像素训练的世界模型的潜在空间内学习行为。DreamerV2仅依赖于图像中的常规信息，即使在其表示不受这些奖励影响的情况下，也可以准确地预测将来的任务奖励。使用单个GPU，DreamerV2在相同的计算和样本预算下性能优于顶级的无模型算法。

玩家经过2亿步后，将55个Atari游戏中的平均得分标准化。DreamerV2大大优于以前的世界模型。而且，在相同的计算和样本预算内，它超过了顶级的无模型代理。

DreamerV2在55个Atari游戏中学习到的行为。这些视频显示了来自环境的图像。视频预测显示在下面的博客文章中。

世界的抽象模型

就像其前身一样，DreamerV2学习世界模型，并仅通过预测的轨迹将其用于训练演员批评行为。世界模型自动学习计算其图像的紧凑表示形式，以发现有用的概念（例如对象位置），并学习这些概念如何响应不同的动作而变化。这使代理能够生成忽略无关细节的图像抽象，并在单个GPU上实现大规模并行预测。在2亿个环境步骤中，DreamerV2预测有4680亿个紧凑状态用于学习其行为。

DreamerV2建立在我们推出了针对复发状态空间模型（RSSM）配合也用于DreamerV1。在训练过程中，编码器将每个图像转换成随机表示，并将其合并到世界模型的循环状态中。由于表示形式是随机的，因此它们无法访问有关图像的完美信息，而只能提取进行预测所需的内容，从而使代理对看不见的图像具有鲁棒性。解码器从每个状态重构相应的图像，以学习一般的表示。此外，训练了一个小的奖励网络，可以在计划过程中对结果进行排名。为了在不生成图像的情况下进行规划，需要使用预测变量学会随机表示，而无需访问计算它们的图像。

DreamerV2使用的世界模型的学习过程。世界模型保持复发状态（H 1 -h 3），该接收操作（一个1 -a 2），并纳入关于图像的（X信息1 -x 3经由随机表示（Z）1 -z 3）。预测器猜测表示为（Z 1 -Z 3）无法获得从其中产生它们的图像。

重要的是，DreamerV2向RSSM引入了两项新技术，这些新技术导致了用于学习成功策略的准确得多的世界模型。第一种技术是表示与多个的各图像分类变量在文献[而不是由行星，DreamerV1使用高斯变量，并且有更多的世界模型1，2，3，4，5 ]。这使世界模型可以根据离散概念对世界进行推理，并可以更准确地预测未来的表示形式。

编码器将每个图像转换成32种分布的32种分布，随着世界模型的学习，其含义会自动确定。从这些分布采样的单热向量被连接到一个稀疏表示，该稀疏表示将传递到循环状态。为了向后传播样本，我们使用直通渐变使用自动差异化很容易实现用分类变量表示图像可以使预测器准确地了解可能的下一幅图像的一热向量上的分布。相反，较早地使用高斯预测变量的世界模型无法为可能的下一幅图像准确匹配多个高斯表示形式上的分布。

代表可能的下一幅图像的多个类别可以由类别预测器准确预测，而高斯预测器的灵活性不足以准确预测多个可能的高斯表示。

DreamerV2的第二项新技术是KL平衡。以前的许多世界模型都使用ELBO物镜鼓励精确的重建，同时使随机表示（后验）接近其预测（先验），以规范化从每张图像中提取的信息量并促进泛化。由于目标是端到端优化的，因此可以通过将两者中的任意一个推向另一个来使随机表示及其预测更加相似。然而，当预测器还不准确时，将表示带入其预测中可能会出现问题。KL平衡使预测朝着表示的方向移动得更快，反之亦然。这将导致更准确的预测，这是成功进行计划的关键。

保持模型的世界模型的长期视频预测。每个模型接收5帧作为输入（未显示），然后仅给出动作即可预测向前45步。视频预测仅用于了解世界模型的质量。在计划期间，仅预测紧凑表示，而不预测图像。

测量Atari的性能

DreamerV2是第一个世界模型，它可以在成熟且具有竞争力的Atari基准上以人为水平的性能来学习成功的行为。我们选择了许多先前研究共有的55种游戏，并推荐这套游戏用于以后的工作。遵循标准评估协议，使用4的重复动作和粘滞动作（25％的机会忽略一个动作并重复执行先前的动作），允许代理进行200M环境交互。我们将比较顶级的无模型代理IQN和Rainbow，以及在多巴胺框架中实现的著名C51和DQN代理。

存在用于汇总55场比赛得分的不同标准。理想情况下，新算法将在所有条件下均具有更好的性能。对于所有四种聚合方法，DreamerV2在使用相同的计算预算的情况下，确实优于所有经过比较的无模型算法。

根据55种Atari游戏中得分的四种计算方法，DreamerV2的表现优于顶级的无模型代理。我们引入并推荐使用“ 截短记录均值” （最右边的图）作为内容丰富且性能强大的性能指标。

前三种聚集方法是先前在文献中提出的。我们在每种情况下都找出了重要的缺点，并建议一种新的汇总方法，即通过删减记录的方式来克服它们的缺点。

玩家中位数。最常见的是，每个游戏的得分都通过对DQN论文进行评估的人类游戏者的表现进行归一化，并报告所有游戏的归一化得分的中位数。不幸的是，中位数忽略了许多更简单和更难的游戏的得分。

玩家均值。平均值考虑了所有游戏的得分，但主要受少数游戏表现不佳的游戏的影响。这使得算法很容易在某些游戏（例如James Bond，Video Pinball）上获得较大的归一化分数，然后再以均值为主。

记录均值。先前的工作建议改为根据人类世界记录进行归一化，但是这种度量标准仍然受到少数游戏的过度影响，在这些游戏中，人工代理人很容易超过人类记录。

截短记录均值。我们引入了一种新的指标，该指标可以根据世界纪录对分数进行归一化，并将其剪裁为不超过世界纪录。这样就产生了一个信息量大且稳健的指标，该指标将所有游戏的性能都考虑到大致相等的水平。

尽管许多当前算法超出了人类游戏玩家的基准，但仍远远落后于人类世界纪录。如上方最右边的图所示，DreamerV2在所有游戏中平均达到了人类记录的25％，处于领先地位。在记录线上削减分数可以使我们集中精力开发在所有游戏上都接近人类世界记录的方法，而不是仅在少数游戏上就超越人类世界记录。

为了深入了解DreamerV2的重要组件，Google进行了广泛的消融研究。重要的是，我们发现分类表示法比高斯表示法具有明显的优势，尽管事实是在先前的著作中高斯方法已被广泛使用。与大多数生成模型使用的KL调节器相比，KL平衡提供了更大的优势。

通过防止图像重建或奖励预测梯度影响模型状态，我们研究了它们对于学习成功表示的重要性。我们发现DreamerV2完全依赖于来自高维输入图像的通用信息，即使没有使用有关奖励的信息对它们进行训练，其表示也可以实现准确的奖励预测。这反映了计算机视觉社区中无监督表示学习的成功。

Atari性能，适用于DreamerV2的各种消融（记录均值）。分类表示，KL平衡以及了解图像对于DreamerV2的成功至关重要。使用特定于狭窄任务的奖励信息不会为学习世界模型带来任何其他好处。

查看全文