AI智能体学会动物进化法则：李飞飞等提出深度进化RL（动物进化模拟器）

机器之心报道

编辑：杜伟、魔王、陈萍

智能体是人工智能领域的一大研究课题，并且也有非具身与具身智能之分。当前，AI 领域更多关注非具身认知，而创建具身智能体非常具有挑战性。近日，斯坦福李飞飞等学者提出了一种新的计算框架——深度进化强化学习（DERL）, 基于该框架创建的具身智能体可以在多个复杂环境中执行多项任务。此外，该研究还通过形态学习首次证明了演化生物学中的鲍德温效应。

在过去 6 亿年中，进化带来了不同类型的「无尽之形最美」（endless forms most beautiful），从古老的两侧对称虫到多种多样的动物形态。这些动物还展示出了显著的具身智能（embodied intelligence），利用进化的形态学习复杂任务。具身认知领域认为，智能体可以快速学得这种智能行为，它们的形态也能很好地适应环境。然而，AI 领域更多地关注「非具身认知」，如语言、视觉或游戏等。

当人工具身智能体的形态能够很好地适应环境，则它们可以在多种复杂环境中学习控制任务，然而创建这类智能体很有挑战性，原因如下：

这需要在大量可能形态中进行搜索；

通过终身学习评估智能体适应度需要大量计算时间。

因此，之前的研究要么在极度有限的形态搜索空间中进化智能体，要么在给出的固定人工设计形态下找出最优参数。评估适应度（fitness）的难度使得先前研究避免直接基于原始感官观察学习自适应控制器；使用少量参数 (≤ 100) 学习人工设计控制器；学习预测一种形态的适应度；模仿拉马克进化（Lamarckian）而不是达尔文进化，直接跨代传输学得的信息。此外，之前研究主要局限于平地移动的简单任务，智能体具备的自由度 (DoF) 较少，或者形体构型由立方体组成，将学习控制器这一问题进一步简化。

如何克服这些局限呢？

近日，来自斯坦福大学的研究者 Agrim Gupta、Silvio Savarese、Surya Ganguli 和李飞飞提出了一种新型计算框架——深度进化强化学习 (Deep Evolutionary Reinforcement Learning, DERL)，该框架能够在环境、形态和控制这三种复杂度维度下同时规模化创建具身智能体。

DERL 框架如下图 1 所示

DERL 为在计算机模拟实验执行大规模具身智能体创建活动打开了大门，这有助于获得对学习和进化如何协作构建环境复杂度、形态智能和控制任务易学性之间复杂关系的科学洞见。此外，DERL 还缓解了强化学习的样本低效性，创建具身智能体不仅可以使用较少的数据，还能够泛化解决多种新任务。DERL 通过模仿达尔文进化论中错综复杂的跨代进化过程来搜索形态空间，通过终身神经学习来评估给定形态通过智能控制解决复杂任务的速度和质量。

论文作者之一、斯坦福大学教授李飞飞表示：「该研究不仅提出了新型计算框架深度进化强化学习（DERL），并通过形态学习首次证明了达尔文 - 鲍德温效应。形态学习是自然界动物进化必不可少的技能，现已在我们创建的 AI 智能体中展现。」。

论文地址：https://arxiv.org/pdf/2102.02202.pdf

具身智能体能执行哪些任务？

本研究创建的具身智能体可以在平地 (FT)、多变地形 (VT) 和多变地形中的非抓握操作 (MVT) 三种环境中执行巡视（patrol）、点导航（point navigation）、避障（obstacle）、探索（exploration）、逃脱（escape）、爬坡（incline）、斜坡推箱子（push box incline）和控球（manipulate ball）等任务。

以下三张动图分别为具身智能体的避障（上）、斜坡推箱子（中）和控球（下）行为。

避障。

斜坡推箱子。

控球。

DERL：用于创建具身智能体的计算框架

对于学习，每个智能体通过只接收低层次的自我本体感受和外部感受观察来感知世界，并通过由深度神经网络参数确定的随机策略来选择其动作（上图 1b），深度神经网络的参数通过近端策略优化 (PPO) 学习得到。

总体来说，DERL 允许研究者在 1152 个 CPU 上进行大规模实验，涉及平均 10 代的进化，搜索并训练了 4000 种形态，每种形态有 500 万次智能体 - 环境交互（即学习迭代）。该研究可以在并行异步（parallel asynchronous）比赛中训练 288 个形态，因此在任意给定时刻，整个学习和进化过程可在 16 小时内完成。据了解，这是迄今为止最大规模的形态进化和 RL 同步模拟。

UNIMAL：UNIversal aniMAL 形态设计空间

为了克服以往形态搜索空间表达能力的限制，该研究引入了一个 UNIversal aniMAL（UNIMAL）设计空间（上图 1e）。该研究的基因型（genotype ）是一个运动树，对应于由电机驱动的铰链连接的 3D 刚性部件的层次结构。运动树的节点由两种组件类型构成：表示智能体头部的球体（构成树的根）和表示肢体的圆柱体。

进化通过三类变异算子进行无性繁殖：1）通过长出或删除肢体来收缩或生长运动树（上图 1d）；2）改变现有肢体的物理特性，如长度和密度（上图 1d）;3）修改四肢之间关节的属性，包括自由度、旋转角度限制以及齿轮比。

最重要的是，该研究只允许保持两侧对称的成对变异，这是动物形体构型在进化过程中最古老的特征（起源于 6 亿年前）。一个关键的物理结果是，每个智能体的质心都位于矢状面，从而减少了学习左右平衡所需要的控制程度。尽管有这一限制，但该研究提出的形态设计空间极具表达力，包含大约 1018 种独特的智能体形态，至少有 10 个肢体。

智能体「变形记」：在复杂环境中进化出不同的形态

该研究称，DERL 使智能体首次超出了平地移动任务，在 3 种环境中同时进化多种智能体形态和学习控制器，且 3 种环境的难度是逐步增加的：平地 (FT)、多变地形 (VT) 和多变地形中的非抓握操作 (MVT)。DERL 能够为这 3 种环境找出成功的形态解。

首先智能体在 FT 环境中移动：

其次智能体在地势高低不平的 VT 环境中移动：

最后智能体在 MVT 环境中移动并推动箱子：

研究者分析了不同形态描述子在这 3 种环境中的变化（参见下图 3），发现环境对形态进化有极大影响。

当在所有环境中进化的智能体具备类似的质量和控制复杂度时，VT/MVT 智能体比 FT 智能体在前进方向上移动时间较长，在高度方向上移动时间较短，而 FT 智能体所占的空间小于 VT/MVT。FT 智能体占据空间较少的属性反映了一个常见策略：在身体上间隔较远地安装肢体，使之具备完整的运动范围（参见下图 2i、7a、8a）。FT 智能体展示出向前倒的移动步态和蜥蜴样的移动方式（下图 2i），VT 智能体与 FT 较为相似，但它具备额外的机制，使步态更稳。最后，MVT 智能体发展出类似钳或爪的前伸手臂，从而完成将箱子推到目标位置的任务。

环境复杂度衍生出形态智能

上文关于环境对形态进化的影响的分析主要聚焦于不同形态描述子或形态复杂度，但其关键挑战是设计智能体时要确保它能快速适应任意新任务。因而，研究者转而通过描述一种形态中的具身智能，来了解如何通过组合学习和进化获得这种能力。具体而言，研究者计算形态对学习大量测试任务的促进作用。这一方法类似于，通过计算潜在神经表示经由迁移学习在下游任务上的性能来评估其质量。

研究者一共创建了一组 8 个任务（下图 4a），可分为 3 个领域，分别测试智能体形态的敏捷性（巡视、点导航、避障与探索）、稳定性（逃脱与爬坡）和操纵能力（斜坡推箱子和控球）。每个任务的控制器都是从头学习，从而确保性能差异均来自形态上的不同。

研究者首先测试了这一假设：在更复杂环境中的进化会带来更智能的形态，从而在测试任务中性能更好（参见上图 4b）。结果表明，在 MVT 环境中进化出的智能体性能在 7 项测试任务中优于在 FT 中进化的智能体；在涉及敏捷性和稳定性的 6 个任务中，VT 智能体在 5 项任务里优于 FT 智能体，在操纵任务中性能相似。

为了测试学习速度，研究者以 1/5 学习迭代重复了相同实验（参见上图 4c），发现 MVT/VT 智能体和 FT 智能体在所有任务中的区别更大了。这些结果表明，在更复杂环境中进化出的形态确实更智能，因为它们促进智能体更好、更快地学习多种新任务。

证明了更强形式的形态学鲍德温效应

一个多世纪以前，美国心理学家鲍德温（Baldwin）推测存在一种替代机制，通过这种机制，最初在早代进化中终身学得的行为将逐渐在后代（later generation）中成为本能甚至可能通过基因传播。表面上，这种鲍德温效应看起来像拉马克遗传（Lamarckian inheritance），但严格来说，它源于达尔文主义（Darwinian ）。然而，长期以来，生物学家一直认为鲍德温效应在复杂环境中可能保持在形态进化和感觉运动学习（sensorimotor learning）的层面。所以，尽管这一猜想广为流传，但迄今为止尚无研究证明体内或计算机（vivo or in silico）形态进化中的鲍德温效应。

在模拟中，研究者找到了证明鲍德温效应在形态学中存在的首个证据，这反映在三个环境中达到前 100 个智能体标准适应度水平（level of fitness）所需训练时间的快速减少，如下图 5a 所示。值得注意的是，仅在 10 代之内，平均训练时间就减少为原来的一半。研究者提供了如何加速学习的示例，如下图 5d 所示，他们展示了 FT 中进化的智能体在不同代中的学习曲线：

在学习结束时，第 8 代智能体的表现两倍优于第 1 代智能体，而且可以在后者 1/5 的时间里达到相同的最终适应度。研究者还注意到他们在模拟中对于快速学习没有遇到任何显式的选择压力，这是因为一个形态的适应度仅由学习结束时自身的性能决定。尽管如此，进化依然选择速度更快的学习者，这样做也没有任何选择压力。因此，研究者通过证明技能获取速度的显式选择压力对于鲍德温效应并不是必要的，实际发现了比以往文献中猜想的形式更强的鲍德温效应。

有趣的是，形态学鲍德温效应的存在可以在未来研究中得到进一步探索，以创建更低样本复杂度和更高泛化性的具身智能体。

形态智能以及强大鲍德温效应的机制基础

接下来，该研究将探索进化如何产生形态智能（上图 4b，c）以及如何选择更快的学习者，而无需对学习速度施加任何直接选择压力的潜在机制基础。

该研究假设，按照具身认知（embodied cognition）中的推测，进化发现的形态可以更有效地利用智能体主体与环境之间物理交互的被动动力学（passive dynamics），从而简化学习控制的问题，它既能在新的环境中实现更好的学习（形态智能），又能跨代实现更快的学习（鲍德温效应）。任何这样的智能形态学都可能表现出能量效率和被动稳定性的物理特性，因此该研究对这两种特性进行了研究。

研究者将能源效率定义为每单位质量完成一个目标所消耗的能量（见附录 D）。令人惊讶的是，在没有能源效率直接选择压力的情况下，进化选择了能效形态解决方案（上图 5c）。研究证实，能源效率并不是简单地通过降低肢体密度来实现的（上图 3e）。

相反，在所有三种环境中，总体质量实际上都在增加，这表明能源效率是通过选择更有效地利用身体 - 环境相互作用的被动物理动力学的形态来实现的。此外，在任意固定代，能源效率更高的形态表现得更好（下图 6a），学习速度也更快（下图 6b）。

同样地，在所有的三种环境中，随着时间的推移，进化选择更被动稳定的形态（见附录 D），尽管相对于 FT、VT/MVT 中稳定形态的比例更高，这表明在这些更复杂的环境中稳定性的相对选择压力更高（上图 5b）。

因此，随着进化的推移，能源效率（上图 5c）和稳定性（上图 5b）都以一种与学习速度紧密相关的方式提高（上图 5a）。