训练人工智能“躲猫猫”5亿局后，AI可以团队协作并使用工具（人工智能阿尔法猫）

人工智能发展到今天这个地步，再往下研究到底好还是不好，这是个问题！

如果我们重新梳理来自两派科学家、企业家以及吃瓜群众的争论，可以得出这样的结论，双方的焦点在于：人工智能到底会不会产生意识，如果人工智能永远不可能产生意识，那么它越发达对于人类社会就越好，因为自始至终它不过是个高超的工具；如果相反，那么人工智能越发达，产生意识后的人工智能越恐怖。越有能力的叛徒破坏力当然越大!

但是大部分人工智能学者对此掩耳盗铃的自我宽慰就是，连我们人类自己都没能搞清楚自己“意识”和“思索”的原理是什么，人工智能又怎么可能产生意识？

这不过是唯心主义的自欺欺人罢了，恰恰是我们不知道意识从何而来，才应该更加对此保持敬畏之心，有科学家已经指出，无论碳基生命的“意识”有多么神奇，不过是86亿个神经元互联互通的放电机制而已，不可能超脱基本的物理规律，也明显要比人工智能的传输模式要落后，这从阿尔法狗与人类顶尖棋手的对弈中可以明显看出来，这意味着，对于人工智能过于复杂的训练（非定向）很有可能是人类触发人工智能意识，自掘坟墓的表现。

但是，并不是所有研究者会这么想……

AI躲藏者与追赶者之间的“战斗”

近期，总部位于旧金山的OpenAI公司训练人工智能“躲猫猫”，就充满了作死的味道。

这家由诸多硅谷大亨联合建立的人工智能非营利组织正在验证一个假设：如果能在虚拟环境中模拟这种竞争，它是否也会像人一样产生更复杂的人工智能？他们在近日发表的一篇新论文提出，他们讲人工智能置于类似于儿童的“躲猫猫”游戏中训练模型，并在数以千万计的竞赛中使它们相互对抗，可导致模型自动发展出类似人类的行为，从而提高智力并改善后续行动的性能。

之所以选择“躲猫猫”这种游戏模式，主要是因为其规则很简单。所有游戏中的代理（Agent，也称智能体，指能自主活动的软件或硬件实体）都被模拟为球形对象，本身由强化学习算法控制，可执行3种类型的操作：导航、抓住并移动物体、锁定对象，且只能由该代理的队友解锁。研究人员在模拟的、物理接地的环境中放置了1—3个“躲藏者”和1—3个“寻找者”，房间的边界是静态墙。环境中还包括不同尺寸的可移动箱子和可移动坡道。研究人员使用强化学习来训练游戏代理，并遵循简单的躲猫猫规则：隐藏者成功躲过寻找者的追逐，或是寻找者成功找到躲藏者。

和人类的捉迷藏游戏一样，隐藏者有几秒钟的时间藏起来。除此以外，研究人员没有给这些智能体任何其他指示。

AI对抗仿佛产生了某种灵性

看整个的训练过程，哪怕只是文字，都会让人遍体生寒，犹如看到一开始只会机械运动的木偶慢慢学会了思考般的恐怖。

刚开始，隐藏者和搜寻者在初始算法的驱动下通过在空间中移动但不操纵任何物体，发展出非常简单的躲避和追逐策略。

但是在 2500 万场比赛之后，开始变得不一样了。躲藏者学会了移动和固定箱子以及环境中的障碍物，在自己周围建造堡垒，这样搜寻者就不会看到它们。不仅如此，它们还制定了协调策略，如互相传递物体，以加快堡垒的建设过程。

然而，在 7500 万场比赛之后，搜寻者发现了一个破解策略将搜索过程推进到第三阶段。它们学会了移动堡垒旁边的斜坡，并用它爬过墙。又过了 1000 万回合之后进入到第四阶段，隐藏者们已经学会了在建造堡垒之前把坡道固定好。

起初，OpenAI 的研究人员认为这时候应该要进入游戏的最后阶段了，但在 3.8 亿场游戏之后，又出现了两种策略。搜寻者们通过使用一个已经被固定的斜坡爬上被固定的盒子，然后“冲浪”到盒子顶部的堡垒上，从而进入隐藏者的堡垒。

在最后5亿局左右的阶段，躲藏者学会在建造堡垒之前锁定所有箱子，以防止“箱子冲浪”，注意这个细节，虽然写的很简单，但是意味着躲藏者同时做了三个动作：细致观察、团队协作、使用工具。

这不由的让想起了电影《人猿星球》人类训练大猩猩“凯撒”的桥段。

研究人员将这些不同策略的演变称为“来自多智能体自动课程的紧急技能进展”。“自动课程”这一术语是今年由DeepMind创造的，适用于多个代理逐渐创造新任务以在特定环境中相互挑战。OpenAI的研究人员认为，这个过程在自然选择方面具有相似之处。

实验者的美好初衷以及反对者的担心

测试结果表明，两支团队通过竞争模式进行自我改进的速度，远远超过任何单一智能体的进化速度。事实上，研究人员并没有提示隐藏者或搜寻者要跑到盒子附近或利用盒子当做工具，但通过竞争模式，它们为彼此创造了新的任务，使得另一个团队不得不适应。

这也就意味着，通过几亿次简单的躲猫猫游戏，两支相互对立的 AI 智能体（agent）团队找到了复杂的游戏策略，其中甚至有工具的使用和团队协作。这些初步结果表明，通过简单的游戏规则、多智能体竞争和标准的大规模强化学习算法，可以刺激智能体在没有监督的情况下学习复杂的策略和技能，这是进化为更复杂人工智能的一个很好的方式。

我想，科学家也许真正找到了突破人工智能“意识”并实现其职能“进化”的途径。

没错，那就是“重复”和“对抗”。

有科学家对该实验表示了担心，他们表示，地球生命从最简单的原子到单细胞动物直至复杂如人类，实际上一直是一个重复试错的过程，在几十亿年的历史长河中，自然环境和天敌都充当了漏斗的角色，物竞天择，适者生存，走错了的物种被轻松从历史中的抹去，而对抗则是“进化”的关键推动力，这与战争是科技发展的温床以及人类在血与火中进化至今是一个道理。