把一百个AI放到游戏里内斗，活下来的它会梦到黑暗森林吗？（不休战队0.0.59）

短短的几年间，人工智能已经在越来越多的游戏上战胜了大部分人类。

发生在围棋领域的事情不用多说，在更加复杂的电子游戏领域，人工智能的表现也越来越好——最典型的例子就是OpenAI在《Dota2》《星际争霸2》以及平台跳跃等诸多游戏上的尝试，人类在面对AI时已经越来越讨不到好了。

去年8月OpenAI在《Dota2》中击败了五位高分段玩家组成的战队

去年末OpenAI举办的人工智能游戏大赛中学会找游戏Bug的AI

现在，研究人工智能的学者们已经不再满足于让AI击败人类了。

去年9月，OpenAI团队提交了一篇论文的初稿，题为《神经MMO：一个人工智能的大型多人游戏环境》。与之前在竞技类游戏发力的AI模型不同，这次研究者并没有以“击败人类”为目的，而是试图模拟人类乃至生物的行为。

众所周知，生物能够不断进化很大的原因就是不同物种间竞争的存在，科学家们觉得这点非常契合AI 能“不断自我学习并进化”的主基调。

他们借鉴了多款流行的大型多人在线网游，构建出了一个“资源有限，竞争者众多”的游戏环境，来观察其中的几十上百个AI将如何行动——是的，这个游戏的玩家只有AI，没有真人。

前天这个论文才正式发布在OpenAI的博客中

这个游戏被命名为“Neural MMO”（神经MMO）。最多128名AI会作为玩家降生在游戏地图的边缘。世界中有可以通行的草地、森林和无法通过的水域、岩石。AI有饥饿度和口渴度，在森林方块可以获得食物，在水方块可以获得饮水。水是无限的，但森林方块能够提供的食物是有限的，被吃完后必须等很长一段时间才能回复。

当然，AI的目标是生存下去，存活时间越长，得到的分数和评价也就越高。

Neural MMO的游戏截图

单单从“存活下去”这点来看，这个游戏很像是吃鸡游戏——有限的资源，众多的竞争对手，目标是活得最长。事实上科学家们最初也觉得AI最终会开始互相厮*以占有更多资源，他们还专门为AI们设计了三种战斗方式——高伤害的近战AOE、低伤害的远程单体和几乎没有伤害的减速法术。

在最初的狭小地图中，AI们确实不可避免地发生了战斗。这很大程度上不仅是由于资源有限，更多的其实是因为它们没有尝试其他选择的机会——每个AI都被设计有战斗策略，几个AI遇到一起总会有AI判断需要先开火，最后混战在所难免。

读过《三体》的人会发现，这种情况和《三体》中描述的黑暗森林状态有微妙的相似之处，AI们自带的战斗策略，就像书中描写的“智慧生物天生的攻击基因”，最后导致的就是AI版本猜疑链的产生。

下图的小剧场就是一个简单的例子。

原本位于上方的196和右下的146和平相处，都在采集森林资源而不是互相攻击。然而左边的204并没有位于森林附近（虽然它前面一格就是森林），可能正是因此，它判断攻击的优先级要更高，于是突然对196展开了攻击。受到攻击大大增加了196判断中攻击的权重，一场三方混战也就不可避免了。这里196被攻击后没有还击，而是选择去攻击“无辜”的146，是因为AI没有报复心理，所有行动全部出于逻辑判断。

但是在更大、更类似于真实自然环境的游戏世界中，情况几乎是彻底翻转了过来。研究者们发现，环境一旦稍有增大，AI们不再经常三个四个碰到一起，他们的攻击*就飞速地下跌，大部分AI甚至把“避免发生战斗”当做最高级别的行动策略之一。

进阶地图不再那么狭窄，大部分遭遇都是发生在两个AI之间

AI们在这种环境下不约而同地达成了一致的选择——尽可能扩大探索范围。

很难说避免战斗和扩大探索这二者，哪个是因，哪个是果。一方面，可探索的地区增多代表着资源不那么匮乏，战斗的收益也就大大降低；另一方面，战斗的收益降低让AI们更加热衷于扩大自己的行动范围。这两个因素互相作用，最后导致了一个出乎研究者意料，但细想起来却在情理之中的结果。

下图是OpenAI的研究者给出的一张比较典型的大地图下AI行动轨迹。

可以看出，不同颜色的线条重合得不少，代表着AI们时有相遇。但是大多数路线在重合后还是继续延展下去，这说明相遇后大部分AI没有选择你死我活的战个痛快，而是对视一眼后就继续去探索了。

这张图对于人工智能专家和普通人来说都没什么特殊意义，但是生物学家，尤其是研究生物行为的学者会发现，AI们的行为非常接近自然界中不同动物种群的活动。

“在自然界中，动物之间的竞争可以激励它们扩散以避免冲突”，OpenAI研究团队在报告中写道，“我们观察到AI的探索范围随着AI数量的增多而变大了。”据此，他们推测，AI数量越多越能激励它们探索新的地图寻找资源（当然前提是不出现最开始那种狭路相逢的混战）。

1个AI就只会一条路走到黑，而8个AI在一个地图会让它们的探索更广

这其实是一个很好理解的结果。对自然界的动物们和AI们而言，战斗的成本是非常高的。它们可不像坐在电脑前的人类一样，被打击后骂一句倒霉就可以继续下一局游戏了，对它们来说，生命只有一次，死亡是最大的成本（AI可以不断重生，但它们自己不知道这点）。

也正是因此，战斗大部分时候是万不得已的选择，这和很多人视之为普遍真理的黑暗森林法则截然相反——不过，在更大的尺度上事情更加复杂。

美国动物学家统计的“几只狼的活动路线”，可以看出它们尽可能不互相碰面，更别提战斗了

“事情更加复杂”，这正是计算机学者们下面要解决的问题。他们认为在目前的游戏中得出的结果，最多算是有限的推测。Neural MMO的游戏世界虽然已经尽可能模拟了现实环境，但还是简化得太过分了。

OpenAI团队有很多计划。下一步，他们准备引入更多的攻击方式，让AI们的战斗能力大幅增加（就像现实世界的人类一样）；他们还计划调低森林再生食物的速度，让环境更加恶劣；另外一个规划是引入更复杂的合作机制，目前同样颜色的AI被设置为不能互相攻击（模拟生物的种群），还是稍显单调，因为群体和群体之间从来不是并非简单的“非敌即友”关系。

就算学者们尽可能模拟了现实环境，AI能不能代表人类还是很值得怀疑的问题。OpenAI团队发布了关于这个项目的论文初稿后，就有不少学者指出，人类的行为模式和AI的逻辑判断有极大的区别。比如人不是完全趋利避害的生物，人类种群就更不是了；再比如对“什么是利，什么是害”，人类和目前设计的AI模型也有很大区别——AI把生存时间当成“利”，但人类是不是这样想还很难说。很多学者认为现在的这个游戏更像是纯粹的自然界，而AI更像野生动物而不是高度社会化的人类。

然而即使是这些怀疑者，也普遍认为“这个模拟相当有趣”，在AI研究领域意义非凡。不同于之前更多着眼于技术水准的AI游戏对战，这个研究涉及到了AI的长期判断和选择。一个长期、稳定的环境能体现AI长期、稳定的取舍倾向，在人类身上，我们把这个“取舍倾向”叫做“道德”。

AI是否会有道德准则，它们通过利弊抉择得出的判断能不能算我们所说的“道德取向”，这些大哉问一直以来被人们争论不休。现在，在一款MMO生存游戏中，我们很可能会看到回答这些问题的曙光。

查看全文