AI打游戏体验室：难度变态级，只为证明人类的聪明没那么简单

妖气游戏网

AI打游戏体验室：难度变态级，只为证明人类的聪明没那么简单

首页休闲益智迷你人类梯更新时间：2024-06-29

夏乙岳排槐发自凹非寺
量子位出品 | 公众号 QbitAI

先别说话。

给自己几分钟的时间，玩一下这个游戏，看看是否能顺利通关。几分钟就好，别为难自己。因为普通人通关平均需要20分钟。

游戏地址：https://high-level-4.herokuapp.com/experiment

推荐在PC端打开，手机端玩不了。如果不在电脑前，可以看看我们试玩的动图：

这是什么鬼？简直有点变态级的难度。

从某种程度上说，你在体验AI打游戏的感觉。

最近几年，大家一方面赞叹AI自行学会了玩打砖块等雅达利游戏，而且达到甚至超过了人类玩家的平均水平。

另一方面大家也质疑说，人类看一眼就能上手的游戏，AI却需要学习非常久的时间。为什么机器和人类之间的学习效率差这么多？

加州大学伯克利分校有一组科学家，就正在研究这个问题。

区别可能在于：人类带着一大堆从现实世界中得来的先验知识（prior knowledge）进入游戏，大大提高了决策效率。

什么意思？

还是基于开头让大家试玩的小游戏，让我们跟随伯克利的研究人员们，一起来感受下。

定量分析

来，开始实验。

先看看游戏原始的样子。

即便你不玩游戏，也能看出来，玩家应该躲避粉色的怪物、地刺路障，然后通过跳跃和爬梯子，拿到右上角的钥匙，接着打开左上角的大门。

如果你想试玩，地址在：https://dry-anchorage-61733.herokuapp.com/experiment

实验表明，人类很快就能上手这个游戏。平均完成时间1.8分钟，平均死亡次数3.3，游戏路径探索达3011种。

好，接下来加大难度。

去掉语义

梯子的形状，就是它的语义。人类看到梯子的形状，就能联想到可以攀爬。语义的重要性几何？实验方法很简单，去掉游戏中各种物体的细节，只用统一的色块来表现。

整个游戏就变成下面的样子。

在这种游戏中，人类完成游戏的平均时间增加到4.3分钟，死亡次数增加到11.1次，游戏路径探索达7205种。

试玩地址在此：https://boiling-retreat-38802.herokuapp.com/experiment

你有没有觉得其他玩家弱爆了？其实你忽略了一点。由于文章的表述结构，你先玩了正常版的游戏，但如果你并不知道游戏的原始设定，就能感觉出来遮蔽语义信息的游戏有多难。

因为在原始游戏中，钥匙和大门都可见。人类自然能想到先获取钥匙，再去开门。在遮蔽语义的版本中，玩家无从获知这种信息。

120位参与者中，只有42位在抵达“大门”（蓝色方块）之前，先取得了“钥匙”（橙色方块）。而且与原始游戏相比，玩家获取“钥匙”后抵达“大门”的时间更长。

这个结果表明，在没有语义的情况下，人类无法推断奖励结构，从而显著增加了探索的时间。

为了进一步量化语义的重要性，接下来这个实验不是简单的遮蔽，而是改变了语义。

游戏中粉色的怪物和地刺路障，替换成有正面含义的金币和冰淇淋；而梯子、钥匙和大门，分别被替换成有负面含义的火焰、地刺路障和粉色怪物。

这样一来，参与实验的玩家花了更长时间来过关。平均耗时6.1分钟，死亡次数13.7次，游戏路径探索达9400种。这个结果表明，语义翻转比遮蔽更具迷惑性。

混淆物体

虽然上述遮蔽之后，游戏里的物体都没有传达语义，但它们与背景截然不同。人类很容易推断这些引人注意的物体是子目标，展开比随机搜索更有效的行动。

为了测试这一点，小游戏的迷惑性进一步升级。平台上每个空间位置，都使用了不同的色块填充，然而大多数都是毫无作用的色块。代表实际物体的色块，位置和之前相同。当然，如果你是第一次玩这个游戏，这次绝对要懵逼一下了。

游戏画面如图。

试玩地址：https://high-level-1.herokuapp.com/experiment

实验结果：人类玩家平均通关时间是原来的四倍，达到7.7分钟；死亡次数达到20.2；游戏路径探索达12232种。找到钥匙与打开门之间的耗时进一步增加。

抹平功能可视性

到目前为止的种种“折腾”，已经说明推断出游戏的基本奖励结构，并不是一件易事。不过整个游戏仍然对人类玩家有利。游戏画面中还是能很清楚的看到，各个平台的位置，以及平台之间的相互连接，黑色背景出卖了这一切。

怎么办？

抹平功能可视性的一种方法，就是用随机纹理填充空白的区域。这些纹理与用于渲染梯子和平台的纹理相似。再强调一下，这次实验中各种物体的语义清晰可见。

试玩地址：https://fierce-sierra-47669.herokuapp.com/experiment

实验结果：人类平均通关时间4.7分钟，死亡次数10.7，游戏路径探索达7031种。这个结果与遮蔽语义时相比，差异不大。可以认为，可视性与语义同等重要。

一旦人类玩家意识到，可以站在或者攀爬特定的纹理，就很容易通过相似性识别其他的平台和梯子。看起来相同的事物，人类会认为具有相同的性质。

接下来继续提升难度。

这次每个平台和梯子的纹理全都不同了。人类再也无法用相似性展开推断。

试玩地址：https://high-level-3.herokuapp.com/experiment

这一次，人类平均通关时间7.6分钟，死亡次数14.8，游戏路径探索达11715种。结果表明，视觉相似性是人类在游戏中第二类重要的知识。

改变交互

以上，都是与视觉相关的研究。在这个游戏中，玩家还得知道如何与不同的物*互。例如遇到粉色的怪物可以跳过去，遇到梯子可以按上键⬆️往上爬。但是，深度强化学习控制的智能体Agent并没有这种先验知识，必须一点点摸索如何与物*互。

为了测试这种先验知识的重要性，一个新的游戏版本被创建了。我们先不说到底哪里有了改动，你可以自己试试看。

试玩地址：https://calm-ocean-56541.herokuapp.com/experiment

如上面动图所示，单纯按上键是没办法爬梯子的，在按住上键的同时，还得交替反复按下左键和右键。

与原版游戏相比，这个小改动将平均游戏时间延长到3.6分钟，死亡次数6，游戏路径探索达5942次。

终极挑战

最后，综合上述种种，就产生了开头提到了变态级难度的小游戏。

人类完成这个小游戏的平均时间增加到20分钟，死亡次数达40，各种游戏路径探索的次数提高了9倍。

这个游戏实在是太难了，玩家放弃的比例非常高。

但这还不是最难的，其实伯克利的研究人员还搞出一个更难的版本。在那个版本里，重力方向做了翻转，按键的响应也做了随机的映射。

即便是玩过无数次的研究人员，也很难完成这个版本。

而且，他们也没有放出这个版本的试玩地址。（如果哪位老师自己探索出来了，希望留言给我们）

当然还有一个重力方向旋转90°的版本，可以挑战一下。

地址：https://tranquil-earth-53211.herokuapp.com/experiment

讨论

这篇论文的实验结果显示，强化学习算法再强，如果想像人类一样高效完成奖励稀疏的任务，还要从人类的认知中学习很多东西。关于物体的先验知识，就在打游戏这个奖励稀疏的任务上帮了人类的大忙。

不过，有强大的先验也不一定总是好事，有时候会限制探索范围，以后的研究也应该注意在某些环境中，对探索少加约束。

另外，人类对于游戏的先验知识其实远不止这篇论文所探讨的“物体”，人们在打游戏时还会假设游戏有目标，右键上键通常是往前走等等。这些先验，也都很值得探索。

研究人员最后根据实验，对先验知识的分类和重要性进行了排序。如下图所示：

这项研究的论文Investigating Human Priors for Playing Video Games发表在ICLR 2018 Workshop上。

论文一作Rachit Dubey是伯克利计算认知科学实验室的博士，其他作者也都来自伯克利，包括计算机系的博士生Pulkit Agrawal和Deepak Pathak，以及一作和三作的导师：计算认知科学实验室主任Tom Griffiths和Alexei Efros。

— 完 —

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

,

大家还看了

也许喜欢

更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved