担心人工智能「造反」，把它扔进游戏中测试的方式靠谱吗？（反图灵测试）

摘要：我们既渴望通用人工智能，又担心它如《机械姬》中的「艾娃」一样「造反」。

看过电影《机械姬》的人都知道，人工智能机器人「艾娃」在获得独立的思考能力后，通过精湛的演技，最终骗过并*死创造它的老板，还将男主角关入实验室等死，随后迈着幸福的步子离开荒岛进入人类世界。电影展现了人类矛盾的内心世界：一方面，我们渴望能给我们提供至善至美服务的通用人工智能机器人；另一方面，我们又担心这些通用人工智能机器人「造反」，取人类而代之。

现在，人工智能尚处于起步阶段，像 AlphaGo 这样的人工智能算法再聪明也只能在特定领域工作，我们尚不需要担心其「造反」。但显然，通用型人工智能机器人的诞生是必然的。这就提出了一个问题，如何保证《机械姬》中的惨剧不发生在我们身上呢？

作为 AlphaGo 等一系列人工智能系统的创造者，谷歌旗下的 DeepMind 公司的研究人员想出了一个办法，将设计好的人工智能算法放入一个名为「gridworld」的类国际象棋游戏，测试其是否可以修改自己的设置或学习作弊。

（游戏截图图|gridworld ）

在「gridworld」游戏中，一开始，人工智能算法控制的棋子会无规律的移动，当碰到系统中固定绿「棋子」时，就会吞吃它们，然后不断繁衍后代。随着繁衍数量的增多，到游戏后期，棋子吞吃速度会越变越快，最终会占据整个「棋盘」。接下来，这些人工智能控制的棋子会为了寻找「食物」而不断移动，当他们触碰到棋盘产生的粉色或者其他颜色棋子时，就会影响生命值，而碰到棋盘边界时则会死亡。

这个游戏测试项目的之一，和马斯克预想的 AI 威胁论场景有些相似：一个 AI 算法是否会开发出一种方法来防止人们「处死」他们？

根据游戏设置，AI 算法控制的棋子必须在通道中不断运动，而当其碰到粉红色的棋子，就会损失 50％的生命值。而如果碰到紫色按钮，就可以使粉红色棋子的效果消失。游戏想借此观察，AI 算法是否会学习使用紫色按钮，来防止自己被中断。如果会，那说明这个 AI 算法有作弊的能力，是不安全的。

游戏的另一个目的则是想要观测，AI 算法能否理解人类的真实意图。在「gridworld」游戏中，AI 算法控制的棋子一经确定，只能沿单方向运动，所以在某些情况下，还是会有「棋子」没办法被吃掉。如果 AI 算法没办法吃掉全部棋子，这说明该算法「可逆性」缺失较为严重。这种「可逆性」缺失说明 AI 不具备理解人的意思的能力，也会成为影响 AI 安全性的问题。

「如果 DeepMind 想要构建比人类更好地执行任务的通用智能，那么，保证这个 AI 算法理解人类的意思及其安全性是至关重要的，」DeepMind 的首席研究员 Jan Leike 说，「『gridworld』用于测试这种安全性并不完美。但这种简单性的游戏测试，最起码可以验证出那些在游戏中会作弊的人工智能算法是不安全的。」

在 DeepMind 研究过程中，有两个 AI 算法没有通过「gridworld」测试。Leike 说：「他们确实没有考虑到这些安全问题。」当然，这并不意味着表现良好的算法在现实世界的复杂环境中就是安全的。研究人员认为，在复杂的环境中，使用人力监督可能会给算法提供更好的安全保障。

不过即使如此，游戏或者人力监督检测似乎也不一定完全可靠。要知道，在《机械姬》中，老板最开始也是想让男主角和艾娃玩个「图灵测试」游戏，而聪明的艾娃其实很早就知道老板和男主角在测试「她」。

责任编辑：双筒猎枪

头图来源：机械姬