图灵测试已过时，新的AI测验标准严阵以待（反图灵测试官方版）

来源公众号：数据与智能

文章来源：https://www.fastcompany.com/90590042/turing-test-obsolete-ai-benchmark-amazon-alexa

作者：Rohit Prasad（亚马逊Alexa副总裁）

译者：学英语的奇女子

校对：gongyouliu

编辑：gongyouliu

今年是艾伦·图灵发表论文介绍图灵测试70周年，他在论文其中回答的一个问题是：机器能思考吗？该测试的目的是确定一台机器是否能表现出与人类的对话行为的差异，即在一个真人和AI的模仿游戏中，真人和AI藏到幕后，让人们猜是谁在幕后作出反应。图灵预测到2000年，普通人将会有仅仅不到70%的概率能够猜出结果。

那为什么图灵测试提出20年后，我们这个行业都未能实现这个目标？我相信图灵提出的目标对于像我这样的人工智能科学家来说并没有太大作用。图灵测试有很大的局限性，图灵本人在他的开创性论文中对此进行了辩解。随着人工智能在我们的手机、汽车和家庭中的广泛应用，人们越来越关心他们自身与机器的交互的实用性、亲密性和透明程度，纠结机器与人类之间完全相似的概念是不现实的。因此，是时候让这个启发了我们70年的知识退休了，并要提出一个新的挑战，以激励研究者和从业者的兴趣。

1. 图灵测试和大众想象

在图灵测试推出之后的几年里，它成了人工智能学术界的北斗星。20世纪60年代和70年代最早的聊天机器人伊丽莎和帕里，都是以通过该测试为目的进行设计的。就在2014年，人们宣布聊天机器人尤金·古兹曼通过了图灵测试，成功让33%的评委认为它是人类。然而正如其他人所指出，混淆30%评委的试听这一判断标准十分武断且具有任意性。即便如此，对一些人来说，这场胜利还是显得过时了。

不过，图灵测试仍在继续激发大众的想象力。OpenAI的生成性预训练语言模型（GPT-3）已经成为头条新闻，它有可能击败图灵测试。同样地，仍然有记者、商业领袖和其他评论员在一直问我：“亚历克萨（Alexa）什么时候能通过图灵测试？” 诚然，图灵测验是衡量亚历克萨智力的一种方法，但这种测试方法真的能说明问题、真的能测试出智能吗？

为了回答这个问题，让我们回到图灵第一次提出他的论文的时候。1950年，第一台商用计算机尚未售出，光纤电缆的基础工作要过四年才能完成，人工智能领域还没有正式确立（这要等到1956年实现）。我们现在手机的计算能力是阿波罗11号的10万倍，再加上云计算和高带宽连接，人工智能现在可以在几秒钟内利用庞大的数据做出决策。

虽然图灵最初的设想仍然鼓舞着人们，但将图灵测试作为人工智能进步的最终标志代就有时代局限性了。首先，图灵测试几乎没有考虑到人工智能的快速计算和信息查找的特性，这些特性恰恰是现代人工智能最显著的。一味强调混淆人类视听意味着人工智能想要通过图灵测试，就必须回答诸如“你知道34756的立方根是什么吗？”或者“西雅图离波士顿有多远？”之类的问题。事实上，人工智能是瞬间知道这些答案的，停下来让它自己的回答更像人类并不是对其技能的最佳利用。此外，图灵测试并没有考虑到人工智能越来越多地使用传感器来听到、看到和感受外部世界。相反，它仅限于从文本中获得信息。

为了让人工智能在今天更加为人们所用，这些系统需要有效地完成我们的日常任务。如果你让你的人工智能助理关掉车库的灯，那你就不需要通过对话来实现。相反，你会希望让其实现这个任务并以简短的“好的”、“完成”给你回复。即使你与人工智能助理就一个热门话题进行广泛对话，或者让它给孩子读一个故事，你仍然愿意相信它是人工智能，而不是人类。事实上，假扮人类来“愚弄”用户确实存在风险。想象一下反乌托邦的可能性，正如我们已经开始看到了机器人散播错误信息和作为逼真的假冒者的出现。

2. AI的新挑战

我们的目标应该是建立人工智能系统，以公平和包容的方式增强人类的智能，改善我们的日常生活，而不是痴迷于使人工智能与人类更难以区分开来。人工智能的一个基本目标是展示人类的智能属性，包括常识、自我监督和语言能力，并结合机器的效率，如快速搜索、回溯回忆来帮助人们完成任务。人工智能的最终的结果是学习和完成各种挑战，并适应新的情况，这远远超出了普通人的能力范围。

聚焦于这一点让当前的人工智能研究真正进入了重要的领域，这些领域包括理解、交流、广博的知识、学习效率、决策推理以及消除任何不恰当的偏见（比如公平）。这些领域的进展可以用多种方式衡量。其中一种方法是将挑战分为多个组成部分。例如，卡格尔（Kaggle）的抽象和推理竞赛，它专注于解决人工智能以前从未见过的推理任务。另一种方法是为人机交互设计一个大规模的现实世界挑战赛，比如亚历克萨社交机器人大奖赛，这是一个针对大学生的会话人工智能竞赛。

事实上，当我们在2016年推出亚历克萨大奖时，我们就如何评估参与竞争的“社交机器人”展开了激烈的辩论。我们是不是在试图让人们相信社交机器人是人类，使之成为图灵测试的一种新的实现？或者，我们是想让人工智能自然地交谈来促进学习，提供娱乐，还是仅仅把它当做一个受欢迎的玩具？

我们找到了一个准则，要求社交机器人与人类就娱乐、体育、政治和科技等广泛的热门话题进行20分钟连贯而富有吸引力的对话。在开发设计过程中，客户会给机器人打分，看他们是否愿意再次与机器人对话。在设计最后阶段中，真人裁判会对其连贯性和自然性进行评估，并以5分制打分。如果任何一个社交机器人平均交谈20分钟，得分4.0或更高，那么它基本达到了人类的要求。虽然这个巨大的挑战还没有实现，但这种方法正在指导人工智能的设计与开发，利用基于深度学习的神经网络技术使之具有类似人类的对话能力。这种方法会重点考察人工智能在适当的情况下是否具备幽默和同情心，所有这些都是自然的，不会带有人为的痕迹。

像亚历克萨这样的人工智能在我们日常生活中的广泛应用是衡量人工智能进步的又一个千载难逢的机会。虽然这些人工智能服务依赖于类似人类的会话技能来完成简单的事务（如设置警报）和复杂的任务（如规划周末），但为了最大限度地发挥效用，它们正在从会话人工智能转向“环境人工智能”，即人工智能在你需要时回答你的请求，预测你的需求；当你不需要时，它会退居幕后。例如，亚历克萨可以检测到玻璃破碎的声音，并提醒你采取行动；如果你在睡觉时设置了闹钟，它会建议你关掉楼下一直开着的连接灯。此类人工智能的另一个方面是，他们需要成为数量庞大的难题的专家，这只有在增强更广泛的学习能力而不是完成特定任务的情况下才可能实现。因此，在未来十年甚至更长的时间里，人工智能服务的实用性，以及它们在环境设备上的对话和主动协助能力，都是值得检验的。

上述的一切都不是在否认图灵最初的设想。图灵测验是一个思想测验，而不是作为有用人工智能的最终测试。然而，现在是时候摒弃图灵测试，并从艾伦·图灵的愿景中获得灵感，以加快构建旨在帮助人类的人工智能系统。