人工智能系统安全性分析（脑力烤面包机）

摘要：人工智能研究人员轻易地欺骗了一个图像识别系统，使得香蕉被错误地识别为烤面包机。这引发了一系列安全性的担忧，如何确保人工智能系统的安全呢？

本周，微软和阿里巴巴引发了新的担忧，即机器人将很快抢走大部分人的工作。这两家公司分别透露，他们的人工智能系统在阅读理解测试中击败了人类。这个测试的目的是训练人工智能回答维基百科文章的问题。

就像已经部署在商业图片应用中的图像识别软件一样，这些系统给人的感觉是机器已经变得越来越有能力复制人类的认知能力:识别图像或声音，现在加速阅读文本段落，并以人类水平的准确性来反馈答案。

然而，机器的智能并不总是那么准确。麻省理工学院的研究生Anish Athalye说:“在一些领域，神经网络实际上是超人的，人类远不及它们。但它们有一种奇怪的特性，似乎我们可以很容易地欺骗他们。”

在香蕉的图片附近放置了一个类似于“迷幻烤面包机”的对抗贴，使得谷歌图像识别系统将图片的内容识别为烤面包机，而不是相关的水果。

在LabSix的方法中，一种算法会稍微修改图像中每个像素的颜色或亮度。尽管你或我的照片看起来是一样的，但这些微妙的变化使系统把它解释为完全不同的东西。Athalye说，“如果你看到有人在现实世界中竖起了一个路标，看起来尚不清晰，那么你可能会认为它像是限速牌，但你的自动驾驶汽车却认为这是完全不同的，那就可怕了。”

对于烤面包机来说，谷歌大脑采取了不同的策略。他们不想单独改变图像，而是想要开发一种可以放置在任何场景中都适应的技术方案。这意味着创造一个全新的独特形象——一它会使深度学习系统混乱，使它无法专注于其他项目。烤面包机需要脱颖而出，而不是混在里面不被识别。谷歌的Tom Brown在一封电子邮件中写道:“鉴于补丁只控制了它所在范围内的像素点，我们发现补丁的使用变得非常突出。传统的恶意攻击改变了单个图像中的所有像素点。因此，对于这个对抗性的补丁，我们会用大量的像素来改变一些像素。”

为了在实验室之外工作，补丁也必须对现实世界中的视觉噪声具有弹性。在之前的研究中，改变图像的方向或亮度可以欺骗系统。一幅经过修改的猫的照片被归类为鳄梨酱，但是把猫转到一边，系统又知道它是猫了。相比之下，烤面包机可以在任何亮度或方向上呈现，但是仍然会破坏系统。Brown写道:“这更难以开发，因为这意味着要在各种模拟场景中训练这个补丁，这样才能找到一个在所有这些场景中都能成功的补丁。”

尽管这些例子很愚蠢，但潜伏在现实世界却是致命的。Athalye推测，恶意的攻击可能会让一辆自动驾驶汽车忽视一个停车标志。或者它可以在机场行李检查中伪装出炸弹的X射线图像。Athalye和布朗的研究目标是在部署前帮助识别技术的弱点。

纽约大学的心理学教授Gary Marcus认为人工智能很容易被这种方式欺骗，因为机器不理解整个场景。Marcus说，人工智能可以识别对象，但它无法理解对象是什么或它使用了什么。它不能真正理解事物之间的因果关系，也不能真正理解谁在为谁做什么和为什么。

在关于AI系统的头条新闻阅读理解测试之后，Marcus对结果进行了贬低，称机器所做的事情与真正的理解没有任何关系。Marcus在推特上写道:“测试表明，机器可以在文本中高亮显示相关段落，但不会让他们理解这些段落。”

Marcus认为，该领域应该从认知心理学的角度去开发一个更深层次的理解软件，而不是在成千上万的例子中训练人工智能系统。然而，深度学习可以识别出一条狗，甚至可以从它以前从来没有见过的图像中对它的品种进行分类，但它不知道是人在遛狗，还是狗在遛人。它不理解狗到底是什么，它是如何与世界互动的。Marcus说:“我们需要一种不同类型的人工智能架构，这是一种解释，而不仅仅是模式识别。”在这种情况下，我们的工作至少在一段时间内是安全的。

以上为译文。

文章原标题《How to Hack an Intelligent Machine》，译者：黄小凡，审校：袁虎。