一个从零开始自学成才魔方大师：人工智能DeepCube（混乱拼图）

让我们来了解一下DeepCube吧，这是一个人工智能系统，它擅长玩魔方，就像人类最好的魔方大师一样。最令人难以置信的是，该系统在短短44小时内就学会了控制魔方，这个经典的3D谜题，而且没有人为干预。

这个系统的研发人员称，一般来说，一个智能代理必须能够自学，如何在复杂的领域中以最少的人为监督来解决问题。事实上，如果我们想要实现一个一般的、类人的机器智能，我们就必须开发能够学习的系统，然后将这些知识应用到现实世界的应用程序中。

最近，在机器学习方面的技术突*生了一些系统，这些系统在没有任何先验知识的情况下，已经学会了如何掌握国际象棋和围棋等游戏。但这些方法并不能很好的转化为对解魔方的控制。问题是强化学习，用来教机器下棋和下棋的策略并不适合复杂的3D游戏。在国际象棋和围棋游戏中，系统相对容易判断一个动作是 “好的” 还是 “坏的” 。

但对于一个试图解决魔方的人工智能来说，如果它不能立即弄清楚，某个特定的动作是否改善了这个混乱拼图的整体状态，那么它就很难继续。当一个人工智能系统无法判断一个动作是否是朝着实现总体目标迈出的积极一步时，它就不能得到奖励，如果不能得到奖励，强化学习就不起作用了。

在表面上，魔方看起来很简单，但它提供了惊人数量的可能性。一个3x3x3的立方体存在的 “状态空间” 有43,252,003,274,489,856,000个组合，但只有一个状态空间（43千万亿分之一）最重要：当立方体的六个面都是同样的颜色。有许多不同的策略或算法可以用来求解立方体。DeepCube系统的发明者Erno Rubik花了整整一个月的时间设计出了第一个算法。几年前，有研究表明，从任意随机排列中解魔方所需的最少步数是26步。

自从1974年这个令人上瘾的谜题首次出现以来，我们显然已经获得了很多关于魔方的信息，以及如何解决它。但人工智能研究的真正诀窍是让机器解决问题，而不借助这些历史知识。强化学习可以提供帮助，但正如前面提到的，这种策略对魔方的效果不太好。为了克服这一局限，加州大学欧文分校的一个研究小组开发了一种新的人工智能技术，称为自动教学迭代。

研究人员称，为了用强化学习来解决魔方问题，该算法将学习一种策略，这种策略决定在任何给定状态下采取哪种移动。

为了制定这一 “策略”，DeepCube 创建了自己的内部奖励系统。在没有外部帮助的情况下，并且唯一的输入是对魔方这个多维数据集本身的更改，系统将学会评估其移动的优势。虽然这种方式看上去属于劳动密集型的方式，但却相当巧妙。

当人工智能预测下一个移动时，它实际上会一直向前跳跃，直至完成魔方，然后它会回到系统预测的移动位置。这使该系统能够评估整个移动的优势和顺畅程度。一旦它获得了关于其当前位置足够数量的的数据，它将使用传统的树搜索方法，检查每一个可能的移动，以确定哪一个是最好的，来解决魔方。这虽不是世界上最优雅的系统，但它最有效。

这些研究人员对DeepCube进行了培训，在80亿立方体状态空间(包括一些重复数据)中使用了两百万次不同的迭代，在一台使用32核英特尔Xeon E5-2620服务器和三个NVIDIA Titan XP GPU的机器上进行了44小时的培训。

研究人员写道，该系统 “在训练过程中发现了相当数量的魔方知识”，其中包括一种策略，即角形和边缘角形在放置到正确位置之前要匹配在一起。我们的算法能够解决100%随机置乱的立方体，同时达到30步的中间解长度，少于或等于使用人类领域知识的解。

目前，还有改进的余地，因为DeepCube遇到了小部分多维数据集的问题，导致一些解决方案花费的时间比预期的长。

展望未来，研究人员希望在更硬的、16个边的立方体上测试新的自动教学迭代技术。

更实际的是，这项研究可以用来解决现实世界中的问题，例如预测蛋白质的三维形状。

与魔方一样，蛋白质折叠是一个组合优化问题。

但是，这个系统不需要找出下一个移动立方体的位置，而是可以计算出三维晶格中氨基酸的正确序列。

解决谜题很好，但最终目标是让人工智能解决一些世界上最紧迫的问题，比如药物发现、DNA分析，以及制造能在人类世界中工作的机器人。

展望未来，研究人员希望测试新的自动迭代技术在更难的16边立方体上。更实际地，本研究可用于解决真实世界问题，例如预测蛋白质的3D形状。像魔方一样，蛋白质折叠是一个组合优化问题。但是，系统并没有找到下一个移动立方体的地方，而是可以计算出三维晶格中氨基酸的正确顺序。

解决谜题是很好的，但最终的目标是让人工智能解决一些世界上最紧迫的问题，比如药物发现、DNA分析和在人类世界中发挥作用的机器人。

欢迎大家来此拍砖吐槽！

查看全文