MIT的机器人会玩叠叠乐了！手残的你怕不怕？（人类叠叠乐）

叠叠乐是一项对动作的灵巧程度以及游戏策略都要求很高的任务，人类尚且需要小心翼翼，手残党基本就告别这个游戏了（没错，就是小编本人）。近日，MIT 在《Science Robotics》杂志上发表文章，展示了一个会玩叠叠乐的机器人。

在麻省理工学院 3 号楼的地下室里，一个机器人正在仔细地考虑下一步行动。它轻轻地戳着叠叠乐的木块，想要在不弄塌积木塔的情况下找到最容易抽出的一个。这是一个孤独、缓慢但又异常敏捷的游戏。

这个机器人是由 MIT 的工程师开发的，配备了一个软齿状夹持器、一个力感应腕带和一个外部摄像头，所有这些都是用来观察并感应积木塔以及单个积木块的。

在机器人小心翼翼地戳木块时，一台计算机利用摄像头和腕带接收视觉和触觉反馈，并将这些测量值与机器人之前的动作进行比较。它还考虑了那些动作的结果，具体来说，即一块积木在特定配置下及受到一个特定的力推动时能否被成功抽出。该机器人能实时「学习」是继续推动木块还是转向新的目标，以防积木塔倒塌。

该机器人的相关细节近日发表在《Science Robotics》杂志上。MIT 机械工程系助理教授 Alberto Rodriguez 表示，这个机器人展示了一些之前的机器人系统无法做到的事：快速学习开展任务的最佳方式，它利用的不只是当今研究充分使用的视觉线索，还有触觉和物理交互。

「与国际象棋、围棋等纯感知任务不同，玩叠叠乐还需要掌握物理技巧，如戳、推、拉、放及对齐木块等。这项游戏需要交互式感知和操作，你必须去触碰积木塔才能学会何时以及如何移动积木块。」Rodriguez 表示。「这项任务难以模拟，因此机器人必须在现实世界中通过与真实的叠叠乐积木塔进行交互才能学习。主要的困难在于利用物体、物理等相关常识从相对较少的实验中进行学习。」

他表示，除了玩叠叠乐之外，研究人员开发的触觉学习系统还可用于其他应用，尤其是那些需要谨慎的物理交互的任务，包括从垃圾填埋场中分离可回收物品和组装消费品。

「在手机装配线上，几乎每一步，咬合或拧螺丝的感觉都来自于力和接触，而不是视觉。」Rodriguez 说道，「学习执行这些动作的模型是这种技术的用武之地。」

论文一作 Nima Fazeli 是 MIT 的一名研究生。团队成员还包括 Miquel Oller、Jiajun Wu、Zheng Wu 和 MIT 脑与认知科学系教授 Joshua Tenenbaum。

推拉

在叠叠乐游戏中，54 个矩形积木堆叠 18 层，每层三块积木，每一层的积木与下面一层垂直。该游戏需要玩家抽出一块积木，然后将它放在塔顶，从而使塔达到新高度，而且新塔不会倒塌。

要想使机器人可以玩叠叠乐游戏，传统的机器学习方法可能需要捕捉积木、机器人和塔之间可能会发生的一切事情，这项任务耗费大量算力，它需要数千次（甚至可能数万次）抽积木尝试的数据。

Rodriguez 及其同事找到了一种能够更加高效利用数据的方式，让机器人学会玩叠叠乐，该方法受到人类认知和玩叠叠乐方式的启发。

该团队定制了一个工业标准 ABB IRB 120 的机械臂，然后把叠叠乐塔放在机器人能够够到的范围之内。然后开始训练，让机器人先选择一个随机积木块和推积木块的位置，然后用一点力量将该积木取出。

对于每次抽积木的尝试，计算机记录相关的视觉和力量数据，并把成功的尝试标注出来。

该机器人没有进行成千上万次抽积木尝试，而是只进行了大约 300 次尝试，数据和结果类似的尝试分为一组，表示特定的积木行为。例如，一组数据可能表示难以移动的积木，另一组可能表示较容易移动的积木，或者移动后塔会倒塌的积木。对于每组数据，机器人开发一个简单模型，基于当前的视觉和触觉数据来预测积木的行为。

Fazeli 称，这一聚类技术受到人类类似聚类技术的启发，大幅提升了机器人学习叠叠乐游戏的效率，「该机器人构建簇，然后为每一簇学习一个模型，而不是学习一个能够捕捉所有可能性的模型。」

堆叠

研究者利用模拟器 MuJoCo，在该游戏的计算机模拟中对比测试了他们的方法和其他当前最优机器学习算法，从而了解到该机器人在真实世界中的学习方式。

Oller 表示：「我们向这些算法提供我们系统获取的相同信息，看它们如何达到类似的玩 Jenga 水平。与我们的方法相比，这些算法需要探索更大数量级的塔才能学会这个游戏。」

该团队让其机器学习方法与几位人类志愿者进行了几次非正式 PK。

「我们看到塔倒塌之前人类能抽出几块积木，我们的方法与人类之间的差距不大。」Oller 称。

但是，如果研究者想要使这款机器人对抗人类选手，还有很长的路要走。除了物理交互以外，叠叠乐游戏还需要策略，如抽出某一块积木恰好能使对手很难抽出下一块积木，而且有可能造成木塔倒塌。

目前，该团队对开发机器人叠叠乐冠军没太多兴趣，而是更关注将这一新技能应用到其他应用领域。

「我们用手完成的很多任务都是凭感觉，而这种「感觉」来自于力量和触觉信息。」Rodriguez 说道，「我们提出的这种方法可以完成这类任务。」

该研究受到美国国家科学基金会国家机器人计划（National Robotics Initiative）的支持。

论文：See, feel, act: Hierarchical learning for complex manipulation skills with multisensory fusion

论文链接：http://robotics.sciencemag.org/content/robotics/4/26/eaav3123.full.pdf

摘要：人类能够无缝结合触觉刺激、视觉刺激和直观经验，去探索和执行复杂的控制技能。他们不仅能够看到自己的动作，还能感觉到。目前的大部分机器人学习方法利用计算机视觉和深度学习的近期发展成果，获取所需数据量庞大的像素-动作策略。这些方法未利用物理学中的直观潜在结构或触觉特征。触觉推理在动物世界中无处不在，但在机器人控制中仍然未得到充分研究。触觉刺激只能通过侵入式交互来获取，对具备视觉刺激的数据流进行解释也很有难度。本研究提出一种方法，在机器人中模拟层次推理（hierarchical reasoning）和多感官融合，使其学会玩叠叠乐，一种需要物理交互才能玩好的复杂游戏。该游戏机制被制定为使用时间分层贝叶斯模型的生成过程，其具备行为原型和带噪积木状态的表征。该模型捕捉描述性潜在结构，机器人通过简短的探索阶段在力量和视觉领域中学习这些关系的概率模型。学会之后，机器人使用该表征推断玩游戏时的积木行为模式和状态。然后机器人基于推断，调整自己的当前动作和游戏策略，这种玩游戏的方式与人类类似。我们对比评估了该方法和三种标准基线方法，证明该方法在现实世界的叠叠乐游戏实现中具备有效性。