深度学习让机器人学会做披萨

深度学习让机器人学会做披萨

首页休闲益智模拟披萨制作更新时间:2024-05-13

对人类来说,处理可变形物体并不比处理刚性物体困难多少。即使用不同的方式塑造、折叠和操纵它们,但我们仍然能识别它们。

但对于机器人和人工智能系统来说,操纵可变形的物体是一个巨大的挑战。机器人必须采取的一系列步骤,将一个面团球擀成披萨皮。它必须跟踪面团的形状变化,同时,它必须为每一步的工作选择正确的工具。对于当前的AI系统来说,这些都是具有挑战性的任务,因为它们在处理刚体对象时会更稳定,状态也更可预测。

现在,由麻省理工学院(MIT)、卡内基梅隆大学(Carnegie Mellon University)和加州大学圣地亚哥分校(University of California at San Diego)的研究人员开发的一种新的深度学习技术,有望使机器人系统在处理可变形物体时更加稳定。这种技术被称为DiffSkill,它使用深度神经网络学习简单的技能,并使用一个规划模块,通过结合这些技能来解决需要多个步骤和工具的任务。

使用强化学习和深度学习处理可变形对象

如果一个人工智能系统想要处理一个对象,它必须能够检测和定义它的状态,并预测它未来的样子。对于刚性物体,这个问题已经基本解决了。有了一组好的训练示例,深度神经网络将能够从不同角度检测刚体。然而当涉及到可变形对象时,空间就变得复杂得多。

“对于刚性物体,我们可以用6个数字描述它的状态:3个数字表示它的XYZ坐标,另外3个数字表示它的方向。”CMU博士生、DiffSkill论文的主要作者Lin Xingyu(音译)告诉TechTalks。“然而,可变形的身体,比如面团或织物,有无限的自由度,这使得精确描述它们的状态变得更加困难。此外,与刚体相比,它们的变形方式也更难用数学方式建模。”

可微物理模拟器的发展使基于梯度的方法应用于可变形物体操作任务的解决成为可能。这与传统的强化学习方法相反,传统的强化学习方法试图通过纯粹的试错交互来学习环境和物体的动态。

DiffSkill的灵感来自于PlasticineLab,这是一个可微分物理模拟器,在2021年的ICLR会议上展示。PlasticineLab表明,可微模拟器可以帮助短期任务。

Lin说:“我们开始思考,我们是否可以把(完成任务所需的步骤)提取为技能,并学习有关技能的抽象概念,这样我们就可以把它们串联起来,解决更复杂的任务。”

Lin过去的工作重点是使用强化学习来操纵可变形的物体,如布料、绳索和液体。对于DiffSkill,基于挑战这一层面,他选择面团进行操作。

Lin说:“面团的操作特别有趣,因为它不能用机器人抓手轻松完成。但连续使用不同的工具,这是人类擅长但机器人不太常见的事情。”经过训练后,DiffSkill仅使用RGB-D输入就可以成功地完成一组面团操作任务。

利用神经网络学习抽象技能

DiffSkill训练一个神经网络,根据初始状态和可微物理模拟器获得的参数预测目标状态的可行性。它由两个关键组件组成:使用神经网络学习个人技能的“神经技能抽象器”和组成解决长期任务技能的“计划器”。它使用可微物理模拟器为技能抽象器生成训练示例。这些示例展示了如何使用单一工具实现短期目标,例如使用滚轮来铺开面团或使用抹刀来移开面团。

这些例子以RGB-D视频的形式呈现给技能抽象者。给定一个图像观察,技能抽象者必须预测期望的目标是否可行。该模型通过将预测结果与物理模拟器的实际结果进行比较来学习和调整参数。

同时,DiffSkill训练一个变分自动编码器(VAE),以学习物理模拟器生成的示例的潜在空间表示。VAE在低维空间中对图像进行编码,保留重要特征并丢弃与任务无关的信息。通过将高维图像空间转移到潜在空间,VAE在帮助DiffSkill进行长期规划和通过观察感官数据预测结果方面发挥着重要作用。

训练VAE的一个重要挑战是确保它学习到正确的特征,并将其推广到真实世界,因为在真实世界中,视觉数据的组成与物理模拟器生成的数据不同。

目前,研究人员正在使用一种称为“域随机化”的技术,它随机化训练环境的无关属性,如背景和照明,并保持如工具的位置和方向等的重要特征。这使得VAE在实际应用时更加稳定。

“做到这一点并不容易,因为我们需要涵盖模拟世界和现实世界之间的所有可能的变化。”Lin说。“更好的方法是使用3D点云作为场景的表示,这更容易从模拟转换到现实世界。事实上,我们正在进行一个使用点云作为输入的后续项目。”

规划长期可变形对象任务

DiffSkill使用一个规划模块来评估能够完成目标的技能的不同组合和序列。

一旦技能抽象者接受了培训,DiffSkill就使用规划器模块来解决长期任务。计划者必须确定从初始状态到目的地所需技能的数量和顺序。

这个计划迭代可能的技能组合和它们产生的中间结果。变分自动编码器在这里派上用场。DiffSkill不是预测完整的图像结果,而是使用VAE预测中间步骤的潜在空间结果,以达到最终目标。

抽象技能和潜在空间表示的结合使得绘制从初始状态到目标的轨迹更加高效。事实上,研究人员不需要优化搜索功能,而是对所有组合进行了彻底搜索。

用DiffSkill制作披萨面团

研究人员将DiffSkill的性能与几种应用于可变形物体的基线方法进行了对比,包括两种无模型强化学习算法和一种只使用物理模拟器的轨迹优化器。

模型在需要多个步骤和工具的多个任务上进行了测试。例如,在其中一个任务中,人工智能必须用抹刀提起面团,把它放在砧板上,然后用滚轮把它摊开。

结果表明,DiffSkill在仅利用感官信息解决长视距、多工具任务方面明显优于其他技术。实验表明,经过良好的训练,DiffSkill规划器能够在初始状态和目标状态之间找到良好的中间状态,并找到合适的技能序列来解决任务。

“一套技能可以提供非常重要的时间抽象,使我们能够进行长期的推理。”林说。“这也类似于人类处理不同任务的方式:在不同的时间抽象中思考,而不是思考下一秒要做什么。”

然而,DiffSkill的处理能力也有限制。例如,当执行一个需要三阶段计划的任务时,DiffSkill的性能会显著下降(尽管它仍然比其他技术好)。Lin还提到,在某些情况下,可行性预测器会产生假正向。研究人员认为,学习更好的潜在空间可以帮助解决这个问题。

研究人员还在探索改善DiffSkill的其他方向,包括一种更有效的规划算法,可以用于更长的视距任务。

Lin希望有一天,他可以在真正的披萨制作机器人上使用DiffSkill。“我们离这个目标还很远。各种各样的挑战出现在控制、同步传输和安全方面。但我们现在对尝试一些长期任务更有信心了。”

本文由升哲科技编译,转载请注明。

查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved