从OpenAI出走的华人团队，将如何创造物理世界的ChatGPT时刻？（物理世界）

撰文丨伊风

出品 | 51CTO技术栈（*blog51cto）

辛苦工作一天后，你躺在沙发上，有一个能为你递上香蕉的机器人怎么样？这听起来就像拥有一只会叼拖鞋的狗狗一样酷！

RFM-1 可以！他可以听懂你的指令，在一堆食物中准确的识别香蕉并进行抓取。

就像Sora一样，RFM-1通过大量的数据理解真实世界的物理规律，并进行理解和推理——只是不生产视频，而是作为机器人与真实世界进行交互。

图片

创造RFM-1的公司名叫Covariant，中文意思为“协变”，颇有与时俱进、顺势而为的意思。这家公司的联合创始人兼CEO彼得-陈（Peter Chen）,曾在2016年进入OpenAI工作，是最早期的发起者之一，一年后他离开OpenAI创立了covariant.ai。

围绕Sora的争议带火了“世界模型”概念。很多人相信AI能模拟和理解现实世界的各种现象和过程的“奇点”即将到达。而 Covariant 也瞄准这一定位，野心是将AI技术的突破扩展到物理领域（相对于ChatGPT、Sora等一众AI发力的数字领域）。

AI大佬Jim也对RFM-1给出很高的评价。比起使用真实数据进行训练的RFM-1，其他机器人就像是玩具一样。

图片

那么，RFM-1都可以做什么？又是如何做到的？

1.真实数据训练，机器人要走出象牙塔

我们知道大多数现有的机器人的样子——迟钝、笨拙地在实验室中缓慢地穿行着。因为他们的训练数据就来自实验环境，主要在相对静态的条件下与物体进行交互。

而Covariant却选择使用真实世界的数据创建RFM-1。

虽然很难，但这使得RFM-1能够在要求苛刻的真实世界环境中工作，并保持符合水准的精度和性能。简而言之，机器人终于不再那么脆弱了！

因为是在真实世界，因此机器人要理解参差多态的事物，理解物体材质的轻与重、硬与软。更复杂的，还涉及到物体的形变、遮挡、需要推理不同材料的不同吸力动态、处理运动中不规则形状物体的混乱，直至能处理从化妆品和衣服到杂货和机械零件等各种物体。（这么想想我们人类真的很厉害。）

图片

也因为是真实世界，因此机器人需要了解并能处理意外情况。RFM-1在真实工作场景中训练到许多实验室环境中很难遇到的长尾事件，如下面这个鱼一般滚动在轨道外的物体，有可能会让许多机器人“一脸懵”。

图片

2.更懂世界的RFM-1是怎么做到的？

RFM-1 是一个多模态任意序列模型（ any-to-any sequence model），采用一个80 亿参数变换器，能精准地学习和处理各种复杂的信息。

RFM-1 将所有模态标记到一个共同空间，并执行自回归下一个标记预测，从而利用其广泛的输入和输出模态实现多样化应用。可以说，RFM-1 就像一个多面手，擅长处理各种不同类型的信息。它有一个大大的魔法袋，可以装下文本、图像、视频、机器人动作和各种数字传感器的读数。然后，这些信息可以互相交流、互相影响。

，时长00:23

这样，RFM-1 可以可以为场景分析任务（如分割和识别）执行图像到图像学习，把一张图片变成另一张图片；它还能够把文字说明和图片结合起来，生成一系列动作或者运动的序列；或者把场景的图片和目标的图片配对起来，以视频形式预测结果。

3.补物理：机器人“成为”人类的必修课

Covariant明白学习世界模型是机器人的未来。

从RFM-1的表现来看，这条路走对了！世界模型的预测能力可以让机器人拥有人类生活中至关重要的物理直觉。

像很多短视频时代出生的小孩，RFM-1 理解世界也是靠看视频开始的：通过输入初始图像标记和机器人动作，它可以作为物理世界模型预测未来。实际上没有听起来那么玄乎！这种预测包括，把一件物品从垃圾箱取走后，箱子会变成什么样子，通过图像的比对，机器人可以判断任务是否执行成功。

图片

AlphaGo 等之前的AI研究成果表明，在世界模型中进行规划很可能是实现超人类水平性能的关键。此外，物理理解力直接增强了 RFM-1 的其他能力，如将图像映射到机器人的行动中。

4.学语言：不止交互、还能寻求人类帮助

这个我抓不住，怎么办？”这样的求助不再是人类幼崽的专属，机器人将主动向人请教和学习。

当机器人发现它执行某项任务遇到困难时，操作员可以向机器人提供新的运动策略，例如通过移动或撞击物体来扰动物体，从而找到更好的抓取点。

今后，机器人可以将这种新策略应用到未来的行动中。看来，机器人进化的步伐会越来越快了。

5.从OpenAI走出的华人团队

Covariant 由加州大学伯克利分校教授Pieter Abbeel和他的三名学生Peter Chen、Rocky Duan and Tianhao Zhang创立，都有非常好的AI技术背景。

联合创始人兼CEO Peter Chen，2016年进入OpenAI工作，参与了深度生成模型 (https://openai.com/research/generative-models) 和强化学习方面的研究。Peter的领英主页的语言技能标注了英语、普通话以及粤语三种语言。

图片

担任CTO的Rocky Duan同样有一段长达两年在OpenAI工作和实习的经历。

图片

另外一位联合创始人，则在博士期间有一段微软的实习经历，在校期间承担自然语言处理的研究项目。

图片

他们从一个仓库机器人系统开始，逐步完善自己的技术。该公司在成立的七年中，Covariant 通过摄像头和其他传感器收集数据，以了解机器人是如何运行的并优化训练。

Peter Chen 非常重视数据的意义。通过从数字数据（物理世界中发生的数十万个实例）中学习，机器人能应对各种意外情况。当这些操作与语言相结合时，机器人还能像聊天机器人一样，对文字和语音建议做出回应。

就像Peter采访中说过的，“数字数据中的内容可以移植到现实世界中”。

毫无疑问，与ChatGPT和Sora一样，机器人也将更加强大。

参考链接：

1.https://covariant.ai/insights/introducing-rfm-1-giving-robots-human-like-reasoning-capabilities/

2.https://www.nytimes.com/2024/03/11/technology/ai-robots-technology.html

来源： 51CTO技术栈