伯克利团队发布最新论文，用训练GPT的方法训练人形机器人（机器人项目）

Scaling law“统一”人形机器人？

一台人形机器人在人行道、混凝土、沥青、广场和沙路上“散步”，这不是科幻电影的场景，而是已经发生在旧金山街头的真实事件。

这一人形机器人项目也引起了Sora团队的注意。

“不可思议的成果！”Sora负责人之一Bill Peebles在 X 转发了这条内容，难掩惊讶。另一位核心作者Tim Brooks也评论道：“Ilija Radosavovic的惊人成果把AI带入了真实世界。”

Ilija Radosavovic（伊利亚·拉多萨沃维奇）是该人形机器人项目的负责人之一，他是加州大学伯克利分校博士生，曾在Meta的AI实验室FAIR做研究工程师。

这篇论文名为《Humanoid Locomotion as Next Token Prediction》。Ilija Radosavovic表示，论文的核心思想，就是把OpenAI训练ChatGPT时所用到的“预测下一个token”的思路，用在人形机器人的运动控制中。

这被称为“自回归生成式”路线，最大的特色是可以根据“Scaling Law”——扩大模型的参数、数据、算力来提升模型的效果，也被称为“暴力美学”。不过，对于“暴力美学”的前景，目前在业内存在一定的争议。

目前来看，Scaling Law已经先后突破了文本生成和视频生成，接下来又会突破人形机器人的运动控制吗？

01 “暴力美学”解锁人形机器人？

这篇论文中，作者提出的核心问题是：

过去十年，深度学习浪潮下，大型神经网络已经在互联网多样化的数据集上有了大量训练成果，我们能否以类似的方式来学习强化大的感官和运动表示模型？

回溯机器人的发展历程，传统机器人的运动高度依赖于人工输入准确的预测接触点和执行器方向等信息。“拿杯子”这个动作对人类而言看似简单，但对机器人而言却是一个“大工程”。人类需要拆解动作，再告诉机器人每一个动作的具体细节，像这个动作的起点在哪里、手臂要如何移动等。

这种方法带来的问题是，机器人只能在人类规定的路径中较好地运动和控制肢体动作，但跳出模拟世界后，机器人在真实世界就手足无措了，这个问题可简单归类到学术领域所讨论的“泛化性”较差，不够通用等问题。

不只机器人，在人工智能符号主义学派的研究中，“泛化性”也是一个老大难的问题。而OpenAI发布的ChatGPT之所以惊艳，有一个核心原因就是其用暴力美学——叠加大量数据、算力、参数量，就让模型对新事物表现出了泛化性极佳的“智能涌现”。

如今，Ilija Radosavovic团队试图借鉴OpenAI在语言领域的做法，将现实世界中的仿人机器人控制视为一个“下一个token预测”问题，类似于语言中预测下一个单词，来实现人形机器人的运动控制。

该模型是一个通过自回归预测训练的causal transformer（因果转换器）。

由于训练数据的多模态特性，该研究以模态对齐的方式进行预测，对于每个输token，模型能够预测相同模态的下一个token。这个方法让模型更加通用，能够利用缺失模态的数据，比如没有动作的视频轨迹。

在视频中，一个仿人形的双足机器人已经实现“零样本学习”，正在旧金山“闲逛”。

该模型即使只在27小时的行走数据上训练，也能转移到现实世界，并且能够泛化到训练期间未见过的命令，比如向后行走。这些发现为通过生成模型学习具有挑战性的现实世界控制任务提供了一个有希望的路径。

仿人运动作为下一个标记预测

该研究将现实世界中的仿人控制视为一个大型传感器运动轨迹数据建模问题。

与语言类似，研究人员训练了一个通用的Transformer模型来自回归地预测移位的输入序列。与语言不同，机器人数据是高维的，包含多个感官模态和动作。

研究人员将输入轨迹token化，并训练一个causal transformer（因果转换器）模型来预测移位的标记（shifted token）。

重要的是，模型能够预测完整的输入序列，包括感官和动作标记。该团队是在建模联合数据分布，而不是条件动作分布。

收集轨迹数据集，通过自回归预测训练Transformer模型，并将其部署在旧金山零样本中

一个通用的缺失数据处理框架

该研究假设每个轨迹都是观察和动作的序列，论文展示了该模型如何泛化到具有缺失模态的序列，比如从没有动作的人类视频中提取的轨迹。

假设已经获取一个没有动作的观察轨迹，该团队的关键洞察是，可以将没有动作的轨迹视为带有动作遮蔽的常规轨迹。这个轨迹具有与常规动作轨迹相同的格式，因此可以统一处理。该方法忽略了对应于输入遮蔽部分的预测的损失。

该方法能够统一地利用有或没有动作的轨迹

构建轨迹数据集

该团队构建了一个轨迹数据集用于训练模型，有四大数据来源：先前的神经网络策略，基于模型的控制器，人类运动捕捉，以及YouTube上的人类视频。

不同数据源的插图如下：

该团队构建了一个来自四个不同来源的轨迹数据集

不同来源的数据会提供不同维度的信息：

神经网络策略的轨迹提供了包括动作在内的完整信息；
基于模型的控制器的轨迹包含了来自相同机器人形态的观察，但没有动作；
人类运动捕捉的轨迹包含不同的形态，没有动作；
最后，从YouTube上的人类视频中恢复的轨迹可以被视为大规模但嘈杂的运动捕捉。

按照上述策略训练的机器人已经可以行走在不同的表面上，包括人行道、混凝土、沥青、广场和沙土路。

有没有实现Scaling Law？

论文中也提到了“Scaling”（扩展或缩放）相关的内容，提到模型性能会随着训练数据集的大小、上下文长度以及模型大小的增加而变化。

作者们发现，使用更多轨迹进行训练可以减少位置跟踪误差，这是一个积极的信号，表明在更大的数据集上训练可以提高性能。

他们还研究了在Transformer的上下文窗口中使用不同数量的tokens对模型性能的影响。结果表明，更大的上下文窗口可以产生更好的策略，这表明生成策略在规模上进行一种上下文适应，随着规模的增加而改善。

此外，在参数规模方面，研究结果显示，跟踪误差随着模型参数规模增大而逐渐减少。

这些扩展研究的结果均表明，人形机器人模型可以从更大规模的数据集、更长的上下文窗口以及更大的模型中受益。

02 人形机器人风暴‍

人形机器人正在硅谷刮起风暴，包括OpenAI、英伟达在内的科技巨头都在积极布局。

2024年2月24日，英伟达宣布成立通用智能体研究实验室（GEAR）。

GEAR由英伟达高级科学家Jim Fan博士和Yuke Zhu教授领导，旨在虚拟和现实世界中构建具身智能体基础模型。GEAR的研究议程分为四个方面：

（1）多模态基础模型
（2）通用机器人
（3）虚拟世界中的基础智能体
（4）模拟和仿真数据的研究。

英伟达CEO黄仁勋近日在采访中表示，机器人基础模型可能即将出现，或许是明年，“从那时起，五年后，将看到一些非常令人惊奇的事情”。

Jim Fan也表示：“我们相信，在未来，每一台移动的机器都将是自主的，机器人和模拟智能体将像iPhone一样无处不在。我们正在构建基础智能体：一个具有通用能力的AI，可以在许多虚拟和现实的世界中学习如何熟练地行动。”

同时，英伟达也开始通过投资延展其在人形机器人领域的触角。

2月29日，开发通用人形机器人的AI机器人公司Figure AI宣布，已在B轮融资中筹集了6.75亿美元，估值为26亿美元，投资方包括微软、OpenAI Startup Fund、NVIDIA、Jeff Bezos（通过 Bezos Expeditions）、Parkway Venture Capital、Intel Capital、Align Ventures和ARK Invest。

Figure AI成立于2022年，去年5月完成Parkway Venture Capital领投的7000万美元融资；两个月后，又获英特尔900万美元投资。

从融资情况来看，这家成立仅一年多的机器人公司已经成为硅谷创投圈一颗抢手的新星。此次，英伟达和OpenAI同时加码，再一次印证了Figure AI的火爆。

Figure AI同样是一家野心勃勃的公司。“Figure AI的愿景是尽快将人形机器人引入商业运营，”该初创公司创始人兼首席执行官布雷特·阿德科克 (Brett Adcock) 在最新一轮融资的声明中表示。

除投资外，Figure AI和OpenAI还达成了一项合作协议。此次合作旨在通过增强人形机器人处理和推理语言的能力，帮助加快Figure AI的商业化进程。

布雷特·阿德科克表示，Figure AI开发的人工智能模型将基于OpenAI最新的GPT模型，并根据Figure AI收集的机器人动作数据进行专门训练，以便其人形机器人能够与人交谈、看到事物并执行物理任务。

合作消息公布后，OpenAI CEO Greg Brokman也在 X 上转发表示，OpenAI正在将多模态模型拓展到机器人上。

OpenAI 产品和合作伙伴关系副总裁Peter Welinder 表示：“我们一直计划回归机器人技术，我们通过 Figure AI 看到了一条探索人形机器人在高性能多模式模型支持下可以实现的目标的道路。”

早在2022年，OpenAI便开始在人形机器人领域有所动作。OpenAI曾投资一家挪威类人机器人公司1X Technologies，双方于2022年达成合作，使用AI模型为机器人添加智能。去年3月，1X Technologies获得了由OpenAI创业基金领投的2350万美元融资。

今年年初，1X Technologies完成超1亿美元的B轮融资，EQT Ventures、三星NEXT、Nistad集团、Sandwater、Skagerak Capital等参投。

在国内，也陆续有团队试图将 LLM 与机器人控制相融合。

此前，「甲子光年」独家获悉，北京大学前沿计算机研究中心助理教授、博士生导师董豪团队发布的最新具身大模型研究成果——ManipLLM的论文已被计算机视觉领域顶会CVPR 2024接收。

“我们的大模型重点是为了解决可泛化的物体操作。”董豪告诉「甲子光年」。简单来说，ManipLLM能让机械臂等机器人听懂人下达的任务命令，并根据其看到的图像，做出相应的动作完成任务。

同时，国内人形机器人领域的融资消息也接连不断。1月，星动纪元获得超亿元天使轮融资；2月，宇树科技拿下近10亿元B2轮融资，刷新赛道纪录。

不过，长久以来，人形机器人似乎一直都是“概念的高低，落地的洼地”——一边是技术畅想高举高打，一边是产业落地上无声无息。人们印象中关于人形机器人的画面，似乎就是在全球各大高校的实验室里奔跑、跳跃、翻跟头、搬箱子......

某种意义上，“落地难”似乎成为这条赛道所有创业者的“原罪”。

归根结底，人形机器人虽然乘着大模型、具身智能的新浪潮一路繁花似锦，但真正从实验室走向产线的过程中，人形机器人依然逃不过减速器、执行器、电机等机械结构的掣肘。机械结构的迭代并不遵守“摩尔定律”和Scaling law，更多是缓慢的线性变化。

不过，作为人工智能在现实世界的终极体现，人形机器人的未来依然值得期待，正如Figure AI所说：

“我们公司的征程将需要几十年的时间，我们面临着很高的风险和极低的成功机会。然而，如果我们成功了，我们有可能对人类产生积极影响，并建立地球上最大的公司。”