GPT-4加持Alter3机器人扮鬼玩吉他，Figure 01看视频学会煮咖啡（节奏金属）

编辑：编辑部

【新智元导读】机器人的ChatGPT时刻，真来了！初创公司Figure自家机器人看了10小时视频，学会了煮咖啡。另一边，东京大学GPT-4加持的Alter3机器人，能够模仿人类做出任何动作。而人类只需发出自然语言指令即可，完全不需要编程！

机器人，本周果然迎来了ChatGPT时刻！

初创公司Figure，就做出了一个能学人类煮咖啡的机器人。

就在昨天，Figure创始人在社交平台上，提前预告了自家实验室取得的重大突破。

而东京大学则让GPT-4和仿人机器人Alter3相连。

人类只要给出自然语言命令，GPT-4就能把这些指令转换为可执行的代码，让机器人模仿人类做出任何动作，包括弹吉他、自拍、扮鬼等等，甚至还能去电影院偷别人的爆米花。

心情很闲适，喝杯茶。

拿着吉他玩摇滚。

假装我是一条蛇。

来张自拍，像网红们一样摆出俏皮浮夸的表情。

在电影院边吃爆米花边看电影，忽然发现，自己吃的是别人的爆米花，顿时尴尬地笑起来。

看人类煮咖啡10小时，学会这项技能

名叫Figure 01的这个机器人，采用的是端到端的人工智能系统。

它只需观察人类煮咖啡的录像，就能在10小时内学会制作咖啡的技能。

这个机器人是通过神经网络来处理和分析视频数据的。通过观看录像，它能够学会人类的动作和手势，然后模仿这些动作，来学习制作咖啡的过程。

这个过程证明了，无需通过编程，机器人完全可以自主学习技能！

只要跟它说：Figure 01，你可以帮我做一杯咖啡吗？

它就会把咖啡胶囊放入机器内，用手按按钮，过不了多久，一杯香气四溢的咖啡就做好了！

这个过程中难能可贵的一点是，机器人能学习如何改正自己的错误，比如咖啡胶囊放得不对，它就会矫正自己。

Brett Adcock解释了视频数据训练为何如此重要的原因。

之所以说这具有开创性意义，是因为如果你能获得某个应用的人类数据（如煮咖啡、叠衣服、仓库工作等），就可以在Figure 01的基础上对AI系统进行端到端的训练。

这是可以扩展到每种应用的一种方式。当机器人数量扩大时，从机器人群中收集更多数据，重新进行训练，机器人就能实现更好的性能。

值得一提的是，许多网友对机器人冲咖啡的速度表示惊讶。官方对此回应称，视频并没有加速。

东京大学的扮鬼机器人

而东京大学的这个人形机器人，之前就曾经因栩栩如生的「扮鬼」行为而出圈过。

东京大学的研究人员，把这个叫做Alter3的仿人机器人和GPT-4相连。

利用指令，它就可以完成一系列人类行为，比如弹吉他、自拍、扮鬼等等，甚至可以去电影院偷吃别人的爆米花。

这个过程中，LLM将书面指令转换为可执行的代码，从而让机器人模仿出多种人类的动作。从视频效果上看，属实是吊打了最近风头正劲的斯坦福家务机器人。

也就是说，Alter3之所以能戏精上身，将「鬼」模仿得如此出神入化，还是因为GPT-4的prompt给得好啊！

「0 创造恐惧的睁大眼睛的面部表情，张开嘴巴发出无声的尖叫」，
「1 迅速向后倾斜，仿佛被突然的幻影吓了一跳」，
「2 举起双手，在脸上挥舞，模仿幽灵般的动作」，
「3 张大嘴巴摇头，表现出恐惧的戏剧性反应」，
「4 将上半身从一侧移动到另一侧，仿佛被幽灵的存在所困扰」，
「5 双手握在胸前，表现出极度焦虑」，
「6 眼睛从一边瞟到另一边，仿佛目睹了一场诡异的活动」，
「7 先前倾，然后后倾，模仿鬼魂的漂浮动作」，
「8 慢慢回到休息位置，同时保持惊恐的表情」

通过代码，将人类动作映射到机器人身上

Alter3是怎样使用LLM生成自发运动的呢？

具体过程，就是将GPT-4集成到了Alter3中，从而有效地将GPT-4与Alter的身体运动结合起来。

通常，低级机器人控制是依赖于硬件的，这超出了LLM语料库的范围，这给直接基于LLM的机器人控制带来了挑战。

不过，研究者在Alter3上，实现了突破——通过程序代码，他们将人类动作的语言表达映射到机器人的身体上，这就让直接控制变得可行了。

这种方法无需对每个身体部位进行显式编程，直接就可以让Alter3采用各种姿势，比如自拍或扮鬼，还能随着时间的推移生成一系列动作。

这充分证明了机器人的零样本学习能力。

甚至，口头反馈都可以调整机器人的姿势，无需微调。

比如，用GPT-4告诉机器人，「播放金属音乐」，它就接收到了信息，开始有模有样地弹起了电吉他，脑袋还跟着节奏晃动。

「0 创造一种强烈兴奋的面部表情，睁大眼睛，微微张开嘴巴，露出狂野的笑容」，
「1 积极地向前倾斜，仿佛准备潜入音乐中」，
「2 模仿左手握住吉他琴颈的动作」，
「3 用右手开始弹奏空气，仿佛在演奏沉重的即兴演奏」，
「4 有节奏地上下摇晃头部，模仿与金属音乐相关的甩头动作」，
「5 举起左手，仿佛伸手去弹更高的吉他音符，眼睛锁定在想象中的指板上」，
「6 用右手模仿戏剧性的吉他弹奏，仿佛击中有力的和弦」，
「7 右手在假想的吉他弦上慢慢扫过，模仿吉他独奏」，
「8 模仿将想象中的吉他砸在地板上的动作，体现金属音乐的狂野精神」，
「9 逐渐恢复到休息姿势，但保持激烈的面部表情，表现出挥之不去的兴奋」

LLM把人类从迭代工作中解放出来

在LLM出现之前，为了让机器人模仿一个人的姿势，或者及假装一种行为，比如端茶、下棋，研究人员必须按照一定的顺序控制所有的43个轴。

这个过程中，需要人类研究员手动进行许多改进。

多亏了LLM，现在人类研究者可以从迭代的工作中解放了出来。只要使用口头指令，就能控制Alter3的程序了。

研究者先后应用两个用自然语言编写的思维链协议，并不需要学习过程的迭代（也就是零样本学习）。

如图所示，研究人员使用了以下协议。

需要注意的是，GPT-4是非确定性的（non-deterministic)，即使在$$temperature=0.$$时也是如此。

因此，即使输入相同，也可以产生不同的运动模式。

使用口头指令控制Alter3人形机器人的程序。通过使用Prompt1、2输出python代码，从而使用自然语言控制Alter3，这个架构是基于CoT的

语言反馈

Alter3无法观察自己的世代对任何物理过程产生的影响，这在人类意义上是非常不自然的。

因此，Alter3无法准确理解「手举多高」等细节，也就无法相应地改进自己的动作。

通过经验性地通过反馈来开发和利用外部记忆，Alter3的身体模型可以与GPT-4集成，而无需更新其参数。

现在，Alter3可以根据人类的语言反馈重写代码。

比如，用户建议「自拍时手臂抬高一点」，然后Alter3就可以将修改后的动作代码作为动作记忆存储在数据库中。

这样就能确保下次生成该动作时，机器人会使用经过改进和训练的动作。

通过这种反馈，机器人就积累了有关自己身体的信息，记忆就可以有效地充当一个身体图示。

上图说明了Alter3中的语言反馈系统。

这个过程中，用户会提供语言反馈，来指导Alter3在每个运动分段中的调整，比如「将轴16设置为255」或「更有力地移动手臂」。

在这个过程中，用户只需提供口头指令，无需重写任何代码，然后，Alter3就会自动修改相应的代码。

一旦动作被完善，它就会被保存在一个带有描述性标签的JSON数据库中，例如「握住吉他」或「深思熟虑地敲击下巴」。

对于使用prompt2生成动作，JsonToolkit有助于数据库搜索这些标签，LLM会决定内存使用和新动作的创建。

\textbf{(b)}比较有反馈和没有反馈的分数，有反馈的运动比没有反馈的运动得分更高。

结果

为了量化GPT-4生成动作的能力，研究人员评估了9种不同生成动作的视频，将其分为两类。

第一种情况是「即时手势」，包括「自拍」和「喝茶」等日常动作，以及「扮鬼」和「扮蛇」等模仿动作。

第二种情况是一段时间内的动作，包括更复杂的情景。就比如「在影院边吃爆米花边欣赏电影时，发现自己吃的其实是旁边人的爆米花」这样的尴尬情节，以及「在公园里慢跑时，世界似乎在讲述一个古老的生存故事，每一个脚步声都回荡着亘古不变的存在」这样的情感场景。

这些动作均由GPT-4生成。提示1的温度设置为$0.7$，提示2的温度设置为$0.5$。受试者（$n=107$）是通过Prolific平台招募的。

他们观看了这些视频，并对GPT-4（gpt-4-0314）的表达能力进行了评估（评估采用5级评分法，1为最差）。

在对照组中，研究人员采用了Alter3的随机动作，并附加了由GPT-4生成的随机动作符号作为这些动作的标记。

这些贴有标记的对照视频被巧妙地纳入调查，其中3个被分散在向参与者展示的主要实验视频中。

为了确定对照视频与其他视频之间的评分是否存在显著差异，研究团队首先采用了弗里德曼检验法（Friedman test）。结果显示，不同视频之间的评分存在明显差异。使用奈曼尼检验（Nemenyi test）进行的进一步事后分析表明，虽然对照组视频之间的p值没有显著差异，但对照组与其他视频相比，p值明显更小，这表明存在显著差异（见图）。

因此，与对照组相比，GPT-4生成的动作评分明显更高。这表明，GPT-4生成的android动作与对照组的感知不同。这一结果表明，该系统可以生成各种动作，从自拍、喝茶等日常动作到模仿鬼或蛇等非人类动作。