2024，人形机器人爆发元年？从难点和时机出发聊聊可能性（倒水模拟器红包版）

就在一年前，当我们带着“尝鲜”的想法注册了 ChatGPT 的账号，向那六个“花瓣”的图标发送第一句“Hello”时，我们或许还无法想象一年后的我们已经开始可以期待无数科幻电影刻画描述的“人形机器人”正在向我们走来。

是的，大模型经历了 Chat 与 Agent 的疯狂之后，随着 Sora 作为所谓“世界模拟器”的出现，科研界与资本市场都不约而同的将目光投向了作为实体的 Robot，尤其是人形的 Humanoid Robot。

回想人类的进化历程，我们先有了“身体”，才逐步在自然选择之中进化出了“智能”，而从 2023 年伊始，大模型的发展似乎将智能的进化颠倒过来，作为“智能大脑”出现的大模型正在一步步的寻找自己的身体，2023 年下半年是“工具”，而 2024 年似乎直指“智能的身体”。

如果先不论 “xxx 是 xxx 元年”这种句式是否有画饼之嫌，可以预想到的是，可能不同于 Chat 的聊天机器人，也不同于 Agent 的自动化助手，作为人形的机器人一旦出现并广泛应用，将不单单是某一块的所谓“智能产业”的变革或是对某个“机器人行业”造成冲击，相反一种具有拟人，尤其是具备“生产力”属性的“人造机器”的出现，将不单单是一种“增强生产力的技术”，而是作为“取代性技术”对世界政治、经济乃至文化带来变革。

那么，回到问题之初，当下我们正历经的 2024，真的有可能是人形机器人元年吗？让我们先从“人形机器人”这个问题出发。

GPT-3.5研究测试： https://hujiaoai.cn

GPT-4研究测试： https://higpt4.cn

Claude-3研究测试（全面吊打GPT-4）： https://hiclaude3.com

皇冠上的明珠——人形机器人困难在哪？

如果随意在路上拉一个没有学过人工智能的人问“人工智能是什么？”，可能一个最朴素的答案就是“让计算机像人类一样行事”。然而，人工智能这门学科从上世纪六十年代至今走过六十年，无论是从最初的 Rule-Based 的 AI 还是基于机器学习的 AI，亦或者是目前风光无限的基于大模型的 AI Agent，我们真的可以说现在计算机已经可以“像人类一样行事”了吗？

显然，答案是否定的。

尽管我们看到 AI 一路走来，从最开始在最简单的游戏里频频失足，到 AlphaGO 完全摧毁围棋，从在 28x28 的灰度图上的完成的手写数字识别，到目前遍布大街小巷在现实生活中无处不在的计算机视觉应用，乃至 ChatGPT 横空出世，表现最佳的 GPT-4 甚至于被认为通过了图灵测试。

但是无论这些算法如何神乎其技，我们都可以认为他们只是在一个由计算机构筑的虚拟世界中完成了一系列的加减乘除，或许他们是一个“黑箱”，但是只要一个盒子那么唯有存在一个人去将其“打开”，这个黑箱的功能才有用武之地，换言之，目前的 AI，似乎都缺乏了直接对我们身处的“物理世界”主动施加影响的能力。

而这一点“主体性”与“能动性”，却构筑了当下 AI 与“像人类一样行事”之间巨大的鸿沟与壁垒。那么如何让 AI 从黑客帝国般的虚拟编码中“解放”，现身于物理世界之中呢？机器人学家 Rodney Brooks 提出了一个口号：“智能需要一个身体”

▲日本机器人学者石黑浩（Hiroshi Ishiguro）制造的人形机器人 Geminoid F

早在上世纪八十年代，在机器人领域，Brooks 就提出了 Embodied 具身化的概念。具身这个中文似乎有点抽象，但是如果分析 Embody 的英语词源可以发现 em（向内）组合body（身体），引申意即为“赋予有机体形式”。而对“智能”而言，一个真实存在于物理世界的“body” 即是一种“能力”，又是一种“限制”，body 赋予了智能与物理世界互动，影响甚至改变物理世界的能力，同时，body 的边界也使得智能无法如 ChatGPT 一样在网络世界中近乎“无所不能”。

尽管这种“把机器人扔给真实世界，让其通过感知、行动与试错来获取知识”的想法并非什么灵光乍现的天才想法，但是真正要想让机器人在真实世界中做的与人类一样好，其复杂程度却远超人们一开始的设想。人类身体在上万年的进化历程之中，形成了一套完整的基于生物学的信息处理机制，譬如当人类完成上楼梯这个动作时，大脑可以精准的感知足部的受力快速找到合适的重心，再通过迅速的对全身肌肉进行调整，以保证重心稳定。

这样一套在我们潜意识以外，由我们“训练有素”的身体无意识完成的整套动作迁移到机器人场景中却显得格外复杂，对机器人而言在物理世界中可能成功完成某一任务的方式只有一种，但是失败的方式却有无数种，哪怕我们完整的模仿对人类身体的解剖学分析与并对可能的行为动作进行细致的归纳与分类，但是这种自上而下有意识的“复现”似乎始终难以完美“模拟”生物细胞万年进化习得的“本能”。

换言之，刻在我们身体的 DNA 内，我们的祖先似乎已经将一个“世界模型”写入了我们的身体内，而当我们继承这副身体，哪怕我们还处在混沌的无意识阶段（譬如婴儿），身体本身已经可以完成大量与现实世界进行互动的复杂动作，而建立在这些与物理世界互动的经验之上，我们才能逐渐组织与习得如语言、知识、文化、意义等一系列被我们更常称为“智能”的“上层建筑”。

而人形机器人，或者说具身机器人真正的难点，就是在于构造这样一副经过大自然千锤百炼的“身体”，复现我们人类记录于基因中的“世界模型”。

而这一条路走的似乎异常坎坷。

人形机器人简史——我们走到哪一步了？

一般大家会认为，世界上第一台人形机器人诞生于 1969 年，由日本早稻田大学的加藤一郎教授开发的 WABOT-1 的 WL-5号两足步行机，这个机器人由液压驱动，可以实现两足“行走”，但是行动异常缓慢，每步行走距离约为 15 厘米，大约需要 40 秒的时间。

1986 年，日本本田开始研制人形机器人 ASIMO，并于 2000 年发布第一代机型，对比 WABOT-1，这款身高 1.2 米，拥有宇航员造型的 ASIMO 机器人能够流畅的做到双脚直立行走，并且具有每小时 1.6 公里的时速。

2003年，日本工业技术研究院（AIST）推出了 HRP-1S，可以在工程机械的驾驶室内完成对操纵杆的操纵，同年，日本丰田发布“丰田音乐伙伴机器人”，实现了机器人吹喇叭、拉小提琴

2005年，本田升级 Asimo，在行走的基础上第一次实现了一个可以进行“跑步”的机器人，速度达到 6km/h

2013年，美国波士顿动力公司的初代 Atlas 登场，这个后来让波士顿动力公司远近闻名的机器人高 1.8 米，重量约 150公斤，对比 Asimo，Atlas 具有更加出色的运动稳定性，即使被外力干扰 Atlas 也仍然可以保存平衡。

另一边，从 2007 年到 2016 年，本田的 Asimo 先后实现了倒退走、单腿条，9km/h 奔跑，踢足球，打手语，倒水等一系列对协调性与精细程度要求更高的任务。

2017 年外后，Atlas 的运动能力也逐渐增强，从搬运物体，到跳跃、后空翻、倒立甚至于完成复杂的体操动作

2021 年，马斯克在特斯拉 AI 日中首次提出“人形机器人商业化”的思路，并提出将在 22 年就要发布初代版本。

而很快 2022 年马斯克没有食言，推出了人形机器人 Optimus 的“初代机”，可以完成如搬运东西，给花浇水等的简单任务。

直至 2023 年，波士顿动力展示了 Atlas 可以流畅的行走、与人类协作，完成指定任务等能力：

甚至于在 2023 年底，马斯克发布的第二代 Optimus，其关节与动作的灵活性令人惊叹“这是一个视频！而不是一个 CG？”

然而，哪怕当下人形机器人的灵活性、运动能力已经足够让人浮想联翩，但是正如马斯克在发布 Optimus 的一代版本时指出的那样：“现有的其他类人机器人「缺少大脑」”，而在第二代 Optimus 发布后，马斯克也“诚实”的承认：“第二代 Optimus 并没有自主执行如叠衣服这类操作的能力”

从 1969 到 2023，尽管从硬件上、从运动控制上、从目标遵循上具身机器人逐步拥有了一具更好的身体硬件，譬如肌肉，譬如神经。但是目前的人形机器人似乎仍然停留在“模仿人类一般行事”，而非“如人类一般行事”。在当下，具身机器人对世界的理解也似乎仍然停留在一个由工程师通过指令搭建的“规则世界”，而非机器人通过自我探索，自我建模而自我构筑的“真实世界模型”。

从“是什么”到“可以做什么”——人形机器人走到现在进行时了吗？

然而，这一切在 2024 年或许将会发生改变。

换用当下许多媒体的说法：“2024 年将是机器人元年”，尽管许多媒体做出这一判断的主要依据并不来源于技术，而是来源于资本市场的暗潮汹涌。2023 年 12 月，号称「人形机器人第一股」的优必选上市，正式拉开今年机器人融资热潮的序幕，今年 2 月，人形机器人公司 Figure AI 从亚马逊、英伟达、微软和 OpenAI 等多家巨头公司获得了新一轮约6.75 亿美元（约合人民币48.7亿元）的融资。而在国内，根据电子发烧友的统计，从 2024 年 1 月 1 日至 3 月 20 日，国内机器人行业发生了 24 起融资事件，涉及人形机器人、手术机器人、工业机器人等多个领域。

所谓兵马未动，粮草先行，资本市场突然众星捧月机器人，一方面源于特斯拉在人形机器人领域飞速的技术迭代，让资本突然看到了人形机器人大规模商业落地（无论是 B 端还是 C 端）的可能；而另一方面，可能也是更为重要的一方面在于，在 23 年大模型落地从 Chat 走向 Agent 后，又开始将目光转向搭载 Agent 的“身体”，也就是人形机器人。

归根结底，目前所有人期待的让人形机器人从“模仿人类”走向“像人一样”的点石成金的魔法仍然是大模型 LLMs。

3月19日，在英伟达的 GTC 大会上，除了超级芯片 GB200，英伟达还推出了一款用于机器人领域的通用基础大模型 Project GR00T（Generalist Robot 00 Technology，通用机器人技术00）。这个名为格鲁特的模型通过广泛的学习多模态的知识，希望可以做到让人形机器人通过行动学习与建模现实世界。在演讲中，黄仁勋提到：“由 GR00T 驱动的机器人可以理解自然语言，并通过观察人类动做出自然的模仿动作。”

而与此同时，英伟达而推出了旨在作为“机器人大脑”的 Jetson Thor 计算平台，以高性能和低功耗为核心，结合 Project GR00T，英伟达已经初步起草了一个未来人形机器人的“智能核心”。

然而，这还不够。

在机器人领域，有一则著名的悖论莫拉维克悖论，它讲“让机器在下棋中展现出较高的水平是相对容易的，但是要让机器有如小孩般的感知和行动能力却非常困难”。

算力支持大模型并无法为我们许诺一个让人形机器人完美建模物理世界的未来，甚至于已经被 OpenAI 称为世界模拟器的 Sora，也无法保证其未来真的可以作为一个“世界模型”而出现，其构建的逼真世界究竟仍然是一种精妙的伪装还是已然内含对世界本质的理解我们仍然不得而知，而大模型究竟是否能够“赋能”人形机器人，让自回归产生的“正确答案”变成行动上的“正确决策”，乃至变成如人类一样与身俱来如条件反射一般的“先天能力”，或许我们还不得而知。

但是，如果我们换个角度更换一个提问方式，不再询问“人工智能是什么？”，而是提问“人工智能能为我们做什么？”。那么，正如我们知道 ChatGPT 不是人，但是我们仍然可以期待它去完成许多之前只能由人完成的事。从 2024 年开年往下，我们完全可以期待“算力支持大模型人形机器人”的组合在一切“与人相关”的领域内凭借其高通用性与“人形”的高度自然性，以一种有别于大工厂机械臂的形态融入我们的社会。

而这一点，在 2024 年，我们可以从英伟达的 GR00T 项目中看到可能，也可以从特斯拉过去在“纯视觉感知算法电车硬件供应链”的优势看到人形机器人大规模生产的可能，我们可以从 Figure AI 让机器人在学习咖啡制作过程中主动学习到纠错看到可能，也可以从斯坦福 3.2 万美元造价成本的 Mobile ALOHA 上看到可能。

最后，如果我们把“2024 年将是人形机器人元年？”这一问题一分为二，2024 年人形机器人可以开启一个新的基于“世界模型具身智能”时代，构建如人一般的人形机器人吗？我想这很难。但是 2024 年人形机器人会取得突破并开始逐渐走向我们的生活吗？事实上，这个问题的答案已经是一个现在进行时了！