对话王田苗：万亿市场之下，大模型机器人还有四大问题未解决 | 硬氪专访（虚拟家庭3中文版）

作者｜黄楠

编辑｜袁斯来

今年3月，一段两分半钟的视频点击量破百万。没有太多花哨的情节，白色背景前，一个人形机器人遵照人类指令，递给对方苹果，归置好桌上的杯子和餐碟，并解释这样做的原因。

这段视频来自当红人形机器人初创公司Figure。成立不过两年，Figure估值已达26亿美元，其投资人包括微软、英伟达、英特尔、贝佐斯等，被戏称金主覆盖半个硅谷。

视频中，Figure机器人启动页面，出现醒目的“powered by OpenAI”。除了自己开发的神经网络技术，Figure这款产品背后显然有OpenAI的生成式AI支撑。

AI让人形机器人拥有新的可能。一个诞生于1950年的概念“具身智能”（Embodied Artificial Intelligence）进入人们视野。

在这一概念下，借助大模型，机器人感知、决策与交互提升，具备更强的自主学习能力和环境适应性。机器人赋予大模型现实的物理载体，让曾经的虚拟智能走进现实世界。

技术和现实的交织足以掀起广阔的想象，业界普遍认为具身智能将是一个万亿市场。

最近一系列的行业进展似乎给出了证明：2月份， FigureAI完成6.75亿美元融资；3月份，英伟达发布人形机器人通用模型Project GR00T，推动机器人理解自然语言，并观察人类行为模仿动作；同是3月份，斯坦福李飞飞团队发布开源“灵巧手”、成本仅2.5万美元；而在4月16日，波士顿动力先是宣布了数字液压驱动的双足人形机器人Atlas退役，不到12小时又发布了代表力量与灵活的全电驱动Atlas 001，展现出腰与脖的全向旋转机构及髋部球形关节……

一级市场的机器人项目投资火热，二级市场的核心零部件厂商、概念股也风起潮涌，人形机器人公司优必选上市后，市值一度超过千亿港元。

然而，“机器人大模型”落地狂潮中，仍有保持谨慎乐观的少数者。北航机器人研究所名誉所长、中关村智友研究院院长王田苗就是其中一员。

北航机器人研究所名誉所长、中关村智友研究院院长王田苗

90年代初，中国工业机器人尚在萌芽期，王田苗已经进入一个和移动机器人相关的国家重大项目组中，研究无人驾驶技术。30多年过去，王田苗和团队研发出国内第一款获得许可证的医疗机器人，也成为硬科技领域低调但不可忽视的创业导师。

2020年，王田苗联合十五位科学家发起成立了“智友科学家基金”，一如既往，王田苗和团队希望发现和培育服务国家科技战略的早期硬科技项目。具身智能、机器人、机器人上游核心部件正是他关注的重要领域。

与硬氪交流的一个多小时里，王田苗语气中难掩对具身智能或将掀起产业变革的兴奋。中关村智友研究院已经覆盖包括高精度RV减速器、全真精密光学影像系统、力传感器柔性智能装备、具身智能AI通用机器人平台等软硬件方向。

但在行业沉浮三十多年后，王田苗早已习惯以冷静的目光审视狂热。以Figure发布的产品为例，“Figure机器人在视频中呈现的延迟时长约为2-3秒，它使用了Pipeline、管道型路线，即自然语言发送后、机器人大脑可以理解并生成指令，由指令来控制。当接入通用大脑后，其延迟速度约要乘以20倍。” 王田苗告诉硬氪。

具身智能走过半个多世纪，某一款产品的爆火消弭并不会落地和商业化等现实性问题。一个温度骤升的行业需要这样的视角，才不至于在蜂拥而入的资本和宏大叙事中迷失。

围绕具身智能的机遇与挑战话题，硬氪对王田苗进行了专访，以下是本次交流（经编辑）：

有效的机器人通用基础模型还未出现

硬氪：对比上一代机器人技术路径，具身智能的革命性体现在哪里？

王田苗：具身智能强调和追求机器人泛化及大规模应用。第一，它通过嵌入大模型交互，使机器人能够听懂语言，理解客户的指示，并让具身智能体到相应的地方进行操作。第二是结构化的固定环境加上感知垂直大模型，能识别并重建环节，拓宽机器人使用的环境，提高智能化水平。因此，人们期待具身智能即大模型机器人能够实现“一脑多机”或“一脑多型”的爆发。

硬氪：具身智能真正得到学术界、工业界、金融界重视是在这两三年。狭义来看，是否可以理解为让机器人通过自我学习进行认知和决策，从而完成相应的任务？

王田苗：从大语言模型的发展开始，我们可以看到语言处理领域的显著进步。传统的解决方法通常是依赖于知识图谱，并结合人为设计的逻辑以及多个小任务模型来解决问题。然而随着技术不断进步，尤其是AlphaGo在围棋领域的优秀表现，以及AlphaZero在蛋白质分析方面的突破，人们开始期待用一个通用模型的训练和微调，来解决所有问题。这也是为什么大模型被视为未来社会数字化、智能化、治理化的运行底座。

机器人作为人们改造世界的工具，具身智能概念诞生后，人们开始思考，机器人领域是不是也能诞生这样通用大模型。

目前工业机器人的装机总量约为300万台，每年世界60万台，中国占总量的一半、是30万台。有这样一个“通用大脑”后，就能大规模、高效率地泛化迁移应用，解决许多问题。

硬氪：那这个机器人通用模型现在出现了吗？

王田苗：目前还没有一个有效的模型出现。

以实时性问题为例。Figure机器人在视频中呈现的延迟时长约为2-3秒，它使用了Pipeline、管道型路线，即自然语言发送后、机器人大脑可以理解并生成指令，由指令来控制。当接入通用大脑后，其延迟速度约要乘以20倍。

硬氪：有什么解决方案？

王田苗：常见的解决方案是，为不同的任务设定多个小模型，并提供不同的参数训练，端到端减少推理成本。另外，将专用小GPU芯片置入到机器人中，也可提高任务实时性，目前特斯拉已在自动驾驶中尝试了这种做法。

硬氪：今年有哪些细分场景的模型值得关注？

王田苗：今年3月，李飞飞团队开发Behavior-1K，完成了对1000种日常活动的定义，并以房屋、花园、餐厅、办公室等50个场景为基础，标注9000多个拥有丰富物理和语义属性的物体。

接着到4月，特斯拉推出多模态大模型Grok-1.5v，利用端到端高速大模型FSD推理，有望连接数字世界与物理世界，解决自动驾驶边缘案例的在线迭代学习问题。

硬氪：业界对机器人「大脑小脑」路线的关注度很高。大脑用大模型认知智能、人机交互以及相关场景的调动，小脑实时控制机器人本体，产生灵巧操作，随着大模型能力提升，是否有可能反哺给小脑，进而带动其感知、行为等能力提升？另外有关技能型劳动操作，会不会具有专业小模型，分别实现高效作业比如焊工、钳工、车工、打磨抛光、喷涂、装配、拆装等。

王田苗：这个问题正是目前学术界、产业界所关注，并且产生争议的地方。

大脑主要负责慢思维与推理，是智力的核心所在；而小脑则关联着对事物的反应敏感程度，更多涉及身体的协调与运动的控制。从逻辑上讲，人们希望今后机器人的大脑能越来越聪明、弱化小脑能力，力图通过大模型得以统一。比如大模型知道什么是苹果，也知道苹果可以饱腹，当我们向机器人提问“什么东西能吃”时，机器人就能自动取出一个苹果。但要真正实现它，现阶段仍有很多挑战。

在人类历史进化过程中，人类行为的智能进化远远先于语言智能的进化。这可能意味着语言、视觉感知、触觉感知以及行为等智能在大脑图谱中并不是同一个位置，很可能是由不同模型所驱动的。莫拉维克悖论也揭示了这一现象--电脑下棋容易、感知和行动智能方面却面临挑战，这通常表现为顶层智能的智能程度高、精度差、反应慢，而底层智能的智能程度低、精度高、反应快。

硬氪：更具体看，还有哪些问题是没有解决的？

王田苗：首先是如何让机器人的“大脑”更聪明。现阶段机器人在解决复杂环境感知、动作生成、灵巧操作等问题时存在局限性。尽管大模型增强了其学习、语义理解、推理及判断能力，但在从理解、推理、判断、执行到运动系列过程中，还涉及其他多种模型算法和软硬件协同的问题，包括感知智能模型、行为智能模型以及原有智能控制理论，如MPC模型预测控制与WBC全身协调控制等。

问题一：机器人基础大模型RFMS问题

同时，Scaling laws（尺度定律，这一定律表明，模型大小、数据集大小和用于训练的计算浮点数，与模型的性能存在线性相关。）能否在机器人基础大模型中复现尚未可知，这些技术的开发和迭代本身具有难度，再加上周期较长、投入高，短期内要突破关键技术仍面临着不小的挑战和风险。

问题二：智能进化与大小模型问题

第三是要解决具身智能大模型与硬件的融合、配合问题。人形机器人的整机结构复杂，仅零部件就超过5000个，从理解指令到执行任务，都是极大的工程量。

因此有观点提出，在机器人的智能层、感知层、动作层中分设Agent，由Agent来调用工具解决具体问题。

问题三：具身智能的体系结构问题

最后就是落地环节。机器人产品化过程需要用时间来产生并验证价值，如果说研究具身智能的出发点是为了降低时间成本或提升效率，进而实现生产力的飞跃，而非为了取代人类工作，那么基于场景的融合打磨与迭代至关重要。

问题四：劳动型具身智能研发优先应用的领域问题

硬氪：要实现专业和通用，过程中的难点是什么？

王田苗：软件方面的挑战主要是真实、实用、海量数据的产生与训练问题。其中，数据收集尤为关键，机器人所需的数据不仅涵盖互联网数据和视频采集数据，更需要包括众多物理环境中的真实交互数据，这些模拟生成的数据是难以替代的。

此外，数据对齐也是一大难题。语言模型能够学习并生成人类能理解的语言，但在机器人领域，我们面临着海量未标注的异构行为大数据，这使得语义与数据的对齐变得异常困难。其中还涉及到语义歧义问题、模型可能产生的幻觉的安全问题，以及标准化测试平台和训练完成后安全使用评价问题等。

另一方面就是效率与成本问题。从仿生机器人的发展历程来看，自1997年日本本田推出的Asimo人形机器人，到2008年波士顿动力的大狗机器人，再到后续活蹦乱跳的人形机器人，甚至从特斯拉人形机器人到Figure人形机器人，我们确实见证了具身智能在大模型、感知、算力等方面有了重大突破。

然而，不能忽视的是，具身智能在结构、驱动、动力等真实能力方面，尚未实现根本性的突破。其中，行为智能成功成本，与“行为数据采样学习次数”乘以“每一次训练成功的成本”得到的结果相比，其比值仍然远远小于1。这导致具身智能的载体性物种在灵巧性、成本性、能源维护性、使用体验安全性等方面仍存在诸多挑战，距离通用机器人走向千家万户还有距离。

此外，实时性和推理速度也是当前具身智能面临的重要问题。目前基于大模型的机器人控制周期在线决策最快也需要50ms，一般延迟达1-5秒，这远远无法满足目前工业应用中对机器人要求10ms以下，最好在3ms的要求。

硬氪：在机器人和AI结合中，有哪些比较关键的成本？

王田苗：机器人结构复杂，核心零部件决定了其精度、稳定性、负荷能力等重要性能指标，其中技术难度最高分别是减速器、伺服系统和控制器，占成本的60-70%。加上传感器等其他零部件，都会增加机器人的制造和后期维护的成本。

此外，为了解决实时性问题，需要大量GPU算力与训练的能耗。有研究测算，每个token（1000 token约为750个单词）的训练成本通常约为6N（N为参数的计量单位），推理成本约2N，即推理成本相当于训练成本的三分之一。

机器人的三大主导方向

硬氪：面向开放场景的泛化问题，技术上该怎么解决？

王田苗：从具身智能的体系结构出发，对机器人下达拿水杯的指令时，这是意图；机器人会将其分解为具体的运动步骤，包括视觉范围内看到水杯、接近、拿起，一系列动作由感知模型和操作模型协同完成，当机器人后续面对多任务场景时，理想状态下它能够利用先前的经验进行复制泛化，减少对编程水平和质量要求。

现实生活中，由于所有的视觉感知都是变化的，人机交互、任务规划、动作轨迹和操作模型需要应对突发性事件，由此也有想法提出，每一层都应有一个具身代理，再根据特定任务产出领域大模型。

硬氪：具身智能会优先在哪些场景中落地？

王田苗：从广义来看，将机器人和大模型运用在社会上，我坚信会从商务、工业、最后再进入消费环节。

其中，商务场景包括物流（室内外与低空）、出租、药店、超市、清洁、接待等，更容易率先取得突破性进展；第二类是工业与农业，工业包括汽车、核工业、化学药品、医院传染病处置、电池回收拆装等，农业则包括种植、采摘、分拣、屠宰、上下料、预制菜、包装等；最后才是消费场景，例如打扫、炒菜、陪护、养老、打扫房间、护工保姆等。

硬氪：在产品形态上是否有创新空间？

王田苗：当然。一方面，有工业界和理性的企业热衷于用新技术、新形态去探索专业化的新应用，他们注重技术的实用性和对专业领域的适用性，希望通过不断的技术创新来推动业务发展。

另一方面，大部分学者或怀揣梦想的创业者则认为通用大模型人形机器人是未来的发展方向，更关注技术的前沿性和未来潜力，相信技术将为人类社会带来革命性的影响。

二者有所不同，前者注重应用上的创新性，后者是完全颠覆性的创新，两条路线哪一条率先走通，都离不开市场检验。我们看到，在物流、清洁、无人出租车等场景中，并没有人形机器人的身影，包括焊接、喷涂等环节中多有应用。市场和供求关系紧密相关，家庭环境更关注其智能化、情感化、安全化，工业场景更强调效率、准确率和成本，场景约束不同，两类场景会刺激不同类型的机器人及其核心零部件创新。

硬氪：如何看待机器人接下来要重点突破的发展趋势？

王田苗：当下有三个主导方向。

第一是攻克核心零部件，包括高动态、高精度、高扭矩的驱动单元，刚柔耦合的新材料灵巧手，人工肌肉与电子皮肤，低成本的生物传感器，上游正向设计的电机或减速器等。

第二是夯实垂直应用并通过出海获得利润，特别是面向具有连锁店或生产服务属性的中小微企业，提供服务应用。

第三是拥抱大模型。包括大脑机器人基础大模型，具身代理Agents，低功耗专用小模型算力GPU与编译器，以及生成式数据动作库；同时，关注小脑实时技能操作、行为智能控制和实时安全评测等方面的技术进展；免编程与安全算法，通用机器人与人形机器人应用App的开发也是重要一环；此外，数据服务--垂直模型专用技能数据服务公司，“劳动”派遣运营服务公司等也有望成为产业链中不可或缺的一方。相信大模型和机器人会是未来大国可持续竞争力的发展焦点。