人均一个XR数字人，元宇宙如何实现“捏人自由”？（来捏个宇宙）

当我们步入一个新世界，最先关注的，就是自己的“人设”。

在2000年，腾讯QQ已经是全民APP，拥有2.91亿用户，100万日活，然而流量却无法变现。幸好当时一个产品经理想出了打扮网络形象的“QQ秀”，一经推出便大受欢迎，腾讯QQ也成功开启了商业化的道路。

QQ秀的成功有其必然性：绝大多数产业都是围绕人这个中心展开的，所以在一个全新的社交空间，当先崛起的肯定是宣示自我存在的产业。同样的道理，在元宇宙概念深入人心的今天，第一个真正崛起的产业也是数字人，我们在短视频可以刷到虚拟明星，各个品牌也开始青睐数字人代理，甚至连马斯克也来凑热闹：虽然没有搞个数字形象，但是他声称将自己的意识上传到了云端，意图实现“数字永生”。

有媒体形容，2022年是数字人的“生育高峰期”。IDC发布的行业报告也显示，在2022年后，数字人将与深度学习、自动驾驶等一起，成为AI最热门的赛道之一，预计到2026年中国数字人市场规模将达到102.4亿元。而在其中，XR数字人被视为用户与虚拟世界链接交互的第一入口，为每个人在元宇宙中创造专属身份，将成为必然趋势。

中央财经大学数字经济融合创新发展中心主任陈端认为，“如果说‘元宇宙’是一种引领性的概念、愿景，那么‘数字人’就是通向未来数字新大陆的重要桥梁。”

但是另一方面，数字人变得人人可有并非易事，因为它不是一个代表身份的“头像”，而是一个生活在元宇宙的“宇宙人”，它是用户的分身，是连接人类与虚拟世界的桥梁，需要“活”起来。

数字人技术难度的一个侧面证明，是国内 AR 头部企业 Rokid 在近日发布了自研 XR 数字人技术，并迅速在业界引起了广泛关注。该技术的最大亮点是支持用户自己打造专属XR数字人，同时将对外部开发者开放。

为什么XR数字人技术会引发如此广泛的关注？这要从为什么我们需要XR数字人，以及XR数字人到底有多难“造”说起。

一、元宇宙“造人”有多难？

数字人发展的核心动力，从本质来说是人对互动体验的无限追求。

为什么随着技术发展，我们有了图文、语音、视频等远程交流方式，但在重要场合依然倾向于人与人之间面对面交流？不仅是因为直接交流舒服且自然，更重要的是面对面能够通过语气、态度，眼神、微表情、身体动作传递更多信息，更好更完善地表达自己的意思。

而这，也正是数字人划时代的地方，它既可以是虚拟世界的虚拟形象，也可以是人在元宇宙中的另一个分身，但无论是哪一种，都会模糊虚拟与现实的边界，为我们带来更为真实的交流互动体验。

因此，Rokid自研XR数字人技术的第一个核心是为用户提供自由“捏人”功能，其包含着完整的数字人设计系统。通过采用五头身比例，将写实风格与卡通风格进行平衡，让数字人的面部特征与表情动作更加突出和生动，同时也更具亲和力。再加上，五官和服装的自由搭配组合, 可以让用户自由“捏”出更具个性的数字人形象。有消息称， Rokid 还将推出更多的五官分类组合和动作，从而迎合全世界不同国家、不同肤色、不同文化的用户的审美。

更值得关注的是，Rokid 自研 XR 数字人技术还将对外开放，既支持第三方 XR 开发者通过 SDK 集成，接入数字人引擎服务，开发属于自己的数字人形象和体系；也可以通过Rokid 即将推出的数字人管理平台，进行数字人形象、服装、道具等设计，以数字人引擎共同丰富元宇宙生态。

但是数字人不只是“捏脸”，其还有更多需要极高技术储备才能实现的功能。自然的声音、流畅的表情与动作，以及良好的互动体验背后，是人物形象模拟、人物声音克隆、自然语言处理、知识图谱解析等多方面先进人工智能技术的复合应用。

目前，无论是苹果的ARkit，还是主打无标记点面部表情捕捉系统的Faceware，或者是通过摄像头来进行面部捕捉的DynamicXYZ，原理都是通过外部设备采集面部表情动作，然后在映射到高精度的3D角色上。

这种以面部捕捉为核心的数字人表情实现方式需要诸多设备。一是成本极高，前段时间在抖音走红的虚拟数字人，几分钟的视频需往往需要花费几十万；二是动作捕捉需要提前预设，在解算效果不好的情况下进行后期的手动精修处理，因此无法适应线上会议、元宇宙空间互动等需要实时生成动画的场景。这些技术难点也让这一类数字人大多用在B端场景，而无法实现C端的大规模应用。

Rokid自研XR数字人技术，则通过更低成本，环节更少的音频驱动方案，实现了数字人的表情帧和声音帧同频，嘴部动画实时生成，为XR数字人在C端应用迈出重要一步。

Rokid是如何做到的？

二、数字人产业的新支点

当前，业界实现数字人实时表情生成的主要方案，是面部捕捉与深度学习的结合。

这套方案的核心，是基于深度学习构建面部实时驱动系统，通过泛化的神经网络模块，根据真人表演录制的视频直接解算出3D角色的面部绑定动画参数值，从而实时驱动角色动画。这一方式较传统的面部捕捉方案更进一步，对设备的和算力的要求同样也会飙升，其成本可以达到百万元级别，而且还会随着建模精度等因素进一步提高，所以难以广泛普及应用。

而Rokid自研XR数字人技术，是根据音素——也就是根据语音的自然属性划分出来的最小语音单位，一个发音动作构成一个音素——来通过ASR（数字语音识别）算法倒推出发音时的口型动作，从而形成实时的表情动作，这样就摆脱了表情动作捕捉对摄像头等设备的依赖，实现口型与表情动作与真人同步匹配。

相较面部识别与深度学习，通过ASR技术生成嘴部表情动作的技术原理并不复杂，为什么却没有普及？原因很简单，这种方案流程较长，需要将语音用ASR技术将语音识别成文字，然后再通过 TTS（从文本到语音）输出音素 bs系数生成表情，这样需要经过两层转换，意义容易失真，同时在低算力的前提下，长流程会形成微妙却致命的“迟滞”，让语音和表情无法绝对同步，也就无法实现数字人交流带来的流畅与自然。

作为以智能音箱技术起家，同时在AR设备领域具有头部地位的厂商，Rokid在语音识别、元宇宙和数字人技术领域都有深厚积累，省略了将语音识别成文字，再由文字输出音素的环节，以更短的识别路径、更低的延迟实现了数字人声音帧和表情帧的绝对同步，而且进一步降低了性能要求，提升了识别的准确度。

目前，在移动端，Rokid 自研 XR 数字人解决方案单帧处理时间实现了低于 3ms/frame，且 CPU 占用率能保证的在 10% 以下。

这一方案不仅降低了XR数字人的生成门槛，也为XR数字人产业带来了一次质变：它让数字人产业可以拓展到手机和AR设备上，为AR设备产业“注入灵魂”。

正如前文所述，XR数字人是连接元宇宙和用户的桥梁，只有当“桥梁”成本足够低，元宇宙相关应用和技术才能被用户广泛接受，并且成为推动AR等设备普及的“*手级应用”和下一代互联网的支点。以Rokid发布的自研XR数字人技术为代表，我们正逐步接近一个技术“奇点”——数字人在C端低成本普及的大门正被缓缓打开，元宇宙的无穷魅力正在被更多人看到与参与。

三、让每个人都成为元宇宙的缔造者

回到这次技术发布，为什么Rokid自研XR数字人技术，着重强调了低成本与开放性？