如何快速、低成本克隆高质量数字人？（合并数字人）

导读本次分享题目为快速、低成本克隆高质量数字人。制作高质量的数字人往往需要较高的成本和较长的时间。数字人的制作时间和成本，与数字人质量，往往存在矛盾。今天和大家分享如何快速、低成本克隆高质量数字人。

文章主要包括下面 4 部分：

1. 克隆数字人概念和定义

2. 黑镜科技 MetaMaker 介绍

3. 如何快速、低成本克隆高质量数字人

4. 小结

分享嘉宾｜杨建顺黑镜科技技术VP

编辑整理｜叶然追一

出品社区｜DataFun

克隆数字人概念和定义

1. 数字人的定义

我们先来看看数字人的定义。数字人是将真实人物或虚构人物，以计算机代码的形式通过人工智能算法，AI 驱动，知识系统进行驱动，最终能够完成一系列的人类行为的数字人人物。根据数据来源，可以把数字人分为虚拟数字人和克隆数字人。

2. 虚拟数字人 VS 克隆数字人

虚拟数字人通常指的是以计算机代码形式存在的一个虚构的人物，可能现实世界中并不存在这个人，通过计算机图形学或者人工智能算法，让人们感觉它像是一个人。因为我们相信并且喜爱他，虚拟数字人就会具备天然的艺术属性和艺术功效，体现的是其创作者的主观创作意志。

今天我们重点讨论克隆数字人。克隆数字人是对一个真实、自然人的各种数据的复制，比如现在的扫描数字人，会对真人的人脸外观和声音进行克隆。克隆数字人可以理解为是真人的代码分支。大家如果看过《源代码》这部电影，就容易理解，克隆数字人是在不同的平行世界，甚至未来的元宇宙中，创建我们自己的分身。

完全意义上的克隆数字人，除了外观、语言的克隆，理论上我们还要对他的思想人格，甚至周围的环境，以及人与人之间的交互等进行 100% 复制。完全意义上的克隆数字人，几乎是不可能的，因为超复杂的系统可以被近似模拟，但无法被精确复制。我们今天讨论的是狭义的克隆数字人，也就是把真实人的外观、声音和行为进行克隆。

3. 数字人产业图谱

我们今天讨论的主题是虚拟 IP，虚拟偶像的范畴。目前的做法，都是通过比较高的制作工艺，较大的成本创造出一个虚拟的偶像。医学数字人需要对现实中的人进行 1:1 的克隆，并不需要非常好看，主要需要真实，更多应用到克隆数字人技术。除此之外，绝大多数的数字人包括服务数字人、平民数字人，或多或少都会用到克隆数字人和虚拟数字人多项技术的融合。目前做的较多的，更偏向演艺数字人、偶像数字人，也越来越多往服务数字人和平民数字人方向发展。黑镜科技一直相信未来世界每个人都会有一个数字化身，我们要做的是平民级的数字人。

我们对元宇宙的愿景，是希望未来人人都有数字人，处处都有数字人，所以我们认为通用的数字人是未来宇宙的核心基础技术。只有依托通用的数字人技术，才能让每个人都能创作出自己的数字人，作为 IP 运营自己，基于数字人再创造他自己的行为。目前，全球范围内，只有少数美国公司在研究通用数字人解决方案，绝大多数国内公司都还只停留在用传统影视技术制作“定制数字人”。而黑镜科技的核心团队，则从十年前就开始布局通用数字人的核心技术研发。

目前市面上并没有关于通用数字人的业务标准，我们尝试给出我们对通用数字人的理解。我们理解通用数字人需要做到零门槛、低成本、高效率、个性化，因为只有这样才能让全民都能参与和拥有，能够符合人性的需求，做到个性化表达。同时数字人要用起来，我们希望能够做到场景通用、资产通用、驱动通用、平台通用。这是我们理解的通用数字人业务标准。

黑镜科技 MetaMaker 介绍

接下来我将重点介绍黑镜科技推出的 MetaMaker 的通用数字人解决方案。

黑镜科技拥有全栈式虚拟化技术，提供完整的企业虚拟化服务。致力于将前沿数字技术平民化，成为让每个行业和组织都能参与共建元宇宙基础设施，实现生产力普惠，引领虚拟化时代。

1. MetaMaker Studio 云原生 SaaS 软件平台

我们推出的 MetaMaker 是一款云原生的 SaaS 软件。我们先来看看软件的具体使用，使用方法比较简单。

第一步先上传一张照片，它会帮你创建出虚拟形象。然后可以进行容貌和服装调整，这里集成了大量的资源库。可以对形象配置使用场景，产品页面类似早年 Flash 的编辑器。MetaMaker 的特色是内置了海量的数字人，以及预置了场景、动作、表情、物品、素材、音频。里面的配置项都是 AI 化、参数化的，有自动字幕，TTS 配音，动作添加，背景素材，能够快速制作出一个视频。

这个软件的核心是把数字人以及他的动作、表情实现 AI 化和参数化，让有限的资源产生无限的效果。比如要做一个 TTS 或者语音转口型的动画，在右边的属性面板可以进行参数化调整，甚至可以调整每个动作、每个骨骼的驱动。在大部分情况下，使用起来都是 AI 化、自动化的，比如要拿一个水杯，有一个 ik，帮助用户做简洁的处理。

我们的客户已经用这个工具做了大量的案例。这是客户使用 MetaMaker 做出来的案例合集。不论是在客服场景，还是播报类、教育类，甚至是一些情景化短剧，都用上了 MetaMaker。这个产品今年的目标是服务一万家企业，让企业能用上普惠型、通用的数字人技术，解决具体的视频生产问题。

MetaMaker 可以一键生成数字人，涵盖捏脸系统、海量服饰、语音克隆、行为驱动，能够零门槛打造高质量、声情并茂的数字人 IP，做到一人一面、智能驱动。我们一直致力于做通用的数字人技术，所以它使用起来低门槛、低成本、高效率、个性化，并具有通用性。相比影视数字人、动捕数字人、视频数字人，它最大的特点就是真人 AI 重建，千人千面，使用几乎无成本，毫秒级生成数字人，能够语音克隆，应用在各个领域。

2. 黑镜数字人 VS 其他数字人

这个数字人的质量效果，可能相比 MetaHuman 还不是那么像，这也是目前市场的一个常见问题。想要做到快速、低成本的生产数字人，其实很难达到高质量。全球市场上有一些公司在做通用数字人，包括美国 EpicGames，以及英伟达即将推出的 Avata 平台。我们在研究 MetaHuman 的时候，发现它确实能做到一些通用数字人技术，十几分钟就能捏出虚拟数字人，免费开源，运行的效率和效果都非常好，也能够去做个性化创作，导入到各平台去驱动数字人。

但在实际使用时，我们还是会发现其中的问题，首先 MetaHuman 不是为了“克隆数字人”，而是帮助用户创作“虚拟数字人”，更像是捏出一个虚拟数字人。当我们试图通过工具去还原真人时，发现很难创造出“克隆”人。当然他也推出了 MeshToMetaHuman 的插件，但仍需要巨大的成本去扫描数字人。

MetaHuman 的多样性，主要取决于内置资产数据库的丰富程度，现在内置大概 59 个人脸，十几款毛发，以及少量服装，资源比较有限，同质化比较严重。那么在做自定义资产的时候，还是需要巨大的创作成本和专业的建模师、动画师参与。

虽然 MetaHuman 捏出一个人比较快，但后续的集成开发困难，仍需要专业的 UE 引擎工程师和技术美术，并没有很好地解决引擎端的资产适配、语音驱动、行为驱动等问题。更根本的原因是，MetaHuman 受 Epic 公司定位的影响，解决的是引擎平台的问题，没有解决产品、服务、解决方案这一层的问题，这一层的问题其实才是真正离用户最近的，才能让普通人感觉到数字人的低使用门槛和低成本。国内有较多公司基于 MetaHuman 开发，入门比较容易，但要做出突破性成果就会比较困难。

我们将 MetaMaker 原有的通用解决方案的技术，与 MetaHuman 的开放思想结合，想做更多尝试。我们和 MetaHuman 都在做通用的数字人，都相信未来人人都有数字人，处处都有数字人。基于 MetaHuman 我们也开发了一套能够快速、低成本克隆高质量数字人的流程。接下来我将重点分享这个流程。

快速、低成本克隆高质量数字人

1. 传统扫描流程 VS 黑镜改进的扫描流程

传统的扫描流程通常要光场扫描，然后导入 Z-Brush 等软件修改，还需要有大量的绑定和融合变形，同时需要专业的场地，专业的建模师、绑定师、技美。整个时间周期比较长，两周到两个月不等，整体成本在十几万元以上，甚至到百万元级别。

自从有了 MeshToMetaHuman 插件之后，极大的简化了 Z-brush 和绑定的流程，但其他的流程没有太多改进，比如贴图仍没有提供解决方案，拍摄依然需要专业的场地和设备，也需要专业的技美。整个流程缩短到两天或到两周的时间不等，成本在数万元量级。淘宝有一些提供基于 MetaHuman 进行虚拟数字人捏脸的服务，成本可能能够控制在几百元，但如果要克隆一个人，目前成本和时间周期还是较长。

黑镜基于 MetaHuman 这一套流程做了优化。MeshToMetaHuman 插件是五月公布的，我们基于自己的理解做了一套改进流程。这套流程不需要复杂的光场，只需要简单的场地、普通的手机进行拍摄。也不需要专业的技美，只需要一个普通的会 PS 软件的技美。整个时间能够控制在半天到一天，成本降低到数百元量级，最多不会超过几千元。

接下来我以自己在公司拍摄为例进行介绍，总共用了不到半天的时间。如果熟悉这套流程，一天可以做 3~4 个数字人，大概 2~3 个小时就能够创造一个克隆数字人。

下面是我自己用手机拍摄的搭建效果。

2. 所需的硬件与软件

这套流程所需要的硬件和软件如下：

硬件方面，我在公司的一个墙角，用一块白布挡光，然后坐在椅子上用小米的手机进行自拍。只需要自拍就可以，不需要其他人帮助。

用到的软件包括：MetaShape 1.8，UE 5 MeshToMetaHuman MetaHuman Creat-or，PhotoShop 2022。使用软件的过程中，对软件进行了一些开发。

3. 快速、低成本克隆高质量数字人的步骤

第一步：用手机自拍。需要注意，白布的作用是使光照均匀，不会出现明显的高光。手机相机设置专业模式，设置手动曝光。主要拍摄上中下 180° 的角度，需要拍摄 50 多张照片。

第二步：导入 MetaShape 进行照片对齐，看到自拍出来的上、中、下三圈照片。基于软件，我们做了插件，写了脚本能生成相应的点云，以及生成网格和贴图。这个是烘焙出来的贴图，比较模糊。

第三步：走 MeshToMetahuman 的插件，按照官方流程的步骤操作，可以快速得到人体模型。

第四步：第三步其实已经将模型上传到了 MetaHuman Creator 中，可以分配肤色和纹理，毛发和服装，做一些简单的调整。这样我们能够得到虚拟人，并下载下来。这一步我们已经得到了一个所谓的克隆人，但这个克隆人的效果，感觉不像真人，对真人来说没有认同感，因为它没有我的贴图，只有一个模型，最终的效果不太好。

我们也基于这个模型，集成到了 UE。这是早期 MeshToMetahuman 的官方插件刚出来时，我们做的试验。试验的效果和质量，都达不到我们的预期，或者个人的认同。虽然相像，但是对于克隆数字人来说，效果差距较大。

第五步：后面我们又开发了插件，将 MetaHuman 的网格导出，导入 MetaShape 中进行重投影。这时得到的贴图能达到 4k、8k、16k。这取决于我们拍摄的手机。小米手机自拍的效果能够达到 2500 万像素，像华为或者苹果的手机，有的手机像素更高，最终导出来的人脸贴图可以达到 8k 的量级。

第六步：此时得到的贴图，需要在 PhotoShop 中进行简单处理，理论上需要一位有经验的技美处理。我自己现学了 PS，进行了处理。处理时，需要注意眼睛鼻子，这些在拍照时有些信息无法得到，需要进行图像处理。头发和外围的融合需要处理。再处理高光和矫正色相。

第七步：最终再把贴图导入 UE，替换 MetaHuman 中的材质，并调整灯光和环境。这时的克隆数字人，已经有了真人的感觉。我自己的克隆人效果，我觉得可以打到 80 分，能达到自我认同。这个效果做出来花了大概 3 个小时，时间充足的话可以由专业技美进行调整优化，最终能达到 90 分的效果。

我们做出来的克隆数字人，是可驱动的，我们希望结合 MataMaker 平台的语音驱动、动画驱动能力。我们将其集成自研的口型驱动算法，实时驱动口型的演示效果。

总结

我们希望做通用的数字人解决方案，能够达到零门槛、低成本、高效率、个性化，场景通用、资产通用、驱动通用、和平台通用的通用数字人标准。目前 MetaMaker 在零门槛和低成本，以及高效率和个性化上，基本达到通用数字人的标准，但在通用性上还只走了一小步，要实现场景通用、资产通用、驱动通用以及平台通用上，还有比较多的挑战。

我们今天也提到了 MetaHuman 通用数字人的技术，基于 MetaHuman，我们做了一些改进，可以快速和低成本生成克隆数字人。这套改进方案可以让普通人在普通的场地，通过手机自拍，再结合软件，就能克隆出高质量数字人。这套方案目前仅迭代了两个月，还有一些不足，克隆数字人很真实，但不够美。缺乏 Normal 等贴图。贴图仍需要技术美术修正，以及需要熟练掌握软硬件工具，需要一定经验。

接下来我们会对这套流程进行标准化、模板化，优化迭代效果和效率。结合 AI 技术，以及自动化技术。目前 AI 组件的技术，得到的数字人质量比较有限，贴图可能仅有 1K。所以我们在思考，先用工具重现出大量高质量的数字人，再反哺给 AI，通过 AI 自动化得到高精度的模型和贴图，进一步缩短克隆数字人的制作时间。同时也需要根据克隆数字人在实际应用场景的反馈，进行迭代优化。

今天的分享就到这里，谢谢大家。

｜分享嘉宾｜