一文读懂“虚拟偶像背后的核心技术”（3D虚拟偶像）

上一期我们讲了虚拟偶像的发展历史与现状，并且对其未来也展开了想象。那么虚拟偶像背后依靠的是什么技术，是如何被创造制作的呢？

这一期我们就来给大家软科普一下每一代虚拟偶像的技术原理，希望大家看后能对当前主流技术有个大概的了解，有兴趣的技术达人可以尝试创作自己的虚拟偶像。

虚拟偶像技术基本上可以划分为三代，第一代是赋予虚拟偶像语言和歌唱能力的声库语音合成的技术；第二代是赋予虚拟偶像肢体动作与面部表情能力的实时动作捕捉与渲染技术；第三代则是实时人体全息三维重建技术。

技术虽说分为三代，但是它们的关系不是替代式的，而是升级、扩展式的。

第一代：语言与歌唱能力的赋能

第一代技术的标志性节点是日本乐器公司雅马哈于2003年2月推出了一个名为Vocaloid的软件，该软件使用语音合成技术，使用户在软件中输入音调和歌词，就可以合成出原为人类声音的歌声。

以初音未来为封面的语音合成软件Vocaloid

简单的说就是，你只要会写词，谱曲，就能让虚拟人唱你创作的歌曲，而且具体歌手的声音可以通过替换声库替换。

这赋予了虚拟偶像对话，唱歌的能力，同时因为其简单易用性，所以正如前面一期文章所提到的，出现了大量的UGC（用户创作内容）内容，推动了行业的快速发展。

第二代：肢体动作与面部表情的赋能

第二代技术是实时动作捕捉（后简称动捕）。这一项技术催生了虚拟主播的出现与发展。现在绝大多数的虚拟主播其实背后都是真人在直播，只不过是真人通过动捕技术将一言一行投影到了虚拟形象上，使虚拟形象的动作和真人毫无差别，达到了逼真、自然的效果。

对，买了动捕设备咱也可以当虚拟主播。

Live3D-虚拟原理简单示意

对于动捕技术，狭义的动捕只是指人体四肢，头部与躯*动作。而广义的动作捕捉则包括手指关节，细节表情等。

而动作捕捉技术又分为多个技术流派，现在相对成熟且被应用广泛的主要有三种：光学动捕、惯性传感动捕和视觉动捕。

光学动捕技术

光学动捕技术其实早就开始大规模应用，其中一个主要应用领域就是电影制作。

比如，《猿族崛起》中威风凛凛的凯撒，显然不可能是接受过训练再扮演聚众起义，挂了之后领盒饭的动物演员；

《猩球崛起》中面部表情光学动作捕捉技术

而《加勒比海盗2》中的鬼怪船长和船员，也不可能是导演与阴曹地府合作请来表演然后一起赚钱分票房的；

《加勒比海盗2》中肢体光学动作捕捉技术

他们的举手投足，音容笑貌，都是对实际演员动作捕捉后，再运用计算机图形学技术进行逼真渲染的重映射。

看图之后读者可能已经猜了个大概，光学动捕技术原理也不难理解，分三步：1. 事前在被捕捉对象上放置很多特定的标记点，2. 然后通过摄像机对该对象上的标记点的识别和跟踪，3. 最后综合分析计算就可以完成对象的动作捕捉。

比如，如果想要对人体四肢和躯干进行动作捕捉，在四肢和躯干放置标记点就可以了，例如上图所示；但如果要捕捉面部表情，则需要在面部关键的位置放置很多标记点，标记点越多，所能捕捉的细节也就越多，可以理解为采样分辨率也就越高。

而在实际拍摄中，为了达到好的动捕效果以及满足精度要求，经常需要配置很多枚摄像头，保证360度无死角覆盖。

光学动捕实际拍摄场景示意图

然后我们把光学动捕技术做到实时，选择好虚拟形象，就可以当虚拟主播做直播了。 看看这位小姐姐惊讶到了自己的表情，几乎无延迟的动捕与投射，难辨真假的皮肤与衣服的替换，你是否也为当前的技术感到吃惊，有想创造自己虚拟形象的冲动呢？

imocap 实时动捕与渲染技术

看到这儿肯定有读者关心这样一套光学动捕设备需要多少钱？

做光学动捕技术国际上比较出名的公司有Vicon和Optitrack两家，虽然后者已经被国内公司利亚德收购。但不管这两家哪一家，一套光学动捕系统的价格都非常高昂。

光学动捕系统的价格和配置有很大关系，配置包括动捕空间大小，动捕对象的数目，动捕精度，动捕环境是室内还是室外等。

而电影级别的配置一般是百万级别，显然这个肯定是普通用户消费不起的，这还不考虑后期图形开发处理的成本。但如果只考虑1-2人的直播表演，那么设备和虚拟形象开发成本基本可以控制在15万~50万之间，甚至更低。但是这样的价格对于大部分人来说还是略显昂贵。

那么，动捕有没有便宜亲民点儿的方案呢？确实有的，这就是近些年逐渐成熟起来的惯性传感动捕技术。

惯性传感动捕技术

光学动捕技术的成本之所以高，一个重要原因就是摄像头等硬件的成本很高，而当捕捉范围扩大的时候，摄像头等硬件数目的成比例增加更是拉高了成本，而软件的边际成本很低则可以大批量复制。所以降低成本需要从硬件入手。

那么一个思路就是将摄像头捕获标记点的传感方式换成其他低成本的传感方式。按照这个思路，惯性传感动捕技术就出现了。

先来介绍下什么是惯性传感器。惯性传感器大家并不陌生，每个人手机里都有，微信运动里的步数就是通过它测量出来的，只不过大家不知道它的存在和名字而已。 它计步的原理就是通过惯性原理测量手机的运动参数，因为手机运动肯定是人在动，通过相关的模型就可以计算出用户可能的步数。因为它利用的是物体皆有惯性这个物理原理，所以叫惯性传感器，它能测量的物理量有加速度和角速度。

同理，可以把惯性传感器放置在需要动捕的点上去捕捉相关的运动参数，然后在全身相应的地方放置相应的惯性传感器即可完成全身的动捕。

诺亦腾（Noitom）惯性传感动捕系统

当然，惯性传感动捕系统的算法要比微信运动计步的算法复杂的多的多，而且使用的硬件器件本身也会好一些，但还是要比光学动捕的摄像头便宜非常之多，一个民用级别的惯性传感器也就十几人民币。

除了成本低，惯性传感动捕技术的优势还在于不受光线影响，动捕范围几乎不受约束，方案便携，搭建快速等。但细心的读者可能也发现了，惯性传感动捕目前无法对人的面部表情进行动捕，面部表情的动捕还需要借助光学动捕技术完成。

说了这么多，到底价格如何？刚开始的时候一套惯性传感动捕系统的价格也是高企难下，因为需求在那里摆着。但是随着技术与市场的发展，需求者的增加，尤其近两年由于虚拟现实（VR）、增强现实（AR）的发展使得动捕技术的使用有平民化的趋势，一套惯性传感动捕系统的价格一降再降，如今一套诺亦腾轻量级的惯性传感动捕系统可是只需￥16800，就能带回家。