一文读懂“虚拟偶像背后的核心技术”

一文读懂“虚拟偶像背后的核心技术”

首页模拟经营3D虚拟偶像更新时间:2024-05-02

上一期我们讲了虚拟偶像的发展历史与现状,并且对其未来也展开了想象。那么虚拟偶像背后依靠的是什么技术,是如何被创造制作的呢?

这一期我们就来给大家软科普一下每一代虚拟偶像的技术原理,希望大家看后能对当前主流技术有个大概的了解,有兴趣的技术达人可以尝试创作自己的虚拟偶像。

虚拟偶像技术基本上可以划分为三代,第一代是赋予虚拟偶像语言和歌唱能力的声库语音合成的技术;第二代是赋予虚拟偶像肢体动作与面部表情能力的实时动作捕捉与渲染技术;第三代则是实时人体全息三维重建技术。

技术虽说分为三代,但是它们的关系不是替代式的,而是升级、扩展式的。

第一代:语言与歌唱能力的赋能


第一代技术的标志性节点是日本乐器公司雅马哈于2003年2月推出了一个名为Vocaloid的软件,该软件使用语音合成技术,使用户在软件中输入音调和歌词,就可以合成出原为人类声音的歌声。

以初音未来为封面的语音合成软件Vocaloid

简单的说就是,你只要会写词,谱曲,就能让虚拟人唱你创作的歌曲,而且具体歌手的声音可以通过替换声库替换。

这赋予了虚拟偶像对话,唱歌的能力,同时因为其简单易用性,所以正如前面一期文章所提到的,出现了大量的UGC(用户创作内容)内容,推动了行业的快速发展。

第二代:肢体动作与面部表情的赋能


第二代技术是实时动作捕捉(后简称动捕)。这一项技术催生了虚拟主播的出现与发展。现在绝大多数的虚拟主播其实背后都是真人在直播,只不过是真人通过动捕技术将一言一行投影到了虚拟形象上,使虚拟形象的动作和真人毫无差别,达到了逼真、自然的效果。

对,买了动捕设备咱也可以当虚拟主播。

Live3D-虚拟原理简单示意

对于动捕技术,狭义的动捕只是指人体四肢,头部与躯*动作。而广义的动作捕捉则包括手指关节,细节表情等。

而动作捕捉技术又分为多个技术流派,现在相对成熟且被应用广泛的主要有三种:光学动捕、惯性传感动捕和视觉动捕

光学动捕技术其实早就开始大规模应用,其中一个主要应用领域就是电影制作。

比如,《猿族崛起》中威风凛凛的凯撒,显然不可能是接受过训练再扮演聚众起义,挂了之后领盒饭的动物演员;

《猩球崛起》中面部表情光学动作捕捉技术

而《加勒比海盗2》中的鬼怪船长和船员,也不可能是导演与阴曹地府合作请来表演然后一起赚钱分票房的;

《加勒比海盗2》中肢体光学动作捕捉技术

他们的举手投足,音容笑貌,都是对实际演员动作捕捉后,再运用计算机图形学技术进行逼真渲染的重映射。

看图之后读者可能已经猜了个大概,光学动捕技术原理也不难理解,分三步:1. 事前在被捕捉对象上放置很多特定的标记点,2. 然后通过摄像机对该对象上的标记点的识别和跟踪,3. 最后综合分析计算就可以完成对象的动作捕捉。

比如,如果想要对人体四肢和躯干进行动作捕捉,在四肢和躯干放置标记点就可以了,例如上图所示;但如果要捕捉面部表情,则需要在面部关键的位置放置很多标记点,标记点越多,所能捕捉的细节也就越多,可以理解为采样分辨率也就越高。

而在实际拍摄中,为了达到好的动捕效果以及满足精度要求,经常需要配置很多枚摄像头,保证360度无死角覆盖。

光学动捕实际拍摄场景示意图

然后我们把光学动捕技术做到实时,选择好虚拟形象,就可以当虚拟主播做直播了。 看看这位小姐姐惊讶到了自己的表情,几乎无延迟的动捕与投射,难辨真假的皮肤与衣服的替换,你是否也为当前的技术感到吃惊,有想创造自己虚拟形象的冲动呢?

imocap 实时动捕与渲染技术

看到这儿肯定有读者关心这样一套光学动捕设备需要多少钱?

做光学动捕技术国际上比较出名的公司有Vicon和Optitrack两家,虽然后者已经被国内公司利亚德收购。但不管这两家哪一家,一套光学动捕系统的价格都非常高昂

光学动捕系统的价格和配置有很大关系,配置包括动捕空间大小,动捕对象的数目,动捕精度,动捕环境是室内还是室外等。

而电影级别的配置一般是百万级别,显然这个肯定是普通用户消费不起的,这还不考虑后期图形开发处理的成本。但如果只考虑1-2人的直播表演,那么设备和虚拟形象开发成本基本可以控制在15万~50万之间,甚至更低。但是这样的价格对于大部分人来说还是略显昂贵。

那么,动捕有没有便宜亲民点儿的方案呢?确实有的,这就是近些年逐渐成熟起来的惯性传感动捕技术。

光学动捕技术的成本之所以高,一个重要原因就是摄像头等硬件的成本很高,而当捕捉范围扩大的时候,摄像头等硬件数目的成比例增加更是拉高了成本,而软件的边际成本很低则可以大批量复制。所以降低成本需要从硬件入手

那么一个思路就是将摄像头捕获标记点的传感方式换成其他低成本的传感方式。按照这个思路,惯性传感动捕技术就出现了。

先来介绍下什么是惯性传感器。惯性传感器大家并不陌生,每个人手机里都有,微信运动里的步数就是通过它测量出来的,只不过大家不知道它的存在和名字而已。 它计步的原理就是通过惯性原理测量手机的运动参数,因为手机运动肯定是人在动,通过相关的模型就可以计算出用户可能的步数。因为它利用的是物体皆有惯性这个物理原理,所以叫惯性传感器,它能测量的物理量有加速度和角速度。

同理,可以把惯性传感器放置在需要动捕的点上去捕捉相关的运动参数,然后在全身相应的地方放置相应的惯性传感器即可完成全身的动捕。

诺亦腾(Noitom) 惯性传感动捕系统

当然,惯性传感动捕系统的算法要比微信运动计步的算法复杂的多的多,而且使用的硬件器件本身也会好一些,但还是要比光学动捕的摄像头便宜非常之多,一个民用级别的惯性传感器也就十几人民币

除了成本低,惯性传感动捕技术的优势还在于不受光线影响,动捕范围几乎不受约束,方案便携,搭建快速等。但细心的读者可能也发现了,惯性传感动捕目前无法对人的面部表情进行动捕,面部表情的动捕还需要借助光学动捕技术完成

说了这么多,到底价格如何?刚开始的时候一套惯性传感动捕系统的价格也是高企难下,因为需求在那里摆着。但是随着技术与市场的发展,需求者的增加,尤其近两年由于虚拟现实(VR)、增强现实(AR)的发展使得动捕技术的使用有平民化的趋势,一套惯性传感动捕系统的价格一降再降,如今一套诺亦腾轻量级的惯性传感动捕系统可是只需¥16800,就能带回家。

诺亦腾(Noitom)官网商城截图

这种可以“飞入寻常百姓家”的价位,无疑让众多以影视动捕为生的国际大厂气到半死。但同时也引爆了正在为交互手段匮乏而颇感迷茫的VR、AR产业,并大大降低了虚拟主播的入行门槛。

看到这儿,是不是有想入手一套的冲动?等等,别着急,还有更亲民的方案。

抖音尬舞机

图中的小姐姐跟着屏幕上的提示做出相应的动作,如果动作正确即可得分。这个游戏就是通过视觉动捕技术实现了小姐姐的动捕,然后和黄色小人进行匹配的计算得分的。

是的,用手机前摄的前置摄像头即可。不仅如此,还可以在不增加硬件成本的前提下,支持多人同时动捕:

视觉动捕技术-电影《芳华》里的舞蹈片段

人再多点还可以吗?可以!除此之外,它还不受动捕空间的限制,室内外皆可,同时拍摄的相机还能移动:

视觉动捕技术-老美广场舞

是不是很惊艳?

其实图中所示的技术是计算机视觉领域的一个分支,属于人工智能的范畴,因为它赋予了计算机像人一样的视觉能力, 所以我们称之为视觉动捕技术。原理是使用深度学习技术对人体进行检测并估计其动作。不仅可以动捕人体,也可以动捕人的五官与手。

这一技术使得动捕通过一颗普通摄像头加CPU就可以完成,所以理论上讲我们的手里的手机就足够了。

那这么好的东西为啥不普及呢?

其实,视觉动捕虽然看着像是捕捉到了人体的动作,但是它的精度和稳定性和前两种技术方案相比要差一大截,而且在有部分肢体被遮挡的情况下就很容易出现动捕失误甚至失败。比如《叶问》中的武打片段:

视觉动捕技术-电影《叶问》武打场景,因为遮挡等原因,动捕失败

这样的场景在实际拍摄的过程中是经常出现的,不稳定的动捕表现显然不能满足电影以及类似应用的需求。显然,没有人会想把这样的场面拍很多遍。

而且即使能成功捕捉像电影《芳华》里的跳舞动作,其稳定性和精度也是值得商榷的,细心的读者可能会发现检测出来的肢体与原肢体贴合的并不是很完美,而且有时候会一直在抖动。

所以,视觉动捕方案目前用于简单的互动娱乐是可以满足需求的,比如抖音里的尬舞机以及类似的游戏。而用到虚拟主播身上其实也需要特定的设备与软件算法处理,综合下来,就目前的技术水平,不见得有很高的性价比。

视觉动捕技术作为一个不算很成熟的技术方案,我们之所以在这里提及它,是因为随着技术的发展,它有潜力成为将来主流的动捕技术方案,毕竟它只需要一个摄像头,成本不随人数增加,可以移动且不受场地限制的优点太过诱人。

三种主流动捕技术方案介绍到此结束。

不知道看完之后大家有何感想?如果让你选择一种方案做虚拟主播,你会倾向于哪一种呢?

由于篇幅限制,这一期我们就先聊到这里,休息一下,下期我们将带给读者更加fancy的数字克隆人技术,长按下方二维码关注,我们下期再会!

留给读者思考的问题:

如果现在视觉动捕技术足够成熟,你会选择什么形象进行直播?

文中所用图片均来自于网络

查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved