我是智能捏脸师，把人类上传到虚拟世界，也打开了AI的“眼睛”｜新职业研究所（虚拟纹身艺术家的人体艺术）

假如你可以定制自己的脸，你会制作出怎样一张脸？如今，在形形色色的虚拟世界里，人们都希望能拥有一个独特的形象，无论是将自己还原，还是创建一个新角色。传统提供固定脸部素材进行组合的捏脸方式，已经无法满足用户的差异化需求，人们不再希望和别人共有一张脸。

尤其在创建虚拟形象需求最集中的游戏业界，随着硬件配置不断迭代，游戏在画面精细度和角色操控自由度方面越发强大，为了满足玩家的个性化需求，一些游戏开发商开始为玩家提供一整套自由度极高的“捏脸”系统，可以让玩家根据自己的审美细化设定角色外观，使游戏体验更加沉浸化。

不过，更加复杂的捏脸系统也带来了更高的操作要求和审美要求，当面前摆着几百个滑块，人们却不知道如何才能调制出自己想象中的形象。于是智能捏脸系统应运而生，只需要上传你喜欢的形象的照片，就可以生成高度还原的3D虚拟角色，避免“游戏五分钟，捏脸两小时”的麻烦。

捏脸技术不仅可以用于游戏，也可以用于制造虚拟人，并应用于文旅、医疗等行业。而从元宇宙的视角来看，捏脸可能是元宇宙系统里最基础的项目，每个人都需要通过捏脸定制自己的虚拟形象，打造虚拟分身。

打造AI捏脸系统的智能捏脸师，其实是人工智能算法工程师的一个方向，他们负责开发捏脸功能、训练捏脸系统。智能捏脸师既要会AI算法、开发工具、深度学习框架，又要懂美术、心理学，面部相关的知识，在工作中常常会遇到意想不到的问题和细节，也会有出乎意料的收获。

网易伏羲人工智能实验室的智能捏脸项目，于2018年底在端游《逆水寒》中上线。这也是全球首次在MMORPG游戏中实现基于单张照片的智能捏脸玩法。系统使用大量的随机参数来模拟捏脸，训练AI学习捏脸的过程。玩家上传照片以后，系统就会把照片拆解成AI理解的形式，比如五官的位置、大小，妆容颜色等特征，AI就会根据这些信息，对这些特征做复原。

以下是三位网易伏羲智能捏脸师的自述，略经钛媒体APP编辑：

01 我们在鼠标、键盘和手柄以外，增加了一个玩家和游戏交互的渠道

网易伏羲视觉计算组负责人、智能捏脸师神秀

我们视觉计算组主要研究方向是如何通过视觉和图音学的技术去丰富游戏的玩法，比如捏身体，进行动作、表情的迁移，还有捏脸。

捏脸项目是我们的核心项目，从18年7月立项到现在，我已经参与研发三年多了。每一年捏脸系统都会有版本迭代，从最开始的第一版到现在的第三个大版本，每年都会有一些创新的技术点，发表一些论文。

最开始我们有做这个产品的想法是因为网易一款叫《逆水寒》的大型端游，其中包括一个非常复杂的捏脸系统。每一个玩家都可以通过操控游戏里面几百个滑块来调整参数，比如调整眼睛大小、鼻子大小、人中长短等等，去得到一个自己喜欢的形象。这个形象可以以现实的人物为参照，玩家可以捏出刘亦菲，也可以捏出现实中的自己。功能虽然很强大，但是对于大部分普通玩家来说，可能需要花费几天的时间才可以完成一个满意的形象。

于是游戏方就找到我们，希望我们能够通过AI的技术，根据玩家上传的照片去自动分析他的面部特征，调整参数，然后生成一个和照片相似度尽可能高的三维形象。我们和游戏方聊了之后，觉得这个很有意思，对用户也很有帮助。当时我们发现淘宝上有很多人通过帮玩家捏脸的服务来赚钱，收费在几十块钱到几百块钱不等，月销量很高。这说明很多玩家都有希望有人能帮助他实现捏脸的需求，而我们通过技术能够让更多的玩家更廉价、更便捷地享受到这种服务，这就是我们18年立项的初衷。

我们是业内首次提出这种智能捏脸玩法的团队，并且在MMORPG游戏中第一个做出了这种玩法，也发表了一些顶级会议和论文。当时做的时候也没有想过这个项目会做持续三年之久，因为对我们来说，其实这只是我们众多项目中的一个，但是做下来之后发现智能捏脸服务在游戏中非常受欢迎，有非常多的玩家愿意去体验。玩家也会给我们写很多评价和意见。我们在开发的过程中也觉得很受振奋，因为很多玩家都喜欢我们的产品，我们的技术为他们提供了服务，并且创造出了价值。游戏方也给了我们很多建议并且支持我们不断地对产品进行迭代。在迭代中我们也会去参加一些学术会议，和同行进行分享，逐渐地就有越来越多的公司开始涉及智能捏脸的领域。

其实，智能捏脸也经历了一个不断迭代和成长的过程。

在18年12月上线的第一版，是一个迭代的神经网络优化的算法。它的优势是不需要监督数据，即我们的捏脸不需要去收集真实人脸照片去训练AI，而完全是用我们的系统自己生成渲染的照片来做自监督训练，比起采集数据的方式，我们整个系统的多样性就会更丰富，任意的照片我们都可以训练，并且成本很低。但它的缺点是对每一张照片都需要去迭代地调整，所以当时的速度不是很快。为了满足游戏上线后的并发需求，我们调了非常多的GPU服务器，大概最后稳定在玩家每一张照片能够在0.5秒之内出结果。在第二年对产品的迭代之后，我们进行了速度上的一个大幅优化，我们将算法改成了一个单步的前向算法，在质量不变的情况下将运行速度提高了大概2000倍，即达到了毫秒级，可能几毫秒的时间，甚至不到毫秒的时间就能够出结果。

第一个版本我们要求玩家必须上传正面照片，照片光照不能过于变化不均，后来我们改善了鲁棒性，使玩家照片可以拍地更自由。在第二年的第二个大版本，我们不仅捏出了人脸的形状，还会还原它面部的纹理细节。比如说脸上可能有一个刺青、皱纹，或者痘痘，我们都会将它还原出来。从我们最新的成果来看，基本上由照片捏出来的脸，和照片已经很难分辨了。

微表情也是我们正在进一步改进的地方，微表情其实比起单纯捏脸涉及到更多，也是需要美术方的支持。我们现在使用的表情呈现是基于设置的51个基底组成各种表情，但是通过这种方式很难让角色表达细微的表情，比如当系统检测到玩家微微上扬嘴角或者微微眯起眼睛时，是无法反应到角色上的。目前我们正在对这点进行改进，为了使角色更加还原，更加逼真，不仅仅能够捏出长相，我们正在研究如何基于骨骼去在这个捏脸方案上实现微表情，从而能够更体现出人的气质。

通过将图像视觉算法与游戏结合，我们可以给游戏带来很多新的东西，创造一些业界传统的游戏不具备的功能，让游戏和人之间的距离更近。捏脸、表情、动作这些功能，就像是让游戏具备了“眼睛”，它可以观察玩家，然后通过识别玩家本身的特征去在游戏内部做一些反馈。相当于我们在鼠标、键盘和手柄以外增加了一个玩家和游戏交互的渠道，就是摄像头。玩家可以通过视觉信息跟游戏发生很多很神奇的交互，让视觉计算和游戏擦出新的火花。

在做捏脸这个项目之前当然也会有一些没想到会遇到的状况，比如之前我也很难想象我们一堆直男会去看美妆视频。最开始我们去做捏脸的时候，发现因为很多女玩家会上传明星或者是自己化妆后的、美颜后的照片。男生可能大多数就随便拍拍了，所以刚开始我们是没有考虑到口红这种东西的。后来说那我们也可以加个口红的选项，然后我们几个男生就开始讨论说口红有几种颜色你知道吗？结果没人知道。我们就拍板定了三种颜色，红色，橘色和粉红色。后来就被产品教育了，说口红有多少多少个颜色。因为这些闹出了很多事情，后来我们就真的去视频网站，去短视频平台上面去学习化妆。然后大家才知道，原来化妆有这么多步骤，比如说什么眼影、腮红、遮瑕、修容......有非常多的东西。所以我们现在也了解到了很多，以前其实对我们来说，可能很多时候女生不涂口红就是没化妆，现在就能看出来这个人可能是上了什么，可能打了什么，懂了一些不知道以后有没有用的知识。

我们也会为了实验，作为演员去录影棚录一些资料。我就去录了我的表情和身体以及动作，给我自己重建了一个三维数字形象。我看到那个三维的自己出现在屏幕里的时候就觉得是挺魔幻的，然后也没自己想象的好看。我就理解了确实绝大部分人对自己的颜值都有点过高的误解。在拍摄过程中，我们也了解到演员拍摄背后的辛苦，于是我们也开始研究怎么样降低他们的工作量，还有怎么去帮助特效演员去做一些特效，减轻他们的负担。我们的研究主要还是围绕人去展开，为了服务人去提出一些解决方案。

我们也会把智能捏脸提供给游戏去做一些NPC的制作。起因是我们有一次在体验自己合作的游戏的时候，发现很多NPC除了衣服以外，其实长得都是完全一样的。了解之后发现，因为制作一个NPC的成本比较高，其实对一些不重要的NPC，游戏方都会用同样一张脸，我们就想智能捏脸其实可以解决这个问题，于是向游戏方提供了一套可以自动生成人脸的算法，他们只需要通过简单的操作就可以得到非常多不同的人脸，从中选择符合需求的人脸就可以了。这样一来可以大大加速NPC的制作流程，并且降低成本。

这次合作又使我们产生了进一步的想法，除了生成每个NPC独有的脸，我们还希望这个NPC能够具备一定的智能，我们希望这个NPC长得像人，动起来也像人，说起话来也像人，有人类真实的情绪和表达，就像《失控玩家》那部电影一样，让NPC能真的自主和玩家进行更深度的交互。这也是我们联合包括自然语言组、强化学习组等一起想要完成的一个工作，希望为玩家带来一个全新的体验。

除了游戏以外，我们现在也会尝试去做一些直播之类的娱乐项目、医疗项目、还有一些文旅项目，比如让游客都能够实时实景地体验景区或者博物馆，也会有一些穿越的项目，比如让用户的形象穿越到某个朝代。

我们正在做的一系列课题实际上就是，在缩短现实世界和虚拟世界的距离，我们希望能让现实世界数字化的过程越来越便捷、越来越廉价、越来越方便，希望虚拟世界和现实世界的交互越来越强。我们在现实世界中做的事情，可以带到虚拟世界，而在虚拟世界的成就也可以反应到现实世界里。比如我在虚拟世界里赚到了钱，在现实世界也能获得回报。当我们的技术发展到一定水平，我们希望最后大家都能够自由地在这两个世界穿越，去学习、去工作、去娱乐、去突破现实的一些壁垒，比如空间上的限制，或者疫情的限制，然后让大家更加紧密地联系在一起，让人和人之间有更多的交流和合作。这样的技术的实现，我想也只是时间问题了。就像人们很久以前说千里传音是一件很神奇的事情，但现在有了电话就很方便，而很快，我们又有了视频通话。技术的发展，就是在不断地拉近人与人之间的距离。

但是至于当虚拟世界发展到一定地步，比如当元宇宙诞生，人会不会去模糊虚拟世界和现实世界的界限，甚至沉溺于虚拟世界？我想从技术上来说我们希望虚拟世界能更加真实、更加方便、更加丰富，用户们有自己的选择，但最终我们真正的快乐可能还是要从现实世界中得到。我们的成就感也好、贡献也好，都还是要来源于现实世界的。就比如我做视觉计算，我觉得我的贡献就是我通过自己的工作服务了很多现实中的人，让他们获得了快乐，让我的技术被人认可，那我就从中得到了很大的成就感。我不希望大家沉迷在我们通过技术搭建的这个游戏世界里，我只是希望这个游戏世界能给大家在繁忙的工作之余带来一些放松，带来一些调剂。

这么多年下来，我做了很多东西，也影响到了这么多用户，这份工作对我来说是非常让我开心，也很有成就感的。现在元宇宙，虚拟人等等其实都特别需要这些技术，我也愿意把这个技术不断地往后推进。有时候看到一些公众号传播一些数字人的前沿科技的时候，我就会想，这些东西我们已经在做了。

02 做AI捏脸原本是想捏得更像人，却发现有人更喜欢捏“妖怪”

网易伏羲智能捏脸师晚丰

我是人工智能算法工程师，你也可以叫我智能捏脸师。

我们所研究的AI智能捏脸，就是利用高保真三维人脸重建技术，使玩家仅需上传一张照片，就可以快速获得与之相像的虚拟形象。同时，还能根据用户的想法对生成的模型进行调整。

AI的本质是特征处理的工作，我们的系统不需要真实照片的数据库，而是直接利用随机参数去训练AI模拟捏脸。需要在照片上选取关键点，比如眼睛大小和五官的位置，然后在捏脸系统中也去检测这些关键点，调整参数让两者一致，就可以做到复原的效果。在训练过程中，AI会自动设置指标，当匹配到一定精度时就会停止。这样就可以保证捏出来的人脸和照片达到我们想要的相似度。

训练捏脸系统有一个过程，最开始做Demo的时候这个系统可能就是很粗糙的一个东西，生成出的模型很丑，没有头发也没有眉毛。随着对AI的训练，慢慢地会有一个从无到有的过程，从刚开始不像，捏出来脸都差不多，到相似度越来越高。在算法优化的过程中会有明显的变化。我们搭建的系统也是从一个很杂乱的状态，到逐渐流程化，我们对每一个模块都很熟悉，都在其中注入了很多心血。

每次做一个新的项目都要从基本训练开始，虽然算法流程是统一的，但是每一个项目的美术和风格是不一样的，男性、女性、小孩、老人都各有不同，最后生成的算法也会有有差距，所以我不会觉得枯燥，反而认为都是一种新的体验。

在项目对接的时候，我们也会遇到一些之前想不到的细节问题。比如《永劫无间》的海外版本，就要考虑人种和肤色的问题，因为之前主要面向国内市场，面向的基本都是国人。现在根据不同人种，我们就需要优化模型，去做一个肤色上的判断。还有我们的沉浸式会议系统“瑶台”，在举办学术会议的时候因为专家学者很多都戴眼镜，为了更还原现实特地增加新的眼镜功能模块。

现在捏脸系统主要应用在游戏中，我们合作开发捏脸系统的游戏我都会去尝试游玩，也会去论坛和贴吧看看玩家对捏脸系统的作品和评价。玩家捏脸也有不同的取向，有的玩家会上传明星的照片捏脸，或者本人的捏脸。这种类型的捏脸就要考虑人物的美观性。AI是无法理解“美丑”的，它只会把关键点量化，不会考虑气质上的东西。

我们通过几个不同的角度去训练AI的“审美”。首先我们建立了一个人脸打分的数据库。我们之前有一个玩家的捏脸大赛，通过大赛我们其实可以知道大部分玩家喜欢什么样的长相。其次我们请了很多美术帮我们去标了一些AI生成的捏脸照片的颜值，基于这些监督数据，我们可以初步训练AI得出一个美丑的基本评价标准。基于这个标准，我们可以驱动它，让我们的照片生成的模型变得相对好看一点，同时我们还会请美术帮我们定义很多他们认为在什么样的脸型上会特别美的范本，就像整容医院的模板一样。最后相当于系统给生成的结果做了一个微整形，对每一张脸去匹配一个它最合适的整形的方向。当然我们也会调节权重，让系统在像和美之间进行一个权衡。

还有一些玩家会捏一些二次元的动漫角色。之前我们系统还是倾向于捏真人的照片，所以在系统设置上会限制参数，像一些奇怪的脸型和眼型之类的就无法还原，对二次元角色的支持度较低。但是在看玩家评价的时候我们发现，其实捏得丑也会被人喜欢。有一些奇形怪状的作品，比如捏得像皮卡丘、像灭霸一样的，或者整个脸都变形的那种角色也很受欢迎。我也尝试过捏一些奇怪的、和别人不一样的角色，比如我捏过猪八戒，这种有特点的角色在游戏里隔很远就能被看到，感觉也挺有意思的。所以现在我们也会尝试去复原一些不常规的脸型，希望当玩家在上传二次元的、非现实的照片的时候，我们也能够将它还原出来，去更加贴近玩家的创作需求。

除了游戏之外，我们的捏脸系统还可以应用到各种软件上，目前有在做和虚拟演唱会、剧本*、沉浸式会议系统等等的结合。现阶段在应用内植入捏脸系统还是个很大的工程，所以上线的应用类型并不多，等流程进一步简化之后相信就会更加普及。

不仅是捏脸，表情迁移、动作迁移的功能也已经在游戏中落地，玩家可以让自己的虚拟角色做出和自己一样的表情、一样的动作。通过我们的这些技术，AI捏出的每一个形象都可以支持面部和身体的运动，即具备成为一个虚拟人的条件，目前我们伏羲内部的各个项目组，比如语音，动作，文字等都已经发展成熟，正在结合各组的技术去做一个高精度的虚拟人项目，智能捏脸之后也会去支持这样的一个课题。

在元宇宙中，人们也会希望自己拥有一个独特的形象，其实我们的沉浸式会议系统“瑶台”就类似一个“极简元宇宙”。瑶台搭建了一个虚拟化的会议场景，人们在线上通过自己的虚拟形象进行交互。在智能捏脸方面，比起游戏里的角色，由于元宇宙的虚拟角色会近距离看到彼此的脸，对捏脸的精细度和真实度的要求会更高，我们也在向着这个方向去推进。

03 捏脸是把千篇一律的游戏内容，变成了个性化的一种表达

网易伏羲智能捏脸产品负责人楚涵

我的主要工作是站在怎么为游戏和商业化能力赋能这个角度，去规划我们的捏脸产品，然后和需求方去对接，推进产品的完成。

游戏类的AI产品有图形图像等多个方面的角度，而我认为我们在做的捏脸是把千篇一律的游戏内容，变成了个性化的一种表达，让我们的游戏更加得生动，这个世界更加得丰富。我们最终的呈现是在游戏里生成了千人千面的游戏分身。

根据每个人的个性，我们在虚拟世界上传的角色有可能和现实中真实的自己不一样，但其实这也是我们的一部分。而在不同的场景下，我们生成的形象可能也会不一样，比如在社交软件，可能大家就会希望生成一个好看一点的角色；在游戏里，会希望拥有一个有趣的形象；在工作场景下，就会希望自己的角色给人一个可靠、严谨的印象。

因为人本来就不是单一的，实际上虚拟世界的自己就是我们的另一面。它是我们在那个场景中想表达的一面性格，一种心理诉求。而因为比起现实世界，虚拟世界减少了种种限制，所以我们能去释放那个真正想表达的部分，去成为我们真正想成为的人。虚拟角色成为了我们的出口。

人是一种视觉动物，所以通过捏脸创造出的形象，我们可以带给别人不同的感受，留下我们想让别人对我们留下的印象，去打破我们真实长相的局限。对自己长相不自信的人，也许可以通过这个功能得到心理层面的一种满足，去达到自己希望达到的状态。就算我选择丑的形象，也是我的一种视觉表达。虽然形象不同，但是其中的文字和情绪等等还是我自己。

而站在产品的角度，我认为用户对于智能捏脸的最基础、最核心诉求其实是“一键操作”。到底是追求好看还是特别，是真实的还是二次元的，这和客户群体有关。比如PC端游的用户对高清和真实的需求就高于手机端用户。对于风格来说，更是没有办法一概而论。用户最喜欢的其实是操作简易化，不管是哪种形象，首先就需要操作简单，上传照片之后马上就能生成出我想要的捏脸结果。

我之前是做人脸特效版面，比如美颜美型还有贴图，大多用于短视频和直播产品，对人类底层检测这一块是比较熟悉的，相对智能捏脸会比较基础和常规。而捏脸AI从识别检测深入到个人模型的生成，一系列推进都会非常的有趣，因为它的情况多种多样，需要我们想出各种解决方案。

作为智能捏脸的产品侧，我们需要不断地去收集市场方面的热点和趋势，还有用户的新需求。有时候我们去捏了一个很奇怪的形象，比如用人脸捏了一个皮卡丘，就有人可能会觉得这么丑你们为什么要去捏？但是从产品的角度其实是要去尝试这种五花八门的东西，因为用户是不能局限的，他们的接受度是很高的，我们的系统开放性大了，用户也会去做更多的阐释。

比如说现在，我们《永劫无间》这款游戏中最新的捏脸效果从检测能力到生成能力一体化都有很大的提高。现在网上最热门一个点就是说《永劫无间》有打破人脸格局，在做一些开放式的捏脸效果和分享，比如说孙悟空，伏地魔，阿凡达这类非真人人脸的捏脸的效果，达成了玩法上的突破。

我们经常会给开发提一些想法，他们会根据这些对系统做训练和迭代，其实这对于他们来说也是一种挑战。比如给他提一些夸张的卡通形象，那么捏脸和生成的时候怎么样这个形象能不穿模，或者像肤色、胡子这种怎么能更像真人。

除此之外，我们现在上传的图像是静态的、单帧的，我们会要求用户上传正面的人脸外露的照片，那这样捏出的形象是不全面的。比如也许我正面鼻梁高的效果是通过我的化妆技术达成的，我的鼻子原本是比较扁平的。为了解决这个问题，我们现在在做的是通过导入多角度的序列帧图像，去生成一个更立体的捏脸结果。其他研究还有关于如何生成更自然的头发方面的策划。

头发也是一个比较难攻克的课题，想要重建后的头发做到百分百相似，需要解决很多问题，比如物理动效的问题，还有头发构建出来是成片，成缕还是成发丝，这些不同的生成结果对于系统性能的要求也是不一样的。在生成之后，它的物理动效，即如何让头发跟随你的状态自然带动，又是一个难题。目前我们的系统对于生成头发还是以素材匹配的角度，去重构一个面数较少的相似发型，之后会再去向精度更高，跟随效果更好的方向迭代。我们需要明确现在产品阶段的诉求和目标，去做一个清晰的规划，带动大家都往这个方向走。

未来，结合我们现在的ai、互联网、虚拟现实和区块链的技术，虚拟角色怎么样打破真实世界的隔阂，在虚拟世界中怎么样进行交流娱乐，如何让我们更有沉浸感，这都是我们需要去探索的方向。我觉得我们在这方面有一个天然的优势，就是娱乐是人们自然生发的*，是人们天然就会感兴趣的、会去做的事情，所以沉浸式游戏，可以说是元宇宙的第一步。虽然过程中可能会出现很多难点，但我们会尽力去推进它的实现，这不仅是我们的工作，也是世界未来的一个大方向。

（本文首发钛媒体APP，作者｜李如嘉，编辑｜天鹏）