3张图片生成一个手办3D模型！华人博士提出新模型NeROIC，更真实（趣味合成3D）

编辑：LRS

【新智元导读】通过几张二维照片还原为3D模型一直是一个图形学的一个难题，并且照片的不同光线、相机型号都会影响到最终的生成效果，也限制了模型的实际应用场景。最近南加州大学华人博士提出新模型NeROIC，不仅让模型的易用性大大提升，还显著提升了真实感！

随着深度学习的加入，计算机图形学又产生了很多新兴领域。

神经渲染（Neural Rendering）技术就是利用各种深度神经网络进行图像合成，通过自动化的流程，能够节省大量从业人员的时间和精力。

例如给定几张不同角度拍摄的二维图像，神经渲染模型能够生成一个三维模型，而无需任何人工的介入。

在现实场景中，可能你会有一堆手办的照片，如果按照传统的方式都建成3D模型，那需要耗费的工作量，想想都头秃。

神经渲染技术可以很容易地把这些模型输入到计算机中，并让机器理解这些照片中的物体在三维空间中的实际形状和物理状态。

对于人来说，这项任务可以说是十分容易了，因为人眼了解现实世界，也知道图像的深度，但对于只能看到像素的计算机来说，神经渲染模型的设计还是很有挑战的。

除了拍手办以外，游戏从业者还可以利用神经渲染技术，简单地拍摄一些物体的照片，合成3D模型，然后就可以制作出一个完美的游戏场景。

但模型如果只是看起来准确，形状更贴合照片，还远远不够，因为一旦把合成后的物体放入到新场景中，因为光影的不同，合成模型在新环境中显得格格不入，所以一下子就会「露馅」。

针对这个问题，来自SnapChat和南加州大学的研究人员提出了一个新模型NeROIC，能够解决从图像中创建虚拟物体所带来的照明和真实性的问题。

论文地址：https://arxiv.org/pdf/2201.02533.pdf

新模型建立在神经辐射场（neural radiance field）的基础上，神经辐射场广泛用于重构中，例如NeRF等模型。但神经辐射场需要在相同的理想条件下才能够完美建模，但这并不符合真实场景的需求。

研究人员从NeRF模型出发来改进。NeRF神经网络的训练输入为一张图片，用来推测每个像素的颜色、不透明度和辐射度，并猜测物体中没有出现在二维图像中的小部分的缺失像素。但这种方法对大面积的缺失部分或不同的照明条件下没有作用，因为它只能从输入的图像中进行插值。所以新的模型需要更多的信息来推断，并对某个地方应该出现的东西或这些像素在这种光照下应该是怎样的做出假设等。

许多方法都是在NeRF的基础上解决这个问题，但新模型总是需要用户提供更多的输入条件，这也并不符合实际场景的需求，并且在很多情况下用户也并不清除这些数据，特别是当其他人想建立一个好的数据集来训练模型时，就更加困难了。

总的来说，之前的NeRF类模型并没有真正理解物体，也没有理解物体所处的环境。

所以真正要解决的事又回到照明问题上了。

研究人员的目标是在网络图像（online images）中也能使用这种新模型架构，也就是说，具有不同灯光、相机、环境和姿势的图像，新模型都应该有能力来处理，这也是NeRF难以做到的真实性。

除了需要物体本身的图像之外，他们唯一需要的东西是一个粗略的前景分割器和对摄像机参数的估计，这两个信息都可以通过其他可用的模型获得。前景分割基本上只是一个遮罩（mask），可以告诉模型用户感兴趣的物体在图像上的位置。

新模型所做的不同之处在于，他们将物体的渲染与输入图像中的环境照明分开，将这两个任务独立出来，在两个阶段内完成。

首先，（a）网络获取的是物体的几何形状，这是与NeRF最相似的部分，文中称为几何网络（Geometry Network）。它将输入图像、分割遮罩和相机参数估计结合起来建立一个辐射场，并找到每个像素的密度和颜色的猜测结果，整体流程和NeRF基本相同，但新模型需要适应输入图像中不同的照明条件。

这种差异来源于模型中的两个分支，使得模型能够将静态内容与摄像机或阴影等变化的参数分开，从而能够训练模型如何正确地将静态内容与其他不需要的参数（如照明）隔离开来，但只有这些还无法完美还原模型的空间结构。

在（b）中，研究人员将从这个学到的密度场（density field）中估计表面法线（surface normals）作为物体的形状纹理。换句话说，在（a）中产生的结果能够帮助找到物体对光线的反应。

在这个阶段可以找到物体的无偏材料属性（unbiased material properties），或者是使用一个带有Sobel kernel的三维卷积得到对属性的估计值。整个过程基本上就是一个filter，可以在三维空间中使用它来找到所有的物体边缘和确定边缘的锐利程度，可以提供关于物体的不同质地和形状的基本信息。