超震撼!将任何目标插入到任何场景中!

超震撼!将任何目标插入到任何场景中!

首页模拟经营放置像素机场更新时间:2024-05-11

来源:计算机视觉工坊

添加v:dddvision,备注:语义分割,拉你入群。文末附行业细分群

0. 这篇文章干了啥?

一句话总结:将任何目标插入到任何视频中,并且具备真实感!

整个框架设计具有通用适用性,可适应室内和室外场景,确保在几何逼真性、照明逼真性和逼真性方面具有物理精度。这项工作不仅有助于机器学习中的视觉数据增强,而且还适用于各种视频应用,如虚拟现实和视频编辑的视频模拟。

下面一起来阅读一下这项工作~

1. 论文信息

标题:Anything in Any Scene: Photorealistic Video Object Insertion

作者:Chen Bai, Zeman Shao, Guoxiang Zhang, Di Liang, , Zhuorui Zhang, Yujian Guo, Chengzhang Zhong, Yiqiao Qiu, Zhendong Wang, Yichen Guan, Xiaoyin Zheng, Tao Wang, Cheng Lu

机构:小鹏汽车

原文链接:https://arxiv.org/abs/2401.17509

代码链接:https://github.com/AnythingInAnyScene/anything_in_anyscene

官方主页:https://anythinginanyscene.github.io/

2. 摘要

逼真的视频模拟在各种应用中显示出显著的潜力,从虚拟现实到电影制作都是如此。这在捕捉现实世界环境中的视频要么不切实际,要么昂贵的情境下尤为明显。现有的视频模拟方法通常未能准确地模拟光照环境,代表对象的几何形状,或者实现高度的逼真度。在本文中,我们提出了"任何场景中的任何物体"(Anything in Any Scene),这是一个新颖且通用的逼真视频模拟框架,它能够将任何对象无缝地插入到现有的动态视频中,并且强调物理逼真度。我们提出的通用框架包括三个关键过程:1)将一个逼真的对象整合到给定场景视频中,以确保几何逼真度的适当放置;2)估计天空和环境光分布,并模拟逼真的阴影以增强光线逼真度;3)采用样式转移网络来优化最终的视频输出,以最大程度地提高逼真度。我们通过实验证明,"任何场景中的任何物体"框架产生了具有出色几何逼真度、光照逼真度和逼真度的模拟视频。通过显著缓解与视频数据生成相关的挑战,我们的框架为获取高质量视频提供了一种高效且经济实惠的解决方案。此外,它的应用不仅局限于视频数据增强,还在虚拟现实、视频编辑和各种其他以视频为中心的应用中展现出有希望的潜力。

3. 效果展示

先来看看其他工作的效果,出现了各种各样的照明环境估计错误、对象放置位置错误和不真实的纹理风格,缺乏物理真实感。

再来看看这项工作的效果,几乎与真实照片无异。

4. 主要贡献

(1)推出了一种新颖且可扩展的"任意场景中的任意物体"视频模拟框架,能够将任何对象整合到任何动态场景视频中。

(2)独特地注重在视频模拟中保持几何真实性、光照真实性和照片级真实性,确保高质量和逼真的输出。

(3)进行了广泛的验证,展示了该框架产生逼真视频模拟的能力,显著扩展了在这一领域的范围和潜在应用。

5. 具体原理

Anything in Any Scene框架下的目标是通过动态场景视频和感兴趣对象的组合生成大规模且高质量的模拟视频。为了实现这一目标,需要一个包含场景视频和物体网格的资产库,用于模拟视频的合成。为了从大规模视频资产库中高效定位用于合成的目标视频,作者提出了一个视觉数据查询引擎,用于根据给定的视觉线索描述符检索模拟视频合成所需的相关场景视频剪辑。在将目标对象插入现有视频剪辑之前,需要目标对象的网格模型。通过使用Houdini Engine从现有的3D资产和基于NeRF的多视图图像的3D重建引入了目标对象的3D网格生成,从而使得可以将各种类别的对象插入到现有场景视频中。

为了实现具有几何真实性、光照真实性和照片级真实性的视频模拟,Anything in Any Scene框架包括以下三个主要组件:

1. 对象放置和稳定

2. 光照和阴影生成

3. 照片级风格转移

5.1 对象放置和稳定

将对象插入背景视频进行视频合成需要为视频序列中的每一帧确定对象的放置位置。作者设计并提出了一种考虑场景中其他现有对象遮挡的新颖对象放置方法,提出了一种对象放置稳定方法,用于在每一帧中校正放置位置。同时利用连续帧之间的跟踪,确保插入的对象在连续的视频帧中表现得逼真。

假设有N T连续帧,前N帧是要将插入对象整合到其中的目标帧,最后的T帧用作对象放置的参考。假设帧IN T中相机位置的世界坐标是原点Ow = [0, 0, 0, 1],相机坐标系与此帧IN T的世界坐标系对齐。将插入的对象放置在世界坐标中原点的位置,即与帧IN T中相机自身位置相同的位置。为了确定前N个连续帧中对象放置的像素坐标,根据每帧In的相机内部矩阵K和包括旋转矩阵Rn和平移向量tn的相机姿态,将原点从世界坐标投影到像素坐标上。第In帧中的放置像素坐标˜on由以下公式确定:

在视频剪辑中放置插入对象应该避免与场景中其他现有对象遮挡。作者使用现成的模型估计了每帧In的语义分割掩模ˆMn,作为参考用于确定插入对象的投影点位置是否被场景中的其他对象遮挡。

首先,选择具有世界坐标Pw = [X, Y, Z, 1]的3D点,并按照上边的公式将其从世界坐标投影到第N 1帧的每个帧In中的像素坐标˜pn。然后,估计每两个连续帧之间的光流,并通过˜pn 1的图像变形和估计的光流获得所选3D点Pw的像素坐标ˆpn在帧In中。对象放置稳定可以解释为对每帧In的相机姿态进行优化。具体而言,通过将ˆpn的3D到2D投影误差与˜pn进行比较,优化每帧In的相机姿态旋转矩阵Rn和平移向量tn。为了在放置稳定中获得更好的性能,选择M个点并优化旋转矩阵R′n和平移向量t′n,表达式如下:

最后,我们、、通过R′n和t′n更新公式中的旋转矩阵和平移向量,并计算每帧In的更新后的对象放置像素坐标˜on。还调整了所选3D点Pw的X和Y值,以确保在基于估计的光流的连续帧中可以跟踪投影的2D点。例如在驾驶场景视图中,通过调整Y值来移动所选的3D点,以便投影的2D点是白色车道的角点。

5.2 光照估计和阴影生成

为了为插入的对象生成准确的光照和阴影效果,需要在渲染过程中估计场景中的主要光源的位置和亮度,如室外场景中的太阳和室内场景中的环境。这影响插入对象在渲染过程中的视觉外观。为了在渲染过程中模拟准确的光照和阴影效果,首先在引入了一个高动态范围(HDR)全景图像重建方法。最后基于估计的主要光源位置渲染了插入对象的阴影。

5.3 照片级风格转移

模拟视频不可避免地包含不真实的工艺品,如不一致的照明和色彩平衡,这些在实际拍摄的视频中并不包含。为了解决这个问题,提出使用图像修复网络,忠实地传递风格以增强模拟视频序列的照片级逼真感。

具体而言,采用了中提出的分阶段机制,即指定粗网络和细化网络。粗网络接受在前景区域填充了黑色像素的图像、指示前景区域的二进制掩码和填充了背景区域的插入对象前景图像。细化网络接受与粗网络相同的输入,以及来自粗网络的输出,并生成最终的精细图像结果。其目标函数可以表示为:

6. 实验

为了评估各种风格转移网络的性能,比较了不同方法:基于CNN的DoveNet,基于transformer的StyTR2,基于扩散模型的PHDiffusion。这项工作在FID方面达到了最低值,为3.730,人类评分最高,为61.11%,优于其他方法。

消融实验: 逐一从框架中移除一个模块:放置(无放置),HDR图像重建(无HDR),阴影生成(无阴影)和风格转移(无风格转移)。没有放置,HDR和风格转移模块导致了更高的FID。注意,添加阴影显著提高了人类观察者对真实感的感知。这项方法获得了超过50%的人类评分,而其他方法的评分低于50%,突显了框架中每个模块的贡献。

定性比较:进行对应用于户外场景数据集PandaSet的不同风格转移网络的样本视频帧的定性比较。图7中其他方法插入的对象显示出与场景的光照和天气条件不一致的颜色色调,这项工作在四种方法中呈现出最佳的视觉质量。

插入的对象与周围环境和场景中的其他对象不一致的颜色纹理对比。

下游感知任务: 将9个不同的稀有对象类别插入到CODA2022验证数据集的图像中,每个类别占总包围框的0.4%以下。然后训练了三个模型:YOLOX-S、YOLOX-L和YOLOX-X,在数据集的2930张图像的子集上进行训练,保留另外977张图像进行测试。然后利用这项框架将这些训练图像进行数据增强,通过插入各种对象来生成一个替代原始训练集中图像的增强训练图像集。对于三个模型,平均精度(mAP)均有所提高,YOLOX-S的mAP提高了3.7%,YOLOX-L的提高了1.1%,YOLOX-X的提高了2.6%。

7. 总结

这项工作提出了"任何场景中的任何事物",旨在进行逼真的视频模拟。可以无缝地将各种对象集成到各种动态视频中,确保保持几何真实性、光照真实性和照片级真实感。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~


查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved