Synthesizing Moving People with 3D Control
标题: 3DHM:用3D控制合成移动人物
地址:https://arxiv.org/pdf/2401.10889.pdf
摘要:在这篇论文中,我们提出了一种基于扩散模型的框架,用于从单个图像生成给定目标3D运动序列的人物动画。我们的方法有两个核心组件:a) 学习关于人体和服装不可见部分的先验知识,以及b) 用适当的服装和纹理渲染新的身体姿势。对于第一部分,我们学习了一种填充扩散模型,以幻想给定单个图像的人的不可见部分。我们在纹理映射空间上训练这个模型,这使得它更具样本效率,因为它对姿势和视点不变。其次,我们开发了一个基于扩散的渲染流水线,由3D人体姿势控制。这产生了人的新姿势的逼真渲染,包括服装、头发和未见区域的合理填充。这种分离的方法使我们的方法能够生成一系列图像,这些图像在3D姿势和视觉相似性方面都忠实于目标运动和输入图像。除此之外,3D控制还允许使用各种合成摄像机轨迹来渲染一个人。我们的实验证明,与先前的方法相比,我们的方法在生成持续运动和各种具有挑战性和复杂姿势方面具有韧性。
解决的问题:
该论文要解决的问题是:如何从单张图片中为给定的目标3D运动序列生成动画人物。
为了解决这个问题,该论文提出了一个基于扩散模型的框架,该框架具有两个核心组件:
具体来说,该框架使用了一种填充扩散模型,可以根据单张图片来预测人体的不可见部分。此外,该框架还开发了一种基于扩散的渲染管道,该管道由3D人体姿态控制,能够生成新的、逼真的渲染效果。
解决的方法:
该论文提出了一种名为3DHM的两阶段扩散模型框架,用于根据一张随机照片和目标人体姿态合成移动的人。其核心在于采用了一种尖端的3D姿态估计模型来生成人体运动数据,从而使模型可以在没有真实标签的任意视频上训练。此外,该方法适用于长距离运动生成,并能处理各种姿态,且相对于先前的方法具有优越的性能。
此外,该论文还通过比较不同方法的生成视频中人体姿态的准确性,进一步验证了3DHM的有效性。具体来说,他们使用了一种先进的3D姿态估计模型(4DHumans)来从不同方法的生成视频中估计3D姿态,并将这些姿态与目标视频中的3D姿态进行比较。在评估结果时,他们计算了每个视频所有帧的平均得分。
除了DreamPose和DisCO等先前的方法外,他们还将3DHM与ControlNet进行了比较。ControlNet是一种在生成具有条件(包括OpenPose控制)的图像方面达到当前最先进水平的方法。由于ControlNet不输入图像,他们输入了与3DHM相同的提示和相应的OpenPose作为条件。
总的来说,该论文提出的方法通过结合先进的3D姿态估计模型和两阶段扩散模型框架,实现了在任意视频上训练并生成具有优越性能的人体运动数据。
创新点:
系统架构:
结果:
结论:
在这篇论文中,我们提出了3DHM,这是一个基于两阶段扩散模型的框架,可以根据一个随机照片和目标人体姿势合成移动的人物。我们方法的一个显著特点是,我们使用先进的3D姿势估计模型生成人体运动数据,使得我们的模型能够在任意视频上进行训练,而无需地面真实标签。我们的方法适用于长距离运动生成,并且在处理任意姿势时表现优越,相较于先前的方法具有更好的性能。
实际应用价值:
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved