HAAR AI发型生成器:从文字到3D发丝只需几个字

HAAR AI发型生成器:从文字到3D发丝只需几个字

首页休闲益智头发运行3D更新时间:2024-06-05

HAAR发型生成器,一种新的基于发丝的三维人类发型生成模型。具体来说,根据文本输入,HAAR可以生成可用于各种计算机图形动画应用的三维发型。现有的基于AI的生成模型利用强大的二维先验来重建三维内容,形式为点云、网格或体积函数。然而,通过使用二维先验,它们仅限于恢复可视部分。高度遮挡的发丝结构无法用这些方法重建,而且它们只建模了“外壳”,不适合用于基于物理的渲染或仿真流程。相比之下,开发团队提出了一种首个基于文本的生成方法,使用三维发丝作为底层表示。利用二维视觉问答(VQA)系统,自动为从一小组艺术家创建的发型生成的合成发型模型添加文本标注。这使训练一个在通用发型UV空间中运行的潜在扩散模型。在定性和定量的研究中,我们展示了所提出模型的能力,并将其与现有的发型生成方法进行了比较。

主要思想

这是一种新的基于文本和发丝的发型生成方法。对于训练集中的每一种发型,生成潜在的发丝图,并使用现成的VQA系统和自定义标注流程为它们添加文本描述。然后,训练一个条件扩散模型,在这个潜在空间中生成引导发丝,并使用一个潜在上采样过程来重建包含多达十万根发丝的密集发型,给定文本描述。

使用现成的计算机图形技术来渲染生成的发型。

方法

方法包括以下几个步骤:

数据集构建

为了构建我们的数据集,首先从网上收集了一些艺术家创建的三维发型模型,包括不同的长度、颜色、形状和风格。然后,使用一个预处理过程将这些模型转换为我们的发丝表示,即在UV空间中的二维发丝图。使用一个自适应的算法来确定每个发型的最佳UV映射,以最大化发丝的分辨率和连续性。我们还计算每个发丝的方向、曲率和厚度,作为额外的属性图。

为了为每个发型生成文本描述,我们使用了一个基于注意力机制的VQA系统,该系统可以根据图像和问题生成自然语言答案。我们将每个发型的发丝图作为图像输入,然后随机生成一些关于发型的问题,例如“这个发型的长度是多少?”,“这个发型的颜色是什么?”,“这个发型有没有刘海?”,等等。我们使用VQA系统的输出作为文本描述的片段,然后将它们拼接成一个完整的句子,作为每个发型的标注。

模型训练

我们使用一个条件扩散模型来训练我们的发型生成器,该模型可以从文本描述中生成潜在的发丝图。扩散模型是一种基于能量的生成模型,它可以从一个高斯噪声分布逐步扩散到目标分布。我们使用一个编码器-解码器结构的神经网络作为我们的扩散模型,其中编码器将文本描述编码为一个潜在向量,解码器根据潜在向量和当前的噪声水平生成发丝图的条件分布。我们使用一个自回归的损失函数来训练我们的模型,即最大化给定文本描述和前面的发丝的条件概率。

发型生成

为了从文本描述中生成发型,我们首先使用我们的编码器将文本描述编码为一个潜在向量,然后使用我们的解码器从高斯噪声分布开始,逐步扩散到目标发丝图的分布。我们使用一个随机采样的策略来生成发丝图的像素值,从而增加生成的多样性。我们重复这个过程多次,以生成不同的发丝图。

为了从潜在的发丝图重建密集的发型,我们使用一个潜在上采样的过程,该过程可以根据发丝图的方向、曲率和厚度属性,生成更多的发丝。我们使用一个基于贝塞尔曲线的算法来插值和平滑发丝,以提高发型的真实感。我们还使用一个基于物理的模型来模拟发丝之间的碰撞和摩擦,以保持发型的结构和自然性。最后,我们使用一个基于光线追踪的渲染器来渲染生成的发型,添加阴影、反射和折射等效果。

实验结果

我们在我们构建的数据集上评估了我们的方法,并与现有的发型生成方法进行了比较。我们使用了两种评价指标:一种是基于感知的指标,即使用人类评价员对生成的发型的质量、多样性和与文本描述的一致性进行打分;另一种是基于结构的指标,即使用发丝的数量、长度、方向和曲率等统计量来衡量生成的发型的复杂性和真实性。我们的实验结果表明,我们的方法可以生成高质量、高多样性和与文本描述一致的发型,且在结构上更接近真实的发型,相比于现有的方法有明显的优势。以下是一些我们的生成样例:

查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved