OpenAI推出了文本生成高质量视频生成模型Sora,尽管尚未对外开放使用,但已经发布了许多视频作为示例,并提供了技术报告分享他们的研究成果。本期视频来解读这个能够生成高质量视频的技术,它究竟是怎样的?
首先用于视频生成的常用模型包括循环神经网络(RNN)、生成对抗网络(GAN)、自回归Transformer结构以及扩散模型(Diffusion model)。在这些模型中,目前在图像生成领域效果最优的通常是扩散模型。一些AI公司如OpenAI journey利用扩散模型生成美轮美奂的图像,因此OpenAI的Sora模型也不例外,采用了扩散模型来生成高质量视频。
具体来说,Sora使用的是Text-conditional diffusion models基于文本的扩散模型,这使得可以用详细的文本描述来对生成的视频进行精确的控制,就像GPT取得成功一样。Sora也采用了diffusion transformer结构,因此综合起来,Sora使用的是diffusion transformer模型。
正如在这篇论文中所述,OpenAI的研究结果表明,将视频生成的模型扩大是构建通用物理世界模拟器的一条有希望的途径,而且这些大模型可以通过在互联网规模的数据上进行训练来获得通用性能。
比如当使用基本的计算量模型生成狗的视频时,可能只能看到大概的样子,但当使用四倍的计算量时,生成的结果明显改善。尽管清晰度还不够高,而当采用32倍的计算量时,效果显著提升。不仅视频图像的清晰度非常高,而且能展现出许多细微的动作细节,表现得非常逼真,这就是所谓的力大砖飞,方法简单粗暴,效果也是立竿见影。
之前的视频生成模型存在各种限制,而Sora则能够生成不同长度、不同长宽比和不同分辨率的视频,比如:Sora可以生成长达一分钟的高清视频。
Sora为什么能够生成如此灵活的视频?原因在于Sora不将整个视频作为一个完整的输入单元,而是将视频的图像分割成一个个小块,称为patch,每个视觉块相当于一个文字token。因此无论是多长分辨率不同的视频,它们都可以被视为一串文字。不同之处在于这里的每个文字都是一个小的图块Visual token。
具体来说,首先训练一个编码器网络,将视觉数据的维度降低,该编码器将视频压缩成一个低维的隐空间,既作用在时间上又在空间上,这相当于是浓缩的精华。
在第二阶段,随后将该表示分解为一维的时空块全部展开,形成一个序列,并将其输入到专门处理序列的Transformer模型中。这样一来就可以将所有的图块串联起来,将视频中不同位置、不同时间点的所有信息连接起来。
然后在解码阶段给定输入的噪声图块以及条件信息,如文本提示,模型经过训练可以预测出原始的干净图块,这里使用的是Diffusion Transformer而不是U,这样可以扩大模型的规模来提高性能表现。
此外,他们处理训练数据的方法也与以往不同,过去生成图像和视频的方法通常会将视频调整为标准尺寸,例如256x256分辨率的4秒视频。而OpenAI则训练模型使用原始视频的宽高比,这是被裁切后的视频训练的结果,这是采用原始原生的视频规格训练的结果。
我们发现后者的做法可以提高构图和取景效果。为了更精准地控制生成的视频,对语言有更深入的理解是不可或缺的。他们采用了DALLE3中引入的recaptioning技术,caption就是对图片的文字说明,它的具体步骤如下:
·首先训练一个能生成描述性文字的模型,然后使用它为所有的训练视频生成文本描述。
·同时他们还利用GPT将用户的简短提示转化为更详细的文字描述。
研究发现,在使用更丰富的描述性文字进行训练时,不仅可以提高文本的准确性,还能提升整体视频的质量。
总的来说,这就是对Sora一些技术的解读。虽然训练模型和具体实现细节并未公开,但仍可以从中窥见一般核心感悟。
在于更大的模型、更大的数据量、更大的计算量能够产生更高质量的视频,这或许是通向通用人工智能的一条途径,或许并不是。但目前看来随着规模的扩大,AI仍有巨大的提升空间,对未来继续拭目以待。
本期视频就到这里,下期见。
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved