炸裂的文字生成视频sora 背后的技术逻辑（炸裂合并2048）

新年还没过完，AI届又发生了轰轰烈烈的事情，由openai实现的文生视频火遍了全网，那你知道它背后都是什么样的技术逻辑吗？

实现原理

具体来说，在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型。他们利用transformer架构，在视频和图像潜在代码的时空补丁上运行。最大的模型Sora能够生成一分钟的高保真视频。其结果表明，缩放视频生成模型是构建物理世界通用模拟器的一条有希望的道路。

将视觉数据转化为补丁

从大型语言模型中汲取灵感，这些模型通过互联网规模的数据培训获得通才能力，LLM范式的成功部分得益于使用Token，这些Token优雅地统一了文本的多种模式——代码、数学和各种自然语言。在这项工作中，考虑了视觉数据的生成模型如何继承这些好处。LLM有文本Token，而Sora有视觉补丁。补丁以前已被证明是视觉数据模型的有效表示。我们发现，补丁是一种高度可扩展和有效的表示，用于训练不同类型的视频和图像的生成模型。

在高水平上，我们通过首先将视频压缩到低维的潜在空间，然后将表示分解为时空补丁，将视频变成补丁。

视频压缩网络

训练一个减少视觉数据维度的网络。这个网络将原始视频作为输入，并输出一个在时间和空间上压缩的潜在表示。Sora接受训练，并随后在这个压缩的潜在空间中生成视频。我们还训练了一个相应的解码器模型，将生成的潜能映射回像素空间。

时空潜伏补丁

给定一个压缩的输入视频，提取一系列作为Transformer Token的时空补丁。此方案也适用于图像，因为图像只是单帧的视频。我们基于补丁的表示使Sora能够对可变分辨率、持续时间和宽高比的视频和图像进行训练。在推理时，我们可以通过在适当大小的网格中排列随机初始化的补丁来控制生成的视频的大小。

用于视频生成的缩放Transformer

Sora是一个扩散模型；给定输入嘈杂的补丁（以及文本提示等调理信息），它经过训练来预测原始的“干净”补丁。重要的是，Sora是一个扩散Transformer。Transformer在各个领域都表现出了显著的缩放特性，包括语言建模、计算机视觉、和图像生成。

在这项工作中，发现扩散Transformer作为视频模型也能有效扩展。下面，随着培训的进行，展示了视频样本与固定种子和输入的比较。随着训练计算的提高，样本质量显著提高。

可变持续时间、分辨率、宽高比

过去的图像和视频生成方法通常将视频大小、裁剪或修剪为标准尺寸——例如，256x256分辨率的4秒视频。我们发现，以原生规模对数据进行训练会带来一些好处。

采样灵活性

Sora可以采样宽屏1920x1080p视频、垂直1080x1920视频以及介于两者之间的一切。这允许Sora直接以原生宽高比为不同设备创建内容。它还允许我们在以全分辨率生成之前，以较低的尺寸快速制作内容原型——所有这些都使用相同的模型。

改进的框架和构图

我们实证地发现，以原生宽高比进行视频训练可以改善构图和构图。我们将Sora与我们的模型版本进行比较，该模型将所有训练视频裁剪为正方形，这是训练生成模型时的常见做法。在方形作物上训练的模型（左）有时会生成视频，其中主体仅部分出现在视野中。相比之下，Sora（右）的视频改进了框架。

语言理解

培训文本到视频生成系统需要大量带有相应文本字幕的视频。我们将DALL·E 330中引入的重新字幕技术应用于视频。我们首先训练一个高度描述性的字幕模型，然后用它来为我们训练集中的所有视频制作文本字幕。我们发现，关于高度描述性视频字幕的培训可以提高文本保真度以及视频的整体质量。

与DALL·E 3类似，我们还利用GPT将简短的用户提示转换为发送到视频模型的更长的详细字幕。这使得Sora能够生成准确遵循用户提示的高质量视频。

一个老人

穿着

紫色工作服和牛仔靴

愉快地散步 ,此处没有视频

提示图像和视频

上面和我们登陆页面中的所有结果都显示了文本到视频样本。但Sora也可以通过其他输入来提示，例如预先存在的图像或视频。此功能使Sora能够执行广泛的图像和视频编辑任务——创建完美循环视频，动画静态图像，在时间上向前或向后扩展视频等。

动画DALL·E图像

Sora能够生成视频，提供图像和提示作为输入。下面我们展示了基于DALL·E 231和DALL·E 330图像生成的示例视频。

扩展生成的视频

Sora还能够向前或向后扩展视频。以下是四个视频，这些视频都从生成的视频片段开始向后扩展。因此，四个视频中的每一个的开始都与其他视频不同，但所有四个视频都导致相同的结局。

我们可以使用这种方法向前和向后扩展视频，以生成无缝的无限循环。

视频到视频编辑

扩散模型使从文本提示编辑图像和视频的方法成为可能。下面我们将这些方法之一，SDEdit，³²应用于Sora。这项技术使Sora能够改变零拍摄输入视频的风格和环境。

连接视频

我们还可以使用Sora在两个输入视频之间逐步插值，在具有完全不同主题和场景构图的视频之间创建无缝过渡。在下面的示例中，中间的视频在左侧和右侧的相应视频之间插值。

图像生成能力

Sora也能够生成图像。我们通过在时间范围为一帧的空间网格中排列高斯噪声补丁来做到这一点。该模型可以生成可变尺寸的图像——分辨率高达2048x2048

新兴的模拟能力

我们发现，视频模型在大规模训练时表现出许多有趣的紧急能力。这些能力使Sora能够从物理世界中模拟人、动物和环境的某些方面。这些属性在3D、物体等没有任何明确的感应偏导的情况下出现——它们纯粹是规模现象。

3D一致性。

Sora可以生成具有动态相机运动的视频。随着相机的移动和旋转，人物和场景元素在三维空间中始终如一地移动。

长期连贯性和对象持久性。

视频生成系统面临的一个重大挑战是在采样长视频时保持时间一致性。我们发现Sora通常（尽管并非总是如此）能够有效地模拟短期和长期依赖关系。例如，我们的模型可以持续存在人、动物和物体，即使它们被遮挡或离开框架。同样，它可以在单个样本中生成同一角色的多个镜头，在整个视频中保持其外观。

与世界互动。

Sora有时可以以简单的方式模拟影响世界状态的行为。例如，画家可以沿着画布留下新的笔触，这些笔触会随着时间的推移而持续下去，或者一个男人可以吃一个汉堡并留下咬痕。

模拟数字世界。

Sora还能够模拟人工过程——一个例子是电子游戏。Sora可以同时用基本策略控制《我的世界》中的玩家，同时以高保真度渲染世界及其动态。通过提示Sora的标题提及“Minecraft”，可以激发这些功能。这些能力表明，视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的高性能模拟器的一条有希望的道路。

讨论

Sora目前作为模拟器表现出许多局限性。例如，它没有准确模拟许多基本相互作用的物理学，比如玻璃破碎。其他相互作用，如吃食物，并不总是能产生物体状态的正确变化。我们在登陆页面中列举了模型的其他常见故障模式，例如在长时间样本中形成的不一致性或物体的自发出现。我们相信，Sora今天的能力表明，视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的强大模拟器的一条有希望的道路。

未来可期

虽然目前sora仅仅开放给个别人，不过可以预见的是，全民开放仅仅是时间问题。

未来已来，你在哪里？