万字长文探索Sora的奥秘：15大视频能力、优缺点、应用场景和对产品经理的启示（高校柴犬模拟器）

Sora的出现，带给了许多行业的从业人员一些震撼。那么作为产品经理，你是否了解Sora的核心能力在哪里？这篇文章里，作者做了探讨，并且还讨论了Sora如何启发产品设计和创新路径。一起来看看吧。

探索Sora的15项核心能力，本文将带你全面了解这个AI视频生成器的技术优势、潜在局限，以及其在多个场景下的应用。对于产品经理而言，我们还将讨论Sora如何启发产品设计和创新路径。

无论你是AI技术的研究者、视频内容创作者，还是致力于产品创新的经理人，这篇文章都将为你打开一个新世界的大门，带你深入了解Sora的内部机制和外部应用，洞察未来趋势。

一、关于Sora

Sora是OpenAI在2023年2月发布的一款文本到视频生成模型。它能够根据描述性提示生成长达一分钟的视频，同时保持视觉品质并遵循用户提示。视频可以包含多个角色、特定类型的运动，以及主题和背景的准确细节。

文生视频（Text-to-Video）技术是指根据给定的文本描述自动生成视频的技术。这种技术可以创造出复杂的场景、生动的角色表情以及复杂的镜头运动。

OpenAI开发Sora的目的是为了教人工智能理解和模拟运动中的物理世界，并训练其帮助人们解决需要现实世界互动的问题。这意味着Sora不仅可以生成视频，还可以模拟物理世界中的运动，从而生成更加真实和有用的视频内容。

这就是OpenAI 称它为“世界模拟器”的原因。

二、Sora技术原理

首先简单概括一下Sora技术原理。

Sora是一种先进的视频生成模型，它能够根据文本提示生成相应的视频。它的工作原理可以简单地理解为两个主要步骤：编码和生成。

1. 编码

首先，Sora会将输入的视频数据进行压缩，将其转化为一种低维的潜在表示形式。这个过程有点像我们把一个复杂的物体分解成简单的零件，方便我们后续处理。然后，这些被压缩的数据会被进一步分解成时空区块，你可以把它们想象成视频的“基因”，包含了视频的所有基本信息。

2. 生成

接下来就是生成阶段。Sora利用扩散模型的思想，从简单的噪声信号出发，逐步添加细节和模式，最终生成复杂的新数据。这就像我们根据零件重新组装出一个新的物体，只不过Sora的版本更加复杂和高级。

在这个过程中，Sora还利用了变换器（Transformer）的技术，这是一种非常擅长处理序列数据的模型。无论是语言还是视频，都可以看作是由一系列高维向量组成的序列，而变换器则能够很好地预测下一个向量应该是什么。

总的来说，Sora的工作原理就是先将视频数据进行压缩和分解，然后利用扩散模型和变换器技术逐步生成新的视频内容。

Sora 是能够理解和模拟现实世界的模型的基础，相信这一功能将成为实现 AGI 的重要里程碑。

三、Sora 视频能力清单

Sora 的能力到底多厉害？根据OpenAI披露的技术文档，盘点了14条之多，本文将针对每一条做更加深入的分析和理解，并且用通俗易懂的语言进行解释说明，并会增加该能力在可能的领域将有什么样的应用。看完本文，相信你一定会对 Sora 有更深刻的认识，并有可能结合自己的工作和生活，找到结合的场景，产生如何运用它的创意。

Sora能力清单：

长视频
多机位
多角色
多分辨率、任意宽高比尺寸
语言理解：准确遵循用户提示的高质量视频
图片提示=视频
在时间上向前或向后扩展视频
无缝的无限循环视频
视频到视频编辑：零镜头改变输入视频的风格和环境。
连接视频：两个视频穿插衔接
图像生成能力：分辨率高达 2048×2048
3D 一致性
远程相干性和物体持久性
与世界互动
模拟数字世界

四、Sora 的视频能力详解

接下来，让我们来看看每一个能力的具体情况吧。

1. 长视频

首先要申明的是，这里的长视频，并不是电影电视剧级别的长视频，而是相比其他文生视频友商的 5s 、 10s、15s相比的，可以连续生成 1 分钟的长视频。

这个 1 分钟在大模型生成视频领域是什么概念呢？Sora之于视频生成领域有多大的进步呢？单单从生成长度这个维度来看，就已经是吊打之前所有的模型了。

可以看下图：

之前大火的Pika、Runway等模型只能生成3秒上下的视频，最长的例如Kaiber也是只能生成16s的长度。而Sora可以实现1分钟的视频生成。

虽然1min对于抖音来说，也就是平常的短视频，但是对于学界来说已经是突破的进展了。

2. 多机位

视频的多机位是指使用两台或两台以上摄影机，对同一场面同时作多角度、多方位的拍摄。

多机位拍摄可使观众能够从多个不同的角度观看画面，给人以身临其境的感觉。它展现空间更全面、视点更细腻、角度更开放、长度更自由，给观众带来全方位、多角度的观赏体验。

Sora 可以在单个生成的视频中创建多个镜头，准确地保留角色和视觉风格。从 Sora 生成的这个视频可以看出，画面在不停地切换转场，似乎有一种电影画面镜头的感觉。

3. 多角色

Sora 能够生成具有多个角色、特定类型的运动以及主体和背景的准确细节的复杂场景。文生视频中的多角色指的是在由文本生成的视频中，能够展现出多个具有不同特点和情感表达的角色。

多角色的存在意味着模型能够理解和描绘出文本中提到的不同人物，并为他们设计合适的视觉形象和动作，使得视频内容更加丰富和真实。具体来说：

角色的多样性：模型能够根据文本描述创造出不同的角色，每个角色都有其独特的外观、服装和行为特征。
情感表达：角色能够展现出与文本描述相匹配的情感状态，如快乐、悲伤或愤怒等。
交互和动作：在视频中，这些角色可以进行交互，执行动作，甚至参与到复杂的活动中去。
背景和环境的融合：角色不仅仅是孤立存在，他们还会与视频中的背景和环境相融合，形成一个连贯的故事情境。

例如下面的视频例子：

大家可以看一下视频，体会一下多角色的效果。

提示语：一位白发梳得整整齐齐的老奶奶站在木制餐桌上的彩色生日蛋糕后面，蛋糕上插着无数蜡烛，脸上的表情是纯粹的喜悦和幸福，眼中闪烁着幸福的光芒。她倾身向前，轻轻地吹灭蜡烛，蛋糕上有粉红色的糖霜和糖珠，蜡烛不再闪烁，祖母穿着一件饰有花卉图案的浅蓝色衬衫，几个幸福的朋友和家人坐在桌边。看到庆祝，失去焦点。该场景拍摄精美，具有电影般的效果，展示了祖母和餐厅的 3/4 视图。温暖的色调和柔和的灯光增强了情绪。

从提示语和生成的视频，我们来分析一下。

提示语说到需要有“白发梳得整整齐齐的老奶奶”、“几个幸福的朋友和家人”等多个人物角色。视频中都体现了，而且主次分明，有男有女，有老有少，层次丰富。

提示语也说到老奶奶就是祖母，祖母的表情是“纯粹的喜悦和幸福，眼中闪烁着幸福的光芒”，从视频中祖母表现出的笑容，我们确实能感受到她的喜悦和幸福，很有感染力。

家人的表情和动作，也符合生日场景，和主题保持一致，和主角一起分享快乐。同时，提示语中的“祖母穿着一件饰有花卉图案的浅蓝色衬衫”，体现得很到位。

这个视频很好地说明了，Sora 可以完成多角色的视频任务生成。但是，我们也看到了它对物理世界交互处理上的不足，因为老奶奶用力一吹，蜡烛并没有熄灭。而提示词也说了“蜡烛不再闪烁”，这一点，有待 Sora 继续进化升级。

4. 多分辨率，任意宽高比尺寸

其他友商或者过去的视频训练方法是，通常会将用于训练的视频调整大小、裁剪或修剪为标准尺寸，例如，分辨率为 256×256（正方形）的 4 秒视频。也就是说，视频尺寸是固定的，这种方式，可能导致主角不在画面的中间或者合适的位置，可能会出现偏差。

Sora 采取的是保留原始视频的大小和分辨率，用原始长宽比对视频进行训练。这样训练出的Sora模型，可以在输出和生成视频的时候，改善视频画面的构图和取景。

也就是说，Sora可以直接以其原生宽高比为不同设备创建内容。例如宽屏 1920x1080p 视频、垂直 1080×1920 视频，以及介于两者之间的所有视频尺寸。

不同尺寸的视频对比播放效果：

原生宽高比为不同设备创建内容视频效果展示：

画面效果对比：

5. 语言理解：准确遵循用户提示的高质量视频

Sora之所以能根据语音指令生成高质量的视频，主要和他的训练模式有关，并且可以通过改变描述语言的局部信息，可以输出不同风格的高质量视频。

首先，他们训练了一个能够生成详细描述的字幕生成器模型，然后使用这个模型为所有的视频生成相应的文本字幕。这样做的好处是可以提高视频的文字准确性和整体质量。

想象一下，我们要教一台电脑如何自己制作视频。首先，我们需要给它很多有文字说明的视频，好让它学习怎么根据这些文字来制作相应的画面。但是，找到这么多正好配有详细文字的视频并不容易。

那我们怎么办呢？我们先用一个特殊的软件，这个软件就像是一个超级聪明的作家，这个软件就是Open的 DALL·E 3 中引入的重新字幕技术。

它能够看视频然后写下非常详尽的描述，就好像是在给视频写剧本一样。我们把整个视频库都让这个软件过一遍，这样每个视频就有了一个详细的文字版“剧本”。

接着，我们还用了一个像聊天机器人一样的工具，这个工具能把我们给出的一些简单提示或者想法，扩展成更长、更具体的故事。这就好比你给出一个故事的大纲，然后这个工具帮你把它填充成一个详细的故事。

有了这些工具后，我们就可以告诉电脑：“嘿，我想看一段山间清晨的视频”，然后电脑就会根据这个想法，利用之前生成的那些详细的故事（也就是文字字幕），来创造出一段美丽的山景早晨视频给你看。

总的来说，我们就是教了一台电脑，通过阅读详细的文字描述来制作和这些描述匹配的视频，而且还能用我们简单的提示来制作符合我们要求的视频。

描述视频的提示语中有4个变量，通过修改变量的描述，组合后就生成不同的视频。而且，Sora能准确理解描述的文字语言，在视频中非常好的体现。不管改变的是主体角色，还是穿着打扮，或者是事情发生的地点和周围环境。

例如OpenAI给出的效果示例。

第一个变量有4种情况，而后三个变量每个都有3种情况，那么总共可以组成的场景数量是 4 乘以 3 的 3 次方。

所以总的视频场景数为：4 * 3^3 = 4 * 27 = 108

因此，Sora可以生成并输出 108 个不同的视频。

示例1：主角是一个女人

示例2：主角是一个老人

示例3：主角是一个玩具机器人

示例4：主角是一只可爱的袋鼠

6. 图片提示=视频

除了提示语文字生成视频外， Sora 也可以通过其他输入进行提示，例如预先存在的图像或视频。通过一张静态的图片一段文字描述，Sora 可以生成一段视频。

输入：图像提示语

输出：视频

我们可以看一下Open AI 提供的示例效果展示：

展示基于DALL·E2生成的示例视频和达尔·E3图片。

示例 1：一只戴着贝雷帽和黑色高领毛衣的柴犬。

示例2：不同家族怪物的平面设计风格的怪物插图。该群体包括一个毛茸茸的棕色怪物、一个带有天线的光滑黑色怪物、一个有斑点的绿色怪物和一个小圆点怪物，所有怪物都在一个有趣的环境中互动。

示例 3：写有“SORA”的现实云的图像。

示例 4：在一座华丽的历史大厅里，巨大的浪潮达到顶峰并开始崩塌。两名冲浪者抓住时机，熟练地驾驭海浪。

7. 在时间上向前或向后扩展视频

Sora 还能够在时间上向前或向后扩展视频。例如，从生成的视频片段开始，向后延伸视频，使得多个视频的开头都不同，但是结局都是相同的，也就是殊途同归的感觉。这使得它能够创造出多样化的视频内容。

扩展功能的进一步解释：

向后延伸：Sora可以从一个现有的视频片段出发，通过学习其视觉动态和内容，生成新的帧来扩展视频的时长。这意味着，它可以制作出多个版本的视频开头，每个开头都有不同的内容，但都平滑过渡到原始视频的某个特定点。
向前延伸：同样地，Sora也能够从视频的某个点开始，向前生成新的帧，从而扩展视频至所需的长度。这可以创造出多种结局，每个结局都是从相同的起点开始，但最终导向不同的情景。
殊途同归：利用Sora的时间扩展功能，可以创造出具有”殊途同归”感觉的视频序列。这意味着多个视频序列可能从完全不同的场景开始，但最终都汇聚到同一个终点，给人一种命运共同、目标一致的印象。
内容创作与编辑：这种时间上的扩展能力为视频内容创作者提供了强大的工具。他们可以创造出具有复杂情节和多变结局的视频，或者为现有的视频素材增添新的创意元素。

Sora模型的时间扩展功能为视频编辑和内容创作提供了前所未有的灵活性和创造性。它不仅能够生成无限循环的视频，还能够按照创作者的意图制作出具有特定结构和风格的视频作品。

8. 无缝的无限循环视频

什么是无限循环视频？

无限循环视频是一种视频格式，它能够在播放结束后自动重新开始播放，形成一个看似无休止的循环。这种视频通常用于展示连续的动作或者场景，比如动态背景、滚动图片展示、动画角色行走等。

在视频编辑和动画制作中，，非大模型生成的做法是，专业人士通过特定软件如Adobe Premiere Pro（PR）、After Effects（AE）等来创建无限循环视频。有学习成本和一定的门槛，也比较费时费力。

Sora生成无限循环视频的方法：

Sora从一段现有的视频片段出发，通过所谓的“视频到视频编辑”技术，实现视频内容的前后扩展，从而创造出一个可以不断重复播放的视频流，这就是无限循环视频。

以下是 OpenAI 给出的效果示例视频：

具体来说，无限循环视频有以下特点：

无缝连接：视频的结尾能够平滑过渡到开头，没有明显的断裂或不自然之处，给观众带来连贯流畅的观看体验。
可定制性：基于Sora模型的灵活性，用户可以根据需要设计特定内容或风格的无限循环视频，比如将某个场景或者动作不断重复。

Sora生成的无限循环视频是一种创新的视觉媒体形式，它不仅展示了生成型AI模型的强大能力，也为视频内容创作提供了新的可能性。Sora 的这个能力，后续在落地应用的时候，或许是有具体场景的。

9. 视频到视频编辑：零镜头改变输入视频的风格和环境

Sora利用了先进的深度学习模型，特别是扩散模型的视频编辑技术，能够根据文本提示零镜头地改变视频的风格和环境。这种方法使得视频编辑变得更加灵活和高效，用户可以通过简单的文本描述来实现复杂的视觉效果。

以下是SDEdit技术的一些关键特点：

文本条件编辑：根据提供的文本提示来理解和执行视频编辑任务，提高了编辑的直观性和易用性。
风格和环境变换：利用这项技术，可以轻松改变视频的风格和环境，例如将一个场景转换为另一个完全不同的环境，如从室内转到茂密的丛林中。

Sora的视频编辑带来了革命性的变化，它不仅提高了编辑的效率和准确性，还为用户创造了无限的可能性，使他们能够在不需要专业视频编辑技能的情况下，实现复杂和创意的视频效果。

随着技术的不断进步，未来我们可以期待更多类似SDEdit的创新应用，进一步推动多媒体内容创作和消费的边界。

10. 连接视频：两个视频穿插衔接

Sora能够通过插值技术，在两个不同主题和场景的视频之间创建无缝过渡。这种能力得益于Sora的高级插值技术，它可以在不同的视频内容之间进行有效的混合和融合。

这项功能的特点和价值有：

视频插值：Sora能够在两个视频片段之间进行逐渐的插值，这意味着它可以创造出一个过渡视频，使得两个截然不同的视频平滑地融合在一起。
混合和融合视频内容：Sora展现了在有效混合和融合不同视频内容方面的强大能力，它可以在两个视频之间进行插值，创造出一个中心视频，这个视频在左右两个视频之间实现了平滑过渡。
保持视觉质量和忠实度：在进行视频插值和过渡的同时，Sora能够保持视频的视觉质量，并且对用户提供的指令保持高度忠实，确保生成的视频内容符合用户的需求和预期。
无缝过渡：通过插值技术，Sora确保了即使在主题和场景构成完全不同的视频之间，也能够实现流畅的过渡效果，这对于视频编辑和创作来说是一个非常有用的工具。

示例效果解析：

Sora的这些功能极大地扩展了视频编辑的可能性，使得创作者能够更加自由地表达自己的创意，同时也为视频编辑领域带来了新的技术和方法。

这种技术的应用前景广阔，从电影制作到广告创作，再到社交媒体内容的生产，都可以通过Sora来实现更加流畅和创新的视频体验。

11. 图像生成能力：分辨率高达 2048×2048

Sora的图像生成能力是通过在时间范围为一帧的空间网格中排列高斯噪声块来实现的。这种方法允许模型生成各种尺寸的图像，分辨率高达2048×2048。

效果示例1：秋季女性特写肖像照，极其细节，浅景深

官方示例图片：

具体来说，Sora的图像生成过程包括以下几个关键步骤：

初始化空间网格：首先，Sora会在时间范围为一帧的空间网格上进行初始化，这个网格构成了图像生成的基础结构。
排列高斯噪声块：接着，Sora在这个空间网格中排列高斯噪声块，这些噪声块是随机生成的，但会逐渐被模型转化为有意义的图像内容。
应用扩散模型：Sora利用扩散模型对噪声块进行处理，通过一系列的迭代过程，逐步将噪声转化为图像的细节和特征。
生成高分辨率图像：通过深度学习模型的训练，Sora能够生成高质量、逼真的图像。这些图像不仅在视觉上吸引人，而且与现实世界中的物体和场景非常相似。
灵活性：Sora的图像生成过程是可调整的，用户可以通过改变模型的参数来控制生成图像的风格、细节程度等。
广泛的应用：由于其强大的图像生成能力，Sora可以被用于多种应用，包括但不限于艺术创作、游戏开发、媒体娱乐等。

总的来说，Sora的图像生成能力展示了其在视觉创作领域的强大潜力，在落地应用方面可满足不同场景和需求。

12. 3D 一致性

Sora能够生成具有3D一致性的视频，确保了在动态摄像机运动中人物和场景元素在三维空间中的一致性。

Sora的这一能力体现在其能够模拟现实世界中的动态摄像机运动。无论是摄像机的平移、倾斜还是旋转，Sora生成的视频都能保持物体和场景元素的连贯性和稳定性，就像在真实的三维环境中一样。这种3D一致性不仅增强了视频的真实感，也是对视频生成模型在理解和模拟现实世界方面能力的体现。

具体来说，Sora的3D一致性包括以下几个方面：

长程一致性和物体永久性：在生成长视频时，Sora能够保持时间上的一致性，即物体和场景元素在视频序列中持续存在，不会突然出现或消失。
模拟物理世界：Sora能够在没有明确的3D建模或物体识别的前提下，模拟现实世界中的人和动物的动作以及环境变化。
新兴能力：这些3D一致性的特性并不是预先设计好的，而是在大规模训练数据上自然涌现出来的能力。

总的来说，Sora的3D一致性是其在视频生成领域的一个重要突破，它不仅提升了视频的真实感，也为未来视频内容的创作和编辑提供了更多的可能性。通过深度学习和大规模训练，Sora展现了人工智能在理解和生成复杂视觉场景方面的显著进步。

13. 远程相干性和物体持久性

Sora展现出了在视频生成中的远程相干性和物体持久性，这体现在其能够在长视频中有效地对短期和长期依赖关系进行建模。

远程相干性和物体持久性是视频生成系统中至关重要的特性，它们确保了视频内容在时间上的连贯性和逻辑性。Sora的这些能力具体表现在以下几个方面：

保留人、动物和物体：Sora能够在视频中持续跟踪人、动物和物体的存在，即使这些元素被遮挡或暂时离开画面，也能保持一致性。
多镜头生成：Sora能够在单个视频样本中生成同一角色的多个镜头，这意味着它能够处理和维持角色的不同视角和场景切换。
外观保持：在生成的视频中，Sora能够保持特定物体或角色的外观一致性，即使在视频的时间跨度较长或场景变化较大的情况下。
解决遮挡问题：当视频中的对象被遮挡时，Sora能够利用其对场景的理解来预测这些对象的运动和位置，从而保持场景的连贯性。

在这上面这个例子中，窗台上的狗，即便被多次遮挡，还是会展示原本的样子，并没有改变主题的样式，持久存在。

通俗的理解如下：

当我们说Sora具有远程相干性和物体持久性时，我们是在谈论它制作视频的能力，特别是它如何处理视频中随时间发生的变化。想象一下，你正在看一部电影，电影中的角色或物体即使不是一直出现在屏幕上，你也记得他们。这就是远程相干性。

而物体持久性意味着即使东西暂时消失了，比如被其他物体遮挡，我们也能在心中记住它的存在，并且在它再次出现时，我们知道那还是同一个物体。

简单来说，Sora在制作视频时能够记住之前发生的事情，并且确保事情的连贯性。如果视频中有个人走进门后不见了，Sora可以做出这个人是继续走路，而不是突然在别的地方出现或者消失不见。这就像是在讲故事时保持故事线一致，让听众不会感到困惑。

此外，如果视频中有多个场景显示同一个人，Sora能确保这些场景中的人的外观和行为是一致的，就好像是在拍摄电影时从不同的角度拍摄同一个演员一样。

这样的能力对于制作看起来真实且连贯的视频非常重要，尤其是在视频很长或者包含许多复杂场景的时候。Sora通过复杂的计算和学习大量的数据来做到这点，使得它能生成高质量的视频，即使那些视频中有很多动作和变化。

14. 与世界互动

Sora能够模仿一些我们在日常生活中的行为和动作。比如说，就像一个画家在画布上画画，他每画一笔，画布上就会留下痕迹，这些痕迹会一直保持在那里；或者一个人在吃汉堡时，每咬一口，汉堡上就会留下咬过的痕迹。

Open AI提到的“索拉有时可以用简单的方式模拟影响世界状况的动作”里面的“世界状况”可以理解为周围环境的样子或状态。Sora能模拟出我们对这个世界做出的一些改变，比如添加新的东西（就像画家的笔触）或者改变已有东西的状态（就像被咬过的汉堡）。

这些动作改变了原本的状况，并且这种改变是持久的。这就像是在一个视频游戏中，你做出的行动（比如移动角色或建造东西）会改变游戏世界，并且这些改变会被记住，不是暂时的。

所以，简单来说，就是Sora可以模仿我们在现实世界中的某些行为，并且让这些行为在虚拟的世界里留下来，看起来就像是真的发生了一样。

15. 模拟数字世界

当我们说Sora可以模拟数字世界时，我们是在说它可以模仿像视频游戏这样的虚拟环境里发生的事情。比如，想象一下流行的视频游戏《我的世界》（Minecraft），这是一个玩家可以在里面建造东西、探险的游戏世界。

Sora能做到的酷事包括：

控制游戏中的玩家：Sora可以像游戏玩家一样控制《我的世界》中的角色，就是在游戏中扮演玩家的角色，并且根据一套基本的规则或策略来操作，比如让角色去跑步、跳跃或挖掘。
高质量渲染：Sora还能够实时渲染游戏世界和其中的各种动态效果，使得整个游戏体验既真实又细腻。就像是在高清电视上玩游戏一样。
动态处理：Sora还能处理游戏中的动态变化，比如角色的动作、物体的移动，或者是时间的流逝（比如游戏中的日夜更替）。
零样本能力：这个术语可能听起来有点复杂，但它其实就是指Sora可以通过简单的提示（文本）——比如，只要给出含有“我的世界”这个关键词的标题或提示——Sora就能立刻理解并执行相关的任务，无需事先进行任何准备。

所以，用更容易理解的话来说，Sora就像一个超级电脑玩家，能够同时玩很多《我的世界》，并且让这些游戏看起来和运行得都非常棒，而且它还能很快地开始做这些事情，只需要给它一个简单的提示。

这些功能表明，视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的高性能模拟器的一条有前途的道路。

五、Sora 视频处理上的弱点

当前的Sora模型存在弱点。它可能难以准确模拟复杂场景的物理原理，并且可能无法理解因果关系的具体实例。例如，一个人可能咬了一口饼干，但之后饼干可能没有咬痕。

Sora模型还可能会混淆提示的空间细节，例如混淆左右，并且可能难以精确描述随着时间推移发生的事件，例如遵循特定的相机轨迹。Sora 目前作为模拟器表现出许多局限性。例如，它不能准确地模拟许多基本相互作用的物理过程，例如玻璃破碎。其他交互（例如吃食物）并不总是会产生对象状态的正确变化。

Sora 官网 po 出了 5 个有缺陷的视频，包含了比较典型的复杂屋里场景。包括：人体姿态处理错误、多实体场景处理难、不准确的物理建模和不自然的物体“变形”、物理交互不准确、多个角色之间的复杂交互等。

不仅让我们看到了大模型文生视频目前存在的能力缺陷，也看到了更多创意的空间。一些对物理世界的扭曲变形，空间奇幻的情节，可以利用在更多具有创意的视屏中。

5 个视频截图预览：

跑步的人
五只灰狼嬉戏
篮筐爆炸
椅子变形乱飞
吹不灭的生日蜡烛

六、Sora的优缺点对比分析

1. 优点

强大的视频生成能力：Sora能够将文本描述转化为高质量的视频内容，具有强大的视频生成能力。这使得它能够满足多种应用场景的需求，如广告创意、教育培训、娱乐产业和新闻传媒等。
高效的生成速度：Sora在生成视频时具有较高的效率，可以在短时间内生成多种方案供用户选择。这大大提高了广告创意、教育培训等领域的工作效率，降低了制作成本。
良好的可定制性：Sora具有一定的可定制性，用户可以根据具体需求调整模型参数和输入数据，以获得更符合要求的视频生成结果。这为各行各业的定制化应用提供了可能。

2. 缺点

数据质量和数量依赖：Sora的性能在很大程度上依赖于训练数据的质量和数量。如果训练数据存在偏差或不足，可能会导致生成的视频内容存在质量问题，如模糊、失真等。
泛化能力有限：尽管Sora可以在多种场景下生成视频，但其泛化能力仍然有限。在某些特定领域或场景下，Sora可能无法生成符合要求的视频内容，需要进行更多的数据收集和模型训练。
计算资源需求较高：生成高质量的视频内容需要消耗大量的计算资源，包括高性能的CPU、GPU等。这可能会增加使用Sora的成本和门槛，限制其在某些资源受限场景下的应用。

七、可能的应用领域

Sora是一个能够生成视频的高科技模型，它可以用在很多不同的行业里。

1. 广告创意

想象一下，你是个广告设计师，想要快速做出很多酷炫的广告视频。你可以告诉Sora你想要什么样的广告，比如故事内容、风格等等，然后Sora就能帮你做出好几个视频供你选择。这样不仅节省时间，还能让你的广告看起来更专业、更有创意。

2. 教育培训

如果你是老师，想给学生们制作有趣的教学视频，Sora也能帮忙。你只要输入教学内容的文字，Sora就能根据这些文字生成视频。这样的视频能让学习变得更有趣，也更容易吸引学生的注意力。而且，如果学生觉得太难或太简单，Sora还能调整视频内容，让每个学生都能跟得上。

3. 娱乐产业

电影和电视剧制作人现在也可以利用Sora来制作视频。比如说，如果你想做一个特效很棒的科幻电影，Sora可以帮助你生成一些看起来很真实的场景和角色动画，这样你就不需要花大价钱请特效公司了。

4. 新闻传媒

新闻机构也可以用Sora来快速制作新闻视频。当有重大新闻发生时，记者可以输入新闻的关键信息，Sora就能生成相关的视频新闻，让观众更快更直观地了解发生了什么事。

八、Sora 对产品经理的启示

对于产品经理来说，Sora的发布可能意味着新的机会和挑战。

Sora就像是一个神奇的视频制作机器人，产品经理们可以考虑怎么把这个机器人的能力用到自己的产品上去。下面就是一些关于这个机器人能给我们带来的点子和需要注意的地方，以在线教育产品为例：

1. 提速

咱们的产品要是需要快速输出大量视频内容，比如短视频平台或者社交媒体，那Sora就能帮咱们省去不少拍摄和后期的时间和成本。

例子：想象一下，在线教育平台需要为不同的学科制作大量的教学视频。利用Sora，产品经理可以快速生成这些视频，比如把数学公式和解题步骤直接转换成视频教程，大大节省制作时间和成本。

2. 用户参与

想让产品的用户互动更活跃？咱们可以让用户输入自己的想法，然后通过Sora生成视频，这样用户就会觉得咱们的产品既有趣又新颖。
例子：为了让学习体验更加个性化，教育产品可以让学生描述他们想要学习的主题或问题，然后Sora就能生成一个定制化的教学视频，让学生感觉更像是一对一辅导。

3. 个性化推荐

如果咱们的产品涉及到视频推荐，比如新闻APP或者视频网站，Sora可以根据用户的观看历史和喜好来生成他们可能感兴趣的视频内容。

例子：基于学生的学习进度和兴趣，Sora可以生成适合他们当前水平的视频内容。比如，如果一个学生在数学上遇到了困难，系统可以自动生成更多关于基础数学概念的视频来帮助他。

4. 数据洞察

Sora用得好，就能给咱们提供一大堆用户喜欢什么、不喜欢什么的数据分析材料。这些数据对于优化产品设计、改进算法都是金矿啊！
例子：通过分析Sora生成的视频哪些被学生观看最多次，哪些得到了最高的评价，产品经理可以了解哪些教学内容最受欢迎，从而调整课程内容和推荐算法。

5. 创新驱动

把Sora整合到产品中，能让咱们的产品在激烈的市场竞争中脱颖而出，成为行业的焦点。作为产品经理，得考虑怎么包装这项技术，让它成为咱们产品的卖点。
例子：在线教育市场竞争激烈，但如果你的产品能提供即时生成的动画教学视频，这就能成为一个巨大的卖点。比如，Sora可以根据课本内容生成有趣的动画解释视频，让学习变得更生动。