“无中生有”的Sora，如何令“文生视频”圈洗牌？（上帝模拟器进化完整版）

最近这段时间，OpenAI首个文生视频大模型Sora一夜间再次掀起AI狂潮，整个互联网都完全沦陷于其中，一时间夸赞、质疑、骂声都甚嚣尘上，如果只从历史的高度来看，不难发现人工智能的发展速度远快于我们所见过的几乎全部科技——从文生文到文生图，再到文生视频，生成式AI仅仅用了一年左右的时间就完成了从科幻到现实的落地，这时候对于我们这些普通人来说脑海里或许只有两个问题：它是怎么做到如此快速发展的？文生视频的出现将如何改变我们的生活？

01、Sora的最大优势是“无中生有”的连贯性

准确来说，文生视频其实去年下半年就已经有不少大模型可以实现了，比如pika、runway，社交媒体上也有相当多使用这些大模型生成的优质视频，比如去年8月国内就有高手用runway生成了《流浪地球3》的民间预告片，从效果对比来看，在使用相同提示词的情况下，Sora无论质量还是时长都是碾压式的领先，大多数工具通常只能生成几秒到十几秒的视频。

而Sora则可以直接生成长达一分钟的视频，且这一分钟的视频并非单一场景，而是由多个镜头组成，更令人印象深刻的是，Sora能够确保多个镜头之间的人物、场景等保持一致性，它所生成的视频真实性和连贯性都达到了以假乱真的地步，乍一看给人感觉就是实拍，从拟人的角度而言它似乎“理解了这个世界”。

大多数情况下，Sora生成的视频符合人类直觉

我们所认知的实拍视频，是相机对世界模型的降维观察，世界正确，视频才会正确：一个人在同一个视频里的长焦和短焦镜头里外观不会变化；镜头旋转，透视关系应该保持一致性；咬一口面包，面包就会少一块并出现牙印……

这些逻辑对人来说似乎显而易见，但人工智能很难领悟到前一帧和后一帧画面之间的各种逻辑和关联，所以要生成逼真的视频，就必须正确理解连续的世界模型，显然Sora比此前文生视频大模型做得更出色，那它是真的理解世界模型了么？

02、别慌，AI并没有理解这个世界

遗憾的是，OpenAI发布的Sora报告中不包含模型和训练的细节，所以在技术原理上来讲，Sora还是一个黑帽项目。不过之前已有不少研究过视频数据的生成建模技术方向，其中主要包括：循环网络、生成对抗网络、自回归transformer和扩散模型，所以我们推测OpenAI还是从大型语言模型中汲取了灵感，大型语言模型最基本的操作是文本token，也就是把文本内容切碎成一个个基本的词，比如“我喜欢唱跳rap”，就可以切成“我”“喜欢”“唱”“跳”“rap”，以词为单位进行分词的好处是更好地保留每个词的语义，使得文本在后续处理中能够更准确地表达含义。

而Sora应该是视觉patches数据的通用模型，也就是将提示词同样切成一个个的分包，具体来说就是先把训练视频压缩到较低维的空间，然后将表示分解为不同的包进行转换，计算时会结合扩散Transform算法，综合给定的输入噪声、文本提升词等信息，投喂到训练出来的模型来预测原始图像。

在16次迭代后，Sora算出了效果较好的视频效果

如果你用过Stable Diffusion就会知道，它的图像一开始就是一团马赛克噪声，随着迭代次数的增加，图像效果会逐步上升，类似的情况也出现在OpenAI的Sora发布视频上，在固定种子和输入的视频样本的情况下，随着训练计算的增加，在雪地里蹦跶的柴犬视频画面质量有着质的飞升。

所以我们回到之前的问题：Sora理解了世界模型么？从技术角度来看我认为没有，它的学习过程其实并没有想象中的那么“高大上”，就是简单粗暴的模仿，反而给人一种“笨鸟”的感觉，在还没有公测的情况下，网上可见的视频其实就能找到非常多的错误，这说明它并没有去理解世界，而是一种对于视频像素的经验学习。

真正的世界模型应该是由提示词构建3D模型后加入真实物理引擎，再模拟出物体运动，从而生成视频，Sora并没有这个过程，只是凭借庞大的训练素材、聪明的算法设计和厚实的算力基础，模仿了现有的镜头语言进行像素渲染而已。

03、OpenAI七万亿芯片计划的“敲门砖”

虽然Sora的效果令所有人都十分惊艳，也有人高喊出了“XX行业星将颠覆”的哀嚎，但事实上Sora距离实用性的落地还有相当的一段距离，因为大家别忘了，人工智能是需要算力的，在消费级AI市场，即便是云端生成，一张图片尚且需要数秒时间，且出图分辨率较低，很难达到现代视频的基本需求，OpenAI也并没有公开它们用了多长时间来计算、微调这些演示视频。

要知道文生图、文生视频的生成过程都是“一锤子买卖”，不能提前设计和预览，所以如果是商业用途，微调所花费的时间将远远高于生成。即便能发动“钞能力”解决，这也将是一笔极高的支出……

对于进军AI芯片的野心，山姆奥特曼倒是从不藏着掖着

那么，既然离落地还有一段距离，OepnAI这个时候把Sora抛出来的目的是什么呢？刚刚不是说了瓶颈在算力端么，在我看来，Sora的出现就是OpenAI对未来人工智能算力竞赛的一次“秀肌肉”——据《华尔街日报》近日报道，OpenAI CEO山姆奥特曼正在推动一个旨在提高全球芯片制造能力的项目，并在与包括阿联酋政府在内的不同投资者进行谈判，可能要为这一计划筹集 5~7万亿美元，而放眼芯片行业，去年全球的半导体芯片市场总规模也“仅仅只有”5270 亿美元，根据咨询公司麦肯锡的预估，这个数据到2030 年也不会达到1万亿美元。所以OpenAI的决心，甚至说是野心需要一个足以震惊全球的“敲门砖”，Sora就是他们的选择，目前来看这块砖的确发挥出了应有的作用。

那么，其他公司或者国内有没有可能依葫芦画瓢呢？难，根据业内人士的说法，“即便是知道Sora的玩法，我们也玩不转，因为缺设备、缺数据、缺办公楼、缺电费、缺考核指标……”缺乏资金就是最大的问题，能玩的还是那几个真正的巨头，所以如果让这个已经不再“Open”的OpenAI筹资计划成行，哪怕是部分成行，对整个人工智能领域发展是好是坏，也还是一个讨论度很高的话题。

《“数据要素×”三年行动计划（2024—2026 年）》明确提出加强人工智能大模型计划

那么，国内什么时候会出现类似Sora的应用模型呢？从技术结构来看，无论是基础模型、文生图模型、大规模视频数据集、AI算力体系、大模型开发工具栈等核心基础设施，我们都有相应的累积，所以可能很快就会看到对应的产品面世。

我现在担忧的反倒是不要重复造轮子——去年一个又一个大语言模型被训练出来推向市场，但原创性的基础模型占比最小，更多是行业大模型和很多私有化部署的大模型，在数据规模、参数规模上无法与基座模型相提并论，生成效果也会差很多，这种低水平的重复建设会造成算力投资的浪费。

04、文生视频赛道洗牌，“Pika们”心服口服？

喜欢玩模拟游戏的玩家几乎都玩过经典游戏《World Box》（沙盒上帝模拟器），在游戏中，玩家可以创造自己的世界或者用不同的力量摧毁它们，看着文明从零开始成长，再到建立王国、开拓之殖民地，驶向遥远的新大陆；同时，看似稳定的城镇会造反，宏伟的帝国也有土崩瓦解的一天，玩家以上帝视角选择帮助他们或者遵循天意。

这类沙盒游戏暗示着纯粹和自由：给我一个沙盒，我能给你一切东西。但是游戏终归是有限的，物理世界万事万物的因果关系很难被“镜像模拟”，但现在Sora宣称自己可以。OpenAI在技术综述中想强调的是，Sora已经不单纯是视频生成模型，也不只是视频行业的颠覆者，而是一条通往模拟物理世界的有效路径。

沙盒游戏同样是模拟现实世界的一种尝试

这个宣言的可信程度或许可以横向对比一下，比如将Sora与其他AI文生视频模型Pika、Runway、Stable的成果相对比。

先说结论，Sora生成的视频在长度、连贯性和视觉细节效果等方面都明显优于之前的同行们。

首先，在生成视频时长方面，Sora可以生成长达一分钟的视频，而Pika仅支持生成一段3秒的视频，Runway公测版本视频时长也仅为4秒，网页版最长也仅支持18秒的视频生成。这意味着Sora能够更完整地呈现视频内容，也更适合应用于制作短片、广告等。

“连贯性”也与生长视频时长更长有关。在更长的时长中，Sora生成的视频可以实现无缝过渡、更自然的运镜，也就是围绕主角或者同一主体实现远景、中景、近景、特写等不同镜头的切换。影视专业的从业人员都知道，讲好一个故事的重要推力之一就是拍摄角度和时机的选择。最重要的是，Sora的运镜变化不拼接在一起的，而是由模型一次性生成的，所以才让人惊叹“我们没有告诉它要这么做，它只是自动这么做了”。

三种文生视频模型的实践案例

而Pika、Runway等模型的最新版本信息仍然只能生成较为单一的镜头语言，甚至会出现场景突变、卡顿等问题，影响观看体验。如果用同样的文字提示“一窝金毛小狗在雪地里玩耍，他们被雪覆盖，会把头从雪堆中探出来”来生成视频，Sora生成视频会带有特写视角，Pika则略显呆板无趣，且更偏向动画风格。

最后，来看看Sora是否能更好地“镜像模拟”物理世界。此前Runway、Pika虽然支持文生视频，但在公开或尚在测试阶段的版本反馈来看，大多需要输入图片才能实现更好的视频效果，后期可能还需要AI视频增强软件来增加视频清晰度，否则就会生成模糊、细节不足、色彩不够鲜艳的视频。

Sora公开视频中的视觉效果令人印象深刻

Pika生成视频细节明显有不足

而从现阶段已经公开的演示视频来看，Sora可以直接通过文字生成高清视频，写实风格的视频同样也能实现高清效果，视觉细节更丰富，物体纹理清晰、色彩逼真，比如物体的阴影、人物墨镜的反光等细节，都让视频更加接近物理世界规律。

不过，尽管Sora的呈现效果好像已经跟真实的世界最够接近，但仍然存在bug（漏洞），尤其是我们前面提到过的准确理解场景物体之间的物理原理和因果关系，以及如何正确地统一时空分割的“指令语言”。现阶段Sora产出的视频还会出现一个人咬了一口饼干，但是饼干却并没有咬痕，又或者产出视频混淆提示词的空间细节、时间顺序，导致主体左右颠倒或者不按照特点时间规律发展等情况出现。