谁为Sora上了头？（教主之家2023）

图片来源@视觉中国

文 |BT财经，作者 | 张津京

OpenAI在春节期间发布了文生视频的模型Sora技术报告，一下子引爆了科技圈。

我看这两天国内的科技媒体也一直没有平复下来，相关的新闻和对未来的畅想不断流露，Sora成为最大的热词。

甚至，有媒体和自媒体都打出“未来已来，我们已经落后于时代”等等这样的标签。

据市界等媒体的报道显示，甚至已经有用大模型生成视频的课程被炒到3000多一节。而所有参与其中的商家，打的旗号都是要教大家如何用Sora来快速推进视频的制作。

好像一夜之间世界就变成了有Sora和没Sora两个不同的环境。

但其实这件事没有这么简单，今天我要开始泼点冷水。

连毛坯房都不是的Sora

先纠正所有人一个概念，Sora不是一个被OpenAI发布的模型，而是OpenAI相关研究团队在自己研究室内做出的一些进展，他们通过一个研究报告的方式向外展示。

这是一个类论文。

在OpenAI的官网上，关于Sora的这篇文章放入的是research，也就是研究这个栏目，而不是产品的栏目，就是一个很好的证明。

某种意义上，它根本不是一个模型，而是一系列实现用提示词生成视频的工具集合。OpenAI研究了文生视频目前能查到最新的三四十篇论文，他们最牛的地方就是从中找到了一条看起来可行，并通过一年多时间逐渐推动落实的技术路线。

所以你才发现这一篇报道的最后，OpenAI的研究团队列举了超过32篇被引用的论文。

而整个过程他们分成5个部分，分别采用了不同的工具和原理。其中有创新思维的，是他们将视频作为了提示词可以理解的一个部分。

为了做到这一点，他们首先将视频的内容降维，然后变成提示词可以容纳的内容提交给搭建的小模型去分析，输出的东西再通过提压的工具，把它变成多维的格式，最终形成视频。

当然在这个过程中为了保证不失真，他们增加了很多的算法，最终通过跟行业内交流，找到了一条可行的路径。

整个文章实际上说的就是这么一件事。

但请注意，Sora并不是一个现在可用的模型或者工具集。这个东西与其说是OpenAI发布的一个产品，倒不如说他们是一群科学家和工程师的集合体，定期要向赞助方显示一下自己最近做的研究成果。

因为在这篇文章的任何地方都没有向外界提供可以进行测试的链接，或者能重复进行研究人员制作视频的任何过程的页面。

所以，这根本不是一个成熟的产品，甚至连毛坯房都算不上，只能算是技术前瞻。

也正因为OpenAI知道目前实现不了相关的研究成果，除了展示没有其他任何的方式，所以他们并没有将这篇文章做成论文，在各大专业的平台或者媒体刊发。

毕竟论文验证最核心的一点，就是结果可以重复。

这就是说，凡是发布的论文带动的学科研究结果，通过其公布的实验过程，其他科学家可以复现，才能证明这个实验和结论的有效。这是在科学界的常识。

比如之前炒得沸沸扬扬的，韩国团队发现常温超导的事件，国际各大团队纷纷做了相关的试验，没有几个成功就对它的结果存疑。

而也因为当下Sora还不是一个完整的模型产品，其生成的所有视频，为了保密不可能公开相关的内容和操作过程以及细节。这也就让这件事在科技界的权威性要打上一个问号。

毕竟没有可重复的过程，所有提供的视频究竟是不是由动态模型自主生成，还是一个人工辅助或者参与的结果，没法证实或者证伪。

能不能用都是问题

这件事也没那么简单。

OpenAI在文章中已经对此做了表述。一方面OpenAI表示这篇文章不涉及应用的模型和实施的细节，已经表明这不是一个可用的产品，而只是实验室中的研究结果。因为不提供这些内容，就无法让科学界去复现结论。

另一方面OpenAI也承认，其视频表现的内容和效果，是对某些领域进行深度训练和调优的结果。这也就意味着，哪怕Sora是一个完成度颇高的准模型应用，现在并没有办法接受通用内容的输入输出，只是针对某些特定细分领域可以有非常好的效果。

其实OpenAI不可能不想将此新技术做成一个完整的产品，并迅速对外提供服务。毕竟商业化和盈利是奥特曼在2024年必须考虑的两个重要话题。而依靠原本Gpt的商业覆盖程度，所挖掘和变现的能力在逐渐降低。

毕竟2023年1月，Gpt3.5刚上线的时候，其日活最高能超过2亿人次。但现在情况不同，OpenAI在去年10月发布会现场提供的数据显示，当下周活将将1亿人次。

这种按次收费的互联网模式，使用频次和潜在客户数量是保证商业模式进展的基础。为了刺激使用者更频繁更广泛地使用OpenAI的相关产品，将文生视频作为一个突破口，肯定是奥特曼想*事情。

但现在Sora只能以技术前瞻报告的方式发布，造成这样事实的重要原因，就在于这个产品太吃资源，而OpenAI哪怕财大气粗也承担不起。

大家要了解一个事实，跟对话式图文生成不同，按照现在技术路线描述的情况来看，Sora如果要大规模商用，其所需要的服务器、算卡、算力池、显示优化等资源是现有的百倍以上。这本身就会让OpenAI的支出暴增，也加重奥特曼在盈利方面的压力。

关键这些资源，在黄教主不断提高英伟达算力显卡价格的背景下，就成为OpenAI一块没法解决的心病。

再加上OpenAI现在商业运营的电费，每天就超过70万-80万美元，一个月在3000万美元左右，一年接近于4个亿的支出。如果上文生视频的产品，意味着电费的激增，是一个没法想象的事件。

因为服务器和算卡都是吃电力的大户，如果要百倍的资源堆砌，就意味着可能每天OpenAI支付的电费都会上亿，这是奥特曼和其运营团队无法承担的。

多说一句，以美国现在电力系统老化和发电能力的匹配，真不好说，有什么地方可以向奥特曼提供文生视频应用商业化后所需要的巨大能源。

毕竟当下美国超过八成的变压器已经在超期服役，整个美国电网属于一个超压运行的状态，出现问题可能就是灾难性。

这件事没你想得那么简单

一方面来说，并不是文生视频只有OpenAI可以做。实际上我去年参加百度世界大会，在现场看李彦宏发布文心大模型4.0的时候，就已经可以用一段文字迅速生成一个汽车厂商的视频广告，清晰度和自然情况非常好，论细节一点都不比Sora差。

但后续相关的能力，没有大范围地推广。原因就在于资源的匹配上太过庞大，真正产生的费效比没法平衡支出。

同样，国际上已经有相关利用开源模型训练并对外提供文生视频服务的厂商。而且有的干得还非常不错。

在这样的情况下，OpenAI迫切向外公布一个远未成熟的产品，其实背后奥特曼有着自己的考量。

大学期间因为参与英伟达赞助的人工智能研发大赛而出名的奥特曼，其在大赛现场开发的利用显卡进行AI计算的程序，被认作是CUDA的前身。

而后续他的几次创业，黄教主也慷慨解囊，给予投资。甚至在OpenAI组建前期，英伟达的算法提供基本上都是成本价，有人情在其中。

然而随着OpenAI的成功，黄教主的商人本色逐渐显露，不光OpenAI的采购价格逐年升高，甚至采购的数量还不能保证。这已经成为奥特曼的心病。

于是最近奥特曼在不遗余力全球巡演，推动他领头7万亿美元的融资计划，希望能依靠OpenAI在算力方面的使用经验，打造一个服务于OpenAI帝国的算力芯片生产体系。

而就在这样一个节骨眼上，OpenAI公布了远未成熟的文生视频应用Sora，其背后的考虑不是产品和技术所能涵盖。

当然并不是说我们不需要正视差距，OpenAI的研究团队能在已经发布的技术论文中，找到真正的实施方向，并走出一条可行的技术路径，确实是非常厉害的能力。

而且在文生视频的目前效果来看，Sora应该达到了当下技术的巅峰。

但要注意一个特别核心的问题，中美在互联网与大模型技术的方向上，从2023年下半年开始有了明显的区别。我们的大模型越来越注重跟实体经济和产业的融合，这就是李彦宏经常提的那个“现在到了做应用的时候”，也是华为不先做通用模型，反而先做行业细分模型的原因。

文生视频这个技术角度，依然是一个纯互联网创新的思路，其跟实体经济的融合并不明确。是美国一直重视互联网而轻实体经济的一个潜在思路表现。

从这个角度看，美股周一开盘，VR/MR和元宇宙的股票暴涨，就好理解了。

所以我们说，凡是不以应用为前提的技术研发，都是耍流氓。