一段文字生成60秒视频，虚拟和现实融为一体，Sora冲击波震荡国内学术圈（六十秒差距）

潮新闻客户端记者张云山

“一切来得太快，我们目前还在观望。”Rokid CEO祝铭明（musa）说，Sora带来的冲击波到底有多大，他们也在时刻关注。

2月16日凌晨，OpenAI正式发布他们的文本生成视频大模型Sora，其逼真的视觉效果让其在一夜之间“刷屏”，再次重现了一年前用ChatGPT轰动全世界的场景。

Sora生成视频截图

相比之前的文生视频软件Pika、runway、SVD等，Sora一出场就惊艳世界。目前OpenAI还没有发布Sora的公开使用版本，但已经发布的40多个演示视频中，包含有细节拉满的场景、复杂的摄像机以及多个充满情感的角色。OpenAI宣称，Sora可以理解物体在物理世界中如何存在，并准确地解释道具并生成引人注目的角色来表达充满活力的情感。

Sora最主要有三个优点：第一，“60s超长视频”，之前文本生成视频大模型一直无法真正突破AI视频的4秒连贯性瓶颈，而Sora直接做到了60秒连贯视频。第二，单视频既能有多角度镜头也能一镜到底，可以很好地展现场景中的光影关系、各个物体间的物理遮挡、碰撞关系，并且镜头丝滑可变。第三，Sora所合成的内容与物理世界规律保持一致，即不会出现违反世界客观规律的视觉信息。OpenAI并未单纯将Sora视为视频模型，而是作为“世界模拟器”。它能像人一样，理解坦克是有巨大冲击力的，坦克能撞毁汽车，而不会出现“汽车撞毁坦克”这样的情况。这就是“世界模型”的强大之处。

总的来说，Sora是一个在不同时长、分辨率和宽高比的视频及图像上训练而成的扩散模型，同时采用了Transformer架构，也就是一种“扩散型Transformer”。

Sora背后是建模世界底层模型的大突破

Sora背后的工作原理到底是什么？

浙江大学计算机学院党委*和人工智能研究所所长吴飞对潮新闻记者表示，Sora实现了内容合成从文本领域、到图像领域、再到视频领域的跨越，其背后的原理为“对合成内容中最小单元进行上下文关联有意义组合”。比如，若干单词在上下文维度上有意义组合可合成一篇文章、一批视觉子块在空间布局维度上有意义组合可合成一幅图像、一系列视觉子块在时空耦合上有意义拼接可合成一段视频。为了实现这一目的，自注意力机制（self-attention）、扩散模型（diffusion model）和变换神经网络（transformer）等被组合在一起使用。虽然这次Sora的技术原理尚未公布，但是一些外部专家猜测其仍是基于这些技术来训练视频生成模型。

吴飞教授表示，Sora很难将物理世界中牛顿定律、湍流方程和量子学定理等规律一条一条在模型中显式罗列实现，而是通过对海量数据学习来隐式表达客观规律，这或许是来自于神经网络模型的涌现之力。神经网络的涌现之力指量变产生了质变，在亿万个非线性映射函数组合之下，神经网络可生成意想不到的结果，即合成世界上先前从未出现过的内容，这正是这一轮人工智能在“数据、模型、算力”三驾马车推动下发展的应有之义。

浙江大学计算机学院CAD&CG国家重点实验室副主任、博士生导师陈为在接受潮新闻记者采访时表示，Sora是“文生长视频”功能上的突破，视频越长越难保证视频内容的合理性。Sora对AGI世界建模问题的研究有重要推动作用。Sora不止可以完成文生视频，更重要的是它可以被看作（但还不是) 建模世界底层物理规律的模型。因为其能生成符合世界运行规律的视频，所以可以认为其通过“阅读”大量视频，学会了预测下一个时刻的世界会是什么样子（在特定场景的视觉意义上），它学会了一些世界运行的底层物理规律。但目前来看，Sora的这个能力还是严重不足的，会产生大量不符合物理规律的视觉内容，比如漂浮的椅子、篮球穿过篮框、狼的数量忽多忽少等。

Sora今年底或将产生小时级文生视频

突飞猛进的人工智能，也让人类对文生视频的未来产生了好奇。陈为教授认为，Sora今年底或将产生小时级的文生视频。“文生视频从秒级到分钟级的视频生成很难，但从分钟级到小时级的挑战可能相对要容易，因为生成小时级的文本对大语言模型已经不是难事，我预测大概率今年底或明年达到小时级的合理文本内容。”他表示，小时级别的视频一定是人机协同创作的结果，否则视频中的矛盾点会多如牛毛。

吴飞教授也注意到，这次OpenAI公布的Sora合成视频所对应的提示词写得很精彩，具有生动的细节感，因此善于提出问题、设计内容以及使用工具都是我们每个人在从信息化时代迈向数智化时代需要不断加强的能力，“行之力则知愈进，知之深则行愈达”！

未来的文生视频模型一定是多模态的

“文生视频领域的中外差距又拉大了。”陈为认为，中国学术界或产业界有能力实现文生图，在此基础上可以产生秒级 (10秒以内) 视频，但难以做到视频前后语义一致性，或只能局限于特定场景，这与之前的国际前沿是差不多的。但与Sora相比，差距甚大。“这种差距本质上是我们在大语言模型（LLM）和多模态大模型上的差距的直接映射，因为Sora背后的技术在本质上与LLM技术类似：LLM是大量读书，Sora是大量读图（视频），且通过学习大量“视文对”样本来实现视文对产，进而实现文生视频。“确实，我们又落后了！”

当然，Sora作为世界模型也存在一些问题，例如通过大量“读图”学习世界运行的规律固然是合理的，但类比“人”，仅“睁眼看世界”是学不会牛顿定律等物理学可以演绎的世界规律的。世界模型一定是多模态的，Sora最终很可能面临如何与“牛顿定律”等符号型知识对齐并进行泛化性演绎的挑战。

国内外科技圈沸腾了

Sora横空出世，学术圈炸开锅了，各路大佬也纷纷开麦。

日前，360创始人周鸿祎发微博称，Sora的诞生意味着AGI的实现可能从10年缩短至两年左右。他表示：“有了大模型技术作为基础，再加上人类知识的引导，可以创造各个领域的超级工具。”

出门问问创始人李志飞在微信朋友圈称：“LLM（大语言模型）ChatGPT是虚拟思维世界的模拟器，以LLM为基础的视频生成模型Sora是物理世界的模拟器，物理和虚拟世界都被建模了，到底什么是现实？”

Lepton AI公司创始人贾扬清认为，Sora的问世可能会给对作OpenAI的公司带来一波被大厂收购的机会，他称这类收购为“FOMO”，中文意思是“害怕错过机会而导致的收购”。贾扬清预测，大模型市场长期仍将呈现整寡头的格局，开源大模型仍然需要一段时间才能追赶上。他同时表示，Sora这类文生视频大模型的出现无疑将会推动AI基础设施的需求猛增。

纽约大学助理教授谢赛宁（经典网络结构ResNeXt的一作）直言，Sora将改写整个视频生成领域。谢赛宁分析，Sora应该是建立在DiT这个扩散Transformer之上的。简而言之，DiT是一个带有Transformer主*扩散模型，它=[VAE 编码器 ViT DDPM VAE 解码器]。谢赛宁猜测，在这上面，Sora应该没有整太多花哨的额外东西。关于视频压缩网络，Sora可能采用的就是VAE架构（深度生成模型），区别就是经过原始视频数据训练。而由于VAE是一个筐，所以DiT从技术上来说是一个混合模型。他还有猜测，Sora可能有大约30亿个参数。