【智能时代】第11期:通俗易懂揭秘OpenAI文生视频模型Sora

【智能时代】第11期:通俗易懂揭秘OpenAI文生视频模型Sora

首页模拟经营高校柴犬模拟器更新时间:2024-06-08

本期智能时代,聚焦AI视频领域OpenAI文生视频模型Sora,综合整理DataLearner、机器之心、腾讯科技、智东西等媒体报道与分析,a16z与数字生命卡兹克关于AI视频、AI 3D生成领域最新洞察。

2024年2月15日,OpenAI发布文生视频大模型Sora,能仅根据提示词,生成60s连贯视频,碾压行业目前大概只有平均4s生成视频,Sora生成视频在清晰度、连贯性、时长等都有非常好的效果。OpenAI将Sora称作是能理解与模拟现实世界模型的基础,相信其能力将是实现AGI的重要里程碑。

2024年1月31日,a16z发布研究报告《为什么2023年是AI视频的爆发年,以及2024年可以期待什么》,帮助理解这场创新爆炸,a16z追踪到目前为止最重要的发展、值得关注的公司,这个领域中仍待解决的基本问题。

2024年2月4日,AI博主数字生命卡兹克,在阅读a16z关于AI视频最新研究报告后,发文分享对AI视频现状看法与展望。

2023年12月24日,AI博主数字生命卡兹克,发文分享AI第五大模态AI 3D领域现状,关注游离于AI文本大语言模型、AI绘图、AI声音、AI视频之外的AI 3D领域。

AI工具库

,赞8814

正文:

全文21,153字

预计阅读43分钟

通俗易懂解释OpenAI Sora视频生成特点,与Runway Gen2、Pika对比分析

时间:2024年2月18日

来源:DataLearner

字数:2,614

OpenAI Sora模型是最近两天最火热的模型,它生成的视频无论是清晰度、连贯性与时间上都有非常好的效果。

Sora之前,业界已经有很多视频生成工具与平台。为什么Sora可引起如此大关注?Sora生成的视频,与此前其它平台生成的视频,到底有哪些区别?本文将以通俗的语言解释Sora的独特之处。

OpenAI Sora视频生成能力与其它平台与工具的对比表

我们先用一张表格来展示OpenAI Sora与其它视频生成工具,如Runway Gen2、Pika等的区别。

这个表单可看出,不论是基本的视频生成能力(时长、长宽比),还是更强的视频连续性、真实世界模拟等,OpenAI Sora都有无可比拟的优势。

视频清晰度,OpenAI Sora默认是1080P,其它平台大多默认清晰度是1080P以下,只是在经过upscale等操作后,可达到更清晰的水平。

上述视频生成能力项中,视频连接、数字世界模拟、影响世界状态(世界交互)、运动相机模拟等,都是此前视频平台或工具中较少提及。

OpenAI Sora模型还可直接生成图片,它是以视频生成为核心的多能力模型。

OpenAI Sora视频生成能力概览

我们先总结一下Sora视频生成的一些能力。

OpenAI Sora可生成长达60S视频

OpenAI发布Sora之前,业界基于大模型生成视频的主要平台有Pika、Runway Gen2等,这两个平台视频生成默认都是几秒,即便通过视频扩展等手段,最多也只能生成10几秒视频。

OpenAI Sora可生成最多60S视频,视频生成结果非常连贯与清晰。

OpenAI Sora可生成更加自由尺寸的视频

OpenAI Sora技术报告,Sora模型可采样宽屏1920x1080视频、竖屏1080x1920视频,以及介于两者之间的所有尺寸视频,这意味着它可生成更加自由的视频尺寸。

此前视频平台,Runway Gen2,文本生成视频的方式只能选择16:9、9:16、1:1、4:3、3:4、21:9的长宽比;清晰度,默认1408 × 768px。

上图是Sora生成海龟游泳的视频,不同尺寸的视频里面海归都是正中间位置,不会出现主要目标被剪裁的情况。

OpenAI Sora可支持向前、向后扩展视频

OpenAI Sora另一个与此前视频生成平台有巨大差异的地方,基于已有视频继续扩展在Runway Gen2、Pika等平台都有。

现有平台视频扩展,通常是在当前视频基础上继续向前生成几秒视频。

OpenAI Sora可在视频基础上向前或向后扩展。

例如给定一个视频,OpenAI Sora可为该视频创造不同开头,最后都是以该视频结尾,过程非常连续。Sora甚至可在一个视频上,同时向前与向后扩展,以产生无限连续的循环视频。

OpenAI Sora支持多个视频的连接

这是另一个Sora与众不同的地方。

给定两个视频,OpenAI Sora可将两个视频揉在一起,生成新的毫无违与感的视频。

例如,给一个无人机穿越古罗马建筑的视频,再给一个蝴蝶在海底珊瑚飞行的视频,Sora可生成新的视频,让无人机变成蝴蝶,古罗马建筑变成珊瑚风格。

上图是两个例子,左右两边是原来2个视频,中间是基于这原有的2个视频连接后生成的新的视频。第一个是刚才蝴蝶与无人机的案例,第二个是圣诞节雪景与真实拍照的建筑视频的融合。

OpenAI Sora涌现出真实物理世界模拟的能力

OpenAI Sora可生成更加真实物理世界的视频,例如东京街头逛街的时尚女模、登山运动员等。

与其它平台的真实物理世界视频生成不同的是,OpenAI Sora可以运动相机拍摄的方式来展示视频,包括运动相机转换、旋转等。

这里最大特点,是运动相机拍摄的结果,通常要与物理世界的三维空间一致,非常困难,但是Sora可生成非常逼真的运动相机拍摄的视频结果。

视频生成系统面临的一个重大挑战,是在对长视频进行采样时保持时间一致性。OpenAI Sora经常,并非总是能有效对短距离与长距离依赖关系进行建模。

例如,即使人、动物与物体被遮挡或离开画面,Sora模型也能保持它们存在,在后续视频中依然出现原有人物或者动物。

同样,它还能在单个样本中生成同一人物的多个镜头,并在整个视频中保持原外观。

Sora有时可模拟一些影响世界状态的简单动作。例如,画家可在画布上留下新的笔触,并随时间推移而持续,或一个人可吃一个汉堡,并留下咬痕。

OpenAI Sora可模拟人工过程

除了真实物理世界外,OpenAI Sora还可模拟人类创造的一些世界或者过程。Sora模型可通过理解语言提示,来模拟与渲染视频游戏世界(如Minecraft)的高级能力。

它不仅能以高保真度同时渲染游戏环境与动态,还能控制游戏中玩家角色,执行基本策略。

这种能力,表明Sora不仅具备强大的语言理解与任务推断能力,还能处理复杂的视觉与控制任务,尤其在视频游戏仿真领域表现出色。

Sora模型能力表明,继续扩大视频模型的规模,是朝向开发能够高度仿真物理与数字世界及其中的对象、动物与人的高能力模拟器的有希望路径。

这种扩展,不仅增强模型处理复杂场景的能力,还提升对世界各种元素的理解与模拟能力,从而为创建更加智能与逼真的AI系统铺平道路。

OpenAI Sora技术独特之处

OpenAI一如既往没详细披露Sora模型技术细节,但也有一定篇幅介绍相关技术。

这里我们针对其中核心几点说明。

OpenAI Sora是结合Diffusion模型与Transformer模型的技术。通过视频压缩网络,将原始视频压缩到低维的潜在空间,并将这些表示分解为时空补丁,类似Transformer的tokens,这样的表示使得模型能有效训练在不同分辨率、持续时间与宽高比的视频与图像上。

OpenAI Sora与Diffusion模型与Transformers模型的比较

共同点:Sora模型利用Diffusion模型生成能力与Transformers模型自注意力机制。它通过预测干净补丁的方式生成视觉内容,利用Transformers模型处理时空补丁的能力。

差异:

与Diffusion模型:Sora不仅是简单的Diffusion模型,通过引入Transformers模型的自注意力机制与视频压缩技术,增强处理不同分辨率与格式视频的能力。

与Transformers模型:Sora超越传统Transformers模型应用范围,通过将视觉数据转换为补丁,并利用Diffusion过程生成视觉内容,结合两种模型优势,实现视频与图像的高效生成。

OpenAI强调,这个模型在大量数据训练后,能提高视频生成的效果。

下图展示训练过程中模型水平的提升:

换个角度说,OpenAI Sora某种程度是大力出奇迹的成果。

OpenAI Sora模型缺点

OpenAI Sora视频生成也有缺点,在模拟复杂场景物理现象、理解特定因果关系、处理空间细节、以及准确描述随时间变化的事件方面,OpenAI Sora都存在问题。

主要总结如下:

物理交互的不准确模拟:

Sora模型在模拟基本物理交互,如玻璃破碎等方面,不够精确。可能是因为模型在训练数据中,缺乏足够这类物理事件示例,或者模型无法充分学习与理解复杂物理过程的底层原理。

对象状态变化的不正确:

模拟吃食物这类涉及对象状态显著变化的交互时,Sora可能无法始终正确反映出变化,这表明模型可能在理解与预测对象状态变化的动态过程方面存在局限。

常见的模型失败模式:

长时视频样本的不连贯性:在生成长时间视频样本时,Sora可能会产生不连贯的情节或细节,可能是由于模型难以在长时间跨度内保持上下文的一致性。

对象的突然出现:视频中可能会出现对象无缘无故出现,表明模型在空间与时间连续性理解上还有待提高。

这些失败的案例包括人在跑步机上朝反方向跑步、长视频中突然出现之前不曾出现的物体、篮球在篮筐跳动时出现火苗等,都意味着在真实世界交互的模拟有重大问题。

降维打击,Sora与Runway、Pika对比,震撼效果背后是物理引擎模拟现实世界

时间:2024年2月17日

来源:机器之心

字数:737

以后视频生成领域,恐怕只有OpenAI Sora与其他模型了。

OpenAI发布首个文本生成视频模型Sora,引爆社区,生成长达60S高清、流畅视频令人们惊叹不已,直呼好莱坞时代结束了。

仅1年时间,文本生成视频效果,迎来质的飞跃。

随Sora加入视频生成领域战争,受冲击最大的是同类竞品模型,比如Runway、Pika、SDV、谷歌、Meta。

看到Sora生成效果之后,很多人认为,Sora对这些模型来了一波降维打击。

有推特博主做了对比,给Sora、Pika、Runway、Stable Video 4个模型输入相同prompt:美丽、白雪皑皑的东京熙熙攘攘,镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天,在附近的摊位购物,绚丽的樱花花瓣随雪花随风飘扬。

可以看到,相比其他3个视频生成模型,Sora在生成时长、连贯性等方面都有显著优势。

这样的对比还有很多,比如输入相同prompt:一窝金毛幼犬在雪地里玩耍,它们的头从雪中探出来,被雪覆盖。

比如输入相同prompt:几只巨大的毛茸茸的猛犸象,踏着白雪皑皑的草地走来,长长的毛毛在风中轻轻飘动,远处覆盖着积雪的树木与雄伟的雪山,午后的阳光、缕缕云彩与远处高高的太阳营造出温暖的光芒,低相机视野令人惊叹地捕捉到了大型毛茸茸的哺乳动物与美丽的摄影,景深。

Runway与Pika表现都不错,Sora生成质量具有压倒性优势。

有人对比2023年4月Pika1.0与Sora,感叹不到1年时间,AI生成视频已发生翻天覆地变化。

与此同时,更多创作者晒出使用Sora生成的视频,进一步验证Sora超强视频生成能力。

输入prompt:一座巨大的大教堂里全是猫。放眼望去,到处都是猫。一个男人走进大教堂,向坐在王座上的巨型猫王鞠躬。

输入prompt:一座幽灵般的鬼屋,有友好的杰克灯笼与鬼魂人物,欢迎捣蛋鬼来到入口,倾斜移位摄影。

输入prompt:一个由水制成的人行走着,参观一个美术馆,里面有许多不同风格的美丽艺术品。

输入prompt:人们在海滩放松的真实视频,一条鲨鱼从水中冒出来,让所有人大吃一惊。

OpenAI文生视频模型Sora引爆科技圈,第一时间解读Sora官方技术报告

时间:2024年2月16日

来源:腾讯科技

字数:5,492(重新增减、编辑)

OpenAI 2月16日凌晨发布文生视频大模型Sora,在科技圈引起一连串的震惊与感叹。

2023年,我们见证文生文、文生图进展速度,视频可说是人类被AI攻占最慢的处女地。

2024年开年,OpenAI发布王炸文生视频大模型Sora,能仅根据提示词,生成60s连贯视频,碾压行业目前大概只有平均4s视频生成长度。

简单总结Sora模型强大之处:

1、文本到视频生成能力:Sora能根据用户提供的文本描述,生成长达60S视频,这些视频保持视觉品质,完整准确还原用户提示语。

2、复杂场景与角色生成能力:Sora能生成包含多个角色、特定运动类型,、主题精确、背景细节复杂的场景;能创造出生动的角色表情与复杂的运镜,使得生成视频具有高度逼真性与叙事效果。

3、语言理解能力:Sora拥有深入的语言理解能力,能准确解释提示,并生成能表达丰富情感的角色。这使得模型能更好理解用户文本指令,并在生成视频内容中,忠实反映指令。

4、多镜头生成能力:Sora可在单个生成视频中创建多个镜头,保持角色与视觉风格一致性。这种能力对制作电影预告片、动画或其他需多视角展示的内容非常有用。

5、从静态图像生成视频能力:Sora不仅能从文本生成视频,还能从现有静态图像开始,准确动画化图像内容,或扩展现有视频,填补视频中缺失的帧。

6、物理世界模拟能力:Sora展示AI在理解真实世界场景并与之互动的能力,这是朝实现AGI的重要一步。它能模拟真实物理世界运动,如物体移动与相互作用。

Sora的出现,预示全新视觉叙事时代的到来,它能将人们想象力转化为生动的动态画面,将文字魔力转化为视觉盛宴。在这个由数据与算法编织的未来,Sora正以独特方式,重新定义我们与数字世界的互动。

OpenAI文生视频模型Sora官方技术报告

我们探索利用视频数据,对生成模型进行大规模训练。具体说,我们在不同持续时间、分辨率与长宽比的视频与图像上,联合训练以文本为输入条件的扩散模型。

我们引入transformer架构,该架构对视频时空序列包与图像潜在编码进行操作。我们最顶尖的模型Sora,已能生成最长60S高保真视频,标志我们在视频生成领域取得重大突破。

我们研究结果表明,通过扩大视频生成模型的规模,我们有望构建出能模拟物理世界的通用模拟器,这无疑是极具前景的发展道路。

这份技术报告未涉及模型的具体技术细节,主要聚焦两大方面:首先,我们详细介绍一种将各类可视数据转化为统一表示的方法,从而实现对生成式模型的大规模训练;其次,我们对Sora能力与局限性,进行深入的定性评估。

过去研究中,许多团队已尝试使用递归网络、生成对抗网络、自回归Transformer、扩散模型等各种方法,对视频数据的生成式建模进行深入研究。这些工作通常仅限于较窄类别的视觉数据、较短的视频或固定大小的视频上。

相比之下,Sora作为通用视觉数据模型,卓越之处在于能生成跨越不同持续时间、长宽比与分辨率的视频与图像,包括生成长达60S的高清视频。

将可视数据转换成数据包patchs

可视数据处理上,我们借鉴大语言模型成功经验。这些模型通过对互联网规模的数据进行训练,获得强大通用能力。同样,我们考虑如何将这种优势引入到可视数据的生成式模型中。

大语言模型通过token将各种形式文本代码、数学与自然语言统一起来,Sora通过视觉包patchs实现类似效果。

我们发现,对不同类型视频与图像,包是一种高度可扩展、有效的表示方式,对训练生成模型具有重要意义。

OpenAI专门设计的解码器模型,它可将生成的潜在表示重新映射回像素空间

更高层次上,我们首先将视频压缩到低维度的潜在空间:这是通过对视频进行时间与空间上压缩实现。这个潜在空间,可看作是时空包集合,从而将原始视频转化为这些包。

视频压缩网络

我们专门训练一个网络,专门负责降低视觉数据的维度。这个网络接收原始视频作为输入,并输出经过压缩的潜在表示。

Sora模型就是在这个压缩后的潜在空间中接受训练,并最终生成视频。我们还设计了一个解码器模型,它可将生成的潜在表示重新映射回像素空间,从而生成可视的视频或图像。

时空包

当给定一个压缩后的输入视频时,我们会从中提取出一系列时空包,这些包被用作转换token。这一方案,不仅适用于视频,视频本质上是由连续帧构成,图像看作是单帧的视频。

通过这种基于包的表示方式,Sora能跨越不同分辨率、持续时间与长宽比的视频与图像进行训练。

推理阶段,我们只需在适当大小的网格中,安排随机初始化的包,就可控制生成视频的大小与分辨率。

用于视频生成的缩放Transformers

Sora是一个扩散模型,它接受输入的噪声包,如文本提示等条件性输入信息,被训练去预测原始的干净包。

重要的是,Sora是基于扩散的转换器模型,这种模型已在多个领域展现显著的扩展性,包括语言建模、计算机视觉、图像生成等领域。

随训练量增加,扩散转换器生成的样本质量有明显提高

这项工作中,我们发现扩散转换器,在视频生成领域具有巨大潜力。我们展示不同训练阶段下,使用相同种子与输入的视频样本对比,结果证明随训练量增加,样本质量有明显提高。

丰富的持续时间、分辨率与长宽比

图像与视频生成方法,过去常需将视频调整大小、裁剪或修剪至标准尺寸,如4秒、256x256分辨率的视频。Sora打破这一常规,它直接在原始大小的数据上进行训练,从而带来诸多优势。

采样更灵活

Sora具备出色的采样能力,无论是宽屏1920x1080p视频、垂直1080x1920视频,还是介于两者间任何视频尺寸,它都能轻松应对。

意味着Sora可为各种设备,生成与原始长宽比完美匹配的内容。更令人惊叹的是,即使在生成全分辨率内容前,Sora也能以较小尺寸迅速创建内容原型。所有这一切,都得益于使用相同模型。

Sora可为各种设备生成与原始长宽比完美匹配的内容

改进构图与框架

实验结果显示,在视频原始长宽比上进行训练,能显著提升构图与框架的质量。为验证这一点,我们将Sora与一个将所有训练视频裁剪为方形的模型版本进行比较。结果发现,在正方形裁剪上训练的模型,有时会生成仅部分显示主题的视频。Sora能呈现出更加完美的帧,充分展现在视频生成领域卓越性能。

左:将所有训练视频裁剪为方形的模型,右:Sora呈现出更加完美的帧

语言理解深化

为训练文本转视频生成系统,需大量带有相应文本字幕的视频。我们借鉴DALL·E3中re-captioning技术,应用于视频领域。

首先,我们训练高度描述性的转译员模型,使用它为我们训练集中的所有视频生成文本转译。通过这种方式,我们发现对高度描述性的视频转译进行训练,可显著提高文本保真度与视频整体质量。

与DALL·E3类似,我们利用GPT技术,将简短用户提示,转换为更长的详细转译,发送到视频模型。这一创新,使得Sora能精确按照用户提示,生成高质量视频。

图片与视频提示

上述所有结果与我们演示中,你可能已注意到文本转视频的示例。

Sora功能远不止于此,还能接受其他类型输入提示,如预先存在的图像或视频。这种多样化的提示方式,使Sora能执行广泛的图像与视频编辑任务,如创建完美的循环视频、将静态图像转化为动画、向前或向后扩展视频等。

将DALL·E图片变成动画

Sora能在提供图像与提示作为输入情况下,生成视频。下面展示示例视频,基于DALL·E2与DALL·E3图像生成。这些示例,不仅证明Sora强大功能,还展示在图像与视频编辑领域无限潜力。

一只戴着贝雷帽、穿着黑色高领毛衣的柴犬生成视频

一幅逼真的云朵图像生成视频,上面写着SORA;一个华丽的历史大厅里,一股巨大的浪潮达到顶峰,并开始崩散,两个冲浪者抓住时机,巧妙在海浪表面飞驰

扩展生成视频

Sora不仅具备生成视频能力,更能在时间维度上实现向前或向后无限扩展。三个视频从同一生成视频片段出发,逐步向后扩展。起始部分各异,结局却出奇一致。

这充分展示了Sora在时间扩展方面的强大功能,甚至能创造出无缝的无限循环视频。

视频到视频编辑

随扩散模型发展,我们开发出多种方法,编辑基于文本提示的图像与视频。我们将SDEdit 32技术应用于Sora,这项技术赋予Sora转换零拍摄输入视频风格与环境能力,为视频编辑领域带来革命性变革。

视频的无缝连接

Sora能在两个截然不同的输入视频间,实现无缝过渡。通过逐渐插入技术,我们能在具有完全不同主题与场景构图的视频间,创建出流畅自然的过渡效果。

图片生成能力

Sora出色能力,不止于数据处理与分析,还能生成图像。这一创新功能的实现,得益独特算法,该算法在精确时间范围内,巧妙在空间网格中排列高斯噪声补丁。

Sora图像生成功能,不仅限于特定大小图像,可根据用户需求,生成可变大小的图像,最高可达2048×2048分辨率。

一个女人在秋天的特写肖像,每一个细节都被捕捉得淋漓尽致,浅景深的应用使得主体脱颖而出

充满生机的珊瑚礁吸引五颜六色的鱼类与海洋生物

新的模拟能力

大规模训练过程中,我们发现视频模型展现出许多令人兴奋的新能力。这些功能使得Sora能模拟现实世界中人物、动物与环境等某些方面。

这些属性的出现,并没有依赖任何明确的3D建模、物体识别等归纳偏差,纯粹通过模型的尺度扩展自然涌现。

3D一致性:Sora能生成带有动态摄像头运动的视频。随摄像头移动与旋转,人物与场景元素在三维空间中始终保持一致的运动规律。

较长视频连贯性与对象持久性:视频生成领域,面对的重要挑战是,在生成的较长视频中保持时空连贯性与一致性。Sora不总是,但经常能有效为短期与长期物体间的依赖关系建模。

例如,生成视频中,人物、动物与物体,即使在被遮挡或离开画面后,仍能被准确保存与呈现。同样,Sora能在单个样本中生成同一角色多个镜头,并在整个视频中保持外观一致性。

与世界互动:Sora有时能以简单方式,模拟影响世界状态行为。例如,画家可在画布上留下新笔触。随时间推移,一个人吃汉堡时,也能在上面留下咬痕。

Sora能以简单方式模拟影响世界状态的行为

模拟数字世界:Sora能模拟人工过程,比如视频游戏。它可在高保真度渲染世界与动态的同时,用基本策略控制《我的世界》中玩家。这些功能无需额外训练数据或调整模型参数,只需向Sora提示我的世界即可实现。

这些新能力表明,视频模型持续扩展,为开发高性能物理与数字世界模拟器,提供充满希望的道路。通过模拟生活在这些世界中物体、动物与人等实体,我们可更深入理解现实世界运行规律,并开发出更逼真、自然的视频生成技术。

局限性与展望

Sora在模拟能力方面已取得显著进展,目前仍然存在许多局限性。例如,它不能准确模拟许多基本相互作用的物理过程,如玻璃破碎等。某些交互场景中,比如吃东西时,Sora不能总是产生正确的对象状态变化。

我们在发布页面中,列举模型其他常见故障模式,包括在长时间样本中发展的不一致性或某些对象不受控的出现等。

我们相信随技术不断进步与创新,Sora展现出的能力,预示视频模型持续扩展的巨大潜力。未来,我们期待看到更加先进的视频生成技术,能更准确模拟现实世界中各种现象与行为,并为我们带来更加逼真、自然的视觉体验。

圈内人评价Sora

马斯克评OpenAI视频模型:人类认赌服输,AI增强的人类将创造出最好作品。

马斯克前女友格莱姆斯发布一连串帖子,讨论这项新技术对电影、更广泛的艺术创作的影响。

马斯克在一条帖子下回应称:AI增强的人类,将在未来几年里创造出最好的作品。

一位X用户分享Sora生成的一名女子在东京街头漫步的视频,评论称:OpenAI今天宣布Sora,它使用混合扩散与变压器模型架构生成长达60S视频。他们似乎又领先所有人1~2年。另一位X用户评论称:gg皮克斯。

马斯克回应称:gg人类。

gg是网络游戏用语good games缩写,主要用于游戏结束后,输赢双方都可用,现在多由失败方发出,表示认赌服输、心服口服。

在马斯克帖子的评论区里,还有用户附与道:gg好莱坞。

X员工Enrique发帖:我不想生活在一个电影、表演等都由AI生成的未来。

马斯克回复:目前趋势,就是如此。

Jim Fan感叹:Sora是数据驱动的物理引擎

英伟达AI研究员Jim Fan,表示如果认为OpenAI Sora是像DALLE一样的创意玩具,将大错特错。

Sora是数据驱动的物理引擎,模拟了许多真实或虚幻世界。模拟器通过一些去噪与梯度数学,学习复杂的渲染、直观的物理、长视野推理与语义基准。如果Sora是使用虚幻引擎5,在大量合成数据上训练出来的,我也不会感到惊讶。肯定是这样。

让我们来分析一下这个视频。提示词:两艘海盗船,在一杯咖啡中对战的逼真特写视频。

模拟器实例化两个精美的三维资产:装饰各异的海盗船。Sora必须在潜在空间中隐式的解决文本到3D的问题。

三维物体在航行与避开对方路径时,始终保持动画效果。

咖啡的流体力学,甚至是船只周围形成的泡沫。流体模拟是计算机图形学一个完整的子领域,传统上需要非常复杂的算法与方程。

逼真度,几乎与使用光线跟踪进行渲染一样。

模拟器考虑到与海洋相比,杯子体积较小,采用倾斜移位摄影技术,营造出一种微小的感觉。

这个场景的语义,并不存在现实世界,引擎仍然实现所期望的正确物理规则。

YouTube大V:动画师与3D艺术家工作,可能有危险

YouTube大V Paddy Galloway感慨:内容创作永远改变了,这不是夸张。我在YouTube世界已15年,OpenAI刚展示的东西让我说不出话来。

Paddy Galloway认为,Sora将带来以下改变:

动画师与3D艺术家工作,可能有危险,库存素材网站将变得无关紧要。

任何人,都可立即拥有出色的B-roll辅助镜头。

制作精美视频的门槛降至零。

在每个人都能制作出美丽视频的世界里,内容背后的想法与故事变得更加重要。

Sora将真正颠覆教育、视频论文与解说视频的细分市场。

AI创业公司创始人:5年后,你将能生成完全沉浸式的世界,并实时体验它们

Takeoff AI专注AI Tools的创业公司,创始人认为这一波OpenAI新技术最大受益者可能是虚拟现实。

2周内,我们连续有了苹果Vision Pro与OpenAI Sora文本到视频AI模型。

5年后,将能生成完全沉浸式世界,并实时体验它们。2024年火爆的掌机Steamdeck的虚拟现实版本Holodeck应该是指很快就要来了。

Gary Marcus:Sora奇怪的物理故障,可能不是数据中出现的

纽约大学教授Gary Marcus以对AI领域深刻见解,与对现有技术批判性思考而闻名,他的观点与研究对AI社区产生重要影响。

他表示Sora奇怪的物理故障,例如动物与人,在人群中自发出现与消失令人着迷:这些错误可能不是数据中出现的。这种小故障,在某些方面类似LLM幻觉,从有损压缩中大致解压缩产生的伪影,不是来自这个世界的东西。

这种错误,是与现实世界物理学的系统性偏差,可能很难纠正。

8个文生视频 技术报告,揭秘OpenAI最强视频GPT

时间:2024年2月16日

来源:智东西

字数:4,484(有删减)

2月16日,OpenAI推出首款文生视频大模型Sora,该模型能根据提示词生成长达60S视频,或扩展生成的视频使其更长,视觉质量相当惊艳。

相比以往视频模型,Sora亮点非常明显,不仅对文本理解更深刻,准确呈现提示词,能在一个生成的视频中创建多个镜头,准确保留角色与视觉风格。

Sora在细节处理上,做得非常出挑,能理解复杂场景中不同元素间物理属性与关系,正确呈现它们在物理世界中存在方式。

除支持文本指令输入外,支持生成图像,支持将现有静止图像变成视频,能对现有视频进行扩展、将两个视频衔接并填充缺失的帧。

3D仿真能力非常突出,无论是制作短视频、动画、电影画面,还是渲染视频游戏,Sora都展示出令人期待的落地前景。

为全方位展示Sora水平,OpenAI一口气放出48个用Sora直接生成、未经修改、长度不等9秒~60秒视频。

OpenAI将Sora称作是能理解与模拟现实世界模型的基础,相信其能力将是实现AGI的重要里程碑。

48个视频Demo:动漫电影、逼真自然、魔幻大片

OpenAI放出48个视频,展示Sora模型强大之处。

提示词1:一个时髦女人走在东京街道上,到处都是温暖的霓虹灯与生动的城市标志。她穿着黑色皮夹克、红色长裙、黑色靴子,拿着黑色钱包。她戴着太阳镜,涂着红色口红。她走起路来自信而随意。街道是潮湿与反光,创造了彩色灯光的镜子效果。许多行人走来走去。

提示词2:几只巨大的长毛猛犸象,穿过一片白雪覆盖的草地,它们长长的毛茸茸的皮毛在风中轻拂,远处白雪覆盖的树木与戏剧性的雪山,午后的光线与缕缕的云与远处的太阳创造了温暖的光芒,低相机的视角是惊人的,捕捉到了美丽的摄影,景深的大型毛茸茸的哺乳动物。

提示词3:这是一部电影预告片,讲述30岁的太空人戴着红色羊毛针织摩托车头盔的冒险经历,蓝天、盐沙漠,电影风格,用35毫米胶片拍摄,色彩鲜艳。

提示词4:无人机拍摄的海浪,冲击着大苏尔加雷角海滩上崎岖的悬崖。蓝色的海水拍打着白色波浪,夕阳的金色光芒照亮岩石海岸。远处有一座小岛,岛上有一座灯塔,悬崖边上长满绿色灌木丛。从公路到海滩的陡峭落差,是一个戏剧性壮举,悬崖的边缘突出在海面上。这是一幅捕捉到海岸原始美景与太平洋海岸公路崎岖景观的景色。

提示词5:动画场景特写了一个毛茸茸的矮个子怪物跪在融化的红烛旁。美术风格是3D与现实的,重点是照明与纹理。这幅画的气氛是一种惊奇与好奇,怪物睁大眼睛,张开嘴巴凝视着火焰。它的姿势与表情传达了一种天真与顽皮的感觉,好像它是第一次探索周围的世界。暖色与戏剧性灯光的使用进一步增强了图像的舒适氛围。

提示词6:一个华丽渲染的珊瑚礁纸工艺品世界,到处都是五颜六色的鱼与海洋生物。

提示词7:这个维多利亚冠鸽的特写展示了它引人注目的蓝色羽毛与红色胸部。它的羽冠是由精致的花边羽毛制成的,而它的眼睛是醒目的红色。鸟的头微微向一侧倾斜,给人一种帝王与威严的印象。背景是模糊的,吸引人们注意到这只鸟引人注目的外表。

提示词8:两艘海盗船在一杯咖啡中航行时相互争斗的逼真特写视频。

提示词9:20多岁的年轻人,坐在天空的一片云上读书。

提示词10:淘金热时期加州历史镜头。

提示词11:一个玻璃球的近景,里面有一个禅宗花园。球体中有一个小矮人,正在耙花园,并在沙子上创造图案。

提示词12:24岁的女人,眨着眼睛的极端特写,站在马拉喀什的神奇时刻,电影胶片拍摄,70mm,景深,生动的色彩,电影感。

提示词13:一只卡通袋鼠跳迪斯科。

提示词14:一个美丽的DIY视频,展示2056年尼日利亚拉各斯的人们,用手机摄像头拍摄。

提示词15:一个培养皿,里面生长竹林,小熊猫在里面跑来跑去。

提示词16:摄像机围绕一大堆老式电视旋转,这些电视播放不同节目,20世纪50年代科幻电影、恐怖电影、新闻、静态、70年代情景喜剧等,背景设在纽约博物馆一个大型画廊里。

提示词17:一个小的、圆的、毛茸茸的、有一双大而富有表现力眼睛的生物,探索充满活力的魔法森林3D动画。

这种动物是兔子与松鼠的异想天开混合体,有着柔软的蓝色皮毛与浓密的条纹尾巴。它沿着波光粼粼的小溪跳跃,惊奇地睁大眼睛。森林里充满神奇元素:发光与变色的花朵,紫色与银色叶子的树木,像萤火虫一样的小浮动灯。

这只生物停下来,与一群在蘑菇圈周围跳舞的小仙女嬉戏。这只生物敬畏的仰望着一棵巨大的、发光的树,这棵树似乎是森林的中心。

提示词18:摄像机跟在一辆黑色车顶架的白色复古SUV后面,它在陡峭的山坡上沿着松树环绕的陡峭土路加速行驶,灰尘从轮胎上扬起,阳光照在越野车上,在土路上加速行驶,在现场投下温暖的光芒。

这条土路弯弯曲曲延伸到远处,看不到其他汽车或车辆。道路两旁树木都是红杉,点缀一片片绿色植物。从后面看到的汽车跟随曲线轻松,使它看起来好像是在崎岖不平的地形上行驶。土路本身被陡峭的丘陵与山脉包围,上面是清澈的蓝天与缕缕的云。

提示词19:火车在东京郊区行驶时,车窗上的倒影。

提示词20:一架无人机摄像机,环绕一座美丽历史悠久的教堂,这座教堂建在阿马尔菲海岸岩石上,这张照片展示历史与宏伟的建筑细节,分层的小路与露台,海浪撞击着下面岩石,俯瞰意大利阿马尔菲海岸的海岸水域与丘陵景观,远处几个人在露台散步,欣赏壮观的海景。下午温暖的阳光,为现场创造神奇而浪漫的感觉,美丽的摄影捕捉到令人惊叹的景色。

提示词21:一只巨大的橙色章鱼在海底休息,与沙质与岩石地形融为一体。它的触手在身体周围展开,眼睛闭着。章鱼没有意识到一只帝王蟹正从岩石后面向它爬来,它的爪子抬起,准备攻击。这种螃蟹是棕色、多刺,有长腿与触角。

这个场景是从广角拍摄,展示海洋广阔与深度。海水清澈湛蓝,阳光透过来。镜头锐利,动态范围大。章鱼与螃蟹是焦点,背景稍微模糊,创造景深效果。

提示词22:一群纸飞机在茂密的丛林中飞舞,像候鸟一样在树木间穿梭。

提示词23:一只猫叫醒正在睡觉的主人,要求吃早饭。主人试图忽略猫,猫尝试新策略,最后主人从枕头下拿出一个秘密的零食,让猫多待一会儿。

提示词24:基纳巴坦干河上的婆罗洲野生动物。

提示词25:有中国龙的中国农历新年庆祝视频。

提示词26:参观艺术画廊,欣赏许多风格各异的精美艺术品。

提示词27:美丽、白雪皑皑的东京城市熙熙攘攘。镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天,在附近摊位上购物。绚丽的樱花花瓣,随雪花在风中飞舞。

提示词28:这是一幅定格动画,描绘一朵花从郊区房子窗台上长出来。

提示词29:赛博朋克设定的机器人生活故事。

提示词30:极致特写60岁、头发胡子花白的男人,在深度思考宇宙历史,他坐在一家巴黎咖啡馆,穿着一件羊毛外套西装外套与一件衬衫,戴着一件棕色贝雷帽、眼镜,有一个非常专业的外表,结束时他有了一个微妙、封闭式的笑容,好像找到答案,神秘生活,灯光非常电影化,金色灯光与巴黎街道与城市作为背景,景深,电影感,35mm胶片。

提示词31:一个美丽的剪影动画,展示一只狼对月亮嚎叫,感到孤独,直到它找到它的族群。

提示词32:纽约市像被淹没的亚特兰蒂斯,鱼、鲸鱼、海龟与鲨鱼游过纽约街道。

提示词33:一窝金毛猎犬小狗,在雪地里玩耍。他们头从雪中探出头来,身上覆盖雪。

提示词34:一个人跑步的步印场景,电影胶片,35mm拍摄。

提示词35:5只小灰狼,在一条偏僻的砾石路上嬉戏追逐,周围长满草。幼崽们又跑又跳,互相追逐,互相撕咬、玩耍。

提示词36:篮球穿过篮筐爆炸。

提示词37:考古学家在沙漠中发现一把普通的塑料椅子,他们小心翼翼挖掘并掸去上面灰尘。

提示词38:一位头发梳得整整齐齐的白发老奶奶,站在一张木制餐桌前,身后是一个色彩斑斓的生日蛋糕,上面插着无数蜡烛,她的眼睛里闪烁幸福的光芒,脸上流露出一种纯粹的快乐与幸福。

她身体前倾,轻轻吹灭蜡烛,蛋糕上有粉红色的糖霜与糖屑,蜡烛不再闪烁,老奶奶穿着一件浅蓝色衬衫,上面装饰花卉图案,可看到几个快乐朋友与家人坐在桌子旁庆祝,背景虚化。

这个场景拍得很漂亮,像电影一样,展示老奶奶与餐厅的3/4视图。暖色调与柔和的灯光改善了心情。

提示词39:镜头直接对着意大利布拉诺五颜六色建筑。一只可爱的斑点狗,从一楼窗户往外看。许多人沿着建筑物前的运河街道散步或骑自行车。

提示词40:一只可爱快乐的水獭穿着黄色救生衣自信的站在冲浪板上,沿着绿松石般的热带水域骑行,附近是郁郁葱葱的热带岛屿,3D数字渲染艺术风格。

提示词41:这张变色龙特写照片,展示惊人的变色能力。背景模糊,吸引人们注意到动物引人注目的外表。

提示词42:一只柯基,在热带毛伊岛拍摄视频。

提示词43:一只白橙相间的虎斑猫,欢快的在茂密花园里窜来窜去,好像在追逐什么东西。它眼睛睁得大大,欢快向前跑着,一边走一边扫视树枝、花朵与树叶。这条小路很窄,它在所有的植物间穿行。

这个场景是从地面角度拍摄,紧跟在猫后面,给人低而亲密的视角。图像是电影般暖色调与颗粒纹理。树叶与植物间分散的日光,形成温暖的对比,突出猫的橙色皮毛。这张照片清晰锐利,景深浅。

提示词44:蓝色圣托里尼鸟瞰图,展示白色基克拉迪建筑与蓝色圆顶的惊人建筑。火山口的景色令人叹为观止,灯光营造出美丽、宁静的氛围。

提示词45:工人、设备与重型机械密集的建筑工地的倾斜。

提示词46:一个巨大的、高耸的云在一个人的形状在地球上隐约出现。云人把闪电射向地面。

提示词47:一只萨摩耶犬与一只金毛猎犬,在夜晚霓虹灯城市里嬉戏。附近建筑物发出的霓虹灯,在它们皮毛上闪闪发光。

提示词48:Glenfinnan高架桥,是英国苏格兰一座历史悠久的铁路桥,横跨马莱格镇与威廉堡间的西部高地线。一列蒸汽火车驶离大桥,在拱形高架桥上行驶,这是一幅令人惊叹的景象。风景点缀着郁郁葱葱的绿色植物与岩石山脉,为火车之旅创造风景如画的背景。天空湛蓝,阳光明媚,这是个探索这个雄伟景点的美好日子。

不足:难以模拟复杂场景,混淆提示词的空间细节

OpenAI坦言,Sora目前存在许多局限性,可能难以准确模拟复杂场景物理属性,比如玻璃破碎;可能无法理解因果关系的具体实例。例如,一个人咬了一口饼干,之后饼干上可能没有咬痕。

该模型可能混淆提示的空间细节,例如,混淆左与右,可能难以精确描述随时间发生的事件,例如跟随特定的摄像机轨迹。

OpenAI强调说,在将Sora应用于OpenAI产品前,他们将采取一些重要的安全措施,包括与红队专家合作进行对抗性测试、构建检测分类器等工具来帮助检测误导性内容、计划在未来包含C2PA元数据等。

除开发新技术为部署做准备外,OpenAI利用为使用DALL·E3的产品构建的现有安全方法,这些方法适用于Sora。

Sora文生视频大模型的研究,由Bill Peebles、Tim Brooks领导,系统领导者是Connor Holmes。

以下人员参与此研究的贡献。

OpenAI还对下述人员致以特别感谢:

结语:OpenAI终于下场,视频生成模型迎来重磅玩家。

随OpenAI首款文生视频大模型Sora推出,2023年已如火如荼展开的文生视频大模型大战,2024年要通过卷向更强性能,开启落地之年。

Sora研究团队相信,Sora今天所拥有的能力表明,视频模型的持续扩展是条很有前途的道路,可开发出物理与数字世界的模拟器,以及生活在其中的物体、动物与人。

OpenAI承诺将与世界各地政策制定者、教育工作者、艺术家接触,了解他们担忧,确定这项新技术积极用例。

尽管进行广泛的研究与测试,OpenAI团队无法预测人们使用其技术的所有有益方式,无法预测人们滥用它的所有方式。

团队相信随时间推移,从现实世界的使用中学习,是创建与发布越来越安全AI系统的关键组成部分。

A16Z最新AI洞察,2023年是AI视频元年,2024年还有这些难题需解决

时间:2024年2月2日

来源:有新Newin

字数:2,776

A16Z合伙人Justine Moore最新发布2024年AI视频展望,2023年对AI视频领域来说,是突破性的1年。

2023年初时,公开的文本转视频模型尚不存在。12个月后,数十种视频生成产品已被积极使用,全球有数百万用户通过文本或图像提示创建短片。

这些产品仍然有相对局限性,大多数生成视频时长为3~4秒,输出质量参差不齐,像角色一致性这样的问题还未得到解决。我们距离用单一文本提示或甚至多个提示,创造出皮克斯级别短片还有很长路要走。

过去1年,在视频生成领域所见证的进步表明,我们正处于一场巨大变革的初期阶段,这与A16Z在图像生成领域所见到的相似。我们正在见证文本转视频模型的持续改进,像图像转视频与视频转视频这样的衍生技术正在获得动力。

为帮助理解这场创新的爆炸,A16Z追踪了到目前为止最重要的发展、值得关注的公司,这个领域中剩余的基本问题。

生成AI视频在哪里?

产品方面

A16Z到目前为止,2024年已追踪21个公开产品。你可能已听说过Runway、Pika、Genmo、Stable Video Diffusion,还有很长的列表其他产品等待被发现。

这些产品大多来自初创公司,许多是从Discord机器人开始,这有几个优势:

不需构建自己面向消费者界面,可专注模型质量;

可利用Discord每月1.5亿活跃用户基础进行分发,尤其是如果在平台的发现页面上被特色展示;

公开频道为新用户提供易于获取灵感的方式,通过查看其他人生成的内容,并为产品提供社会证明;

a16Z发现更多视频产品,构建自己的网站,甚至是移动应用,特别是随着它们的成熟。

Discord提供了良好的启动平台,但在仅有的生成功能之上,增加工作流程方面,它的限制较大,团队对消费者体验几乎没有控制权。

值得注意的是,有很大一部分人不使用Discord,可能会觉得界面混乱,或不经常返回使用。

研究与大型科技公司

谷歌、Meta等公司在哪里?它们显著缺席公开产品列表中,可能已看到它们发布的关于Meta的Emu Video、谷歌的VideoPoet与Lumiere、字节跳动的MagicVideo等模型引人注目的帖子。

目前为止,除阿里之外,大型科技公司选择不公开发布他们视频生成产品。相反,它们发布关于各种形式的视频生成论文,并发布演示视频,不宣布他们模型是否或何时会公开。

这些公司都拥有巨大分发优势,旗下产品用户达到数10亿。当他们演示看起来很有力,他们有机会在这个新兴类别中占据有意义的市场份额时,为什么不发布他们视频模型?

重要的是要记住,这些公司行动缓慢。大多数公司至今还没发布文本到图像产品,Instagram在2023年晚些时候为故事推出AI背景生成器,TikTok也在悄悄推出AI滤镜。

法律、安全与版权问题,经常使这些公司将研究转化为产品变得困难,并推迟推出,给新进入者获得先发优势的机会。

AI视频下一步是什么?

如果你曾经使用过这些产品,你就会知道,在AI视频准备好进入黄金时段之前,还有很多需改进的地方。

获得一个模型生成与你的提示匹配的美丽剪辑的神奇时刻是可能的,相对罕见。更常见的是,你需重新生成几次,并裁剪或编辑输出以获得专业级别的剪辑。

这个领域的大多数公司,都专注解决一些核心至今未解决问题:

控制:你可控制场景中发生的事情,例如,如果你提示人向前走,移动是否如所描述的那样?相机的移动方式?在后一点上,许多产品增加了允许你缩放或平移相机甚至添加特效的功能。前一点,移动是否如所描述?一直更难以解决。

这是一个底层模型质量问题,模型是否理解,并且能执行你的提示,一些公司正在尝试在生成前给用户更多控制权。

Runway的动作笔刷,就是很好的例子,它允许你高亮图片的特定区域,并确定它们的移动方式。

时间连贯性如何使角色、物体与背景在帧与帧间保持一致,而不是变成其他东西或扭曲?这是所有公开可用模型中非常普遍问题。如果你今天看到一个时间上连贯的视频,时长超过几秒钟,它很可能是视频到视频,采用视频并用类似AnimateDiff提示旅行的方式转换风格。

长度能制作几秒钟之外的剪辑吗?这与时间连贯性高度相关。许多公司限制可生成的视频长度,他们无法保证几秒钟后的任何种类的一致性。如果你看到一个长形式AI视频,你会注意到它是由一堆短片组成的,并且需数十或数百个提示。

尚未解决的问题

AI视频,目前似乎处于GPT-2水平。过去1年里,我们已取得巨大进步,但在日常消费者每天使用这些产品前,仍有一段路要走。

视频的ChatGPT时刻何时到来?

这个领域研究人员与创始人间没有广泛共识,仍有一些问题需回答:

1、当前扩散架构是否适用于视频

今天视频模型基于扩散:它们本质上是生成帧,并尝试在它们间创建时间上连贯的动画,有多种策略可做到这一点。它们对3D空间、物体应如何互动没有内在理解,这解释了变形/扭曲现象。

例如,看到一个人在剪辑的前半部分沿街走路,在第二部分融入地面并不少见,模型没有硬表面的概念。由于缺乏对场景3D概念化,从不同角度生成相同的剪辑,也很困难,如果不是不可能的话。

一些人认为视频模型,根本不需对3D空间理解。如果它们接受足够高质量数据训练,它们将能学习物体间关系、如何从不同角度表示场景。其他人相信这些模型,将需一个3D引擎来生成时间上连贯的内容,特别是超过几秒钟的内容。

2、高质量训练数据将从哪里来

训练视频模型比其他内容模态更难,主要是没有那么多高质量、标记好的训练数据供这些模型学习。

语言模型,通常在公共数据集如Common Crawl上接受训练,图像模型在标记的数据集(文本-图像对)如LAION与ImageNet上接受训练。

视频数据更难获得。像YouTube与TikTok平台上并不缺乏公开可访问视频,但它们没有标签,可能不够多样化,像猫的剪辑与影响者的道歉很可能在数据集中被过度代表。。

视频数据的圣杯,可能来自工作室或制作公司,它们拥有从多个角度拍摄的长视频,伴有剧本与指导。它们是否愿意为训练目的,授权这些数据有待确定。

3、这些用例将如何在平台/模型间进行划分?

A16Z在几乎每种内容模态中看到的是,没有一个模型能赢得所有用例。

例如,Midjourney、Ideogram、DALL-E都有独特风格,擅长生成不同类型图像。

A16Z预计视频将有类似动态。如果你测试今天文本到视频、与图像到视频模型,你会注意到它们擅长不同风格、运动类型与场景构成将展示两个具体例子。

围绕这些模型构建的产品,很可能在工作流程方面进一步分化,并服务不同的终端市场。

这甚至还不包括没有进行纯粹文本到视频的相邻产品,而是在处理像动画人物头像(例如HeyGen)、VFX(例如Wonder Dynamics)、视频到视频(例如DomoAI)等事物。

Prompt: Snow falling on a city street, photorealistic

Genmo

Runway

Stable Video Diffusion

Pika Labs

Prompt:Young boy playing with tiger,anime style

Genmo

Runway

Stable Video Diffusion

Pika Labs

4、谁将拥有工作流?

除纯视频生成外,制作一个好的剪辑或电影,通常需编辑,尤其是在当前范式下,许多创作者使用视频模型来为在另一个平台上创建的照片制作动画。

看到一个视频从Midjourney图像开始,在Runway或Pika上进行动画处理,并在Topaz中进行升级并不少见。

创作者将视频带到像Capcut或Kapwing这样编辑平台,添加配乐与旁白,这些旁白经常在其他产品上生成,比如Suno与Eleven Labs。

在这么多产品间反复切换没有意义,A16Z期待看到视频生成平台开始增加一些这些功能。

例如,Pika现在允许在他们网站上对视频进行升级。

A16Z看好一个AI本地编辑平台,它能轻松在一个地方从不同模型跨模态生成内容,并将这些内容拼凑在一起。

2024年AI视频,何去何从

时间:2024年2月4日

来源:数字生命卡兹克

字数:2,013

前几天在A16Z上看到一篇文章,看完有点感触,正好我自己也在各种不同的场合表达过对AI视频现状看法与展望。

不如就写一篇文章,结合A16Z观点,来一起聊聊这个话题。

2023为什么是AI视频突破的1年,AI视频还缺少什么,对2024年AI视频展望。

2023是AI视频爆发的1年,从最开始时,只有Runway的Gen1与wonder studio勉强可看,基本不可用。

直到8月,Runway Gen2正式推出。

Nicolas Neubert做了《创世纪》AI预告片,我做了《流浪地球3》AI预告片,AI生成式视频,正式走向大众眼前。

数字生命卡兹克

,赞955

《流浪地球3》AI预告片

直到2024年初,已有数十家AI视频公司成立,推出产品,更有不计其数大厂产品正在路上:比如Meta、Google、腾讯、字节、阿里、商汤等。

A16Z总结了一张图2023年关键节点图,我觉得总结的非常完整。

2024年,我自己整体体验了非常多产品,除最常用的Runway、PIKA、Pixverse之外,还有SVD、Genmo、Moonvalley、domo、Morph等。太多了,也太卷了。同样的,这里直接放A16Z总结的图。

绝大多数产品并不完善,在可控性上,只有为数不多几家产品支持了,比如Runway运动笔刷、PIKA区域修改,大部分产品都只有文生图、图生图,生成3~4秒视频,就没了。

可从图中看出,大部分公司,都是小公司,大厂动作有点慢,不过2024年上半年,大厂AI生成式视频产品,可能会是涌现式喷发。

不要忘了,AI视频第一次正式全员亮相,是2023年8月。距离今天,仅过了6个月而已。

说说AI视频问题。

很多人在交流时,经常问我问题是,AI生成式视频,距离终点的进度,走到多少?或说,能全面给行业降负还有多久。我觉得这个问题太大、太空,但是我每次还是会说,现在进度大概是5%~10%的地步。

离你们心中那个饼,还有90%路。

在我心中,有一个最核心的问题需解决:

物理规律。

这个问题不解决,我不认为会对现在影视行业会造成很大冲击。众所周知,视频里面,包含大量交互镜头,人与人、人与物体、物体与物体的交互等。

比如玻璃杯子放在空中,让他垂直落下,他应该掉在地上碎掉,或高度不够,杯子会在地上弹起。但是让AI去做,会发现,变形变得都不认识了。

或一个人物戴着头盔转下头,头盔没了,脸也不要了。

这就是很离谱的事情,AI并不懂世界的物理规律,不懂物理规律的视频,他的上限能高到哪里去?

影视里,我们最喜欢看的,是关系,是交互。

《海边的曼彻斯特》,有很多苦衷的两人间的亲吻相拥。

《环太平洋》,机甲一拳将怪兽砸到海中的快感。

《复仇者联盟4》,钢铁侠一个响指的浪漫。

没有这些,一切都是空镜,一切都是转场,这样的镜头,怎么好看?

我们需让AI视频,拥有物理引擎。

现在就我知道的,有两条路线,一条以Runway为代表,做世界模型;一条以商汤为代表,做3D。

先说世界模型。

Runway很久以前发了一个帖子,简单的介绍世界模型。

但不要以为他就开始干了,原话翻译过来是:我们正在组建一个团队来应对这些挑战。如果你有兴趣加入这项研究工作,我们很乐意听取你的意见。

斯坦福有个团队,在我印象中也在做,但是世界模型遇到最大问题是:数据收集的问题。

世界模型,最麻烦的就是对物理现实的数据收集,人类抽象能力很强,看到一个球,可能会识别出这是足球或头;看到白色物体,可能是桌子或是一堵墙。

现在大部分视频数据,有大量垃圾噪点,怎么能抽象的把大量噪音抽离,只留关键的物理信息,这是非常坑的点。

自动驾驶,就是这个方向最落地的应用之一,自动驾驶要的数据,并不是多,就是道路、街道、人物、车子,但是搞了N久,现在离L4还很远。

当要做生成式AI视频的通用世界模型时,数据要的就不是一丁点,是海量数据。

一个炸弹炸在屎上,屎应该如何散开?我一巴掌打到你脸上,你肌肉应该如何颤抖?鲨鱼在水中追你时,水是如何散开?

这都是物理规律,我们能很容易想象到,但对AI来说,太难。难的不是后期训练,而是前期数据收集。

在我对外交流中,他们说现在最痛苦的点是:人经历过千万年进化,对世界常识,是藏在基因里的,会自动把一些冗余信息以极快速度,一步一步剔除,直到只剩到最关键信息,做一些思考推断。机器没有,机器现在不懂抽象,需人去做类似人类抽象化过程的学习算法,来抽离关键信息,收集视频数据。

这个点非常痛苦。

这也是我对所谓AI视频的通用世界模型没有那么多信心的原因。

另一条路,就是AI 3D AI视频。

商汤一部分技术就是走这条路。

这个项目很有意思,从故事可直接生成动作,非常连贯。

如果给一张图,能直接分离场景与主体,3D建模后,再用Story to motion生成轨迹与动作呢?

不需什么世界模型,3D世界中物理引擎,游戏行业都做了N多年,非常成熟。

只要能分离建模,就没问题。

AI 3D,现在正在冉冉升起阶段,还没有成熟,按照现在卷的速度,AI 3D,可能要不了半年,就能达到MJ的V4程度。

当AI 3D与AI视频结合,就是王炸。

我能理解为什么MJ给自己定的星辰大海是AI视频,但在做AI视频之前,先从英伟达挖了专门搞3D的去做AI 3D。

这里面有很多坑,3D建模的精度问题、贴图问题、骨骼问题、渲染问题等。不过相比世界模型,我觉得这玩意难度,还是小不少。

总结一下,AI视频当然还有很多问题,比如一致性、时长、运动幅度、可控性等。

我认为没有一个,像物理规律这样重要。

AI时代生成式3D大模型全面评测,ChatGPT时刻前夜

时间:2023年12月24日

来源:数字生命卡兹克

字数:2,724

我一直把AI分成四个模态:AI文本大语言模型、AI绘图、AI声音、AI视频。在我最近交流与访谈中,有一个游离于四模态之外的存在,被反复提起,AI 3D。

2023年12月20号星期三晚上,我在接受朋友的采访,很开心聊了1小时,在结束之际,他突然问了大纲上没有问题:你怎么看AI时代的3D?

这个问题我从没认真想过,这不是第一个跟我交流这块的人,最近1个月,AI 3D在我各个信息渠道里,都被N次提起。

我决定写下这篇文章,来聊我心中第五大模态:AI 3D,还有这个领域现状。

目前AI 3D领域大概有5个主流玩家:Tripo、Meshy、sudoAI、CSM、LumaAI。

CSM与Luma是老牌公司;Luma之前主要做实景扫描,前段时间搞了文生3D产品Genie,目前还寄生在Discord上,暂不支持图生3D;CSM搞实时绘图转3D,不支持文生3D。

Meshy做的比较早, 7、8月份就出产品。

Tripo、sudo发的比较新,特别是Tripo,2023年12月21号才发。

聊AI 3D产品,绕不过的核心功能与痛点,是建模。

简单说一下3D工作流程,大概是概念设计-3D建模-纹理贴图-骨骼绑定-动画制作-灯光-渲染-合成。

看到的影视特效,游戏里场景,都需建模完做贴图渲染。最开始的建模成品,是一个素模,大概长这样。

有了模型后,才能做后面所有的事。

建模非常重要,也最费时,很多时候甚至能占用总时长30%~50%。3D领域没有什么比建模更重要、更枯燥,更需AI优化的东西。

几家的产品,在AI生成建模上,功能都差不多,文生3D与图生3D。

文生3D与图生3D,非常好理解,跟AI视频的概念一样,只不过在AI视频里是用文或图生成1个4s片段,在AI 3D里是生成1个模型。

衡量的标准非常简单:生成的模型质量与精度到底怎么样。

一般正常来说,我们用的最多的还是图生3D。

我先用MJ V6跑了一张图:篮球的游戏资产,Blender 3D模型,obj fbx glb 3d模型,默认姿势,具有透明背景的PNG图像

我把这张图扔到Tripo、Meshy、sudo、CSM里,luma现在不支持图生3D,不参与图生3D对比。

我对AI 3D预期不高,我一开始才选择上篮球这种非常简单的玩意,结果效果除Tripo外,另外三个差强人意,CSM生成1个模型要近2个小时。

我把模型都下载下来,在Blender里渲染成动画GIF,所有摄像机、HDR、参数均统一。

直观感受4家产品对比,Tripo>CSM>sudo>Meshy。

可看到,只有Tripo一家真正把篮球纹理给连起来,成为真正的篮球。Meshy与sudo明显看到贴图都崩了,是彻底用不了的崩。CSM在背后也胡成一坨。

再去Blender里看看建模细节。

CSM把篮球凹槽做出来了一点细微影子,Tripo与sudo建模中规中矩,不是特别圆的球,还有一些瑕疵,但是能用,Meshy彻底崩的用不了。

篮球这个case,Tripo遥遥领先。Tripo>CSM>sudo>Meshy。

再多试几个例子。

1、卡通小龙人。

Tripo继续很稳,Meshy模型有一堆洞;sudo贴图还行,下半身建模与背后尾巴结构全崩。CSM转的那一下有两张脸,模型结构还行。

2、毛衣。

Tripo表现几乎完美,不管是建模还是贴图,硬挑刺,就是袖口没开两个洞。Meshy建模一如既往有破洞,他们贴图我发现有一个很大的问题就是,永远是正面精致,背面崩。sudo衣服模型两侧有洞,有不该出现的链接。CSM贴图与Meshy一个问题,背面与前面差异巨大。

Tripo>CSM>sudo>Meshy

3、一只玫瑰花。花的建模是最恶心的之一,基本对现在AI 3D来说是最难级别,用玫瑰花来给图生3D做个收尾。

Tripo花正反面模型结构合理,叶子模型粘连崩了,多出一些奇怪的东西。Meshy依然面子工程,正面看着感觉挺惊艳,一转过去又是破洞。sudo花朵上细节崩了,基本看不到花结构。

这四个例子看下来,至少在图生3D这块,Tripo是断层式领先。

整体Tripo>sudo>CSM=Meshy。

文生3D,这块CSM不支持,LumaAI Genie支持文生3D,这波对比只对比Tripo、Meshy、sudoAI、LumaAI。

图生3D,图是别人的图,展现的更多是大模型的包容能力或通用能力,图生3D做的不好,可有理由说MJ生成的图片风格,跟3D大模型不契合,效果不好。

文生3D很吃模型本身底子,扎扎实实看自己底子,都是自己体系里东西,再做不好,那就是真的不太行。

文生3D这块的流程,有点像Runway文生视频,runway是给一个prompt后,会出4个第一帧,你选用哪个图去生成后面的视频。

文生3D,是会先用十几秒时间,根据prompt生成4个粗糙的预览模型,可自己决定用哪个去后面精炼refine。

前置的预览模型,会比较粗糙,但是可大概去选自己想要的造型。

我先试第一个Prompt,毕竟马上圣诞了:蜘蛛侠穿着圣诞风格,戴着圣诞帽,最高品质。

Tripo与Luma效果都非常好,Tripo整体更偏写实,Luma会偏一些卡通,Luma唯一瑕疵就是膝盖多出来两块莫名奇妙的白斑。Meshy干成葫芦娃,sudo贴图精度不太行,帽子衔接处有BUG。

Tripo>Luma>sudo>Meshy。

再做一个猫女:动漫猫女孩

Tripo与Luma依然稳。Meshy,有点诡异,感觉这个贴图完全没有质感跟纸一样。sudo直接做了个抱枕。

Tripo>Luma>Meshy>sudo

最后一个case,做个游戏3D资产:黄金手枪,虚幻引擎,最高品质

手枪细节具体的就不评价,Luma与Tripo还是强,枪口细节上,Luma比Tripo精致一些。

Luma>Tripo>Meshy>sudo

文生3D,整体看下来,Tripo与Luma基本是断层式领先,在一些细节上,Tripo会优于Luma。

在图生3D与文生3D整体上,Tripo是目前绝对的王者。

Tripo与Luma,目前依然有不少瑕疵,比如模型布线有点乱、人物面部贴图大概率会崩、金属材质渲染不够精致等,我相信时间会解决一切。

目前看下来,AI 3D进程,以Tripo与Luma为首,大概等于AI绘图的Midjourney V2或V3,其他家处于V1水平。

Midjourney大爆发,是以V4为标志,开始颠覆整个行业,直到前几天V6,爆*全场。

AI 3D,现在就是GPT时刻的前夜。爆发来临的那一天,可能比你我想象的都更快。

写在最后

2019年,我曾做了一幅3D作品,纪念我一个游戏伙伴离职。

我做这张图,花了1月的晚上与周末。里面90%模型,都是我自己徒手建模,那个工作量,非常痛苦,建模耗去我整体70%时间。

如果再让我来一次,我一定不会再去做,我不想再经历一次那样折磨。

这只是我,一个不专业的设计师而已。

在游戏中,影视中,有多少需建模的东西?《艾尔登法环》为例,有上百个BOSS,无数场景,无数场景里有无数3D资产,大到BOSS、城堡,小到武器、盔甲、蜡烛、桌子。

以From Software的业界上游生产力与工业化水平,整整做了5年时间,才将老头环掏出来。

《博德之门3》,拉瑞安最顶峰时400人团队,开发6年。

《流浪地球2》,全流程制作周期,3年。

我也跟很多影视后期从业者聊过一个问题,他们现在最需AI来优化的步骤是什么,答案出乎意料的统一:建模。

我极度看好AI 3D,并不是这个领域新,而是这玩意真的能切实解放内容创作者们生产力,让他们用更多精力,花在创作上,保护这些创作者创作精力。

建模只是其中一个环节,还有AI纹理贴图、AI绑定骨骼、AI动捕等。当用AI来重塑整个3D管线,打通全流程,效率将飞起,并不是只有游戏与影视这种专业者需要。

还有更大的家伙,3D资产是基建,没有超高效率AI 3D流程,没有AI辅助建设,元宇宙基本很难实现。

我从来不认为元宇宙是割韭菜的东西,他是我坚信的未来,只不过现在离得有点太远,基建与产能跟不上,世界都没搭起来,元宇宙实现不了。AI 3D,是元宇宙最好的创作引擎。

我一直相信未来的3D会让内容无限扩大,每个人都可成为超级创作者,像神一样创造新世界,创作自己的元宇宙。那一天,不会太远。

2024年,我们估计就能见证,AI 3D加速的未来。

相关研报:

诸神之战:美国科技巨头,从春秋五霸进入战国七雄|GBAT 2023 大湾区智能时代产业峰会

人类未来文明三部曲之二:智能时代专题预售开启,奇点临近,未来已来

九宇资本赵宇杰:智能时代思考,认知思维,存在原生、降维、升维三波认知红利

九宇资本赵宇杰:智能时代思考,以史为鉴,科技浪潮,从互联网到AI

九宇资本赵宇杰:智能时代思考,宇宙视角,从碳基生物,到硅基智能体

人类未来文明三部曲之一:元宇宙专题预售开启,59期45万字

九宇资本赵宇杰:1.5万字头号玩家年度思考集,科技创新,无尽前沿

九宇资本赵宇杰:1.5万字智能电动汽车年度思考集,软件定义,重塑一切

【重磅】前沿周报:拥抱科技,洞见未来,70期合集打包送上

【重磅】六合年度报告全库会员正式上线,5年多研究成果系统性交付

【智能电动汽车专题预售】百年汽车产业加速变革,智能电动汽车时代大幕开启

【头号玩家第一季预售】:科技巨头探索未来,头号玩家梯队式崛起

【头号玩家第二季预售】:科技创新带来范式转换,拓展无尽新边疆

【首份付费报告 年度会员】直播电商14万字深度报告:万亿级GMV风口下,巨头混战与合纵连横

【重磅】科技体育系列报告合集上线,“科技 体育”深度融合,全方位变革体育运动

【重磅】365家明星公司,近600篇报告,六合君4年多研究成果全景呈现

九宇资本赵宇杰:CES见闻录,开个脑洞,超级科技巨头将接管一切

【万字长文】九宇资本赵宇杰:5G开启新周期,进入在线世界的大航海时代|GBAT 2019 大湾区5G峰会

九宇资本赵宇杰:抓住电子烟这一巨大的趋势红利,抓住产业变革中的变与不变

【IPO观察】第一季:中芯国际、寒武纪、思摩尔、泡泡玛特、安克创新等11家深度研报合集

【IPO观察】第二季:理想、小鹏、贝壳、蚂蚁、Snowflake、Palantir等12家公司深度研报合集

【IPO观察】第三季:Coinbase、Roblox、快手、雾芯科技等12家公司深度研报合集

【重磅】年度观察2019系列合集:历时3个多月,超20万字近500页,复盘过去,展望未来,洞悉变与不变

【珍藏版】六合宝典:300家明星公司全景扫描,历时3年,210万字超5,000页,重磅推荐

九宇资本赵宇杰:对智能电动汽车产业的碎片化思考

九宇资本赵宇杰:九宫格分析法,语数外教育培训领域的道与术

【2023回乡见闻录】90、00后小伙伴们万字记录,生活回归正轨,春节年味更浓

【2022回乡见闻录】20位90、00后2万字,4国13地,全方位展现国内外疫情防疫、春节氛围、发展现状差异

【2021回乡见闻录】22位90后2万字,就地过年与返乡过年碰撞,展现真实、立体、变革的中国

【2020回乡见闻录】20位90后2万字,特殊的春节,时代的集体记忆

【重磅】22位“90后”2万字回乡见闻录,讲述他们眼中的中国县城、乡镇、农村

六合君3周岁生日,TOP 60篇经典研报重磅推荐

下午茶,互联网世界的三国*

5G助推AR开启新产业周期,AR眼镜开启专用AR终端时代

新商业基础设施持续丰富完善,赋能新品牌、新模式、新产品崛起,打造新型多元生活方式

【重磅】中国新经济龙头,赴港赴美上市报告合辑20篇

知识服务 付费 音频,开启内容生产新的产业级机遇,知识经济10年千亿级市场规模可期

从APP Store畅销榜4年更替,看内容付费崛起


新三板破万思考:新三板日交易量10年100倍?

九宇资本赵宇杰:科技改变消费,让生活更美好|2017 GNEC 新经济新消费峰会

九宇资本赵宇杰:创业时代的时间法则,开发用户平行时间|2016 GNEC 新经济新智能峰会

九宇资本赵宇杰:互联网引领新经济,内容创业连接新生态|2016 GNEC 新经济新营销峰会

请务必阅读免责声明与风险提示

查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved