Sora的出现,带给了许多行业的从业人员一些震撼。那么作为产品经理,你是否了解Sora的核心能力在哪里?这篇文章里,作者做了探讨,并且还讨论了Sora如何启发产品设计和创新路径。一起来看看吧。
探索Sora的15项核心能力,本文将带你全面了解这个AI视频生成器的技术优势、潜在局限,以及其在多个场景下的应用。对于产品经理而言,我们还将讨论Sora如何启发产品设计和创新路径。
无论你是AI技术的研究者、视频内容创作者,还是致力于产品创新的经理人,这篇文章都将为你打开一个新世界的大门,带你深入了解Sora的内部机制和外部应用,洞察未来趋势。
一、关于SoraSora是OpenAI在2023年2月发布的一款文本到视频生成模型。它能够根据描述性提示生成长达一分钟的视频,同时保持视觉品质并遵循用户提示。视频可以包含多个角色、特定类型的运动,以及主题和背景的准确细节。
文生视频(Text-to-Video)技术是指根据给定的文本描述自动生成视频的技术。这种技术可以创造出复杂的场景、生动的角色表情以及复杂的镜头运动。
OpenAI开发Sora的目的是为了教人工智能理解和模拟运动中的物理世界,并训练其帮助人们解决需要现实世界互动的问题。这意味着Sora不仅可以生成视频,还可以模拟物理世界中的运动,从而生成更加真实和有用的视频内容。
这就是OpenAI 称它为“世界模拟器”的原因。
二、Sora技术原理首先简单概括一下Sora技术原理。
Sora是一种先进的视频生成模型,它能够根据文本提示生成相应的视频。它的工作原理可以简单地理解为两个主要步骤:编码和生成。
首先,Sora会将输入的视频数据进行压缩,将其转化为一种低维的潜在表示形式。这个过程有点像我们把一个复杂的物体分解成简单的零件,方便我们后续处理。然后,这些被压缩的数据会被进一步分解成时空区块,你可以把它们想象成视频的“基因”,包含了视频的所有基本信息。
接下来就是生成阶段。Sora利用扩散模型的思想,从简单的噪声信号出发,逐步添加细节和模式,最终生成复杂的新数据。这就像我们根据零件重新组装出一个新的物体,只不过Sora的版本更加复杂和高级。
在这个过程中,Sora还利用了变换器(Transformer)的技术,这是一种非常擅长处理序列数据的模型。无论是语言还是视频,都可以看作是由一系列高维向量组成的序列,而变换器则能够很好地预测下一个向量应该是什么。
总的来说,Sora的工作原理就是先将视频数据进行压缩和分解,然后利用扩散模型和变换器技术逐步生成新的视频内容。
Sora 是能够理解和模拟现实世界的模型的基础,相信这一功能将成为实现 AGI 的重要里程碑。
三、Sora 视频能力清单Sora 的能力到底多厉害?根据OpenAI披露的技术文档,盘点了14条之多,本文将针对每一条做更加深入的分析和理解,并且用通俗易懂的语言进行解释说明,并会增加该能力在可能的领域将有什么样的应用。看完本文,相信你一定会对 Sora 有更深刻的认识,并有可能结合自己的工作和生活,找到结合的场景,产生如何运用它的创意。
Sora能力清单:
接下来,让我们来看看每一个能力的具体情况吧。
首先要申明的是,这里的长视频,并不是电影电视剧级别的长视频,而是相比其他文生视频友商的 5s 、 10s、15s相比的,可以连续生成 1 分钟的长视频。
这个 1 分钟在大模型生成视频领域是什么概念呢?Sora之于视频生成领域有多大的进步呢?单单从生成长度这个维度来看,就已经是吊打之前所有的模型了。
可以看下图:
之前大火的Pika、Runway等模型只能生成3秒上下的视频,最长的例如Kaiber也是只能生成16s的长度。而Sora可以实现1分钟的视频生成。
虽然1min对于抖音来说,也就是平常的短视频,但是对于学界来说已经是突破的进展了。
视频的多机位是指使用两台或两台以上摄影机,对同一场面同时作多角度、多方位的拍摄。
多机位拍摄可使观众能够从多个不同的角度观看画面,给人以身临其境的感觉。它展现空间更全面、视点更细腻、角度更开放、长度更自由,给观众带来全方位、多角度的观赏体验。
Sora 可以在单个生成的视频中创建多个镜头,准确地保留角色和视觉风格。从 Sora 生成的这个视频可以看出,画面在不停地切换转场,似乎有一种电影画面镜头的感觉。
Sora 能够生成具有多个角色、特定类型的运动以及主体和背景的准确细节的复杂场景。文生视频中的多角色指的是在由文本生成的视频中,能够展现出多个具有不同特点和情感表达的角色。
多角色的存在意味着模型能够理解和描绘出文本中提到的不同人物,并为他们设计合适的视觉形象和动作,使得视频内容更加丰富和真实。具体来说:
例如下面的视频例子:
大家可以看一下视频,体会一下多角色的效果。
提示语:一位白发梳得整整齐齐的老奶奶站在木制餐桌上的彩色生日蛋糕后面,蛋糕上插着无数蜡烛,脸上的表情是纯粹的喜悦和幸福,眼中闪烁着幸福的光芒。她倾身向前,轻轻地吹灭蜡烛,蛋糕上有粉红色的糖霜和糖珠,蜡烛不再闪烁,祖母穿着一件饰有花卉图案的浅蓝色衬衫,几个幸福的朋友和家人坐在桌边。看到庆祝,失去焦点。该场景拍摄精美,具有电影般的效果,展示了祖母和餐厅的 3/4 视图。温暖的色调和柔和的灯光增强了情绪。
从提示语和生成的视频,我们来分析一下。
提示语说到需要有“白发梳得整整齐齐的老奶奶”、“几个幸福的朋友和家人”等多个人物角色。视频中都体现了,而且主次分明,有男有女,有老有少,层次丰富。
提示语也说到老奶奶就是祖母,祖母的表情是“纯粹的喜悦和幸福,眼中闪烁着幸福的光芒”,从视频中祖母表现出的笑容,我们确实能感受到她的喜悦和幸福,很有感染力。
家人的表情和动作,也符合生日场景,和主题保持一致,和主角一起分享快乐。同时,提示语中的“祖母穿着一件饰有花卉图案的浅蓝色衬衫”,体现得很到位。
这个视频很好地说明了,Sora 可以完成多角色的视频任务生成。但是,我们也看到了它对物理世界交互处理上的不足,因为老奶奶用力一吹,蜡烛并没有熄灭。而提示词也说了“蜡烛不再闪烁”,这一点,有待 Sora 继续进化升级。
其他友商或者过去的视频训练方法是,通常会将用于训练的视频调整大小、裁剪或修剪为标准尺寸,例如,分辨率为 256×256(正方形) 的 4 秒视频。也就是说,视频尺寸是固定的,这种方式,可能导致主角不在画面的中间或者合适的位置,可能会出现偏差。
Sora 采取的是保留原始视频的大小和分辨率,用原始长宽比对视频进行训练。这样训练出的Sora模型,可以在输出和生成视频的时候,改善视频画面的构图和取景。
也就是说,Sora可以直接以其原生宽高比为不同设备创建内容。例如宽屏 1920x1080p 视频、垂直 1080×1920 视频,以及介于两者之间的所有视频尺寸。
不同尺寸的视频对比播放效果:
原生宽高比为不同设备创建内容视频效果展示:
画面效果对比:
Sora之所以能根据语音指令生成高质量的视频,主要和他的训练模式有关,并且可以通过改变描述语言的局部信息,可以输出不同风格的高质量视频。
首先,他们训练了一个能够生成详细描述的字幕生成器模型,然后使用这个模型为所有的视频生成相应的文本字幕。这样做的好处是可以提高视频的文字准确性和整体质量。
想象一下,我们要教一台电脑如何自己制作视频。首先,我们需要给它很多有文字说明的视频,好让它学习怎么根据这些文字来制作相应的画面。但是,找到这么多正好配有详细文字的视频并不容易。
那我们怎么办呢?我们先用一个特殊的软件,这个软件就像是一个超级聪明的作家,这个软件就是Open的 DALL·E 3 中引入的重新字幕技术。
它能够看视频然后写下非常详尽的描述,就好像是在给视频写剧本一样。我们把整个视频库都让这个软件过一遍,这样每个视频就有了一个详细的文字版“剧本”。
接着,我们还用了一个像聊天机器人一样的工具,这个工具能把我们给出的一些简单提示或者想法,扩展成更长、更具体的故事。这就好比你给出一个故事的大纲,然后这个工具帮你把它填充成一个详细的故事。
有了这些工具后,我们就可以告诉电脑:“嘿,我想看一段山间清晨的视频”,然后电脑就会根据这个想法,利用之前生成的那些详细的故事(也就是文字字幕),来创造出一段美丽的山景早晨视频给你看。
总的来说,我们就是教了一台电脑,通过阅读详细的文字描述来制作和这些描述匹配的视频,而且还能用我们简单的提示来制作符合我们要求的视频。
描述视频的提示语中有4个变量,通过修改变量的描述,组合后就生成不同的视频。而且,Sora能准确理解描述的文字语言,在视频中非常好的体现。不管改变的是主体角色,还是穿着打扮,或者是事情发生的地点和周围环境。
例如OpenAI给出的效果示例。
第一个变量有4种情况,而后三个变量每个都有3种情况,那么总共可以组成的场景数量是 4 乘以 3 的 3 次方。
所以总的视频场景数为:4 * 3^3 = 4 * 27 = 108
因此,Sora可以生成并输出 108 个不同的视频。
示例1:主角是一个女人
示例2:主角是一个老人
示例3:主角是一个玩具机器人
示例4:主角是一只可爱的袋鼠
除了提示语文字生成视频外, Sora 也可以通过其他输入进行提示,例如预先存在的图像或视频。通过一张静态的图片 一段文字描述,Sora 可以生成一段视频。
输入:图像 提示语
输出:视频
我们可以看一下Open AI 提供的示例效果展示:
展示基于DALL·E2生成的示例视频和达尔·E3图片。
示例 1:一只戴着贝雷帽和黑色高领毛衣的柴犬。
示例2:不同家族怪物的平面设计风格的怪物插图。该群体包括一个毛茸茸的棕色怪物、一个带有天线的光滑黑色怪物、一个有斑点的绿色怪物和一个小圆点怪物,所有怪物都在一个有趣的环境中互动。
示例 3:写有“SORA”的现实云的图像。
示例 4:在一座华丽的历史大厅里,巨大的浪潮达到顶峰并开始崩塌。两名冲浪者抓住时机,熟练地驾驭海浪。
Sora 还能够在时间上向前或向后扩展视频。例如,从生成的视频片段开始,向后延伸视频,使得多个视频的开头都不同,但是结局都是相同的,也就是殊途同归的感觉。这使得它能够创造出多样化的视频内容。
扩展功能的进一步解释:
Sora模型的时间扩展功能为视频编辑和内容创作提供了前所未有的灵活性和创造性。它不仅能够生成无限循环的视频,还能够按照创作者的意图制作出具有特定结构和风格的视频作品。
什么是无限循环视频?
无限循环视频是一种视频格式,它能够在播放结束后自动重新开始播放,形成一个看似无休止的循环。这种视频通常用于展示连续的动作或者场景,比如动态背景、滚动图片展示、动画角色行走等。
在视频编辑和动画制作中,,非大模型生成的做法是,专业人士通过特定软件如Adobe Premiere Pro(PR)、After Effects(AE)等来创建无限循环视频。有学习成本和一定的门槛,也比较费时费力。
Sora生成无限循环视频的方法:
Sora从一段现有的视频片段出发,通过所谓的“视频到视频编辑”技术,实现视频内容的前后扩展,从而创造出一个可以不断重复播放的视频流,这就是无限循环视频。
以下是 OpenAI 给出的效果示例视频:
具体来说,无限循环视频有以下特点:
Sora生成的无限循环视频是一种创新的视觉媒体形式,它不仅展示了生成型AI模型的强大能力,也为视频内容创作提供了新的可能性。Sora 的这个能力,后续在落地应用的时候,或许是有具体场景的。
Sora利用了先进的深度学习模型,特别是扩散模型的视频编辑技术,能够根据文本提示零镜头地改变视频的风格和环境。这种方法使得视频编辑变得更加灵活和高效,用户可以通过简单的文本描述来实现复杂的视觉效果。
以下是SDEdit技术的一些关键特点:
Sora的视频编辑带来了革命性的变化,它不仅提高了编辑的效率和准确性,还为用户创造了无限的可能性,使他们能够在不需要专业视频编辑技能的情况下,实现复杂和创意的视频效果。
随着技术的不断进步,未来我们可以期待更多类似SDEdit的创新应用,进一步推动多媒体内容创作和消费的边界。
Sora能够通过插值技术,在两个不同主题和场景的视频之间创建无缝过渡。这种能力得益于Sora的高级插值技术,它可以在不同的视频内容之间进行有效的混合和融合。
这项功能的特点和价值有:
示例效果解析:
Sora的这些功能极大地扩展了视频编辑的可能性,使得创作者能够更加自由地表达自己的创意,同时也为视频编辑领域带来了新的技术和方法。
这种技术的应用前景广阔,从电影制作到广告创作,再到社交媒体内容的生产,都可以通过Sora来实现更加流畅和创新的视频体验。
Sora的图像生成能力是通过在时间范围为一帧的空间网格中排列高斯噪声块来实现的。这种方法允许模型生成各种尺寸的图像,分辨率高达2048×2048。
效果示例1:秋季女性特写肖像照,极其细节,浅景深
官方示例图片:
具体来说,Sora的图像生成过程包括以下几个关键步骤:
总的来说,Sora的图像生成能力展示了其在视觉创作领域的强大潜力,在落地应用方面可满足不同场景和需求。
Sora能够生成具有3D一致性的视频,确保了在动态摄像机运动中人物和场景元素在三维空间中的一致性。
Sora的这一能力体现在其能够模拟现实世界中的动态摄像机运动。无论是摄像机的平移、倾斜还是旋转,Sora生成的视频都能保持物体和场景元素的连贯性和稳定性,就像在真实的三维环境中一样。这种3D一致性不仅增强了视频的真实感,也是对视频生成模型在理解和模拟现实世界方面能力的体现。
具体来说,Sora的3D一致性包括以下几个方面:
总的来说,Sora的3D一致性是其在视频生成领域的一个重要突破,它不仅提升了视频的真实感,也为未来视频内容的创作和编辑提供了更多的可能性。通过深度学习和大规模训练,Sora展现了人工智能在理解和生成复杂视觉场景方面的显著进步。
Sora展现出了在视频生成中的远程相干性和物体持久性,这体现在其能够在长视频中有效地对短期和长期依赖关系进行建模。
远程相干性和物体持久性是视频生成系统中至关重要的特性,它们确保了视频内容在时间上的连贯性和逻辑性。Sora的这些能力具体表现在以下几个方面:
在这上面这个例子中,窗台上的狗,即便被多次遮挡,还是会展示原本的样子,并没有改变主题的样式,持久存在。
通俗的理解如下:
当我们说Sora具有远程相干性和物体持久性时,我们是在谈论它制作视频的能力,特别是它如何处理视频中随时间发生的变化。想象一下,你正在看一部电影,电影中的角色或物体即使不是一直出现在屏幕上,你也记得他们。这就是远程相干性。
而物体持久性意味着即使东西暂时消失了,比如被其他物体遮挡,我们也能在心中记住它的存在,并且在它再次出现时,我们知道那还是同一个物体。
简单来说,Sora在制作视频时能够记住之前发生的事情,并且确保事情的连贯性。如果视频中有个人走进门后不见了,Sora可以做出这个人是继续走路,而不是突然在别的地方出现或者消失不见。这就像是在讲故事时保持故事线一致,让听众不会感到困惑。
此外,如果视频中有多个场景显示同一个人,Sora能确保这些场景中的人的外观和行为是一致的,就好像是在拍摄电影时从不同的角度拍摄同一个演员一样。
这样的能力对于制作看起来真实且连贯的视频非常重要,尤其是在视频很长或者包含许多复杂场景的时候。Sora通过复杂的计算和学习大量的数据来做到这点,使得它能生成高质量的视频,即使那些视频中有很多动作和变化。
Sora能够模仿一些我们在日常生活中的行为和动作。比如说,就像一个画家在画布上画画,他每画一笔,画布上就会留下痕迹,这些痕迹会一直保持在那里;或者一个人在吃汉堡时,每咬一口,汉堡上就会留下咬过的痕迹。
Open AI提到的“索拉有时可以用简单的方式模拟影响世界状况的动作”里面的“世界状况”可以理解为周围环境的样子或状态。Sora能模拟出我们对这个世界做出的一些改变,比如添加新的东西(就像画家的笔触)或者改变已有东西的状态(就像被咬过的汉堡)。
这些动作改变了原本的状况,并且这种改变是持久的。这就像是在一个视频游戏中,你做出的行动(比如移动角色或建造东西)会改变游戏世界,并且这些改变会被记住,不是暂时的。
所以,简单来说,就是Sora可以模仿我们在现实世界中的某些行为,并且让这些行为在虚拟的世界里留下来,看起来就像是真的发生了一样。
当我们说Sora可以模拟数字世界时,我们是在说它可以模仿像视频游戏这样的虚拟环境里发生的事情。比如,想象一下流行的视频游戏《我的世界》(Minecraft),这是一个玩家可以在里面建造东西、探险的游戏世界。
Sora能做到的酷事包括:
所以,用更容易理解的话来说,Sora就像一个超级电脑玩家,能够同时玩很多《我的世界》,并且让这些游戏看起来和运行得都非常棒,而且它还能很快地开始做这些事情,只需要给它一个简单的提示。
这些功能表明,视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的高性能模拟器的一条有前途的道路。
五、Sora 视频处理上的弱点当前的Sora模型存在弱点。它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系的具体实例。例如,一个人可能咬了一口饼干,但之后饼干可能没有咬痕。
Sora模型还可能会混淆提示的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。Sora 目前作为模拟器表现出许多局限性。例如,它不能准确地模拟许多基本相互作用的物理过程,例如玻璃破碎。其他交互(例如吃食物)并不总是会产生对象状态的正确变化。
Sora 官网 po 出了 5 个有缺陷的视频,包含了比较典型的复杂屋里场景。包括:人体姿态处理错误、多实体场景处理难、不准确的物理建模和不自然的物体“变形”、物理交互不准确、多个角色之间的复杂交互等。
不仅让我们看到了大模型文生视频目前存在的能力缺陷,也看到了更多创意的空间。一些对物理世界的扭曲变形,空间奇幻的情节,可以利用在更多具有创意的视屏中。
5 个视频截图预览:
Sora是一个能够生成视频的高科技模型,它可以用在很多不同的行业里。
想象一下,你是个广告设计师,想要快速做出很多酷炫的广告视频。你可以告诉Sora你想要什么样的广告,比如故事内容、风格等等,然后Sora就能帮你做出好几个视频供你选择。这样不仅节省时间,还能让你的广告看起来更专业、更有创意。
如果你是老师,想给学生们制作有趣的教学视频,Sora也能帮忙。你只要输入教学内容的文字,Sora就能根据这些文字生成视频。这样的视频能让学习变得更有趣,也更容易吸引学生的注意力。而且,如果学生觉得太难或太简单,Sora还能调整视频内容,让每个学生都能跟得上。
电影和电视剧制作人现在也可以利用Sora来制作视频。比如说,如果你想做一个特效很棒的科幻电影,Sora可以帮助你生成一些看起来很真实的场景和角色动画,这样你就不需要花大价钱请特效公司了。
新闻机构也可以用Sora来快速制作新闻视频。当有重大新闻发生时,记者可以输入新闻的关键信息,Sora就能生成相关的视频新闻,让观众更快更直观地了解发生了什么事。
八、Sora 对产品经理的启示对于产品经理来说,Sora的发布可能意味着新的机会和挑战。
Sora就像是一个神奇的视频制作机器人,产品经理们可以考虑怎么把这个机器人的能力用到自己的产品上去。下面就是一些关于这个机器人能给我们带来的点子和需要注意的地方,以在线教育产品为例:
例子:想象一下,在线教育平台需要为不同的学科制作大量的教学视频。利用Sora,产品经理可以快速生成这些视频,比如把数学公式和解题步骤直接转换成视频教程,大大节省制作时间和成本。
如果咱们的产品涉及到视频推荐,比如新闻APP或者视频网站,Sora可以根据用户的观看历史和喜好来生成他们可能感兴趣的视频内容。
例子:基于学生的学习进度和兴趣,Sora可以生成适合他们当前水平的视频内容。比如,如果一个学生在数学上遇到了困难,系统可以自动生成更多关于基础数学概念的视频来帮助他。
在这篇文章里,咱们可是把Sora这个牛气的视频制作工具给扒了个底朝天。咱们不仅搞懂了它能干啥,还看到了它的强大之处和有些小瑕疵。从广告到教育,再到娱乐和新闻,Sora都能派上大用场。对于产品经理来说,这玩意儿简直就是个神器,能让产品更上一层楼。
看着Sora这么厉害,咱们也得想想,将来这技术还能怎么发展。对于产品经理,抓住这个机会,用好了Sora,那产品绝对能火。希望Sora能越来越棒,做出更多酷炫的视频,同时也得保证合法合规,让用户用得放心。
最后,希望这篇文章能给各位读者带来点灵感,不管你是做产品的还是对这技术感兴趣的,Sora都证明了一点:未来的视频制作,人工智能绝对是个大有可为的领域。咱们一起期待吧,看看这项技术还能给咱们的生活带来哪些新奇的变化!
专栏作家
Echo 产品论,*产品经理的逻辑与审美,人人都是产品经理专栏作家。10年产品经验,多个0~1的完整产品经历,前好未来智能学习内容产品专家,目前聚焦在AI领域,专研AIGC行业应用产品落地研发,对产品的逻辑和审美有独到的思考。
本文原创发布于人人都是产品经理。未经许可,禁止转载
题图来自 Sora 官网演示视频截图
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved