Sora是一个以视频生成为核心的多能力模型,具备以下能力:
sora 是一个以 latent、transformer、diffusion 为三个关键点的模型。
从 Sora 模型的技术报告中,我们可以看到 Sora 模型的实现,是建立在 OpenAI 一系列坚实的历史技术工作的沉淀基础上的包括不限于视觉理解(Clip),Transformers 模型和大模型的涌现(ChatGPT),Video Caption(DALL·E 3)
2.1 核心点1:视频压缩网络patches 是从大语言模型中获得的灵感,大语言模型范式的成功部分得益于使用优雅统一各种文本模态(代码、数学和各种自然语言)的 token。大语言模型拥有文本 token,而 Sora 拥有视觉分块(patches)。OpenAI 在之前的 Clip 等工作中,充分实践了分块是视觉数据模型的一种有效表示(参考论文:An image is worth 16x16 words: Transformers for image recognition at scale.)这一技术路线。而视频压缩网络的工作就是将高维度的视频数据转换为 patches,首先将视频压缩到一个低纬的 latent space,然后分解为 spacetime patches。
2.2 核心点2:长视频的 scaling transformer难点:视频压缩网络类比于 latent diffusion model 中的 VAE,但是压缩率是多少,如何保证视频特征被更好地保留,还需要进一步的研究。
给定输入的噪声块 文本 prompt,它被训练来预测原始的 “干净” 分块。重要的是,Sora 是一个 Scaling Transformers。Transformers 在大语言模型上展示了显著的扩展性,
2.3 核心点3:Video recaption难点:能够 scaling up 的 transformer 如何训练出来,对第一步的 patches 进行有效训练,可能包括的难点有 long context(长达 1 分钟的视频)的支持、期间 error accumulation 如何保证比较低,视频中实体的高质量和一致性,video condition,image condition,text condition 的多模态支持等。
视频摘要 / 视频字母生成属于多模态学习下的一个子任务,大体目标就是根据视频内容给出一句或多句文字描述。所生成的 caption 可用于后续的视频检索等等,也可以直接帮助智能体或者有视觉障碍的人理解现实情况。通过这样的高质量的训练数据,保障了文本(prompt)和视频数据之间高度的 align。Sora 还使用 DALL·E 3 的 recaption技巧,即为视觉训练数据生成高度描述性的 caption,这让 Sora 能够更忠实地遵循生成视频中用户的文本指令,而且会支持长文本,这个应该是 OpenAI 独有的优势。在生成阶段,Sora 会基于 OpenAI 的 GPT 模型对于用户的 prompt 进行改写,生成高质量且具备很好描述性的高质量 prompt,再送到视频生成模型完成生成工作。caption 训练数据都匮乏:
技术突破:训练一个 image captioner 来合成图像的 caption,合成 caption 与原始 caption 的混合比例高达 95%:5%;但是不过采用 95% 的合成长 caption 来训练,得到的模型也会 “过拟合” 到长 caption 上,如果采用常规的短 caption 来生成图像,效果可能就会变差。为了解决这个问题,OpenAI 采用 GPT-4 来 “upsample” 用户的 caption,下面展示了如何用 GPT-4 来进行这个优化,不论用户输入什么样的 caption,经过 GPT-4 优化后就得到了长 caption:
难点:这项技术并不新,难的是积累,即便是合成数据也需要大量的专业标注和评测。“大” 模型,“高” 算力,“海量” 数据
更多内容见:探索AI视频生成新纪元:文生视频Sora VS RunwayML、Pika及StableVideo——谁将引领未来:https://blog.csdn.net/sinat_39620217/article/details/136171409
3.sora存在不足| 视频 | 官方提示词 | 优化 | |----|--------|-----| |
| 逼真的特写视频,展示两艘海盗在一杯咖啡内航行时互相争斗的情况。 |Context:一杯啡内的微型世界。
Persona: 两艘海盗船。
Goal: 展示海盗船在咖杆内的逼真争斗场景。
Constraints:视频应突出海盗船的细节和动态,以及咖啡的纹理作为背景。
Steps:设定场景为充满咖啡的杯子,咖啡表面作为海洋。描述海盗船:两艘细致的海盗船在咖啡 “海洋” 中航行和争斗。强调特写头:使用特写镜头视角捕捉海盗船的动态和咖啡的纹理。展现争斗细爷:海盗船回的交火,船上海盗的动作。
Examples: 相似效果链接
Template:cssCopy Code
[场景描述] 在一杆充满就的杯子中,咖啡表面波动着仿佛一个微型的海洋。
[人物描述] 两艘装备精良的海盗船在这杯咖啡的海洋中航行,互相展开烈的争斗。
[目标] 透过逼真的特写镜头展现海盗船在咖啡杯子内互相争斗的壮场景。
[约束条件] 注意捕浞海盗的细节和动态,以及咖啡作为背景的纹理和波动 | |
| 一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克红色长裙和黑色子,拎黑色钱包。她戴着太阳墨镜涂着红色囗红。她走路自信又随意。街道潮湿且反光,在影色灯光的照射下形成镜面效果。许多行人走来走去。 | Context: 一条充满活力的东京街道在夜晚灯火通明,霓虹灯和动画广告牌交织成一道道流光溢彩的光带。细雨过后的街道湿润且反光,在多彩的灯光照射下形成迷人的镜面效果。许多行人在这灯光闪烁的夜色中来往匆匆。
Persona: 一位时尚女性身着黑色皮夹克,搭配鲜艳的红色长裙和黑色靴子,手拎一只黑色钱包。她戴着太阳镜,嘴唇涂抹着红色口红,走路自信又洒脱。
Goal: 展示这位时尚女性在霓虹灯光点缀的东京夜晚中自信与风采。
Constraints: 视觉应该突出夜晚的霓虹灯光效果,反映出潮湿街道的反光效果,以及人物的时尚装扮,强调人物的自信步伐和随性的走路风格。-
Steps::
1.设定场景为东京的一个夜晚街道,由霓虹灯照明。
2.描述人物:一位穿着黑色皮夹克、红色长裙和黑色靴子的时尚女性,手拿黑色钱包,戴着太阳镜并涂有红色口红。
3.强调人物的自信步伐和随性的走路风格。
4.描述环境:潮湿的街道在灯光下反射,周围有行人。示例: 提供一段描述或者图片,展示类似场景的效果。
Template:cssCopy Code:
[场景描述] 在一个充满活力的街道上,霓虹灯的彩光波动着,仿佛一个微型的夜晚海洋。
[人物描述] 一位时尚女性在这条街道上自信地行走,她的黑夹克和红裙在灯光下显得格外抢眼。
[目标] 通过鲜明的场景描述,展现时尚女性在霓虹灯光下的自信与风采。
[约束条件] 注重捕捉人物装扮的细节和动态,以及潮湿街道作为背景的纹理和反光。 |
OpenAI 的研究论文《Video generation models as world simulators》探讨了在视频数据上进行大规模训练生成模型的方法。这项研究特别关注于文本条件扩散模型,这些模型同时在视频和图像上进行训练,处理不同时长、分辨率和宽高比的数据。研究中提到的最大模型 Sora 能够生成长达一分钟的高保真视频。以下是论文的一些关键点:
尽管 Sora 展示了作为模拟器的潜力,但它仍然存在许多局限性,例如在模拟基本物理交互(如玻璃破碎)时的准确性不足。研究者们认为,继续扩展视频模型是开发物理和数字世界模拟器的有前途的道路。 这篇论文提供了对 Sora 模型的深入分析,展示了其在视频生成领域的潜力和挑战。通过这种方式,OpenAI 正在探索如何利用 AI 来更好地理解和模拟我们周围的世界。
更多优质内容请关注公号:汀丶人工智能;会提供一些相关的资源和优质文章,免费获取阅读。
探索AI视频生成新纪元:文生视频Sora VS RunwayML、Pika及StableVideo——谁将引领未来:https://blog.csdn.net/sinat_39620217/article/details/136171409
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved