► OpenAI使用了Diffusion模型 Transformer 的架构,通过构建含有时空信息的视觉patch,统一了不用时间长度、分辨率、宽高比的视频和图片训练数据,从而使得模型的训练数据得以大幅的丰富,同时输出结果可以实现不同分辨率和宽高比的视频。从生成的视频来看,Sora可以保持视频的一致性和物体的持续存在,即便在物体被遮挡或离开画面时,也能保持其存在感。还可以模拟一些真实世界的物理规则,例如人吃汉堡时留下的咬痕清晰可见等。
► Sora是OpenAI在GPT-4及DALL-E等语言和图像模型的基础上进一步的创新突破,该模型能够从类似于静态噪音的视频开始,逐渐去除噪音生成视频。Sora采用的是DALL·E 3的重标注技术,通过为视觉训练数据生成详细描述的标题,使模型更加准确地遵循用户的文本指令生成视频。Sora基于图片做长视频生成,再基于生成视频做extend,其所需token 数量相较于文本及图片模型的推理,有望呈数量级增长,Sora将刺激推理算力需求将持续上升。
► 尽管通用大模型正以飞快的速度发展和迭代,但在文生视频领域距离GPT时刻的来临仍需一定的时间,预计明年二季度会出现下一个出圈的AI 视频应用。目前AI视频有两个较大的门槛,一是算力的掣肘,视频领域对算力需求更高;另一方面是竞争环境的激烈,当前头部科技巨头基本都已入局,只是产品尚未全面公测。从W.A.L.T模型的例子来看,不能忽视算法的演进对AI视频领域的影响,同时也需注意轻量化的视频制作产品最终面向的是非专业人群,这也意味着能否以差异化优势吸引用户也是成功的关键。
► 随着海外科技大厂及初创公司纷纷布局并推出基础的3D和视频生成模型和产品,未来在创意领域(如电影、游戏、VR、建筑和实体产品设计)的应用潜力广阔。在短视频、创作工具、游戏等下游领域,Runway、Luma AI等AI原生产品有望融入工作流,增强用户体验、降低用户使用壁垒、进一步降低使用成本。类似于短视频时代的前身GIF创作工具,如剪映这种创作工具和抖音这种内容生态,Maya这种创作工具和动画的内容生态,视频与建模工具将进一步大幅拉动生成式AI的需求。
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved