Sora驱动，引领“新视界”（极速驱动3D）

Sora驱动，引领“新视界”

► OpenAI使用了Diffusion模型 Transformer 的架构，通过构建含有时空信息的视觉patch，统一了不用时间长度、分辨率、宽高比的视频和图片训练数据，从而使得模型的训练数据得以大幅的丰富，同时输出结果可以实现不同分辨率和宽高比的视频。从生成的视频来看，Sora可以保持视频的一致性和物体的持续存在，即便在物体被遮挡或离开画面时，也能保持其存在感。还可以模拟一些真实世界的物理规则，例如人吃汉堡时留下的咬痕清晰可见等。

► Sora是OpenAI在GPT-4及DALL-E等语言和图像模型的基础上进一步的创新突破，该模型能够从类似于静态噪音的视频开始，逐渐去除噪音生成视频。Sora采用的是DALL·E 3的重标注技术，通过为视觉训练数据生成详细描述的标题，使模型更加准确地遵循用户的文本指令生成视频。Sora基于图片做长视频生成，再基于生成视频做extend，其所需token 数量相较于文本及图片模型的推理，有望呈数量级增长，Sora将刺激推理算力需求将持续上升。

► 尽管通用大模型正以飞快的速度发展和迭代，但在文生视频领域距离GPT时刻的来临仍需一定的时间，预计明年二季度会出现下一个出圈的AI 视频应用。目前AI视频有两个较大的门槛，一是算力的掣肘，视频领域对算力需求更高；另一方面是竞争环境的激烈，当前头部科技巨头基本都已入局，只是产品尚未全面公测。从W.A.L.T模型的例子来看，不能忽视算法的演进对AI视频领域的影响，同时也需注意轻量化的视频制作产品最终面向的是非专业人群，这也意味着能否以差异化优势吸引用户也是成功的关键。

► 随着海外科技大厂及初创公司纷纷布局并推出基础的3D和视频生成模型和产品，未来在创意领域（如电影、游戏、VR、建筑和实体产品设计）的应用潜力广阔。在短视频、创作工具、游戏等下游领域，Runway、Luma AI等AI原生产品有望融入工作流，增强用户体验、降低用户使用壁垒、进一步降低使用成本。类似于短视频时代的前身GIF创作工具，如剪映这种创作工具和抖音这种内容生态，Maya这种创作工具和动画的内容生态，视频与建模工具将进一步大幅拉动生成式AI的需求。

大家还看了

也许喜欢

更多游戏