Stability.ai团队访谈：如何用SVD探索物理世界，激发创造（物理世界）

今天，我将解读a16z的对Stability.AI的研究员Andreas Blattman和Robin Rombach的访谈“文生视频：人工智能生成的下一个飞跃”。

Stable Diffusion（SD）与Stable Video Diffusion（SVD）技术简介

Stable Diffusion是一种文本到图像的生成模型，允许用户输入文本提示，模型依据此生成相应图像。这一技术基于扩散模型，图像生成领域取得巨大成功，其技术开发始于大学时期的一个团队研究。Stability.ai作为一个多模态公司，专注于为各种模态（不仅限于图像和视频）提供基础模型和模型权重，以促进进一步研究。

Stable Video Diffusion是SD在视频领域的延伸，公司首次尝试将图像转换为短视频片段。扩散模型与其他生成模型不同，它们不将数据表示为序列化的标记，而是优先处理对人类感知重要的细节，这对图像和视频的生成尤为有利。扩散模型近期的一个突破是能够在采样时使用更少的步骤，甚至降至单步采样，大大提高了模型的效率和输出质量。

自发布以来，SD在性能、文本理解能力及空间构成方面取得了巨大进步。仅通过输入单一文本提示，这些模型便能精细描述并生成高度详细的视觉实例，并且处理速度也大幅优化。最近的DALL-E 3模型还进一步提升了这些方面。这些进步部分得益于模型的开源，促进了大量研究。

Stable Video Diffusion（SVD）模型：探索物理世界

SVD的研究和开发揭示了对物理世界深层次理解的追求。与图像模型相比，视频生成的挑战在于模型需要学习和理解物理世界的基础属性，如三维场景的构建、物体运动的连贯性，以及视角变化下的物体表现。视频模型加入了时间维度，极大增加了计算需求，但同时也为模型提供了学习世界物理规律的机会。

物理和机械工程的研究者们发现，通过视频生成模型，可以进一步探索和模拟物理世界的复杂性。这不仅是技术上的挑战，也是对于如何通过人工智能理解和预测现实世界的深入探讨。例如，视频模型能否推导出物理定律，或者通过图像序列预测接下来的事件，都是研究的一部分。此外，将视频模型与语言等其他模态结合，可能为模型提供更加贴近物理世界的理解能力。

开发SVD模型的过程中，遇到的主要挑战包括数据集的扩展、高效的数据加载等，尤其是在处理大规模高分辨率视频数据时的计算和存储需求。

图像与视频模型研究的关键差异

视频模型研究相较于图像模型，面临着由视频数据的高维度特性带来的显著挑战。这一额外的时间维度不仅增加了GPU或内存的消耗，也提升了对高通量的需求。随着GPU数量的增加，扩展和训练的复杂性也随之提升，包括训练过程中的冗余管理以及硬件故障的概率增加。

在数据处理方面，数据集的筛选和准备成为了一大挑战。为了训练SVD，要先从已有的图像模型中继承空间理解能力，然后再通过训练大量视频数据来学习时间维度上的知识，这包括对运动和相机移动的理解。为了细化模型性能，研究团队在初步的大规模数据训练之后，又对一个经过严格筛选的高质量小数据集进行了训练，以进一步提升模型的输出质量。

为了保持生成视频中三维对象的结构一致性，研究中强调了多视角数据的重要性。通过预训练的视频模型，团队能够利用视频中包含的隐式三维知识，进而将模型微调为多视角合成模型，有效地利用了视频数据中的丰富信息来解决之前依赖单一图像模型所难以克服的问题。

LoRA技术简介

LoRA是一种轻量级适配器，通过微调现有基础模型的注意力层，实现对模型性能的细致调整。这使得在专门的小数据集上，如只包含缩放或左右平移的视频，能以最小的代价调整模型以生成特定类型的相机动作。LoRA的应用展示了一种高效的方法，用于细化和增强基础模型，如SD视频模型，使其能够产生具有特定动作的视频内容，为图像和视频模型提供了丰富的创意可能性和动作控制的新途径。

创造者如何利用新工具

对于创造者而言，新推出的SVD模型不仅仅是将静态图像动画化的工具，它开辟了通过文字提示、LoRA适配器或空间运动指导等方式精确控制视频内容创作的可能性。这种控制力的提升意味着创造者能够更个性化、更具创意地生成视频内容，实现快速合成，为用户带来类似即时反馈的体验。模型的开源性质鼓励社区成员积极探索和实验，从而发现模型在处理运动表现、三维推理等方面的潜力。

创造者们被鼓励尝试将著名艺术作品“动起来”，比如让梵高的《星夜》中的星星闪烁，或是将经典的静态模因转化为动态视频，这些为创造者提供了前所未有的创作工具和灵感来源，也极大丰富了内容的表现形式和观众的体验。

未来的探索方向包括延长视频生成的长度，提升内容的连贯性，增加不同类型的运动表现，以及提高模型的处理速度以促进更广泛的实验。此外，将多模态元素，如与视频动作同步的音轨，加入到生成的视频中，也是值得探索的领域。

行业基础设施改进的愿景

在人工智能领域，面对数据加载和处理的挑战，更多的GPU和CPU资源可以在一定程度上缓解问题，但终极解决方案不仅仅在于硬件的增加。随着技术的进步，尤其是在GPU的性能大幅提升后，数据处理和模型训练的瓶颈逐渐显现，这促使研究人员寻找算法上的创新来克服这些限制。许多研究者和学生受到了SD模型等工作的启发，看到即便在计算资源受限的情况下也能进行重要的研究。

面对资金和资源更丰富的实验室的竞争，维持研究的优先级和时序成为挑战。然而，这种竞争环境也被视为推动AI领域发展的积极因素。团队精神和共同目标的追求帮助小型实验室在这场竞争中保持活力，并对社区作出了有意义的贡献。

Stability.ai团队所倡导的开放合作精神，通过公开发布研究成果，不仅促进了行业内的互助，也为全球的实验室和研究人员提供了宝贵资源。这种开放和共享的态度不仅是对行业的贡献，也是激励整个AI领域持续进步和创新的关键因素。