有关Sora的话题（第四条腿手游）

很荣幸受王又又邀请，今天和她以及《宇宙探索编辑部》副导演吕启洋（Ash）一起聊聊了一下当前火爆的话题 Sora，看 Sora 如何改变我们的生活。

我把技术相关的一些问题整理成了文字，希望能够帮助大家更好地理解 Sora。我将问题大约整理成了四类：

1. Sora 的技术科普

2. Sora 产品相关问题

3. Sora 的价值和应用

4. Sora 有关的八卦闲聊

注意，这里的回答都是我个人的观点，一部分也借鉴了大家在帖子中讨论的结果，很多答案不一定准确，仅供参考。也欢迎指正其中错误或者提出不同观点。

## Sora 的技术科普

### Sora 是什么？能干什么？

简单来说，Sora 是一种能用文本生成最长 60 秒视频的技术，也可以用来生成图片，因为图片本质上是一帧的视频。

### Sora 跟之前的 AI 视频生成工具有什么升级？跟市面上其他的例如 Runway、Pika、SVD 这些 AI 视频生成工具有什么区别？

"之所以 Sora 引发极大关注，主要在于它生成视频质量要比之前的高很多，不仅时间最长能到 60 秒，而且它可以支持镜头切换、画面人物和背景稳定、很高画质。

Pika 是基于 Diffusion 模型，把图片和视频训练成毫无意义的马赛克图片，再从空白马赛克图片能反向扩散生成图片和视频，有两种主要模式，一种是基于图片关键帧扩展成视频，例如已有视频的风格变换；一种是对视频的训练，但是由于显卡限制，只能一次训练特定分辨率的几秒视频，一次也只能生成几秒钟的视频。

LLM、ChatGPT 是 Transformer 模型，预测 Token 生成文本内容，Token 可以理解为字和词。

Sora 则是基于 Diffusion Transformer 模型，结合了扩散模型和 Transformer 模型，不过它是预测生成的不是文本 Token，而是“时空补丁（spacetime patches） ”，可以理解为一个几帧（一秒不到）的视频的一个小块。

主要优势是训练的时候不受视频和显卡约束，生成的时候也更加多样，可以灵活组合时空补丁。"

### 使用成本：现在可以生成 60 秒视频，60 秒视频的成本是多少？对算力有什么要求？

现在"DALL-E 3 HD Image 价格 $0.08；Runway Gen-2 价格是$0.05/秒。

Sora 没有公布相关数据，纯猜测：Sora 的推理大约需要 ~8xA100，生成视频预估一秒一分钟，半小时成本约 ~$10"

### 有可能可以生成音乐（音频）么？如果不行难点在哪？

未来应该是可以的，现在没有是因为：

- 需要根据视频中的环境、物体类型、物体之间的碰撞、所在位置发出不同的声音

- 需要多种声源叠加

- 音乐不仅要质量高，还需要和视频中的场景融合

- 人物对白需要和人物的位置、口型、表情对齐

## Sora 产品相关问题

### 是否需要建模还是通过其他方式使用？什么时候能落地商用？

不需要本地搭建，预计会提供两种方式：ChatGPT 集成、API 调用；但生成视频的成本偏高、耗时也比较长；可能会限制次数或者提供更高一档的订阅。

预计三个月到半年内会逐步放开。

### 在不同的时间使用相同的要求语，会生成相同的视频吗？能支持后续微调修改或者输入更确定的边界条件生成么？当前模型架构有能力支持这些么？

同样的提示词每次都不会相同，但是 seed 相同应该可以做到相似；

Sora 支持图片生成视频和视频生成视频，但人物是否可以做到一致还需要产品发布后才能下结论。

### 什么时候可以生成更长时间的视频，比如 30 分钟、60 分钟甚至更长？

生成视频时间越长对显存要求越高，但是按照现在技术发展的速度，乐观估计 1 年后应该可以到 5-10 分钟，30 分钟 60 分钟预计在 3-5 年的时间。

### 生成视频的版权归谁？

根据图片生成的规则来推测，应该是归创作者所有，但是生成的作品本身不能侵权。

### 虚拟 vs 现实：如何判断那些视频是拍的？哪些是 Sora 做的？以后还有啥会是真的呢？深度伪造问题：会不会更容易被诈骗，如何反诈？

现在的视频都有水印，未来应该会有检测工具。

另外仔细看是能看出视频中不符合逻辑的地方，例如蚂蚁只有 4 条腿，人的手会变形等等。

我们其实早已经历过：照片不是真的、电视不是真的、电影不是真的，人民群众的鉴别水平也会同步提升。

伪造和鉴别伪造是长期攻防战。

### Sora 接下来的发展前景演进趋势？

1. 成本降低（更快更便宜）；

2. 质量提升（时长、画质、镜头切换、一致性、符合物理规律）；

3. 新的能力：声音、和 GPT 的融合，完全的多模态；

### 能不能用来做动画片？

短片完全没问题，复杂场景和更长时间的还不行，未来可期。

## Sora 的价值和应用

### Sora 有哪些应用场景？实用性有多大？商业应用价值？

我从四个方面总结了 Sora 的价值和应用：

1. 首先它能放大了普通人的表达能力，张小龙说汽车是双腿的延伸，ChatGPT 就是双手的延伸，Sora 就是我们表达的综合延伸，也就是传说中的“嘴替”

这意味着我们可以更好的来表达自己的想法，不再受限于自己的写作能力、画画能力、摄影能力、视频剪辑能力，甚至是演讲能力。

2. Sora 是一种低成本的视频工具

Sora 将极大的降低了视频制作的成本，这意味着更多的人可以用更低的成本来制作视频，这对于视频创作者来说是一个很大的利好。

3. 新的人机交互方式，动态生成视频

Sora 已经演示了生成我的世界这样游戏的能力，也许未来我们可以用 Sora 来动态生成游戏的剧情、任务、场景。另外，我们也可以让 Sora 动态对新闻、文章生成视频，而不需要去阅读。

4. 情感上的寄托

生成已故亲人的视频，保留他们的记忆。数字伴侣。

### Sora 赚钱逻辑在哪里？

取决于围绕 Sora 创造的价值：

- 情感价值：卖课缓解焦虑、提供娱乐、情感寄托

- 艺术价值：微电影

- 内容价值：小说二创、卖素材、教学、讲故事、游戏生成、广告

- 生态价值：Prompt、更加易用小工具、绕过限制

- 降本增效：快速 MVP 验证想法、广告、电商、电影分镜

### 普通人怎么用好？如何利用 Sora 做点副业？

- 用起来，学会怎么用，知道它能做什么，边界在哪里

- 选一个适合自己的方向，提前准备好相关素材或者开发项目

- 技术人员可以准备开始筹备产品、工具：收集 Prompt、基于 API 二次开发

## Sora 有关的八卦闲聊

### 名字真的是起源于天元突破的 op 空色デイズ吗？

我倾向于是。

### 现在的热度是 (为了融资、股价) 的概念炒作？还是真实有用的？

真实有用，可以马上应用到短视频，例如 OpenAI 在 Tiktok 的账号，视频以假乱真

### 您在网上看到或者听说的一些比较夸张脱离实际的说法？

"Sora"关键原材料之---马来酰亚胺树脂来自于四川绵阳一家公司。

Sora 懂物理

Sora 连接了游戏引擎

Sora 是 AGI 的关键里程碑，几年内就能实现 AGI

### 在全球顶尖公司之间 Sora 的竞争力如何？中国在这个领域的发展情况？在中国做这个的公司有哪些？中国和欧美的差距在哪里？

OpenAI 已经投入了一年多，领先业界半年到一年，甚至更多，具体体现在：

- 技术的领先，目前技术还没公开，其他公司要破解需要时间

- 大模型的优势，他们有最先进的模型可以帮助训练，例如自动生成高质量的视频标注

中国应该很快能追赶上——人才、数据、算力都有，但是只有少数大厂才有机会，对人才、数据、算力要求都太高

目前不清楚是否中国公司已经有做这个方向的，但是字节、阿里、腾讯、百度在 AI 视频领域都有深厚积累

中国和欧美的差距主要在于对 AI 技术方向上的把握，但这也不仅仅是中国的问题，目前全世界所有其他公司都跟随 OpenAI 的步伐；另外就是算力上还不能完全自给自足。

### 新一次产业革命？有网友指出，短短几年内，被追捧的高热度“划时代”技术有 web3、区块链、元宇宙、谷歌眼镜、波士顿机器人、vision pro、chatgpt 等等，这次确认要再次划时代了吗？

看怎么定义吧，从文本生成视频领域来说，一定是划时代的！真正的文本生成视频领域的 GPT 时刻。

- ChatGPT 文本生成

- Stable Diffusion、MIdJourney、DALL-E 图像生成

- Sora 文本生成视频

### Sora 在硅谷的体感热度？在业内的真实反响？目前 AI 视频生成赛道的创业者、投资者们心态如何，将会如何应对？

- 反响热烈，正面评价居多

- 预计 Diffusion 方向会比较难拿到投资

- 创业者需要重新考虑方向，例如视频编辑、转向基于 Sora 的接口开发应用

### 跟芯片有什么关系？

未来几年视频生成会继续热门，继续需要大量的算力，也就是需要大量的显卡，但未来显卡应该不会只有 NVIDIA 一家独大，应该会有更多的公司参与进来，这样的话，显卡的供应会更充足，价格会更加合理，性能也会更高。

## 总结

以上就是今天访谈的主要内容，完整的视频地址在：weibo.com/6498373231/O1E…

另外以上很多内容总结自我在 Twitter 和微博上开的讨论帖，很多观点（例如 Sora 生成亲人视频）确实是我之前没有想到的，这也算是将大家讨论的内容的一个总结。谢谢各位的参与！