《自然》OpenAI 的文字视频工具 Sora 如何改变科学和社会（自然公司游戏）

上个月，OpenAI发布了Sora文本视频人工智能工具，研究人员对该技术的滥用表示担忧和兴奋。这家总部位于加利福尼亚州的公司展示了 Sora 通过一些简短的文字提示创建逼真视频的能力，其中的例子包括一个女人走在东京霓虹灯闪烁的街道上和一只狗在两个窗台之间跳跃的片段。

英国莱斯特德蒙福特大学（De Montfort University）数字文化专家特蕾西-哈伍德（Tracy Harwood）说，她对文字视频人工智能（AI）的发展速度感到 "震惊"。一年前，人们还在嘲笑人工智能制作的美国演员威尔-史密斯（Will Smith）吃意大利面条的视频。现在，一些研究人员担心，这项技术可能会在2024年颠覆全球政治。

OpenAI 还开发了 ChatGPT 和文本到图像技术 DALL-E，它于 2 月 15 日首次推出了 Sora，并宣布将把这项技术 "提供给红队人员，以评估关键领域的危害或风险"。红队 "指的是对某项技术进行模拟攻击或利用的过程，以了解该技术在现实世界中如何应对邪恶活动，如制造错误信息和仇恨内容。

Sora 并不是文字转视频技术的第一个例子，其他例子包括由纽约市 Runway 公司制作并于去年发布的 Gen-2，以及今年 1 月发布的由谷歌主导的 Lumiere。哈伍德说，她对其他一些产品感到 "失望"。她说："它们呈现给你的内容越来越虚无缥缈，"她补充说，这些程序需要非常具体的提示才能让它们制作出引人注目的内容。

哈伍德补充说，信息错误是这些文字视频技术面临的一大挑战。"我们很快就会被大量看起来很有吸引力的信息淹没。这确实令人担忧。

对选举的担忧

这给即将到来的选举带来了特别的问题，包括 11 月的美国总统选举和即将到来的英国大选。"英国雷丁大学研究生成式人工智能和电影制作的多米尼克-利斯说："将会有大量的虚假视频和虚假音频流传。英国工党领袖基尔-斯塔默（Keir Starmer）的虚假音频于2023年10月发布，美国总统乔-拜登（Joe Biden）鼓励民主党人不要投票的虚假音频于1月流传。

一种解决方案可能是要求文本到视频的人工智能使用水印，水印可以是视频上的可见标记，标明其为人工智能，也可以是视频元数据中的人工签名，但利斯不确定这能否成功。他说："目前，水印是可以被移除的，"在视频元数据中加入水印依赖于人们主动研究他们观看的视频是真是假。"利斯说："我不认为我们能要求全世界的观众在观看每段视频时都这样做。

这项技术也有潜在的好处。哈伍德建议，可以用它来以更容易理解的格式呈现学术论文等难以理解的文本。"她说："它最大的用途之一就是向非专业观众传达研究结果。"它可以将相当复杂的概念形象化。

另一个潜在的用途可能是在医疗保健领域，文本到视频的人工智能可以代替人类医生与病人交谈。"英国科学传播顾问克莱尔-马龙（Claire Malone）说："有些人可能会感到不安。"另一些人可能会觉得，如果他们想每天多次向医疗专家提问，这将非常方便。"

数据管理

马龙说，Sora 等文本到视频的人工智能工具可以帮助研究人员浏览庞大的数据集，例如瑞士日内瓦附近的欧洲粒子物理实验室 CERN 和其他大型科学项目产生的数据集。她补充说，生成式人工智能可以 "筛选代码，完成研究中的琐碎工作"，但也可以完成 "更复杂的工作，比如给它提供数据并要求它做出预测"。

从事创意产业的人也提出了担忧。美国演员汤姆-汉克斯（Tom Hanks）去年曾表示，人工智能可以让他在死后 "从现在直到天国降临 "都能继续出演电影。"利斯说："如果你是一位雄心勃勃的年轻演员，在考虑自己的未来时，有人告诉你'很抱歉，汤姆-汉克斯将永远出演主角'，你会这样规划自己的未来吗？

文本到视频的人工智能将为社会带来广泛的问题。"哈伍德说："我们必须学会用过去没有的方式来评估我们看到的内容。"这些工具让每个人都有机会成为媒体内容的创造者，"她说。"我们将面对由此带来的后果。这是材料消费方式的根本转变。

doi: https://doi.org/10.1038/d41586-024-00661-0