面向 3D 虚拟环境的多面手 AI 代理

面向 3D 虚拟环境的多面手 AI 代理

首页角色扮演模拟山羊3内置菜单更新时间:2024-09-23

发表二零二四年三月十三日作者

由SIMA团队提供

我们介绍了一种关于可扩展可指导多世界代理(SIMA)的新研究,该代理可以遵循自然语言指令在各种视频游戏环境中执行任务

视频游戏是人工智能 (AI) 系统的关键试验场。与现实世界一样,游戏是丰富的学习环境,具有响应迅速的实时设置和不断变化的目标。

从我们早期与雅达利游戏的合作,到我们以人类大师级别玩《星际争霸II》的AlphaStar系统,Google DeepMind在人工智能和游戏领域有着悠久的历史。

今天,我们宣布了一个新的里程碑——将我们的重点从单个游戏转移到一个通用的、可指导的游戏 AI 代理。

在一份新的技术报告中,我们介绍了 SIMA,它是 Scalable Instructable Multiworld Agent 的缩写,它是一种用于 3D 虚拟设置的通用 AI 代理。我们与游戏开发商合作,对 SIMA 进行各种视频游戏的培训。这项研究标志着智能体首次证明它可以理解广泛的游戏世界,并遵循自然语言指令在其中执行任务,就像人类一样。

这项工作不是为了获得高游戏分数。对于人工智能系统来说,学习玩哪怕是一个视频游戏也是一项技术壮举,但学会在各种游戏设置中遵循指令可以为任何环境解锁更有用的人工智能代理。我们的研究展示了如何通过语言界面将高级 AI 模型的功能转化为有用的真实世界操作。我们希望SIMA和其他代理研究能够将视频游戏用作沙盒,以更好地了解AI系统如何变得更有用。

从电子游戏中学习

我们与八家游戏工作室合作,在九款不同的视频游戏上训练和测试了 SIMA。

为了让SIMA接触到许多环境,我们与游戏开发商建立了许多合作关系,以进行研究。我们与八家游戏工作室合作,在九款不同的视频游戏上训练和测试了 SIMA,例如 Hello Games 的 No Man's Sky 和 Tuxedo Labs 的 Teardown。SIMA产品组合中的每款游戏都开辟了一个新的互动世界,包括一系列需要学习的技能,从简单的导航和菜单使用,到采矿资源、驾驶宇宙飞船或制作头盔。

我们还使用了四个研究环境,包括我们用Unity构建的一个名为“建筑实验室”的新环境,智能体需要用积木构建雕塑,以测试他们的对象操作和对物理世界的直观理解。

通过从不同的游戏世界中学习,SIMA捕捉了语言与游戏行为的联系。我们的第一种方法是在我们的投资组合中记录游戏中的人类玩家对,其中一名玩家观看并指导另一名玩家。我们还让玩家自由玩,然后重新观看他们的所作所为,并记录可能导致他们游戏行为的指令。

SIMA包括预先训练的视觉模型,以及一个包含内存并输出键盘和鼠标操作的主模型。

SIMA:多功能 AI 代理

SIMA 是一种 AI 代理,可以感知和理解各种环境,然后采取行动来实现指示的目标。它包括一个专为精确图像语言映射而设计的模型和一个预测屏幕上接下来会发生什么的视频模型。我们根据SIMA产品组合中特定于3D设置的训练数据对这些模型进行了微调。

我们的 AI 代理不需要访问游戏的源代码,也不需要定制的 API。它只需要两个输入:屏幕上的图像和用户提供的简单、自然的语言指令。SIMA使用键盘和鼠标输出来控制游戏的中心字符来执行这些指令。这个简单的界面是人类使用的,这意味着SIMA可以与任何虚拟环境进行交互。

SIMA 的当前版本针对 600 项基本技能进行了评估,涵盖导航(例如“左转”)、对象交互(“爬梯子”)和菜单使用(“打开地图”)。我们已经训练 SIMA 执行可以在大约 10 秒内完成的简单任务。

Play

SIMA 对 600 项基本技能进行了评估,涵盖导航、对象交互和菜单使用。

我们希望我们未来的代理能够处理需要高级战略规划和多个子任务才能完成的任务,例如“寻找资源并建立营地”。总的来说,这是人工智能的一个重要目标,因为虽然大型语言模型已经产生了强大的系统,可以捕获有关世界的知识并生成计划,但它们目前缺乏代表我们采取行动的能力。

跨游戏泛化等

我们证明,一个受过许多游戏训练的代理比一个只学会了如何玩一个游戏的代理要好。在我们的评估中,SIMA代理从我们的产品组合中训练了九个3D游戏,其表现明显优于所有专门针对每个游戏进行训练的专业代理。更重要的是,一个接受过除一款游戏以外的所有游戏训练的智能体平均而言,在这场看不见的游戏中的表现几乎与专门接受过该游戏训练的智能体一样好。重要的是,这种在全新环境中发挥作用的能力凸显了SIMA在培训之外的泛化能力。这是一个有希望的初步结果,但需要更多的研究才能使SIMA在看得见和看不见的游戏中发挥人类水平。

我们的研究结果还表明,SIMA的性能依赖于语言。在对照测试中,智能体没有接受任何语言培训或指导,它的行为是适当但漫无目的的。例如,代理可能会收集资源,这是一种常见的行为,而不是走到它被指示去的地方。

我们评估了 SIMA 按照指示完成近 1500 个独特的游戏内任务的能力,部分使用人类裁判。作为我们的基线比较,我们使用环境专用 SIMA 代理的性能(经过训练和评估以在单个环境中遵循指令)。我们将这种性能与三种类型的通用 SIMA 代理进行了比较,每种代理都在多个环境中进行了训练。

推进人工智能代理研究

SIMA的研究结果显示了开发新一波通用语言驱动的人工智能代理的潜力。这是早期研究,我们期待在更多的培训环境中进一步构建SIMA,并整合更多功能的模型。

随着我们向更多的培训领域展示SIMA,我们期望它变得越普遍和通用。通过更先进的模型,我们希望提高SIMA对更高层次语言指令的理解和能力,以实现更复杂的目标。

最终,我们的研究正在朝着更通用的人工智能系统和代理的方向发展,这些系统和代理能够理解并安全地执行各种任务,从而对在线和现实世界中的人们有所帮助。

了解有关 SIMA 的更多信息

我们要感谢所有论文作者:Maria Abi Raad、Arun Ahuja、Catarina Barros、Frederic Besse、Andrew Bolt、Adrian Bolton、Bethanie Brownfield、Gavin Buttimore、Max Cant、Sarah Chakera、Stephanie Chan、Jeff Clune、Adrian Collister、Vikki Copeman、Alex Cullum、Ishita Dasgupta、Julia Di Trapani、Yani Donchev、Martin Engelcke、Ryan Faulkner、Frankie Garcia、Charles Gbadamosi、Zhitao Gong、 露西·冈萨雷斯、卡罗尔·格雷戈尔、阿恩·奥拉夫·哈林斯塔德、蒂姆·哈雷、山姆·哈维斯、费利克斯·希尔、埃德·赫斯特、德鲁·哈德森、斯蒂芬·休斯-菲特、达尼洛·雷森德、咪咪·贾萨雷维奇、劳拉·坎皮斯、罗斯玛丽·柯、托马斯·凯克、金俊勇、奥斯卡·克纳格、卡维亚·科帕拉普、安德鲁·兰皮宁、肖恩·莱格、亚历山大·勒什纳、玛乔丽·利蒙特、刘玉兰、玛丽亚·洛克斯-汤普森、约瑟夫·马里诺、凯瑟琳·马丁·库森斯、洛伊克·马泰、Siobhan Mcloughlin、 皮尔玛丽亚·门多利基奥、哈姆扎·梅尔齐奇、安娜·米滕科娃、亚历山大·穆法雷克、瓦莱里娅·奥利维拉、扬科·奥利维拉、汉娜·奥彭肖、伦克·潘、阿尼什·帕普、亚历克斯·普拉托诺夫、奥利·珀基斯、大卫·赖克特、约翰·里德、皮埃尔·哈维·里奇蒙德、泰森·罗伯茨、贾尔斯·鲁斯科、海梅·桑切斯·埃利亚斯、塔莎·桑达尔斯、丹尼尔·索耶、蒂姆·肖尔茨、盖伊·西蒙斯、丹尼尔·斯莱特、休伯特·索耶、海科·斯特拉斯曼、彼得·斯蒂斯、艾莉森·谭、泰芬·泰尔齐、 Davide Vercelli、Bojan Vujatovic、Marcus Wainwright、Jane X. Wang、Zhengdong Wang、Daan Wierstra、Duncan Williams、Nathaniel Wong、Sarah York 和 Nick Young。

特别感谢所有与我们合作的游戏开发商:Coffee Stain(《英灵神殿》、《满意》、《模拟山羊 3》)、Foulball Hangover(《Hydroneer》)、Hello Games(《无人深空》)、Keen Software House(《太空工程师》)、RubberbandGames(《摇摆不定的生活》)、Strange Loop Games(《生态》)和 Tuxedo Labs & Saber Interactive(《拆解》)。

查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved