【LLM-游戏】大语言模型和游戏:概述和路线图

【LLM-游戏】大语言模型和游戏:概述和路线图

首页角色扮演量子飞跃者更新时间:2024-05-11

一、结论写在前面

LLMs可以扮演许多不同的角色,可以改善玩家在视频游戏中的体验,或增强游戏设计师将他们的想法变为现实的能力。然而,论文也强调了许多特定于LLMs应用和LLMs本质以及其周围生态系统的挑战。尽管LLMs提出了技术、伦理和法律上的挑战,但忽视这项研究可能对游戏AI研究和游戏产业产生的影响是不现实的。论文期待从LLM研究人员和公司那里看到许多新的技术创新。在此背景下,论文提出了LLMs未来可能应用于游戏的有前途的方向。

二、论文的简单介绍2.1 背景

五年前,自回归语言模型仍然是自然语言处理的一个小众话题。仅仅根据现有文本来训练模型进行文本预测,这种做法被视为更多的是理论兴趣,尽管它可能在写作支持系统中有应用。但这于2019年GPT-2模型发布时[1]发生了急剧变化。GPT-2充分证明了在大规模文本语料上训练的transformer模型不仅可以生成令人惊讶的高质量和连贯的文本,而且可以通过精心提示模型来控制文本生成。后续的发展,包括更大的模型、指令微调、来自人类反馈的强化学习[2],以及2022年底ChatGPT中这些特性的结合,极大地激发了人们对大语言模型(LLM)的兴趣。LLM似乎突然可以做任何事情 —— 前提是问题和解决方案都可以表述为文本。

LLM目前是一个非常活跃的研究领域,研究人员一方面致力于在减少计算和内存占用的同时提高LLM的能力,另一方面致力于理解和学习驾驭现有LLM的能力。关于LLM技术的终极能力,专家的意见分歧很大,从认为这种模型是“AGI的火花”[3]的,到认为它们在很大程度上是从互联网的有损压缩中进行近似检索[4]的。

游戏,包括棋盘游戏和视频游戏,既是AI研究的重要基准,也是AI技术的重要应用领域[5]。几乎所有游戏都利用了某种AI技术,论文目前正处于开发人员和研究人员试图弄清楚如何最好地利用AI最近进展的探索阶段[6]。也可以说,视频游戏设计和视频游戏技术可能构成未来人机界面和“元界”的大部分发展基础。

在本文中,论文试图概述LLM对游戏和游戏研究的影响,以及它们在近期和中期内可能产生的影响。论文综述了学术界和(主要是独立)游戏创作者使用LLM的现有工作,以及用于游戏的LLM。本文并不着眼于捕捉LLM技术或LLM训练算法的现代进展。不仅已经存在这样的资源[7],而且这个领域的技术进步速度之快,可能会使论文的论述在一年左右就过时了。相反,论文关注利用LLM的游戏,并提出了LLM可以在更广泛的游戏生态系统(包括游戏内外)中发挥的一系列作用。论文概述了在游戏中使用LLM的有前景的未来方向,并讨论了需要解决的技术和伦理方面的局限性,以实现游戏领域LLM研究的更光明未来。

2.2 术语说明

本文关注的是游戏(包括棋盘游戏、视频游戏和其他类型的游戏)与大语言模型(LLM)的交叉领域。但什么是LLM呢?广义上讲,LLM是一种在文本上训练的模型,以便能够根据其他文本生成文本。但这个定义过于宽泛,因为它可能包括1946年香农的原始n-gram模型、20世纪90年代早期的初级循环神经网络以及Tegic T9文本预测系统(可以帮助你用诺基亚3210编写短信)。对于不熟悉这些技术的读者来说,它们在90年代的移动电话中无处不在。

LLM与其他文本生成模型的区别在于,它们是大型的。但是,多大的模型规模才算足够大呢?随着OpenAI于2019年发布的GPT-2网络的引入[1],LLM成为一个广为人知的术语。GPT代表生成式预训练transformer,其中transformer是2017年引入的一种神经网络。这个模型之所以非常有影响力,是因为与之前的模型相比,它的输出质量被认为是一个量子飞跃。GPT-2的各种版本的参数在1.17亿到15亿之间。由于LLM这个术语与GPT类模型有关,论文将以GPT-2的规模作为论文考虑的LLM类型的软性界限;论文关注的是几亿个参数或更多参数的模型。

虽然语言模型原则上可以基于各种架构,包括LSTM网络,但目前的LLM主要是基于transformer架构的变体;在本综述中,论文主要依赖这种类型的模型架构。需要注意的是,LLM绝不仅限于GPT系列模型。目前已经有大量不同规模和能力的LLM,包括开源模型如Mistral和Llama系列,它们可以通过各种方式进行微调和分析,在本地运行,甚至可以嵌入到游戏运行时中。

有人也可能会说,这个定义有点狭隘,因为许多现代LLM是多模态模型,这意味着它们可以将文本以外的模态作为输入和/或输出。特别是,许多现代LLM可以处理和生成图像。这通常是通过将核心transformer网络与用于输入的卷积网络和用于输出的扩散模型相结合来实现的。例子包括GPT-4V[13]和开源的Llava[14]。在本文中,论文将大型多模态模型(LMM)[13]视为LLM,只要它们保留了消费和生成文本的能力。

本综述不会涉及上述定义之外的AI和机器学习技术。特别是,论文不会涵盖使用机器学习方法进行游戏和内容生成的大量文献,这些文献并未使用文本输入和输出。然而,论文偶尔会提及其中一些相关工作,特别是为了提供历史背景。

2.3 LLM在游戏中的角色

过去对游戏中AI的类型学尝试集中在AI在游戏中可以扮演的三个角色:玩游戏、设计游戏或模拟(人类)玩家。LLM通常被描述为对话代理,这常常导致公众赋予它们拟人化的特质,例如推理和创造力。因此,论文在考虑LLM在游戏或游戏开发过程中可以扮演的角色时,遵循这些趋势。

LLM可以在游戏中扮演玩家(取代人类玩家,同时模仿他们的目标)、非玩家角色(如敌人或对话者)、为人类玩家提供提示或处理琐碎任务的助手、控制游戏流程的游戏主持人,或隐藏在游戏规则中(控制游戏的次要或主要机制)。然而,LLM还可以在游戏运行时之外扮演其他角色,例如游戏设计师(取代人类设计师)或人类设计师的助手。

最后,LLM可以以不同的方式与玩家或观众互动,充当正在进行的游戏会话的评论员(运行时)或以某种叙事形式重述过去的游戏事件(非运行时)。

这些角色中的一些(自主玩家、自主设计师)在更广泛的AI和游戏研究中很突出,LLM研究也广泛针对它们,而其他一些角色则在探索性研究中得到尝试。以下各节介绍了这些角色本身,综述了针对每个角色开展的研究,而论文在第4节中确定了未来研究的差距和机会。

2.3.1 玩家

LLM如何玩游戏?从根本上说,语言模型玩家需要一些转换,将其典型的输出空间(即令牌序列)转换为游戏的输入空间。此外,游戏的某些方面及其当前状态必须以某种形式提供给LLM,以便它能够在任何合理的水平上玩游戏。根据游戏本身的不同,这些映射可能是直观的或复杂的。论文确定了三类LLM玩家非常适合的游戏:

(a)状态和动作可以紧凑地表示为抽象令牌序列的游戏,

(b)主要输入和输出模式是自然语言的游戏,

(c)外部程序可以通过API控制玩家动作的游戏。

第一类游戏主要包括回合制棋盘游戏(如国际象棋),因为棋盘位置和移动的离散集合更容易转换为紧凑的表示(如便携式游戏记谱法),而不是像第一人称射击游戏那样。通过将从游戏数据库中提取的移动序列标记化,动作选择问题就可以映射到LLM所训练的标准自回归学习目标 —— 根据之前的上下文预测下一步移动。国际象棋[16]、[17]、[18]、围棋[19]和黑白棋[20]都以这种方式被用作LLM玩家的测试平台。然而,棋盘游戏并不是唯一可以表示为令牌序列的游戏类型:通用GATO[21]代理可以通过按光栅顺序将视觉输入处理为像素值序列,以人类或接近人类的水平玩各种Atari游戏。像素值与分隔符令牌和先前的动作交错,允许模型在人类游戏痕迹的数据集中准确预测适当的游戏动作。

随着捕捉空间和视觉动态的Transformer模型的不断改进[22]、[23],类似的方法可能会扩展到更复杂的游戏。然而,这种方法需要大量的游戏视频数据集,而这可能相对更难收集。此外,论文注意到,依赖人类游戏痕迹作为学习基础,可能会使LLM玩家在没有推理和泛化方面的飞跃的情况下更难达到超人的表现,论文将在LLM的局限性中重新讨论这一点(见第2.5节)。

第二类游戏最明显的包括文本冒险游戏,如Zork(Infocom,1977年),其中游戏状态以自然语言描述呈现,并且游戏已经配备了解析器来处理自然语言响应。这意味着可以以一种仍然利用LLM在自然语言文本上的大规模预训练的方式查询LLM以获取游戏动作。

将LLM应用于这类文本游戏的最早例子是CALM[24],这是一个在从各种基于文本的冒险游戏收集的人类游戏记录数据集上微调的GPT-2系统。该模型被训练来预测人类玩家在给定先前状态和动作以及关于角色(例如他们的库存)的信息的情况下提供的自然语言字符串。为了实际玩游戏,经过训练的语言模型会生成多个候选动作,并使用深度强化学习(RL)来优化从候选动作中选择动作的策略。在发表时,这个RL组件是必要的,因为单独的LLM无法很好地泛化到未见过的游戏或情况[24]。

然而,最近对ChatGPT作为Zork玩家的研究表明,LLM的性能正在提高[25]。在一个初步实验中,Yao等人[24]表明,只要人类对话者保持在循环中以协助模型(例如,提醒它已经尝试过的动作),ChatGPT的性能就可以接近现有的文本游戏算法。然而,以这种方式直接将LLM应用于文本游戏显然还有很大的改进空间。此外,LLM玩全新的、小众的或未见过的文本游戏的能力(考虑到此类系统在训练期间可能会遇到流行文本游戏的攻略或游戏记录,这一点尤其重要)在很大程度上仍未得到探索。

除了文本冒险游戏,LLM玩家在棋盘游戏中最著名的应用是CICERO[26],用于玩谈判和阴谋的游戏Diplomacy(Avalon Hill Games,1976年)。Diplomacy非常适合自然语言指令,因为玩家可以在私人消息中自由交谈,以安排计划、谈判或欺骗。CICERO建立在预训练的LLM基础之上,并在大量Diplomacy转录语料库上进行了微调。在整个游戏过程中,模型的样本会被发送给其他玩家,并收集各种对话记录以调节潜在的行动。CICERO进一步训练为根据特定的游戏意图(从转录本中推断出来,并在训练期间作为额外的上下文添加)来调节其输出。

为了选择一个动作,CICERO使用"战略推理模块"来预测其他玩家的动作,使用从自我博弈中学到的值和策略函数。Diplomacy是一个有趣的游戏,部分原因是行动空间被分成自然语言话语和离散游戏板上更标准的动作集,而CICERO展示了如何将LLM集成为更大系统的一部分,以实现高水平的游戏。

最后,论文考虑存在强大API的游戏。这不太像是一种游戏,更多的是关于其受欢迎程度或实现的难易程度。API是一个重要的属性,因为它允许LLM不是通过直接生成动作,而是通过生成充当策略的程序来充当玩家。LLM在代码生成能力方面的改进使它们能够编写小程序,在给定游戏状态的情况下生成动作,而无需模型进一步干预。例如,VOYAGER系统[27]利用GPT-4的代码生成能力,通过与流行的Mineflayer API交互来玩Minecraft(Mojang Studios,2011年)。使用复杂的提示链,VOYAGER生成利用对API的调用来执行高级"技能"(例如"攻击最近的僵尸")的代码块,这些技能会自动转换为低级游戏输入(例如鼠标移动和按键)。GPT-4也被用作高级目标生成器和规划器,反过来又为代码生成提供信息。

这种方法已经证明非常成功,VOYAGER是第一个完成各种游戏内Minecraft挑战的自动化系统。结果令人印象深刻,表明生成产生动作的程序可能是利用潜在LLM知识的更有效方式,而不是直接采样动作。然而,VOYAGER确实从针对其目标游戏Minecraft的强大API和大量互联网讨论中获得了实质性的好处。与对Zork的ChatGPT分析一样,这种方法对不太流行或完全未知游戏的泛化能力有待观察。

最后,论文考虑存在强大API的游戏。这不太像是一种游戏,更多的是关于其受欢迎程度或实现的难易程度。API是一个重要的属性,因为它允许LLM不是通过直接生成动作,而是通过生成充当策略的程序来充当玩家。LLM在代码生成能力方面的改进使它们能够编写小程序,在给定游戏状态的情况下生成动作,而无需模型进一步干预。例如,VOYAGER系统[27]利用GPT-4的代码生成能力,通过与流行的Mineflayer API交互来玩Minecraft(Mojang Studios,2011年)。使用复杂的提示链,VOYAGER生成利用对API的调用来执行高级"技能"(例如"攻击最近的僵尸")的代码块,这些技能会自动转换为低级游戏输入(例如鼠标移动和按键)。

GPT-4也被用作高级目标生成器和规划器,反过来又为代码生成提供信息。这种方法已经证明非常成功,VOYAGER是第一个完成各种游戏内Minecraft挑战的自动化系统。结果令人印象深刻,表明生成产生动作的程序可能是利用潜在LLM知识的更有效方式,而不是直接采样动作。然而,VOYAGER确实从针对其目标游戏Minecraft的强大API和大量互联网讨论中获得了实质性的好处。与对Zork的ChatGPT分析一样,这种方法对不太流行或完全未知游戏的泛化能力有待观察。

2.3.2 非玩家角色

非玩家角色(NPC)是存在于虚拟游戏世界中但其行为不由玩家直接控制的代理。NPC的存在是为了通过增加世界的氛围并使其更加可信来丰富玩家的体验和加深沉浸感[29]。NPC可以充当宠物、盟友、敌人、商人、任务给予者或旁观者。因此,它们甚至与AI控制的玩家有不同的代理,而它们的目标从来都不是赢得游戏。这使得为NPC设计AI很有趣[5],而LLM可以在这项任务中提供独特的优势。它们"理解"游戏世界设置的能力允许LLM调整其响应以匹配这些设置。

研究表明,LLM能够通过不同的场景进行角色扮演[30],从而突出了它们作为一种更灵活和恰当的工具来模拟人类行为的潜力。论文确定了LLM可以通过两种方式控制NPC:(a)通过它们的对话,以及(b)通过它们的行为。行为与第3.1节中讨论的游戏内动作选择有关;然而,论文注意到这种行为的启发式和目标与试图赢得游戏的AI玩家不同。

LLM非常适合自然语言对话,作为NPC对话系统,它们可以根据玩家的输入生成动态且上下文恰当的响应。这使得与NPC的互动更具吸引力和真实感,减少重复性对话,并在游戏中提供更具探索性的体验[31]。LLM可以作为前景NPC、背景NPC或叙述者NPC让玩家参与游戏世界的叙事。论文在第3.4节讨论叙述者LLM作为评论员,而在此论文涵盖其他两种NPC类型。

前景NPC构成游戏总体叙事或其子叙事的一部分。他们可能是敌人、盟友、信息提供者、任务提供者或物品提供者。他们的对话受到叙事范围、他们在其中的角色以及玩家行为的严格限制。前景NPC通过LLM的文本生成过程必须考虑游戏的整体背景和与玩家的互动,并跟踪游戏过程中发生的事件。这引发了对LLM记忆容量的担忧,以及可能出现的幻觉(即似是而非的陈述)的影响[32];论文将在第5节重新讨论这些限制。

背景NPC构成虚拟世界的大部分,但不属于玩家正在执行的任何特定任务。它们的目的是使环境更加可信,并独立于玩家行动[31]。由于此类NPC的存在纯粹是装饰性的,他们的对话本质上是闲聊,因此他们的对话生成受到的限制较少,可能仅受到说话者身份和背景的约束。也就是说,他们的可信度取决于他们维持自己在世界中具有自主性并能与之互动的能力[33]。

研究表明,多个智能体能够遵循游戏规则并参与游戏[34]、[35],不同的模型在应用于特定角色时始终表现出自己的才能和弱点。这种在约束条件下进行交互的能力有助于为前景和背景NPC灌输可信的行为,将他们的行为和对话置于游戏环境的规则之中。

其他工作更多地关注LLM的对话和写作能力,例如创建具有独特个性的多个角色之间的对话,同时遵循一致的情节。一个这样的例子是使用LLM生成一集《南方公园》(Comedy Central,1997年)[36],其中包含一个知名场景中的多个角色。这种方法有局限性,主要是LLM执行的更像是戏剧即兴表演,而不是扮演一个研究角色的演员[30]。通过这个不受约束的过程,LLM容易产生不符合预期场景的幻觉。这种不稳定性可以通过为LLM提供不仅包括对话历史,还包括环境的当前状态(如其中的物品及其功能)以及其他角色及其相应的行为来缓解。这种方法已成功用于在基于文本的游戏中创建会话型NPC[37],但也可以扩展到其他场景,或涵盖LLM作为主动或交互式叙述者的使用。

2.3.3 玩家助手

LLM在游戏中一个较少探索的角色是玩家助手:一个旨在以某种方式丰富或指导玩家体验的交互式智能体。这可以是一系列教程式提示,一个完全不与游戏世界因果互动的角色,或者一个能够以与玩家类似的水平与游戏世界互动的智能体。现有游戏以不同方式使用玩家助手。例如,在《模拟人生》(Electronic Arts,2000年)中,一个无实体的助手通过对话框提供特定于游戏上下文的提示。《文明6》(Firaxis Games,2016年)使用不同的具有视觉描绘的助手提供类似的建议,根据它们特有的启发式方法建议最佳建造选项;因此,它们可以减轻玩家的一些决策负担。在管理游戏中,AI可以自动执行一些琐碎的任务,例如在《群星》(Paradox Interactive,2016年)中为行星人口分配工作;这种帮助可以减轻玩家的认知负荷,但如果玩家愿意,他们总是可以微观管理这项任务。

考虑到LLM潜在的表达和对话能力,它们可能会作为玩家助手很有吸引力。结合LLM驱动或启发式方法,在给定当前游戏上下文的情况下找到最佳策略或行动(见第3.1节),LLM驱动的玩家助手可以将建议的行动和解释构建为由无实体或有实体的智能体以相应的情感传递的自然语言话语,并通过其身体姿势、手势和面部表情表现出来。类似地,LLM可以通过在较小任务描述中担当"玩家"的定制较小角色,在游戏中承担一些次要任务,从而协助玩家(见第3.1节)。

据论文所知,目前的研究尚未探索LLM驱动的玩家助手的潜力。论文在第4节中强调了这一未来应用的潜力。

2.3.4 评论员/复述者

论文认为LLM非常适合担任评论员或复述者的角色。在这里,论文将这些角色视为一个智能体,它为人类玩家或观众的利益而生成和叙述一系列事件。这样的智能体可能只考虑游戏内的事件和上下文,充当游戏内的实体,例如FIFA(EA Sports,1993年)中的体育评论员,或者也考虑游戏外的事件和上下文,例如玩家(他们的行动、策略、动机等)。复述者[38]专门叙述过去的事件,通常将其分组为简洁的"块",例如游戏会话(即基于游戏外上下文)或任务(即仅基于游戏内上下文)。评论员可能正在叙述尚未结束的当前正在进行的事件,类似于主播同时讨论他们当前的行动(包括游戏外上下文)或正在进行的体育比赛(如FIFA)中的体育评论员。

自动化"让论文玩"-风格评论生成的愿景并不新鲜。它在[39]中被提出并通过经典机器学习方法实现,但成功有限。在[40]中,一个带有文本、视觉和游戏状态输入的LSTM被训练用于在赛车游戏中生成评论脚本的字符。这种方法的结果包括重复和与上下文无关的生成文本。LSTM也被[41]用于在字符级别为《和班尼特·福迪一起克服它》(Bennett Foddy,2017年)生成文本,这是一款具有挑战性的侧滚攀爬游戏。

LLM用于评论也被Renella和Eger [42]探讨,他们认为LLM可以在主播同时处理游戏和观众互动时为游戏主播(例如在Twitch上)提供帮助。作者开发了一个管道,用于自动评论《英雄联盟》(Riot Games,2009年)游戏。他们采用多阶段方法,首先在手工标注的数据上训练模型以识别关键事件,然后提示ChatGPT以特定(已知)虚构角色的风格对这些事件生成零样本评论,最后将生成的文本通过FakeYou2 API以同一角色的音色进行配音。例如,一旦事件检测模型在特定帧中识别出敌人双*,ChatGPT就会以《瑞克和莫蒂》(Cartoon Network,2013年)中瑞克·桑切斯的风格回应:"什么鬼?!敌方团队刚刚获得双*!我简直不敢相信!他们一定很厉害!我最好小心他们!"

额外的循环会缓冲检测到的事件,例如,推迟对双*的评论,以防它升级为三*,或者在快速连续的事件中进行优先级排序,并提示ChatGPT生成随机填充,例如感谢(虚构的)新订阅者。

尽管存在上述研究,但将LLM作为游戏评论员的研究仍然相当有限。其吸引力是显而易见的:基于模拟的涌现叙事游戏已经生成了丰富的叙事历史,并由人类玩家重新混合以产生通常本身就很受欢迎的二次内容。原则上,LLM可以用来生成更简洁的这些游戏事件的复述或精彩集锦。在没有进一步指定风格或内容的情况下,提示当前的LLM生成故事,往往会产生感觉通用的输出。最终,在模拟游戏中记录的过去事件可以为这些输出提供特异性和叙事连贯性。探索更多概念,例如通过LLM评论观众的反应而不是游戏内的行动来帮助主播,仍有待探索。论文将在第4节中重新讨论这一点以及其他未来应用。

2.3.5 游戏主持人

在桌面角色扮演游戏(TTRPG)中,游戏主持人(GM)是创造游戏情节、角色和叙事的人。GM在游戏会话期间扮演多个角色[43],但也在会话前后通过准备和调整冒险和故事以及与团队沟通来扮演角色[44]。与TTRPG玩家相比,数字游戏大多有预先编写的故事或关卡进度,其玩家的可供性范围有限,而TTRPG玩家的行为只受他们想象力的限制。类似地,围绕桌子讲述的故事可以朝任何方向发展。由于人类GM主要通过自然语言交流游戏世界、故事、游戏状态和行动决议(尽管地图、微缩模型、手册等道具也很常见),因此LLM作为GM的潜力经常在研究圈和TTRPG讨论板中被提及[45]。LLM作为GM也为单人游戏开辟了潜力,而TTRPG至少需要一名玩家和人类GM。

由GPT-2微调版本管理的第一批著名基于文本的冒险之一是AI Dungeon[46]。AI Dungeon3是一个在线交互式基于聊天的讲故事应用程序,玩家仅通过语义输入来采取行动。LLM根据玩家的输入以人类GM的方式继续故事。自创建以来,游戏已经发展到使用更新的LLM模型,玩家可以在开始游戏会话之前选择。游戏还提供了不同的游戏世界设置,玩家也能够分享他们创建的故事。自此,类似的游戏已经在网上出现,一个可自由获得的代码库Kobold AI Client5允许本地或远程安装此类LLM运行游戏的客户端。其中一些游戏还使用Stable Diffusion文本到图像模型[47]来生成伴随叙事不同部分的视觉效果。

除了取代人类GM,LLM还被用作GM助手。CALYPSO[48]是一组在Discord服务器上运行的工具,GM可以查询它以生成随机遭遇、头脑风暴、或者与《龙与地下城》(TSR,1974年)TTRPG设定中的虚构角色聊天。CALYPSO强调,GPT-3的幻觉可能产生积极影响,当它生成原始游戏手册中未包含的合理细节时(例如生物眼睛的形状),也可能产生消极影响,当创建的细节完全不正确时(例如描述了一个在原作中没有翅膀的生物的翅膀)。

此外,该模型为避免种族偏见而进行的预处理有时会阻止它生成游戏中幻想生物的种族细节。其他工作使用较小的GPT模型来即兴创作游戏中的对话[49],方法是监视和转录GM和玩家之间的口头交流,并尝试生成适当的响应。这个例子被集成到"Shoelace"[50]中,这本身就是一个GM辅助工具,通过创建游戏叙事和遭遇的基于节点的计划来帮助查找内容。考虑到LLM能够快速处理文本输入的多功能性,为它们集成到现有的人类GM工具和辅助工具中铺平了道路。

2.3.6 游戏机制

游戏也可以围绕依赖LLM的特定机制构建,类似于[52]中确定的基于AI的游戏设计模式。一个明显的机制围绕LLM驱动的会话型NPC所促进的社交互动。在这方面,[53]采用LLM在沙盒环境中填充了一个有25个角色的虚拟村庄,使他们能够在其中进行交流和社交行为。玩家可以使用基于文本的界面与这些智能体互动。每个智能体的环境状态和行为都以基于语言的格式存储并进行总结,以便在提示其行动时保留每个智能体的知识。这导致出现了可信的社交互动,例如智能体自发邀请其他智能体参加其中一个智能体正在组织的聚会。

同样,GoodAI正在开发AI人物视频游戏,该游戏作为一个沙盒模拟运行,LLM驱动的NPC"彼此互动并与他们的环境互动,形成关系并表现出情感"[28]。玩家可以通过自然语言聊天与智能体互动,触发反应并可能破坏NPC之间的关系(见图1)。

自然语言交互形成了围绕游戏构建的自然机制池,例如将用户尝试越狱LLM游戏化[54]。图2中描述的游戏1001 nights就是一个例子,它让LLM从人类提示中共同创建一个故事,玩家的目标是试图引导故事包含特定关键字,以便主角Scheherazade将这些关键字转化为有形物品,帮助她逃跑[51]。类似地,Gandalf 6挑战玩家欺骗LLM以揭示密码。随着关卡的进展,游戏通过调整提示规范来增加任务难度,例如迫使LLM重新检查其生成的响应,以确保其不包含密码。

LLM的另一个优势是语言合成,这被Infinite Craft7所利用。Infinite Craft是一款"炼金术"游戏,玩家在其中组合元素以产生新元素(见图3)。在Infinite Craft中,玩家从一组核心元素(水、火、风和土)开始。但是,虽然前者有一组由设计师手动定义的交互,但Infinite Craft提示LLaMA 2[12]想象这些元素组合的产物[55]。从游戏情况来看,对于每个不同的组合,LLaMA似乎只被提示生成结果一次,然后将产物存储在数据库中供将来参考。因此,语言模型词汇表中的任何内容似乎都可能从这些元素的组合中"涌现",包括所有50个州、"梦想",以及虚构的"超级石头恐龙玉米卷霸王龙"。有时,模型可以选择返回组合元素之一,或拒绝组合(特别是非常冗长或复杂的)元素。

2.3.7 自动设计师

AI在游戏中的一个关键角色[5]是算法生成游戏内容,如关卡和视觉效果,甚至整个游戏。与通过自然语言创建游戏的游戏主持人不同——旨在存在于玩家的"心灵剧场"中——程序化内容生成(PCG)的目的是创建旨在用于数字游戏的内容,因此需要满足某些约束,如可玩性和美学质量。任何在可用内容语料库上训练的PCG方法都属于通过机器学习进行程序化内容生成(PCGML)范式[15]。严格来说,2018年的原始PCGML框架没有考虑LLM;相反,它依赖于自动编码器和LSTM等机器学习方法。然而,在考虑将LLM用于PCG时,PCGML的重要挑战仍然存在:特别是对人类创作的高质量、机器可读的关卡数据集的依赖。虽然一些街机游戏关卡的数据集存在[56],但对于大多数游戏来说,内容仍然无法获得,并受到知识产权(IP)法律的保护。论文将在第6节重新讨论这个问题。

先前的PCG工作已经证明,基于序列预测模型(例如LSTM)可以从适度的示例集中可靠地生成基于瓷砖的游戏关卡,方法是将此类关卡视为瓷砖类型的线性序列,按光栅顺序排列[57]。最近,现代LLM以类似的方式被利用,并取得了更大的成功。在[58]中,GPT-2模型在大型Sokoban(Thinking Rabbit,1982年)关卡数据集上进行了微调,并在测试时从模型中采样以生成新的谜题(见图4)。

有趣的是,他们的结果表明,当微调数据集的大小受到限制时,GPT-2模型会遇到困难,而GPT-3(以及据推测,此后发布的更大模型)能够更好地适应有限的训练集。一种类似的方法MarioGPT在相对较小的超级马里奥兄弟(任天堂,1985年)关卡数据集上训练GPT-2模型[60]。MarioGPT通过使用初始数据集作为进化算法的起点来克服数据稀疏性问题。现有关卡被选择,然后通过从GPT模型中采样并使用类似训练的BERT(即双向)模型[61]来纠正重新生成的部分和关卡其余部分之间的边界来对关卡的某些部分进行突变。尽管从不到20个关卡开始,但这种方法生成了大量多样化的可玩关卡。

上述两种基于GPT的关卡生成方法还显示了结合自然语言指令以生成条件关卡生成器的前景,可以通过在训练数据集中的游戏关卡前加上所需的关卡特征[58],或者通过嵌入用户指令并允许模型在生成过程中关注嵌入[60]来实现。似乎有可能采用更复杂的技术,如带有人类反馈的强化学习[2],可以生成更能适应用户指导的关卡生成器。

2.3.8 设计助手

用于设计辅助的AI可以为创作过程提供多种好处。根据工具类型、AI类型和创意过程的类型,AI可以最小化开发时间和成本,减少人力投入,支持设计团队成员之间的协作,或激发用户的创造力[62]。到目前为止,在游戏中,大多数AI驱动的设计辅助工具侧重于自动完成人类正在进行的设计[63],或为设计师提供许多可能的建议以供考虑[64]、[65]、[66]、[67]。根据AI共同创作者[68]对过程的控制程度,论文确定了三个级别的辅助:

有人可以认为,与LLMs、Foundation Models和Large Multimodal Models的现有接口充当设计助手。设计师提供他们的规范,并收到一个(在LLMs中)或多个(在AI图像生成器中)建议,他们可以进一步完善。许多创意人士报告使用这样的界面进行头脑风暴和概念开发[72],包括游戏开发人员[73]。然而,LLMs作为设计助手的适用性有些有限,主要仅限于概念辅助。同样地,它们在完善现有想法方面的潜力(即提供程序辅助)尚未得到充分探讨,正如论文在第4节中所讨论的。

因此,对于LLMs而言,概念辅助是最容易的,也是在游戏中首先探讨的情况。在[74]中,设计辅助被设想为一种工具,该工具将用户提供的游戏描述与已知类似游戏的知识结合起来,向设计师建议可能的游戏特性。所建议的特性相当通用,是几个词的指导方针(例如:“学习新的战斗”),需要进行广泛的设计工作和创造力,以将其转化为可实施且连贯的游戏设计。

由于制作辅助也与传统的PCG管线密切相关,因此在游戏领域也得到了可理解的探讨。在[75]中,GPT-3根据描述关卡特征的提示(例如宽度和高度)生成关卡,而人类负责策划和编辑结果以确保可玩性。这一经过策划的关卡集然后用于进一步的微调,可能自动化生成过程。与直接生成最终工件不同,在[76]中,LLM被用作解析器,从用户用自然语言表达的请求中(包括关卡难度和大小、可持续性问题类型以及仿真目标指标等高层次参数)推断出PCG系统生成最终游戏所需的参数。从单一用户请求中生成了一系列候选游戏关卡。然后,由强化学习代理评估每个候选关卡,并通过Unity游戏引擎向用户展示最佳游戏。

正如前文所述,目前的研究主要集中在将LLMs用于概念辅助(对人类设计师施加重要责任)或用于制作辅助(将人类设计师作为策展人)的领域。然而,LLMs的对话性质似乎特别适用于在设计内容时进行程序辅助;论文将在第4节重新探讨这个被忽视的机会。

2.4、未来在游戏中应用LLMs的路线图

前一节试图将LLMs和游戏领域的当前研究划分为一个侧重于LLM扮演的角色的分类。作为这个过程的一部分,论文确定了一些得到了深入研究的角色。毫不奇怪,玩家和自动化设计师的角色引起了关注:这符合更广泛的AI和游戏研究中的一般趋势[5]。根据在玩游戏或生成内容方面的游戏AI的一般趋势,LLM为基础的方法可能通过社区事件、基准测试和比赛蓬勃发展,这方面的初步步骤已经开始[77]。根据第3节中列出的角色,论文在下面指出文献中存在的一些差距,并提出了一些可能利用LLMs的新方式的研究方向。

虽然在过去的十年中,学术界对游戏内设计辅助的兴趣蓬勃发展,但论文发现LLMs的潜力迄今为止被低估了。LLM设计助手在创造性解释和实际开发方面要求人类设计师太多[74],或者太少,将他们降级为内容策展人[75]。过去在混合主动系统[68]中的研究假设了人机之间更具共同创造性的主动性,而LLMs作为对话代理的能力符合最初的愿景,即在主动性之间进行创造性对话[70]。因此,一个有前途但未被探索的方向在于更多地提供程序辅助(参见第2.3.8节),在这方面,LLM不仅产生输出,而且还对人类设计师的输出进行推理。LLMs似乎特别适合这项任务,因为上下文被保留,设计师可以迭代地完善LLM生成的过去的产品。

然而,可能会出现LLMs记忆有限的担忧(见第5节),尤其是在长期设计过程中。另一方面,对于其他最先进的技术,如LMMs,迭代的细化并不像InstructPix2Pix [78]等取得一些有希望的结果那样简单。预计这类应用将在催生新的挑战,如幻觉、可解释性[79]、捕捉或建模设计师意图[71]等方面。论文将在第6节进一步讨论这些挑战。

尽管论文确定了LLMs可以发挥的重要角色之一是玩家辅助,但论文尚未找到针对这方面的任何工作。LLMs的对话能力使它们非常适合教程编写或提示提供,特别是在对话代理提供的短片段中。然而,重要的是要注意,LLMs通常会产生幻觉或过度拟合它们所训练的语料库,并且可能在给定游戏手册的情况下挑战总结或查找特定规则。在将LLM作为人类游戏主持人助手时,也发现了类似的限制[49],LLM在被问及关于场景的问题时无法找到预先编写的冒险中的元素。其他技术(简单到数据库搜索查询)可以代替,LLM只需执行将找到的信息转换成自然语言表达的任务。

然而,除了简单的提示之外,LLM还可以充当更为实质性的玩家助手,接管更琐碎的任务(例如在策略游戏中管理一个城市的细节)。对于游戏主持人的帮助也同样有用,因为LLM可以追踪已访问的位置和已遇到的NPC,或查找规则。在这两种情况下,需要解决幻觉和一致性问题,论文将在第5节中进行讨论。

另一个似乎非常适合LLMs的角色,但受到关注较少的是评论员或叙述者的角色。迄今为止的工作主要集中在自动化流媒体或电子竞技评论员的评论[42]。虽然这个方向仍然在很大程度上未知,但有更多的方向可以利用LLMs进行流媒体辅助而不是自动化(和替代)。LLMs可以总结观众的互动和参与水平,而不是叙述游戏(或视频流)中发生的事件,因此可以充当观众观看的评论员,而不是游戏的评论员。这可以让人类流媒体制作者更好地跟踪聊天中讨论的主题,并在需要时进行互动,而无需阅读每一条评论。虽然这已经被认为是AI的研究方向[80],但尚未实施。在流媒体辅助的角色下,LLM的评论的可解释性问题将变得相关(例如为了通过姓名称呼一个观众会员);论文将在第5节中重新讨论这个问题。

最后,值得注意的是,在LLM研究和应用的调查中,游戏中AI的一个支柱完全缺失:即对玩家进行建模的角色[5]。LLMs似乎提供了有望但确实未被探索的情感游戏计算方法[81]。乍一看,这并不特别令人惊讶:尽管玩家建模通常依赖于监督式机器学习算法,但如何通过文本输入或输出实现这一目标并不明确。原则上,LLM可以预测情感状态的转变,比如“现在游戏更引人入胜”,从而调整游戏环境,以引发玩家更引人入胜的体验。学习这样的转变建立在以经验为驱动的程序内容生成范式之上[82],但LLM充当玩家体验模型。

因此,论文设想通过对LLMs进行精细调整,使其能够基于游戏内观察和体验演示来表示和推断玩家体验的转变。然而,正如在第5节中强调的,当前的LLMs在对话中捕捉用户意图方面存在困难——更不用说更模糊的概念,如玩家的情感或参与度[83]。目前关于游戏中情感的数据集被格式化为随时间波动的连续或分类变量[84],这在没有处理的情况下将是具有挑战性的。也许使用语言作为玩家模型的输入或输出需要一些创新的预处理或更先进的LLM技术,但基础的变压器体系结构和基于注意力的算法已经显示出潜力。论文期望有更多基于变压器的玩家建模的研究,例如利用行为变压器[85]来模仿按游戏风格分组的人类游玩路径[86]。

总的来说,论文相信在第3节中确定的LLM可能扮演的每个角色(或与游戏相关的角色)都能从更多的关注中受益。这项技术仍处于初期阶段,即将迎来变革,可能会解决论文在上述段落以及更详细地在第5节中确定的一些限制。自然语言的能力(特别是文本生成)使LLMs成为理想的对话助手(对于玩家、设计师、游戏主持人或流媒体者)。LLMs从文本语料库中获取和推理的能力也为自动设计打开了新的可能性,超越了基于瓷砖的级别生成(需要精心制作的语料库)

并更向开放式内容,如游戏叙述[87],[88],[89],[90],甚至游戏设计文档。许多该领域的传教士已经表达了LLMs在这方面的潜力,但对实现这些想法的实际研究以及解决它们可能引发的知识产权问题(见第6节)仍在进行中。

2.5、LLMs在游戏中的局限性

大型语言模型在视频游戏中有着激动人心的潜力,但也伴随着固有的限制。主要是,LLMs存在幻觉[32],[91],这意味着它们会输出似是而非的陈述,仅仅因为它们是一系列可能的词语。幻觉是不可避免的,因为机器对世界的描述[92];LLMs缺乏基础,因此它们生成的文本与现实的约束脱节。然而,LLMs总是在其回应中“行动”自信,即使完全错误。除了幻觉,LLMs还存在事实错误[93],[94],[95],即使LLM可以访问证明相反的信息,也会输出错误的响应。在视频游戏的背景下,这些限制对LLMs的某些应用产生了更大的影响,例如NPC可能会产生游戏中不存在的任务的幻觉,或者玩家助手可能会根据错误的假设向用户提供建议。

在使用LLMs进行视频游戏时的另一个限制是,LLMs有时难以捕捉用户意图。这在对讽刺的表达尤为明显[96]。捕捉用户意图的能力对于直接与玩家交谈的LLMs的应用至关重要。正确理解用户意图的LLM还能正确理解对话的上下文,而对于当前的LLMs来说并非总是如此。许多LLMs在正确理解用户请求方面存在错误[97],并多次向LLM澄清将导致用户的沮丧体验。这个限制与LLM直接与用户交谈的情况最相关,例如作为设计助手、玩家助手或游戏主持人。根据LLM输出对用户体验的控制程度(例如作为游戏主持人或为人类设计师提供制作辅助),无法捕捉用户意图可能成为导致沮丧的原因。

在更大的范围上,LLMs容易失去上下文,难以保持连贯性。这是因为LLM的“记忆”受其上下文大小的限制,这限制了其输入和输出的范围,以及由于注意机制引起的响应时间[10]。对话越长,LLM回忆早期事件的可能性就越小[98]。在视频游戏中,可以将游戏事件(参见第3.4节)分开总结,并将其作为LLM的输入的一部分进行处理。然而,随着游戏超过几个游戏会话,这个摘要可能仍然太长,或者逐渐忽略掉越来越重要的细节,导致性能下降。这对需要长期参与的角色尤其相关,例如由LLM支持的叙述者或游戏主持人。在"Infinite Craft"(见第3.6节)中,通过一个外部数据库处理这个问题,该数据库存储并查找过去的组合规则,确保在未来使用相同机制时保持一致。

然而,LLMs理论上可以直接解决这个问题。检索增强生成(RAG)系统[99]可以解决这个限制,从包含相关文本或数据的向量表示或其他潜在表示的数据库中检索。当文本生成器处理序列时,RAG系统将从这个外部数据源中检索类似的条目。这理论上将为LLMs提供一个简化的游戏事件和动作档案,供其查阅以生成一致的叙述进展。

另一个挑战是目前LLMs被训练成对用户的请求高度顺从。对于LLM作为助手来说,这并不是一个问题,但在扮演游戏主持人的角色时可能会出现问题。人类游戏主持人经常限制更奇异的玩家请求,这可能会大大偏离游戏叙述,或导致所需游戏事件序列的不可恢复的中断。一个LLM游戏主持人将尝试适应甚至最奇异的请求,对于任何预先确定的游戏事件的后果考虑不足。

最后,LLMs在实现和部署到视频游戏应用程序方面仍然非常有限。视频游戏是一个对玩家非常重要的领域,所以LLMs应该能够迅速提供响应。然而,尽管正在进行更高效和更快速的体系结构的研究[100],但LLMs的实时应用仍然不可行。这在其他领域,如设计应用程序,实时生成的响应需要在30秒到一分钟左右[101],尤为明显。

2.6、LLMs在游戏中的伦理问题

随着近年来应用于视频游戏的人工智能方法的改进,关于它们的伦理和对现实世界的影响的许多问题已经被提出[102]。使用LLMs会引发与可持续性、版权、可解释性和偏见相关的伦理问题。自然而然,这些问题在视频游戏领域都有着严重的影响。

LLMs对训练数据和训练时间的依赖引发了对它们的碳足迹的担忧。除了训练成本外,模型寿命内的推断由于持续的查询[103],[104]而对环境产生更大的影响。像可再生和本地能源、更好的模型架构以及更有意义(因此更少浪费)的训练数据等因素可以缓解这一问题。在LLMs用于数字游戏的背景下,考虑到在游戏过程中频繁查询的碳足迹(例如用于游戏主持人或NPC的响应,或者用于由LLM提供动力的玩家),可持续性仍然至关重要。特别是如果LLM旨在在通常由非可再生能源供电的消费者级硬件上运行。

在版权方面,问题适用于输入数据、输出数据和模型本身。基于受版权保护的数据训练的LLMs是一个不幸的常见做法[105],理所当然地引起了公众的愤怒[106],[107]。模型本身的版权许可有所不同,这也可能导致它们生成的作品属于公共领域[11],[108]。对于游戏行业来说,知识产权和版权问题至关重要。这不仅涉及公司的受版权保护的内容可能被竞争对手用作训练的问题,还涉及使用LLMs可能无法受版权保护的材料的问题。在这里需要注意的是,至少在后者的问题上,LLM扮演的角色是非常相关的。如果LLM或LMM自动生成内容(参见第3.7节),则美国法院的先前法律共识表明,该材料无法受到版权保护[109]。如果LLM或LMM充当设计师的“辅助工具”[110](特别是对于概念辅助,请参见第3.8节),那么将这些概念转化为游戏设计和游戏艺术所需的大量而有影响力的人工工作可能使最终产品成为可版权[110]。

然而,由于版权法庭在此方面的裁决有限,以及论文在自己的文本中包含的“可能”这一保留意见,可以理解为,游戏公司可能会因涉足未经测试的领域而犹豫不前,尤其是在大型游戏IP之外,例如小规模的独立制作[45]。然而,对于研究人员来说,侵犯版权和被大公司利用的伦理问题,以及对上述问题的公众抗议,让LLMs的研究显得不太受欢迎[111]。

在应用中,了解最终结果或产品是如何达到的是非常关键的,特别是当产品像设计助手一样进行迭代精炼时(参见第3.8节)。这是一个可解释性的问题[79],而LLMs在其生成过程中是 inherently opaque(不透明的)。在[112]中,作者们强调了改进语言模型可解释性的不同方法,例如基于概念的解释或显著性地图。特别是对于LLMs,通过链式思维(CoT)[113]推理应用的自我解释已经引起了研究界的关注[114],[115]。虽然这种方法为生成的输出添加了解释推理的层次,但文献中有多个例子证明这种推理可能只是推理能力的幻觉。这些例子包括在最终输出中忽略提供的推理[116],或者通过错误的步骤在数学问题中达到正确的解决方案[117]。在视频游戏中,可解释性在各种角色中都至关重要,确保游戏过程的连贯性和用户参与度。

最后,当LLMs在大型语料库上训练时,通常从(西方为中心的部分的)互联网中抓取,偏见就会出现。这使得模型能够捕捉当前现实的快照,这对于会话或问题回答模型是有利的,尽管需要从不同类型的偏见中策划这些数据。一些偏见,如社会刻板印象,可以被针对和缓解;其他一些,如排斥性规范,则带来更大的挑战。在与LLM互动时,在视频游戏中论文确定了两个主要问题:有毒行为和刻板印象或错误观念。有毒行为是一种语言模型可能从其训练语料库中学到的有害属性,该语料库通常包含来自社区论坛或社交平台的文本。在视频游戏中打击有毒语言的工具不断发展,甚至有一些在消息传递到用户之前阻止聊天消息[118],[119]。

因此,理论上可以开发类似的应用程序以针对语言模型的有毒输出。然而,与人类玩家不同,当LLM扮演NPC的角色时,它应该与游戏主题保持一致,避免任何形式的有毒语言或种族主义用语。这要求开发人员通过数据清理(如果模型是从头开始训练的)或提供定制数据(如果对其进行微调以满足其需求)来确保模型的适当行为。解决刻板印象和错误观念等偏见是复杂的,因为它们不一定与单个单词或表达相关,而是呈现为一组在最好情况下可能是错误的理念,而在最坏情况下可能是有害的。NPC LLM可能表现出可以对玩家体验产生负面影响的现实世界刻板印象,尽管论文认为,来自玩家评论员或游戏主持人的偏见影响更大且更令人不安,因为它们具有更强烈的感知权威。

论文标题:Large Language Models and Games: A Survey and Roadmap

论文链接:https://arxiv.org/pdf/2402.18659.pdf

查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved