ChatGPT版模拟人生：大模型的007之旅｜智能渐近线（模拟人生移动版2023）

在打游戏时，玩家常常会注意到游戏中的NPC似乎过于天真和容易受欺骗，即使你偷走了商人的钱，他们仍然会感谢你。他们似乎总是不厌其烦地说同一句话，比如“我曾经也是个勇士，直到我膝盖中了一箭。”

这些NPC有一个专业的名称，叫做可信代理（believable agent）。可信代理的设计旨在提供一种真实生命的幻觉，并使他们在决策和自主行动的方式上呈现出一种真实感[1]。

随着游戏行业的发展，可信代理经历了多次更新和迭代。从早期的《质量效应》和《模拟人生》中使用基于规则的方法，通过有限状态机和行为树来刻画NPC的行为，到后来的《星际争霸》和《Dota 2》引入了基于学习（尤其是强化学习）的方法来创建AI电脑玩家。NPC的行为变得越来越智能，可以采取的行动也越来越丰富，不再仅受限于预先编写的脚本内容。

然而，人类的行为空间是广阔而复杂的[2][3]。这些可信代理虽然能够满足当前的交互需求和游戏内容，但与人类灵活、多变的真实行为模式相比，他们仍显得僵化和缺乏变通。

于是，今年4月，来自斯坦福和谷歌的研究团队有了一个大胆的想法[4]——“是否可以借助大模型打造一个反映可信人类行为的交互式人工社会？”而支撑这一想法的关键是，他们观察到大型语言模型从训练数据中学到了大量且多样的人类行为。

▷图 1：参考文献4。图源：arXiv官网

研究者们提出了一个基于大模型的可信人工代理架构。这一架构通过维护和提取“记忆”，并采用“记忆-反思-计划”的架构来操控代理，从而使其更好地模仿出可信的人类行为。

Smallville——人工代理的小镇生活

为了展示大模型版人工代理的可用性，研究者设计了一个小镇沙盒游戏——Smallville，并把这些代理实例化成小镇中的角色。

▷图 2：Smallville的多层级地图。图源：参考文献4

Smallville是一个有着25个人工代理的社区，每个“人”都有着自己的身份描述，包括他们的职业以及与其他代理的关系。这些描述将作为人工代理的初始记忆输入给大模型。

▷图 2：Smallville的多层级地图。图源：参考文献4

这些代理会与环境互动，也可以通过自然语言与其他代理进行交流。在每个沙盒引擎的时间步*，代理都会使用自然语言输出来描述其当前操作，例如“伊莎贝拉正在写日记”，或者像图4中那样进行对话。

编者注：

时间步（time step），是指前后两个时间点之间的差值。在过程模拟中，模型将整个过程离散为iV个细小的过程，而每一步需要的时间就是AT，即时间步。在模拟系统的时间响应时往往需要设定时间步长，时间步长的大小一般取决于系统属性和模型的目的。其绝对值越大，计算时间越少；其绝对值越小，计算时间越长，模拟就越精细，过程越复杂。

▷图 4：代理之间的对话。图源：参考文献4

Smallville拥有许多常见设施，包括咖啡馆、酒吧、公园、学校、宿舍、住宅和商店。此外，还定义了许多不同功能的房间和物体，例如住宅中的厨房和厨房中的炉灶。代理们可以通过他们的行动来影响环境，比如当代理正在睡觉时，床可能会被占用。此外，代理还会对环境的变化作出反应，例如，如果将伊莎贝拉的淋浴设施状态设置为“漏水”，她将前往客厅取工具并尝试修复漏水。

小镇居民的“一天”从一段身份描述开始。随着沙盒世界中时间的流逝，他们的行为会随着与其他代理和环境的互动而不断演化，建立记忆和关系，最终影响他们的行为。

有趣的是，研究者们发现，即使在没有预先编程的情况下，Smallville中的代理们也会进行一些自发的社会行为，比如交换信息、建立新的关系，并协同进行活动。

首先，随着时间的推移，信息会通过代理之间的对话传播。例如，山姆告诉汤姆他想参加选举（图5左），然后在某一天，汤姆会与约翰讨论山姆的选举成功的可能性（图5右）。渐渐地，山姆的选举会成为全城的热门话题，一些人会支持他，而另一些人还没有下决定。

▷图 5：信息传播。图源：参考文献4

其次，代理之间会建立新的关系，并记住他们与其他代理的互动。例如，山姆一开始不认识拉托亚，在某次散步中遇到了她并进行了自我介绍，然后在下次遇到时，山姆会主动提起上次拉托亚提到的摄影项目。

最后，代理之间存在复杂的协同作用。例如，伊莎贝拉想办一场情人节派对，她会请求朋友玛丽亚帮忙，而玛丽亚会邀请她喜欢的克劳斯参加派对，最终他们以及另外的五名代理都会出现在派对上。而这一过程中，研究者只设置了伊莎贝拉举办派对的初始意图和玛丽亚对克劳斯的迷恋。消息传播、装饰、邀请、到达派对以及在派对上的互动社交行为，都是由代理自发发起的。

人工代理的架构设计

研究者的目标是为开放世界中的代理行为提供一个框架，一个可以与其他代理进行互动并对环境变化做出反应的框架。人工代理将当前环境和过去经历作为输入，然后利用大模型生成行为作为输出。

为确保代理行为的长期一致性，研究者设计了一个“记忆-反思-计划”的架构来引导代理的行动。他们维护了大量的事件和记忆流，确保在需要时检索和合成代理记忆中最相关的部分。这些记忆会被递归地合成为更高层次的反思，从而指导代理的行为。

▷图 6：人工代理的架构。图源：参考文献4

（一）记忆

为了确保记忆的全面性，研究者维护一个内存流，记录一个代理的所有经历。每一段经历都包括自然语言描述、创建时间和最近访问时间。这些记忆包括代理自身的历史行动、感知到的其他代理的行动以及对世界的感知。例如，咖啡店工作的伊莎贝拉的记忆会包括“伊莎贝拉正在摆放糕点”、“玛丽亚在一边喝咖啡一边准备考试”以及“冰箱是空的”。

相对于人类，人工代理的记忆能力无疑更为精确和持久，但过多的记忆可能会让大型模型变得混乱。为了有效地检索与当前情境最相关的记忆，研究者设置了三种评分来协助检索：

1. 新近度评分：赋予最近的记忆较高的分数，并随着时间逐渐衰减。

2. 重要性评分：这个评分取决于代理对每段记忆的重要性评价。研究者让代理对每一段新的记忆都进行评分，从而区分核心记忆和一般记忆。

3. 相关性评分：这个评分依赖于不同记忆与当前情境的相关程度。例如，如果一个代理正在与同学讨论化学测试，那么关于老师授课内容的记忆就远比“早上吃了什么”更为相关。

通过对这三种评分的加权求和，人工代理会在每种情况下选择最相关和最重要的记忆输入给大模型，从而辅助决策过程。

▷图 7：人工代理的记忆流。图源：参考文献4

（二）反思

上述的记忆模块代表了代理对自己、世界和他人的观察。但仅有观察是不够的，记忆还应当包括反思，即代理的思考历史。这种反思是确保代理能够更全面地理解和适应不同情境的重要部分。

举例而言，如果用户问克劳斯“你愿意和谁共进晚餐”，如果只有观察记忆的话，克劳斯的回答可能是“沃夫冈”，因为他是与克劳斯互动最频繁的人，尽管每次互动都只是擦肩而过。但如果加入了反思模块，让克劳斯从“沉迷科研”这一观察记忆中意识到自己对科研的兴趣，以及意识到玛丽亚在自己的科研中的努力和他们之间的共同兴趣，那么克劳斯可能会得出一个完全不同的答案——“玛丽亚”。

研究者设计了一个“两步走”反思模块。第一步是“提问”，代理根据最近的100条记忆向自己提出5个最重要的问题（如图8所示）。第二步是“回答”，代理根据这些问题生成反思结果，并将这些结果存储在记忆池中。

▷图 8：反思的第一步——“提问”。图源：参考文献4

这一模块的精妙之处在于，代理可以将反思结果与新的观察记忆结合，进行更高级别的反思和抽象。最终，代理会生成一颗反思树——树的叶节点代表基本观察，非叶节点代表思想，树的位置越高，就越抽象和高级。这些高级反思可以帮助大模型更准确地理解记忆和角色。

▷图 9：反思树。图源：参考文献4

（三）计划

为了确保人工代理可以保持长时间内的行为一致性，研究者赋予了代理制定计划的能力，以避免像在12点吃完午饭后立刻在13点再次吃饭的情况发生。

计划描述了代理未来的行动顺序，例如，“穆勒计划在房间里画画，持续3个小时”。这种较长时间的计划有助于代理的行为随着时间的推移保持一致。从初始计划出发，代理会自上而下地分解计划，逐步生成更多细节，如“花必要的时间收集材料、混合油漆、休息和清理”。这些计划会存储到记忆流中，与反思和观察一起影响代理的行为。

▷图 10：提示代理生成计划。图源：参考文献4

当然，代理并不总是一成不变地遵守计划，而会根据当前情况实时做出反应。举例来说，如果穆勒正在画画时看到父亲进入房间，这一新的“观察记录”会传递给大模型，综合考虑反思、计划，然后决定是否需要暂停计划来做出相应的反应。

一旦穆勒开始与父亲对话，他们会检索对彼此的记忆以及当前对话的历史，然后生成对话内容，直到一方决定终止对话。

实验

研究者的实验主要集中在两个问题上：第一，人工代理是否能够正确地检索过去的经验并生成可信的计划、反应和思考，以塑造他们的行为？第二，代理社区内能否形成信息传播、关系建立和多人协同这三类自发社会行为？

（一）受控实验

为了验证问题一，研究者对代理进行多方面的采访，以评估代理的自我认知、记忆、计划、反应和反思能力。

1. 自我认知采访：研究者要求代理进行自我介绍或概括描述他们的工作日程，以检查代理是否能够识别自己的核心特征。

2. 记忆能力采访：研究者要求代理从记忆中检索特定事件或对话以正确回答提出的问题，例如“谁是山姆？”或“谁在竞选村长？”

3. 计划能力采访：研究者询问代理的长期计划，例如“明天上午10点你会做什么？”

4. 反应能力采访：研究者提出一些假设情况，然后询问代理的反应，例如“你的早餐烧焦了！你会怎么办？”

5. 反思能力采访：在这类采访中，研究者提出问题要求代理通过更高层次的推理来深入了解他人和自己，例如“如果你要花时间与最近遇到的一个人在一起，那会是谁，为什么？”

这些采访有助于确定代理是否能够维护自我认知、正确检索记忆、制定计划、做出反应和进行深思熟虑，以塑造他们合理且拟人化的行为和决策。

▷图 11：采访结果反映的代理可信程度。图源：参考文献4

研究者雇佣了100位实验人员来评估采访结果，并对采访结果的可信度和合理性进行量化分析。研究结果表明，拥有完整的“记忆”、“反思”和“计划”三个模块的代理能够产生最合理的回答，其可信度甚至可以超过真实人类。而当代理缺少其中任何一个或多个模块时，其可信程度会显著降低。

值得注意的是，尽管人工代理表现得十分可靠，但他们的记忆并非没有缺陷。例如，“汤姆”一方面确信自己需要在情人节派对上谈论选举的事，但同时又声称自己不知道情人节是否有派对。

此外，人工代理也有可能捏造事实。比如，当被问及伊莎贝拉是否知道山姆参加选举的事时，伊莎贝拉会正确地回答知道，但会额外补充说“他会在明天宣布”，而这一信息在之前的交谈中并未出现。

（二）端对端实验

为了观察代理社区中的自发社会行为，研究者将25位代理放入沙盒Smallville中，并持续运行了两个游戏日。

研究者发现，人工代理会自发地传递消息并进行协同工作。在运行开始之前，研究者设置了两条关键信息，即“山姆要竞选村长”和“伊莎贝拉要举办情人节派对”，然后在两天之后观察这两条信息的传播情况。结果显示，最初只有这两位代理自己知道这些信息，但在两天之后，分别有8人和13人获悉了这两条信息。两天之后，共有5位代理参加了情人节派对，同时有12位代理受到了邀请，这显示出代理之间的协同举办派对的能力。

此外，人工代理社区在模拟过程中自发地形成了新的关系。研究者对代理之间的关系网络复杂性进行了量化。他们发现，两天内网络密度从0.167增加到0.74。

▷图 12：人工代理关系网。图源：参考文献4

从人工代理到人类代理——第一系统思维

上个月，来自华盛顿大学的研究人员指出，与人工代理不同，人类思考时不仅考虑外部环境，还会考虑内在感受[5]。这两种思维方式对应了人类两种互补的思维模式。

▷图 13：参考文献5。图源：arXiv官网

Kahneman认为[6]，人类有两个互补的思维过程。第一系统是直觉的、轻松的、即时的，而第二系统是逻辑的、有意的、缓慢的。人工代理主要专注于第二系统思维，而忽略了第一系统。

为了更好地引导人工代理的行为，华盛顿大学的研究人员引入了第一系统中可以影响其行为的三个方面：基本需求、情感和社会关系的亲近程度，以实现人工代理向人类代理的升级。

具体而言，基本需求指的是人类内在的生存需求，包括饮食、社交、娱乐、健康和精力等方面。如果这些需求无法得到满足，代理将会受到负面反馈，例如孤独、疾病和疲劳。因此，代理会自发地采取行动来满足这些需求，而不仅仅遵循刻板的日常计划。

情感也是真实人类行为模型中的关键因素[7]。如果代理感到愤怒，他应该能够通过采取一些有助于释放情感的行动来做出反应，比如跑步或冥想。

此外，代理之间的社交关系的亲近程度也应该影响他们之间的互动方式。社会大脑假说认为，我们的认知能力在很大程度上是为了跟踪社会关系的质量而进化的[8]，这意味着人们经常会根据与他人的关系来调整与他人的互动方式[9]。为了更好地模仿人类行为，研究者让代理能够根据彼此之间的关系亲近程度来调整他们的对话和互动方式。

▷图 14：结合第一系统思维的人类代理。图源：参考文献5

研究者在斯坦福大学提出的人工代理架构的基础上，引入了第一系统思维的反馈（如图14所示）。他们使用数值来衡量五项基本需求和关系亲近程度，同时定义了七种情绪。

在初始化阶段，每种需求都被设定为中性值（中间值或者中性情感词汇）。在每次代理采取行动之前，代理会考虑是否需要满足某种需求，并在行动结束后评估是否满足了特定需求，从而动态调整需求值（比如对话结束后代理会根据对话是否愉快调整关系亲近度）。此外，一些需求的值会随着时间的推移而变化，比如饮食需求会随着时间而下降。

人类代理是否能理解第一系统的各种需求，并顺利对其做出合理的反应呢？研究者针对这两个问题进行了一系列实验。

实验表示，人类代理基本能够理解各种行动对需求的影响，但对于“娱乐”和“健康”这两种需求对应的行为，代理的辨别能力较差。比如，代理会认为医生给患者用药也会增加医生的健康度。

此外，实验证明，研究者将各种需求值设置为零时，代理会自发地进行相应的行动来满足需求。有趣的是，设置为负面情绪时似乎比积极情绪对代理人的影响更大，影响最大的是愤怒，其次是悲伤和恐惧，幸福影响最小。

关于亲近度的实验发现，随着关系亲近程度的增加，对话频次呈现倒U型。不太亲近和非常亲近时对话最多，相对亲近时因为不需要客套的寒暄，反而降低了对话次数。

此外，当亲密程度较高时，具有积极情绪的对话比例通常会下降，这类似于当人们与他人非常亲密时，会觉得不需要赞扬他人来获得他人的喜爱。当然，当代理之间比较疏远时，对话的积极程度同样会下降。

通过加入第一系统思维，研究者使人工代理更接近人类的行为和思维方式。代理能够更好地理解和满足基本需求、情感和社会关系，从而更准确地模拟人类行为。

总结

虽然人类代理看似接近人类行为，但仍然存在不少不合理之处。研究者发现，随着模拟时间的延长，人类代理的不合理行为逐渐增加。此外，他们在理解常识方面存在缺陷，偶尔会犯一些“闯入单人浴室因为误以为浴室都是多人的”等错误。

实验还表明，人类代理可能缺乏独立的人格。过度的协同作用可能导致代理的一些人格特质被重新塑造，包括兴趣爱好等。

此外，应用人类代理技术时需要认真考虑伦理问题，包括错误的严重影响和用户对代理的过度依赖等问题。

尽管如此，人类代理迈出了实现“借助大模型打造一个反映可信人类行为的交互式人工社会”的第一步。他们通过综合第一系统和第二系统思维，结合记忆、计划和反思的能力，相对准确和可信地模拟人类行为。这一进展对于游戏行业、人机交互领域以及智能社会学的研究都具有重要意义，为未来的研究和应用提供了新的方向和可能性。

参考文献：

[1] Bates J. The role of emotion in believable agents[J]. Communications of the ACM, 1994, 37(7): 122-125.

[2] Mark O. Riedl. 2012. Interactive narrative: A novel application of artificial intelligence for computer games. In Proceedings of the Twenty-Sixth AAAI Conference on Artificial Intelligence (AAAI’12). 2160–2165.

[3] Georgios N. Yannakakis. 2012. Game AI revisited. In Proceedings of the 9th Conference on Computing Frontiers. ACM, Cagliari, Italy, 285–292.

[4] Park J S, O'Brien J C, Cai C J, et al. Generative agents: Interactive simulacra of human behavior[J]. arXiv preprint arXiv:2304.03442, 2023.

[5] Wang Z, Chiu Y Y, Chiu Y C. Humanoid Agents: Platform for Simulating Human-like Generative Agents[J]. arXiv preprint arXiv:2310.05418, 2023.

[6] Daniel Kahneman. 2011. Thinking, fast and slow. Farrar, Straus and Giroux, New York.

[7] Paul Ekman. 1992. An argument for basic emotions. Cognition and Emotion, 6(3-4):169–200.

[8] R.I.M. Dunbar. 2009. The social brain hypothesis and its implications for social evolution. Annals of Human Biology, 36(5):562–572.

[9] W.-X. Zhou, D. Sornette, R. A. Hill, and R. I. M. Dunbar. 2005. Discrete hierarchical organization of social group sizes. Proceedings of the Royal Society B: Biological Sciences, 272(1561):439–444.

查看全文