【LLM】战争与和平(WarAgent)：大模型的世界大战多智能体模拟（人类战争模拟手游）

一、结论写在前面

论文的目标为：作为理解国际冲突动态、可靠性的工具，论文展示了基于 LLM 的多智能体 AI 系统原型设计和分析复杂人类行为的能力。比较各种战争正当性设置，论文的实验显示，即使是最小或“无”的触发因素也可能演变为类似冷战的情况，这突出了向战争不可避免地发展的性质。这一点在战争必然性实验中得到了进一步的支持，通过对国家设置的反事实改变，这意味着国家政策的偏差对避免走向冲突至关重要。

这些发现强调了在给定一系列情况下冲突的确定性质，但也指出了战略性地修改国家政策或关系作为改变这些看似注定的结果的一种手段的潜力。论文也认识到当前框架在全面捕捉国际关系的复杂性方面的局限性，这也是未来研究的方向。

图1:第一次世界大战模拟设置演示

1.1 论文限制

WarAgent 是第一个模拟历史事件的基于 LLM 的多智能体系统(MAS)。这种模拟试图捕捉影响整个历史外交互动的复杂因素网，但必须指出，论文当前的模型没有涵盖这些复杂性的完整范围。目前，论文在准确复制历史外交的细微动态方面面临许多挑战。以下几点概述了一些这些关键限制：

(1)一个重要方面是不同国家之间的通信技术的差异，导致消息传输的时间滞后。从历史上看，派遣大使是个费时的过程，持续时间根据距离而有很大差异。这一因素在塑造外交关系方面发挥了关键作用，因为消息交付的时间可能会影响外交交流的结果。

(2)此外，间谍活动增加了另一层复杂性。在历史背景下，间谍经常被部署以拦截和破译消息，不同国家在这方面取得不同程度的成功和曝光。这一方面影响了国家之间信息的流动和完整性。

(3)另一个关键因素是消息公开程度的不同水平。与我们当前模型中的私密和公开消息的二元区分不同，历史外交沟通存在一个公开性光谱，受各种战略和情境因素的影响。

(4)最后，各国动员军队的能力存在很大差异。不同国家准备军事力量的能力和时间表也不相同。这种差异可能会对战争宣言的时机和可行性产生关键影响，从而对国际冲突和关系的进程产生重大影响。我们当前的模拟框架可能没有完全考虑到这些细微和时间敏感的过程。

1.2 论文研究前景

WarAgent 标志着将基于 LLM 的 MAS 系统应用于模拟和检查复杂人类社会行为(特别是在历史和国际关系环境下)的研究开始。这一进步揭示了历史模拟的潜在应用远远超出 WarAgent 系统本身。论文建议几个未来探索的途径：

1.2.1 基于回合的vs基于时间的模拟(Round-based vs. Time-based Simulation)

目前，论文的框架运作在一个基于回合的系统上，意味着同步模拟而不是异步模拟。在这种格式下，每个国家智能体在每一轮向任何其他国家智能体的交流限制为单向。然而，历史事件的发展往往是异步的，不同国家之间的交流和活动频率各异。

虽然论文的系统允许代理选择“不采取行动等待”，提供异步交互的初步表示(即某些国家比其他国家更活跃)，但这种机制未能捕捉历史交流模式的复杂性。例如，在第一次世界大战爆发前，奥匈帝国和德意志帝国进行了密集的私人交流，然后向塞尔维亚宣战，这种交互细节的层次是我们当前模型无法充分复制的。通过开发更细致的基于时间的模拟方法来解决这一限制，可以显着提高我们的历史模拟的准确性和深度。

1.2.2 停止标准(Stopping Criteria)

历史模拟本质上体现了一个顺序的、潜在无止境的过程，反映时间的连续流动。在论文的研究背景下，论文没有实现一个预定义的条件来系统地终止模拟。相反，论文依靠观察分析来断定是否会在大约5到10轮内发生某个特定事件，这事实上作为最终点。

尽管如此，建立系统地终止模拟的标准仍然是一个有吸引力的研究问题。一个可行的方法是应用“板块连接性”。这种方法涉及当代表不同代理的所有板块成为连接图的一部分时结束模拟，并且这种配置在预定数量的回合内保持不变。

此外，其他标准可能包括实现某个特定的历史结果或代理交互在某些参数内的稳定。例如，模拟可以设计为在预先建立的和平条约签署时结束，或者当参与代理之间达到一定程度的经济或军事平衡时结束。这种标准不仅为模拟提供明确的结论，而且还可以提供有价值的洞察，了解导致这些结果的动态和条件。

探索这些各种停止标准可以更深入地理解复杂的历史事件相互作用，并从影响历史变化的因素的更细致的角度提供一个更加细致的视角。这种探索反过来可以增强我们的模拟模型的预测能力，使更准确和深入的历史分析成为可能。

1.2.3 新的研究问题

该项目回答了基于LLM的MAS是否可以模拟历史事件和国际冲突的问题，并提供了相关的反事实分析。在这一核心调查之外，许多其他研究查询从历史动态的独特视角提供独特的视角。例如：

外交交流与冲突可能性之间的相关性：一个有趣的问题是外交交流的增加与冲突可能性的降低之间是否存在相关性。这一方面可能涉及检查历史场景，其中加强的外交对话要么预示着和平，要么未能防止战争。该模拟可以分析交流模式、外交交流的语气和内容以及它们对降低潜在冲突的影响。
非国家行为体在地缘政治动态中的影响：此外，非国家行为体(如跨国公司或恐怖组织)对地缘政治动态的影响也可以是一个重要的研究领域，特别是在现代历史背景下。
各种国际条约和协定在解决长期争端方面的有效性：模拟还可以用于评估各种国际条约和协定在解决争端以及这些协定成立或失败的条件方面的有效性。

这些问题可以用基于 LLM 的 MAS 定量地解决，这可以极大地促进我们对塑造历史事件的复杂因素互动的理解，并提供一个更全面的工具来分析过去和潜在的未来场景。

二、论文的简单介绍2.1 背景

大型语言模型(LLM)的出现，我们正站在计算社会科学研究范式转变的临界点。论文开发了一个新颖的基于LLM的多智能体系统(MAS)框架，专门用于历史事件的模拟。通过创建一个动态环境，各国智能体在其中具有历史人物的特征和决策过程，进行冲突或合作，可以探索可能塑造过去国际冲突演变的大量可能性，这些冲突建立了当前的全球秩序。

论文以多种方式为探索这些古老的难题提供了途径，这些难题是人类安全和战争的核心。战争和和平是历史硬币的两面，塑造了人类叙事千年。冲突和合作之间的互动往往难以预测，它由各国的各种动机、策略和决策塑造。理解战争的机制有潜在可能性开辟持久和平的策略。通过历史分析研究冲突的传统方法虽然令人欣慰，但由于其静态性质和事后诸葛亮的偏见而本质上受到限制。

在社会科学中应用模拟具有丰富的历史，但这些模拟的保真度和范围已经发生了巨大的变化。早期的尝试通常受到计算能力和简单模型的限制。与此形成对比，最新的模拟采用了LLM，可以模拟复杂的行为和互动，如人类行为的虚拟城镇模拟、狼人*游戏模拟、拍卖竞技场模拟和复杂任务解决模拟。这些方法为使用AI模拟更复杂的系统奠定了基础，如国际关系和冲突。

2.2 论文的方案

然而，还没有研究如何将这些高级技术应用于模拟国际外交和战争的细微和多方面的性质，这就是论文的研究定位自己的地方：论文旨在建立第一个基于LLM的多智能体系统的历史事件模拟。

论文核心是对传统历史冲突理解的关键问题。通过回答以下三个问题，我们的研究利用第一次世界大战(World War I，WWI)、第二次世界大战(World War II，WWII)和中国古代的战国时期(Warring States Period，WSP)的微观视角来洞察国际冲突的动态。研究问题包括：

• RQ1，模拟有效性：LLM基础的多智能体系统模拟可以多有效地复制战略计划和决策过程的历史演变?

• RQ2，战争正当性：某些战争的触发因素是否比其他的更关键，并且这些触发因素是否可以通过基于LLM的多智能体系统模拟来识别?

• RQ3，战争必然性：历史的“必然”真的不可避免吗?我们试图通过基于LLM的多智能体系统模拟来揭示导致战争(或和平)的条件。

首先，论文关注模拟有效性。模拟对现实世界事件的保真度是其有效性和实用性的基石。在基于LLM的多智能体模拟的背景下，这个研究问题针对模型可信度的核心。通过比较论文的模拟结果与记录的历史事件和趋势，可以测量模拟的准确性。只有一个维持有效性的系统才能促进全面的分析并解决后续的研究问题。

战争正当性，或战争的起因，是学习国际关系的永恒难题。通过这个研究问题，论文的目标是隔离和分析战争的各种触发因素，以确定某些触发因素在引发冲突方面是否比其他触发因素更具决定性。通过迭代模拟，基于LLM的模型允许我们检查无数的场景和变量，提供一个受控环境来观察不同战争正当性的后果。了解不同触发因素的相对权重可以告知政策制定者和历史学家，为预防冲突和管理国际危机提供新的见解。

战争必然性这个问题切中了历史决定论与或然论观点的要害。通过探索“历史必然性”，实际上在问某些战争是否注定会发生，或者它们是一系列独特汇聚的情况的结果，这些情况本可以避免。论文的模拟为在关键条件和决策过程中进行变化的历史“重播”提供了一个独特的机会，以查看是否可能实现其他结果。这可以加深我们对国际关系中结构和代理之间复杂相互作用的理解，并为历史决定论的更广泛辩论做出贡献。