LLM Agent在交互中学习游戏世界模型和进化行为策略

LLM Agent在交互中学习游戏世界模型和进化行为策略

首页休闲益智进化世界免广告版更新时间:2024-05-09

目前,LLM Agent大多专注于特定任务

。研究者在了解该任务的领域知识后,手工编写大量复杂的Prompt,告知任务的规则并规范LLM 的输入输出的形式等。此外,大部分LLM Agent缺乏从

任务环境中学习的能力

, 他们无法通过与环境互动来提升自己的行为,从而更好地达成人类设定的目标。

因此当面对复杂的动态的环境

时,例如多人德州扑克、21点等大型非完美信息博弈游戏,LLM Agent给出的决策往往不够合理,不懂变通。那么, 在不调整模型参数的前提下,LLM Agent能否像人类一样,在复杂动态环境中学习并持续提升,从一个新手小白进化为一个熟练的专家呢?

针对这一问题,来自浙江大学, 中科院软件所等机构的研究者提出了Agent-Pro: an LLM-based Agent with Policy-level Reflection and Optimization,具备

策略级自我反思行为优化的LLM Agent。Agent-Pro 能够与游戏环境交互,学习游戏环境的世界模型,优化自己的行为策略,提升游戏技巧。

图1 Agent-Pro示意图

如上图1所示,Agent-Pro以LLM作为基座模型,通过自我优化的Prompt来建模游戏世界模型和行为策略。

研究者在多人德州扑克和21 点这两个广为流行的博弈游戏中进行了实验。结果表明,受益于持续优化的世界模型和行为策略,Agent-Pro的游戏水平不断提升,涌现出很多类似人类的高阶技巧: 虚张声势,欺诈,主动放弃等。这为多种现实世界的很多场景提供了可行解决路径。

论文题目:

Agent-Pro: an LLM-based Agent with Policy-levelReflection andOptimization

论文链接:

https://arxiv.org/abs/2402.17574

代码链接:

https://github.com/zwq2018/Agent-Pro

一、Agent-Pro是如何学习和进化

1.1 ????游戏规则

首先简要介绍下两个博弈游戏的基本规则。

????21点

????有限注德州扑克

1.2 ????学习和进化

Agent-Pro包括 “动态的信念--策略层面的反思--世界模型和行为策略优化” 这三个组件。

1.2.1 基于信念的决策(Belief-aware Decision-Making)

图2 基于信念的决策示意图

如上图,Agent-Pro根据环境信息,首先形成自我信念Self-Belief和对外部世界的信念World-Belief,然后基于这些信念Belief做出决策Action。在后续环境交互中,Agent-Pro动态更新Belief,进而使做出的Action适应环境的变化。

例如,????德州扑克游戏中:

1.2.2 策略层面的反思(Policy-Level Reflection)

图3 策略层面的反思示意图

与人类一样,Agent-Pro 会从历史经验、历史认知和历史结果中进行反思和优化。它自主调整自己的Belief,寻找有用的提示指令,并将其整合到新的策略Policy中。

首先Agent-Pro以文字的形式设计了一个对任务世界的建模以及对行为准则的描述, 他们一起被当做 Policy

其次,为了更新World Modeling和Behavioral Guideline,Agent-Pro 设计了一个 Policy-level Reflection 过程。与Action-level Reflection不同,在Policy-level的反思中,Agent-Pro被引导去关注内在和外在信念是否对齐最终结果,更重要的是,反思背后的世界模型是否准确,行为准则是否合理,而非单个Action。

例如,????德州扑克游戏中Policy-level的反思:

1.2.3 世界模型和行为准则的优化(DFS-based Policy Evolution)

图4 世界模型和行为准则的优化示意图

在Policy-level Reflection之上,面对动态的环境,Agent-Pro还采用了深度优先搜索(DFS)和策略评估,来持续优化世界模型和行为准则,从而找到更优的策略。

二、Qualitative Evaluation

以????德州扑克为例:

一次牌局中3个对手(DQN、DMC、GPT3.5)和Agent-Pro的手牌和公共牌如下图:

图5 牌型,两个字符组成,前方为4种花色:S,H,C,D,后方为大小

在当前游戏状态Current game state下,Agent-Pro分析得出Self-Belief、World-Belief和最终的Action。并随着游戏状态的变化,不断更新Belief,根据自身和对手的情况,做出灵活合理的选择。

图6 基于GPT4的Agent-Pro游戏过程(相同牌局同一位置的Baseline结果为-13)

以????21点为例,在同一手牌的情况下,对比实验中ReAct和Agent-Pro的差异。

如下图7所示,Agent-Pro通过分析得出Self-Belief和World-Belief,正确认识到自己的手牌已接近21点,合理的选择了停牌。而ReAct则未能及时停牌,导致最终爆牌,输掉了游戏。从游戏中能够看出Agent-Pro更好的理解了游戏的规则,并给出了合理的选择。

图7 基于GPT4的ReAct和Agent-Pro游戏过程

三、Quantitative Evaluation

如下图8所示,在21点游戏上,Agent-Pro在大多数LLMs中显著超过了Vanilla LLM和其他的 Agents。

图8 21点实验结果

在更为复杂的德州扑克游戏中,Agent-Pro不仅超过了基于LLM的基线代理,还击败了训练后的强化学习Agent,例如DMC。

图9 德州扑克实验结果,分别以4个玩家为一组进行对弈,第4位置为测试Agent

四、总结

在本文中,研究者开发了一种能够在交互环境中学习任务世界模型,优化自身行为策略的LLM-based Agent:Agent-Pro, 从而具备在复杂动态的环境中学习与进化的能力。

研究者聚焦于多玩家非完美信息的博弈:21点和德州扑克。受益于不断优化的世界模型和行为准则,我们观察到Agent-Pro的决策能力有了显著提升。

在现实世界的情景中,如竞争、公司谈判和安全等,大多可以抽象为multi-agent博弈任务。Agent-Pro通过对这类情境的研究,为解决众多现实世界的问题提供了有效策略。

作者:张文祺

来源:公众号【量子位】

Illustration From IconScout By 22

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。

社区上线500 期talk视频,3000 篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

>>> 添加小编微信!

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。

公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,

欢迎发送或者推荐项目给我“门”:

查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved