在多机器人强化学习无地图导航的决斗网络中集中状态值

在多机器人强化学习无地图导航的决斗网络中集中状态值

首页休闲益智机器人MIX更新时间:2024-04-26

我们研究了流行的集中训练和分散执行(CTDE)范式中的多机器人无地图导航问题。当每个机器人考虑自己的路径而不明确地与其他机器人分享观察结果时,这个问题具有挑战性,并可能导致DeepReinforcement Learning(DRL)的非平稳问题。典型的CTDE算法将联合行动--价值函数分解为单个函数,以有利于合作和实现集中执行。这种因式分解涉及到限制因素(例如,单调性),限制了个体中新行为的出现,因为每个代理都是从一个联合行动值开始训练的。相比之下,我们为CTDE提出了一个新的架构,它使用一个集中的状态值网络来计算联合状态值,这被用来在代理人的基于价值的更新中注入全局状态信息。因此,每个模型考虑到环境的整体状态,计算其权重的梯度更新。我们的想法遵循决斗网络的见解,因为对联合状态值的单独估计既有提高采样效率的优势,又能为每个机器人提供全球状态是否有价值的信息。在一个有2-4个和8个机器人的机器人导航任务中的实验,证实了我们的方法比以前的CTDE方法(如VDN、QMIX)性能更优越。

《Centralizing State-Values in Dueling Networks for Multi-Robot Reinforcement Learning Mapless Navigation》

论文地址:http://arxiv.org/abs/2112.09012v1

查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved