通过学习模型进行规划以掌握Atari，Go，象棋和将棋（象棋对战模拟器）

阿尔法狗围棋

长期以来，构建具有计划能力的代理一直是追求人工智能的主要挑战之一。基于树的计划方法在具有挑战性的领域中取得了巨大的成功，例如国际象棋和围棋，那里有一个完美的模拟器。但是，在现实世界中，控制环境的动力学通常是复杂且未知的。在这里，我们介绍了MuZero算法，该算法通过将基于树的搜索与学习的模型相结合，可以在一系列具有挑战性和视觉复杂的领域中实现超人的性能，而无需了解其基本动态。MuZero算法学习一个可迭代的模型，该模型可产生与计划相关的预测：动作选择策略，价值函数和奖励。在57种不同的Atari游戏上进行评估时，这种标准的视频游戏环境是用于测试人工智能技术的标准视频游戏环境，在这种环境中，基于模型的计划方法历来难以应对MuZero算法达到了最先进的性能。当在围棋，象棋和将棋等高性能计划的典型环境中进行评估时，MuZero算法在不了解游戏动力学的情况下，将游戏规则提供的AlphaZero算法的超人性能匹配。

更多信息请私信。

大家还看了

也许喜欢

更多游戏