射影模拟是什么?它在网格世界与山地车问题中有何应用?

射影模拟是什么?它在网格世界与山地车问题中有何应用?

首页休闲益智跳跃网格更新时间:2024-07-26

文|知识观察所

编辑|知识观察所

【前言】

投影模拟是一种智能代理模型,具有基于情景记忆的审议能力,该模型已被证明为构建强化学习代理提供了一个灵活的框架,并且它允许量子力学泛化,从而加快审议时间。

射影模拟代理已成功应用于机器人技术复杂技能学习和最先进的量子实验设计,人们研究了投影仿真在导航中的两个基准问题(即网格世界和山地车问题)中的性能。

将投影仿真的性能与标准表格强化学习方法、Q学习和SARSA进行比较,射影仿真和标准学习方法的性能在定性和定量上相似,而在射影仿真的情况下,选择最佳模型参数要容易得多,计算工作量减少了一到两个数量级。

结果显示,射影仿真模型在模型参数数量方面具有简单性,这使得在未知任务环境中设置学习代理变得简单。

【介绍】

射影模拟(PS)是一种代理和人工智能的物理方法,最初是在PS中引入的,而PS模型已成功应用于强化学习(RL)。

该模型还成功地用于量子物理问题领域:自适应量子计算和设计复杂的量子实验。

首先,内部审议动态完全基于图上的随机游走过程,这个过程在概率论和物理学以及随机算法的背景下得到了很好的研究,这使得在某些环境中更容易分析PS模型的收敛特性。

PS模型的随机内部动力学也强调了学习代理的物理实现而不是计算实现的可能性,此外,随机游走动力学的模拟对计算要求不高。

其次,PS模型中情景记忆的底层图结构使代理的决策可解释,这有助于识别量子实验中的有用工具,并在情景记忆中定义泛化概念。

PS方法为构建量子增强强化学习代理提供了明确的路线,该路线基于将PS代理内的随机游走审移动力学映射到量子游走动力学。

量子动力学允许量子并行处理,从某种意义上说,PS代理记忆中的激发以叠加态行走,与行为等效的经典PS代理相比,PS代理的量子漫步动力学导致审议时间的二次加速。

在物理系统中构建这些增强剂的可能性在物理系统中得到了理论证明,用于捕获离子和超导电路的量子系统。

使用基于俘获离子的小型量子信息处理器,通过实验证明了所描述的量子增强。

在标准和量子力学PS模型进步的同时,研究PS模型与其他学习模型的关系并对其性能进行基准测试非常重要。

这项研究能够确定PS模型的实际相关应用,并定义PS模型与其他机器学习方法相比的优势。

【PS模型】

PS是用于与任务环境交互的学习代理的框架,与任务环境的交互在图1中以示意方式可视化:代理从环境中接收感知作为输入(蓝色),并在处理该输入后输出一个动作。

(图1.与任务环境交互的PS代理的方案。PS代理处理剪辑网络中的感知信息。)

然后,环境通过提供特定奖励作为下一个输入的一部分来评估操作,PS与其他学习模型(例如Q学习和SARSA)的不同之处在于输入(感知,奖励)的处理方式。

PS代理处理片段网络中的感知(如图1底部所示),这些片段是情景记忆的单元,剪辑代表记忆的感知、动作或其某些序列,剪辑通过表示可能的过渡的定向边缘连接。

当PS代理收到感知的那一刻,对应于该感知的剪辑被激发,随后,激励在剪辑网络中以概率方式跳跃,直到它到达动作剪辑。

激励传播的示例路径以绿色突出显示,撞击动作片段的激励最终触发对环境的实际动作。

PS代理的学习是通过动态修改剪辑网络来实现的,既通过改变PS网络的拓扑结构,又通过调整边的权重来实现。

【网格世界问题中的PS基准测试】

网格世界问题是在迷宫中导航的问题,以考虑了大小的原始迷宫6×9如图2(a)所示。

(图2. (a)电网世界问题。代理总是在位置开始试验,然后在迷宫中行走。代理在其位置为时完成试用。)

尽管原始迷宫的尺寸很小,但在它的帮助下,可以评估RL算法的几个重要特征:处理延迟奖励的可能性以及收敛到每个时间步的最大奖励,网格世界环境由以下规则指定。

代理在每次试验开始时从网格的位置(3,1)开始,它可以决定向上、向下、向左或向右走一步,此决策将代理带到一个新位置,其坐标将在下一个时间步中感知。

如果代理碰到网格的边界或其中一面墙(图2(a)中的阴影位置),则代理的位置不会改变,但将计算时间步长,所描述的导航在代理到达网格的(1,9)位置(标记为星号)的那一刻结束。

代理移动到(1,9)位置后,它会收到 1的奖励,试用结束,代理从初始(3,1)位置开始下一次试用,代理在此问题中的性能由每次试验中执行的步骤数来衡量。

使用PS代理解决了所描述的网格世界问题,底层夹子网络的设计如图2(b)所示。

它由两种类型的剪辑组成:感知剪辑(蓝色)和动作剪辑(红色)。

(图2. (b)该网络由多达54个感知剪辑(蓝色圆圈)、4个动作剪辑(红色圆圈)和多达216个加权边缘组成。)

一开始,在第一次试用之前,只存在动作剪辑(左、上、右、下),在PS代理感知到其新的(x,y)坐标–创建一个新的感知剪辑,并通过具有初始权重的定向边连接到所有动作和零发光值。

实际上,此过程创建了一个具有感知层和操作层的两层PS网络,由于剪辑网络在网格世界问题中简单的两层架构。

在500次试验中模拟了网格世界环境中所描述的基本PS代理,每次试验都从将代理置于初始位置开始,到代理到达目标位置结束,或者达到试验中的最大步数。

(图3.PS代理在网格世界问题中的性能作为函数η两种类型的概率函数的参数。)

具有softmax概率函数的PS代理的性能,以及具有不同的值η图3中的参数表示存在最优η∈[0.20,0.25]定义大小的网格世界问题的参数范围。

如果网格世界的大小更大,那么最优η参数的值较低,因为最大试验数相同。

下部价值将导致更大的长度路径的术语,这应该在数量上与在具有最佳长度路径的较小网格世界中的术语。

换句话说,通过更改发光参数,可以将PS代理的性能调整到不同大小的网格世界环境,此外,发光机制提供了额外的灵活性,可以通过改变η参数,如图4所示。

(图4.PS代理对不同值的学习曲线η网格世界问题中的参数。)

图5(a)显示了网格世界环境中Q学习代理的仿真结果,在500次试验后确定了查找奖励网站所需的平均步骤数,针对参数。

首先观察到初始动作值Q(0) =1(图5(a)的右列)与以下值相比要好得多Q (0) =0.原因在于Q (0)使用奖励功能:大多数时候代理没有得到奖励,这使得探索操作的值降至零,并将探索的操作与未探索的操作分开。

在考虑第二个标准表格RL代理SARSA代理的性能如图5(b)所示。

(图5. (a)网格世界问题中的Q学习参数优化。(b)电网世界中的SARSA参数优化。)

性能对不同模型参数值的依赖性类似于 Q 学习情况,但对于非最优参数集,则略差,SARSA代理的最佳性能是实现的Q(0)=1 和ε=0 就像Q学习一样。

事实上,这使得两个模型等价于参数选择,因为方程(16)和等式(17)是等价的,因为策略是贪婪的。

图 3 和图 5 中分别针对 PS、Q 学习和 SARSA 的仿真发现的最佳参数值导致图 6中绘制的学习曲线。

(图6.网格世界问题中PS(蓝色),Q学习(红色)和SARSA(绿色)代理的学习曲线。)

这些学习曲线表明,所有三种类型的RL代理都会逐渐提高其性能,并通过每次试验14个步骤收敛到最佳行为。

更具体地说,PS以500.14的平均路径长度完成了第46次试验,Q学习和SARSA以14.00步完成,可以看到Q学习(红色)和SARSA(绿色)比PS(蓝色)更快地收敛到最短路径。

然而,这只有在广泛的参数搜索程序之后才有可能,包括检查4410种不同代理的性能,包括Q学习(见图5(a))和SARSA(见图5(b)),而PS只有81种不同的代理(见图3)。

【山地车问题中的PS基准测试】

山地车问题,最早是在PS中引入的,是现代基准框架的一部分。

智能体在每个时间步感知汽车的坐标和速度s(t)=(x(t), v(t)) ,并且能够通过在三个可用动作之间进行选择来控制汽车:向左加速、向右加速或不加速。

动作根据以下规则改变汽车的位置和速度。

PS在山地车问题中建立的削波网络如图7(b)所示,该网络类似于网格世界问题中的网络,由感知层(蓝色)和操作层(红色)组成,为了保持感知空间的有限性,将通过将位置和动量范围划分为20个相等的间隔来配对。

(图7. (b)该网络由多达400个感知剪辑(蓝色圆圈)3个动作剪辑(红色圆圈)和多达1200条加权边缘组成。)

PS代理在山地车问题中的性能作为函数η参数如图8所示。

(图8.在山地车问题中达到目标之前花费的平均步数,作为PS代理的辉光参数的函数。)

正如预期的那样,对于η=0,其性能与随机代理的性能相似,因为所有感知作用边缘从访问它们的时间开始在内部得到增强。

PS代理的最佳平均性能是在η=0.024,低于最优值η=0.2在电网世界问题中,这是因为山地车问题中最短的动作序列大约长10倍,并且需要更强的光芒才能记住较长序列中的第一个动作。

Q学习和SARSA算法的参数优化涉及更多,由于在山地车问题中优化参数需要比在网格世界问题中更多的计算时间,因此我们从μ和α值为ε=0.01和Q0=1。

可以看到,最优参数的区域是学习率所在α相对较小,这与α网格世界问题中的参数(见图9)。

(图9. Q学习(左)和SARSA(右)山地车问题中的参数优化。)

【总结与讨论】

投影仿真模型有两个基准测试,并对其进行了数值测试:网格世界和山地车问题。

在这两个问题中,强化学习代理的任务是在环境参数空间中导航–(Xaya)在电网世界环境和(Xavy)在山地车环境的情况下。

在这两个导航问题中,人们观察到PS代理在每次试验后都会提高其性能,通过选择辉光参数获得PS试剂的最佳性能η,负责在内部增强导致奖励的行动序列的权重。

在Q学习和SARSA的情况下优化参数的要求要高得多——在网格世界的情况下,它需要超过54倍的代理试验,在山地车问题的情况下需要41倍的代理试验,这是一个超过一个数量级的差异。

参考文献:

使用主动学习和创造力的自主机器人游戏的技能学习,2017年。

《使用超导量子比特的相干控制,》第5卷,2015年。

“使用超导量子比特的相干控制”,第5卷,2015年月。

如果你也喜欢我的文章,不妨点个“关注”吧!小生在此谢过了!

END

查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved