深度强化学习核心技术开发与应用研修班（魔兽灾眼TD）

2022年数字信息化培训项目系列

关于举办“深度强化学习核心技术开发与应用研修班”的通知

各企、事业单位：

随着科技的快速发展,人工智能俨然成了当今社会的关注焦点。而在人工智能的发展上,深度学习、强化学习、迁移学习等成为了科学界、工业界研究和应用的热点。在实际研究和应用过程当中，研究人员逐渐发现了深度学习单独应用的缺点，如没有决策能力，不可推理等。而深度强化学习，作为一种崭新的机器学习方法,同时具有感知能力和决策能力，它是深度学习与强化学习的结合，二者的结合涵盖众多算法、规则、框架,并广泛应用于机器人、无人机、无人车、无人艇、兵棋推演、自动驾驶、能源分配、编队控制、航迹规划、路由规划等众多领域，具有极高的研究与应用价值。

为积极响应科研及工作人员需求，根据国务院《国家中长期人才发展规划纲要（2010-2020年）》和人社部《专业技术人才知识更新工程实施方案（2010-2020年）》文件精神，中国管理科学研究院现代教育研究所（http://www.zgyxdjy.com）联合北京龙腾亚太教育咨询有限公司特举办“深度强化学习核心技术开发与应用研修班”。本次培训采用全实战培训模式。

主办单位：中国管理科学研究院现代教育研究所

承办单位：北京龙腾亚太教育咨询有限公司、北京新鼎聚成文化传媒有限公司

注：发票由具体承办单位开具。

一、培训专家:

中国科学院计算技术研究所、清华大学、北京理工大学等科研机构和大学的高级专家，拥有丰富的科研及工程技术经验，长期从事人工智能、机器学习、深度学习、大数据分析等领域的教学与研究工作。

二、时间安排: 2022年7月29日-8月01日线上直播

（29日下发上课所需材料，7月30日-8月1日全天上课）

中国管理科学研究院现代教育研究所 北京龙腾亚太教育咨询有限公司

二〇二二年五月二十八日二〇二二年五月二十八日

三、参会对象：

各省市、自治区从事人工智能、机器学习、计算机视觉、自然语言处理、无人机、无人艇、无人车、机器人、智能体、多智能体、兵棋推演、自动驾驶、能源分配、编队控制、航迹规划、路由规划等领域相关的企事业单位技术骨干、科研院所研究人员和大专院校相关专业教学人员及在校研究生等相关人员，以及强化学习、人工智能广大爱好者。

四、培训目标：

1、了解强化学习发展。

2、掌握单智能体深度强化学习。

3、掌握多智能体深度强化学习。

4、掌握多任务深度强化学习。

5、掌握强化学习应用领域Gym Retro游戏平台、机器人控制、计算机视觉、自然语言处理。

6、实现Gym、Ray仿真环境。

7、实际体验Q Learning实验、DQN实验、DDPG实验。

五、费用标准：

1、4580元/人（含报名费、培训费、资料费、证书费）。

2、培训费由组织培训班的施教机构负责收取并提供培训发票。

3、报名成功后于一周内办理汇款手续。

4、报名5人以上可享受9折优惠。

5、参加线上培训学员可享受视频录播回放权益，及本人再次免费参加线下学习权益。

六、颁发证书：

参加相关培训并通过考核的学员，由中国管理科学研究院现代教育研究所颁发《深度强化学习开发与应用工程师》（高级）岗位认证证书，可通过官方网站查询（http://www.zgyxdjy.com），该证书可作为有关单位专业技术人员能力评价、考核和任职的重要依据。

注：请学员将电子版彩照（大于20KB，红蓝底皆可）、身份证复印件和学历证明复印件发送至258545206@qq.com

七、注意事项

1、指定报名邮箱：258545206@qq.com

2、报名成功后，会务组在上课前两天发放上课所需所有材料。

3、学员需自备电脑一台，配置win10、64位系统、8G内存、100G硬盘。

附件1：具体课程安排

时间安排

大纲

具体内容

实操案例

三天

关键点

1.强化学习的发展历程

2.马尔可夫决策过程

3.动态规划

4.无模型预测学习

5.无模型控制学习

6.价值函数逼近

7.策略梯度方法

8.深度强化学习-DQN算法系列

9.深度策略梯度-DDPG,PPO等

第一天

9:00-12:00

14:00-17:00

一、强化学习概述

1.强化学习介绍 2.强化学习与其它机器学习的不同

3.强化学习发展历史 4.强化学习典型应用

5.强化学习基本元素 6.强化学习算法分类

二、马尔科夫决策过程

1.马尔可夫性 2.马尔可夫决策过程

3.策略与价值 4.最优化原理

5.MDPs扩展

三、动态规划

1.动态规划 2.价值迭代

3.策略迭代 4.迭代策略评估

5.广义策略迭代 6.维数灾

1.python环境下简单扫地机器人环境

2.价值迭代python实现

3.策略迭代python实现

4.迭代策略评估python实现

四、无模型预测学习

1.蒙特卡洛方法 2.时间差分学习

3.n-步回报 4.TD(lambda)

5.资格迹

1.蒙特卡洛方法python实现

2.时间差分方法python实现

第二天

9:00-12:00

14:00-17:00

五、无模型控制学习

1.蒙特卡洛控制 2.Sarsa

3.重要性采样 4.Q-学习

4.Double Q学习 5.探索与利用

1. Sarsa方法python实现

2. Q学习方法python实现

3. Sarsa(lambda)方法python实现

六、价值函数逼近

1.函数逼近器 2.线性函数逼近

3.常见的特征表示方法

4.价值迭代离散化方法

5.Fitted Q Iteration

6.策略迭代最小二乘

7.预测学习随机梯度下降法

8.控制学习随机梯度下降法

1. 离散化Q迭代方法python实现

2. LSPI方法python实现

七、策略梯度方法

1.基于策略的强化学习

2.有限差分策略梯度

3.解析法策略梯度

4.REINFORCE算法

5.Actor-Critic

6.策略梯度引入基准

7.自然梯度

8.确定型Actor-Critic

1. 策略迭代方法python实现

2. actor-critic方法python实现

第三天

9:00-12:00

14:00-17:00

八、深度强化学习

1.Deep Q learning(DQN)

2.Double DQN

3.Dueling DQN

4.Prioritized Experience Replay

5.A3C/A2C

6.DDPG

7.PPO

8.SAC

1.深度强化学习训练场-OpenAI Gym 安装与使用

2.Pytorch安装与使用

3.自动驾驶赛车任务

4.月球飞船降落任务

实操解析与训练一

实验：倒立摆和冰壶控制实践

1.环境编写 2.算法设计 3.实验结果

高频问题：

如何将一个控制问题设计成马尔可夫决策问题并使用强化学习算法进行训练

关键点：

1.基于模型的离线强化学习方法 2.基于数据的在线强化学习方法

实操解析与训练二

实验：OpenAI Gym实践

1.Gym安装 2.Gym使用 3.强化学习

高频问题：

1.如何基于Gym实现强化学习训练与测试

关键点：

1.掌握马尔可夫决策过程 2.低维输入的强化学习方法

实操解析与训练三

实验：月球飞船降落任务

1.DQN/Double DQN/Dueling DQN 2.PER

高频问题：

1.深度强化学习网络训练稳定性 2.探索与利用

关键点：

1.经验回放技术的实现 2.目标网络更新

实操解析与训练四

实验：自动驾驶赛车任务

1.连续控制任务 2.策略梯度方法DDPG/PPO

高频问题：

1.适用于高维输入的连续控制任务的深度强化学习方法

关键点：

1.掌握DDPG和PPO具体编程实现

2.根据实际需求，选用合理的深度强化学习方法

联系人：郭莎莎报名邮箱：258545206@qq.com

关注“人工智能技术与咨询”，了解更多资讯！