吴恩达-机器学习-S3W3学习笔记

吴恩达-机器学习-S3W3学习笔记

首页枪战射击机械战争3更新时间:2024-05-09

#科技快讯# 【20240301】《吴恩达-机器学习-S3W3-学习笔记》

日期:20240331

#AI输出 #产品经理 #AI学习

终于来到了系列课程的最后一周,强化学习。其实我觉得强化学习和人类学习在很多方面都挺像的,比如通过激励和惩罚来训练,比如未来的回报对于当下是有个折损的。想具体了解一下吗?我们一起来看看吧!

1. 【什么是强化学习】其实就是靠一个奖励函数告诉算法它的所作所为是对是错,增强正确的行为,减少错误的行为。你不需要指导算法如何做事,你只需告诉算法该做什么。

2. 【为什么需要强化学习】有些特定任务(比如操作机器人)很难收集到所有的数据和对应的操作来训练监督学习的神经网络(因为情况太多太复杂,而且很多操作没有唯一的答案),所以就需要强化学习。

3. 【累积回报(return)】就是奖励函数给出的一系列行为的累积回报。

4. 【折扣因子(discount factor)】就是衡量未来奖励对当前价值的影响,介于0至1之间。和未来资产折现是一个道理,意思是未来的100块钱在现在是不能当100块钱用的。

5. 【策略(policy)】是在特定状态下选择动作的规则函数。通过这几个概念,我们可以看出,强化学习就是找出获得最高回报的策略函数,并且计算回报时要考虑折扣因子。

6. 【马尔可夫决策过程(Markov decision process,MDP)】是在可观测的随机环境中做决策的情况。对于不可观测的环境,则不适用。

7. 【状态-行动价值函数(state-action value function)】也叫Q函数,Q(s,a):在状态S下,采取动作A,然后按照最优策略执行后,获得的回报值(return)。Q(s,a)=R(s) r*MaxQ(s’,a’):也就是在状态S下采取动作A能够获得的最大回报=状态S的奖励 进行动作A后的状态S’的最大Q函数*折扣因子。

8. 【训练Q函数的神经网络】神经网络的输入是当前状态 可行的动作,输出则是对应的Q值,也就是当前状态 采取相应动作所得到的累积回报值。如何获取训练数据呢?

- 第一步:先随机定义神经网络的所有参数,也就是给所有参数初始化(这时神经网络的Q函数结果很可能是错的)

- 第二步:给出大量(比如10000条)随机的状态和动作,根据Q(s,a)=R(s) r*MaxQ(s’,a’),计算这10000条状态和动作对应的Q值。这样我们就得到了10000条输入和输出的数据,用这些数据去训练之前随机初始化的神经网络,得到一个新的(参数发生变化的)神经网络Q函数。

- 第三步:重复上述过程,直到得到一个收敛的神经网络Q函数。

这种算法叫做DQN(Deep Q-Network,深度Q网络),其实就是不管对不对,我们先随机定义参数,然后通过Q(s,a)=R(s) r*MaxQ(s’,a’)的迭代过程不断修正参数,最后实现准确的参数。

9. 【DQN算法优化:ϵ-贪心策略(ϵ-greedy policy)】上述的训练数据计算中采用的是随机的状态和动作,而贪心策略,顾名思义,就是对于某个状态,选择能获得最大奖励的动作,也就是不再随机选择。这就像日常生活中,我们总是倾向于做能给自己带来最大收益的事情,所以也叫局部最优解。但是要注意,局部最优解并不一定是全局最优解,也就是说每次选择下一步最大收益的动作,最后可能得到的总体收益并不是最大的。所以这个策略引入了ϵ,即以一定概率选择贪心策略,剩下的概率则继续随机选择,ϵ被称为探索指数。为什么要设定一个比例呢?因为最开始的神经网络Q函数只是随机初始化的,如果一开始就一味追求最大化的行为,可能导致错上加错,一直无法纠正这个错误。一般来说,刚开始的随机性可以多一些,因为你的参数也是随机的。随着训练的进行,随机概率可以减少,因为经过训练后,你可能已经接近正确的模型参数了。

强化学习的主要内容就是以上所述,从原理上看很好理解,也和现实生活中的很多情景很相似,只不过每个人心中的奖励函数可能不同,有些人注重这个,有些人注重那个。但是具体实践中,选择状态参数,定义动作,确定折扣因子等方面还有很多难点存在。所以课程最后也指出了,在模拟环境中强化学习表现得很好,但在真实环境中会更具挑战。但是强化学习的潜力是巨大的!

吴恩达的《机器学习》系列课程的三个部分我们已经学习完成了。从开始的线性回归、逻辑回归和梯度下降,到进阶的神经网络、决策树和算法调参,再到最后的聚类、异常检测、协同过滤推荐、基于内容过滤推荐和强化学习等等。我们初步了解了AI技术的基础,但这当然还远远不够。如今AI发展迅速,新技术层出不穷,每个技术都有深入学习的东西。学无止境,让我们继续努力学习吧!

查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved