机器学习的根源来自IBM工作了20年的亚瑟·塞缪尔教计算机玩跳棋

机器学习的根源来自IBM工作了20年的亚瑟·塞缪尔教计算机玩跳棋

首页休闲益智抛球获胜者更新时间:2024-06-15

无论是牙科领域还是小提琴演奏领域,人们都能通过学习提升专业技能。牙科学校的学生在修复牙齿方面变得日渐精通;而在纽约市茱莉亚学校学习的小提琴家,经过多年的培训,可以演奏出艺术性更强的莫扎特小提琴协奏曲。

类似地,机器学习也是一个过程,在这个过程中,计算机通过阅读训练数据提炼意义。在研究早期,我们提出了一个问题:机器可以思考吗?如果发现计算机能够执行学习所需的分析推理的算法,那么这将对解决这个问题大有裨益——因为大多数人认为学习是思维的一种重要组成部分。

此外,毫无疑问,机器学习有助于克服人类在知识和常识方面的瓶颈,而我们认为这些瓶颈会阻碍人类层次人工智能的发展,因此许多人将机器学习视为人工智能的梦想。

机器学习:简要概述

机器学习的根源可以追溯到亚瑟·塞缪尔(Arthur Samuel)。他在IBM工作了20年(从1949年开始),教计算机玩跳棋。他所编写的程序用的是填鸭式学习,即程序将记住以前游戏中的好走法。更有趣的是,他的跳棋游戏程序中整合了策略。Samuel通过访问人类跳棋选手,获得了对跳棋的深刻见解,并将其解植入程序中。

为了能够增强在某些游戏中的博弈能力,人们会反复玩这个游戏。同样,Samuel也有不同版本的程序互相竞争。博弈的失败者将从获胜者那里学习并获得启发式。

下面列出了五大机器学习(ML)范例。

(1)神经网络。

(2)基于案例推理。

(3)遗传算法。

(4)规则归纳。

(5)分析学习[2] 。

隐喻就是打比方,将两个事实上不同的事物进行互相对比,找出共同点。因此,第二个事物的属性就可以转移到第一个事物中。例如:“他像马一样吃饭。”

聚焦于人工神经网络的ML社区从人脑和神经系统的隐喻中获得灵感,人脑和神经系统可能是地球上最具有智慧自然智能的连接。在人工神经网络(ANN)中,人工神经元按照所规定的拓扑结构进行链接。网络的输入信号通常会导致互联强度的变化,最终超过阈值,产生输出信号。训练集是精心挑选的一组输入示例,通常用于教授神经网络某些概念。

基于案例的推理与人类记忆中真正起作用的部分进行类比。这种方法维护了一个过去案例或场景的文件,人们有效地将这些案例或场景编入索引,以便即时访问。人们还用了现有案例中一些相似性的量度。例如,对于一位抱怨有严重头痛并表现出失语症、伴有周边视力丧失的患者,医生可能会回想起类似案例,进而诊断为病毒性脑膜炎。施用适当的抗癫痫药物后,患者的最终疗效良好。有了处理过的先前案例的文件,医生可以在当前的案例中更快地做出诊断。当然,医生还必须通过一些测试排除其他具有相似症状但具有非常不同的原因和(或)结果的疾病。例如,医生可以预约核磁共振MRI来确认脑肿胀,并排除肿瘤的存在,抑或通过脊椎抽液排除细菌性脑膜炎的可能。

在基于遗传算法的机器学习中,自然进化是这种机器学习方法的灵感。19世纪中叶,达尔文提出了自然选择学说。无论是植物还是动物,只要物种变异产生了生存优势,那么这种变异在下一代中出现的频率就会更高。例如,在19世纪初的伦敦,浅色飞蛾比深色飞蛾具有生态优势。当时在伦敦及其周边地区,桦树盛行,树的颜色比较浅,这为浅色飞蛾提供了自然伪装,从而避免了鸟类的捕食。工业革命开始后,污染变得普遍了。结果,英国的树木变得越来越暗,深色飞蛾具有了伪装优势,它们在飞蛾种群中的比例就上升了。

规则归纳是依赖于产生式规则和决策树的机器学习分支。适用于教机器人包装杂货的一个产生式规则是:

IF[物品是冷冻食品]

THEN[在将物品放在购物袋之前,先放置在冷冻袋中][

我们很快就会发现产生式规则和决策树之间信息内容的相似性。图1.1描绘了杂货包装机器人决策树的一部分。

图1.1 杂货包装机器人决策树。请注意这与本文中给出的产生式规则的相似性

规则归纳的动力来自于启发式搜索。

机器学习系统中反馈的作用

假设有一个智能体,这个智能体希望能够在大联盟级别上打棒球。要达到这个级别,通常需要15年或更长的培训时间。尽管规则极其简单,但是一个冗长的学习周期:“扔球,抓球,击球。”

这句话引自1988年由Ron Shelton执导的电影《Bull Durham》。

在训练早期,智能体必须了解棒球比赛中的诸多可能状态。

(1)我们的团队是否领先?

(2)如果我处在防守的位置,并且球向我飞来,那么我必须知道现在跑到第一垒的跑垒者速度是不是很快?如果是,那么我必须快点抛球。

(3)对方的投手是否抛出了一个旋转球(这种球很难击中!)?如果是,那么也许今天我应该假装生病了。

这个年轻的智能体所接受的这种类型的反馈是学习过程的核心。在机器学习中,有3种反馈:监督学习、无监督学习和强化学习。

使用监督学习的方式学习功能是最直接、简单的方法。智能体在做了一些动作后,可以马上收到适当的反馈。例如,当一位敏捷的跑垒者给他一个滚地球时,如果他要花点时间将球传给第一垒,那么在这些情况下,在几分钟之内,他就会得到提醒,加快速度。第11章介绍了神经网络使用监督学习来学习布尔函数的方法。我们给网络提供了一个列表,其中列出了每种可能输入的正确输出。

在无监督的学习过程中,培训期间没有提供具体的反馈。但是,如果要学习,那么智能体必须收到一些反馈。假设智能体进攻失利,例如他没有击中垒,但是他的防守截然不同——他成功地实现了两个扑接,并截获了一个全垒打。这是一场比分接近的比赛,他所在的队赢了。比赛后,队友们向他祝贺,他由此得出结论:好的防守也是值得赞赏的。

在强化学习过程中,没有老师为智能体提供正确的答案。事实上,智能体甚至不能提前知道行动的后果。为了进一步将问题复杂化,假设即使智能体知道行动的影响,但是也不知道影响有多大,因此智能体必须通过试错法来学习。由于奖励被推迟,智能体很难确定行动效果的好坏。试图使用中指平衡伞的人都明白强化学习的基础,如图1.2所示。

图1.2 平衡伞,需要在x-y平面上进行小幅度的移动以保持伞的平衡

如果伞向左倾斜,那么你要向左大幅度移动,不久你会发现这是矫枉过正。让我们回到棒球智能体的例子。假设他是一名投手,当对方打出了一个全垒打时,智能体倾向于将棒球投掷给对方的击球手。当对方的投手朝他的腿投出一个时速约145千米的快球时,几局过后,他需要将酸痛的膝盖骨与可能过度激进的打法联系起来。这里我们将讨论严格限制在监督学习中。在巴拉德(Ballard)的著作中[7],你可以找到关于非监督学习和强化学习的极好讨论。

通过监督学习,你可以看到一组有序对:

我们将这组有序对称为训练集。其中

是输入的n维空间向量,即

是这个函数在

处的值,也就是学习到的值。函数f将每个输入向量映射到正确的输出响应。一般说来,在m维的空间中

,每个分量tk(k = 1,…, m) 都来自一个事先规定的集合,例如整数集、实数集等(输入集和输出集可能有所不同)。

查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved