极简机器学习|用决策树拯救单身狗

极简机器学习|用决策树拯救单身狗

首页休闲益智拯救单身狗更新时间:2024-05-09
极简机器学习栏目专为想要快速了解相关知识领域的学生/从业者服务。以「惜墨如金」,「栩栩如生」,重视理论为第一原则,方便各位节省时间入门机器学习。

机器学习简介

机器学习(Machine Learning)是近年来兴起的一门多领域交叉学科,主要研究让机器可以从已知数据中分析规律,并利用规律对未知数据进行预测的算法们。

算法分为监督式学习,即在已知训练数据结果的情况下让算法有效的预测未知目标,常见的例子有回归分析(如预测波士顿地区房价)和统计分类(如预测文章分类);非监督式学习,即输入数据没有已知结果,常见的例子有聚类(把认为相似的数据聚集起来);半监督学习,即输入数据有的有已知结果,有的没有;强化学习:输入数据直接反馈到模型。

决策树

决策树算法是一种监督式学习算法,既可以解决回归分析问题,也可以解决统计分类问题。

举例说明:假如你想知道心仪的男生/女生喜欢听什么类型的歌曲,如果以播放频率高低为喜欢程度的标准,并且获得了一份他/她的歌单。

我们可以按照不同的方式划分这个歌单,以按照流派分类为例

Brit pop 里的所有歌曲播放频率为高,不需要继续划分,在这种情况下我们认为所有属于 Brit pop 流派的歌曲都受到喜爱。之后按照国家划分。

最后按照歌手划分,对于全都归为一类的节点无需继续划分

这就是一个完整的决策树模型,对于任何一个未知的歌曲,先判断流派,如果是 Brit pop 则认为喜欢,否则看进入哪个分支,再进行判断,比如进入摇滚分支,并且歌曲来自中国,那么就会被标记为喜欢,如果是来自美国的 OneRepublic 乐队的歌曲则会被认为相对不喜欢。

另一个决策树的例子是银行预测贷款用户的还款能力:

决策树中每次经过不同的判断条件(属性)向下延伸,分支表示符合节点条件的集合,每个叶子节点代表一种预测结果。

如何建立决策树

在上文歌曲的例子当中,选择不同的特征当作第一次判别的依据结果会很不一样,如果以艺术家的不同当作第一次判别的条件,我们几乎立刻就能认为旅行团乐队和 OneRepublic 的歌曲相对不受喜爱,其他艺术家的歌曲都会收到喜爱。此时决策树发展一次就能得出结果。选择一个合适的特征优先做判断,可以大大减少树的深度,加快决策速度。如何做出选择?常用的有以下几种方法:

前两种方法都使用到了信息熵的概念,熵这个概念缘起于自然科学,表示体系混乱程度。直观理解,在一个集合里,如果不同类别的样本参杂在一起,其混乱程度就会比只有单一种类的样本的集合高,也就是信息熵更高。其公式定义如下:

其中 H(X) 表示系统的信息熵,N表示所有样本的种类 Pk 表示第 k 类样本所占的比例。

每一次判别后,系统的混乱程度(信息熵)都会降低,用数学表达式表示如下:

G 表示信息增益,D 表示系统样本,|D| 是样本数量,v 表示派别后的每一个子节点。

ID3 算法每次都选择使信息增益 G 最大的特征进行当前的判别,以此类推。这种算法的问题是如果一个特征类别很多,其容易被优先考虑,造成很难泛化。因此 C4.5 算法引入信息增益率的概念。

其特点是信息增益相同时,分类少的优先考虑。当然 C4.5 本身的改进比较复杂,这里不做详细介绍。

CART 每次都只进行 2 分类,可以用于回归,采用基尼指数进行判别:

总结

决策树是一种简单高效的模型,容易产生过拟合的问题,因此需要使用剪枝等手法进行处理。掌握决策树,可以对之后更为复杂的模型如随机森林的理解打下良好基础。

参考资料
  1. https://www.ibm.com/developerworks/cn/analytics/library/ba-1507-decisiontree-algorithm/index.html
  2. https://zhuanlan.zhihu.com/p/27313529
查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved