干货|数据挖掘中算法学习的2条进击路线

干货|数据挖掘中算法学习的2条进击路线

首页休闲益智点点挖掘2游戏更新时间:2024-05-09

在正式学习之前,你所需要的预备知识(主要是数学)应该包括:

微积分:偏导数、梯度等。

概率论与数理统计:如极大似然估计、中央极限定理、大数法则等。

最优化方法:如梯度下降、牛顿-拉普什方法、变分法(欧拉-拉格朗日方程)、凸优化等。

如果你对其中的某些名词感到陌生,那么还是打道回府吧。这说明你尚不具备深入开展数据挖掘算法学习的能力。你会发现到处都是门槛,很难继续进行下去。

第1条路线

(基于普通最小二乘法的)简单线性回归→线性回归中的新进展(岭回归和LASSO回归) → (此处可以插入Bagging和AdaBoost的内容) → Logistic回归 →支持向量机(SVM) →感知机学习→神经网络(初学者可先主要关注BP算法) →深度学习

之所以把它们归为一条线路,是因为所有这些算法都是围绕着 y = Σxiβi这样一条简单的公式展开的,如果你抓住这条线索,不断探索下去,就算是抓住它们之间的绳索了。

基于普通最小二乘的线性回归是统计中一种有着非常悠久历史的方法,它的使用甚至可以追溯到高斯的时代。但是它对数据有诸多要求,例如特征之间不能有多重共线性。岭回归和LASSO是对这些问题的修正。

当沿着第一条路线学完的时候,其实你已经攻克机器学习的半壁江山了!

第二条路线

K-means →EM → 朴素贝叶斯→贝叶斯网络→隐马尔科夫模型(基本模型、前向算法、维特比算法、前向-后向算法) →卡尔曼滤波

这条线路所涉及的基本都是那些各种画来画去的图模型,学术名词称为 PGM 。

这条线的思路和第一条是截然不同的!

贝叶斯网络、HMM(隐马尔科夫模型),是这个线路中的核心内容。K-means 和 EM 具有与生俱来的联系,认识到这一点才能说明你真正读懂了它们。而EM算法要在HMM的模型训练中用到,所以你要先学EM才能深入学习HMM。所以尽管在EM中看不到那种画来画去的图模型,但它还是在这条线路中。

朴素贝叶斯里面的很多内容在贝叶斯网络和HMM里都会用到,如贝叶斯定理、先验和后验概率、边缘分布等(主要是概念性的)。

最后,卡尔曼滤波可以作为HMM学习的后续扩展。尽管很多机器学习的书里没把它看做是一种机器学习算法(或许那些作者认为它应该是信号处理中的内容),但是它的确可以被看成是一种机器学习技术。

用于数据挖掘的工具

应用层面,R、MATLAB和Python都是做数据挖掘的利器,另外一个基于Java的免费数据挖掘工具是Weka,这个就只要点点鼠标,甚至不用编代码了。

给一个软件界面的截图如下:

必读的5本书

中文版(含翻译版):

1. 《统计学习方法》

作者:李航

2. 《数据挖掘导论》

作者:Pang-Ning Tan、 Michael Stein-bach 、 Vipin Kumar

3. 《机器学习实践》

作者:Peter Harrington

英文版:

4.《Artificial Intelligence : A Modern Approach(Third Edition)》

作者:Stuart Russell、Peter Norvig

5.《The Elements of Statistical Learning:Data Mining, Inference, and Prediction》

作者:Trevor Hastie、Robert Tibshi-rani、Jerome Friedman


在智能观获取干货的2条路径:

路径①

路径②

想知道AI加教育领域有哪些最新研究成果?请在智能观(zhinengguanym)对话界面回复“论文”;

想要AI领域更多的干货?请在对话界面回复“干货”;

想了解更多专家的“智能观”,请在对话界面回复“观点”,去获取你想要的内容吧。

关于我们

朋友说,智能观是几个女文青在做科技的事情。

哪里,我们充其量是几个对AI和教育有无限好奇与情怀的伪文青。

我们以独特的视角观察AI给教育带来的变化,从国内到国外,从清华到麻省,从小学到大学,从有志于此的小团队以及个人到巨头,都是我们关注的对象。

我们希望用心、用准确的信息介绍业内的最新研究成果、进展、愿景与观点,希望对关注这个领域的你有所帮助,希望跟你一起发现更多潜能。

PS:我们团队还是有理性大叔的~

[笔芯]

查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved