加入收藏 | 设为首页 | 会员中心 | 我要投稿 河北网 (https://www.hebeiwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

收藏 | 数据分析师最常用的10个机器学习算法!

发布时间:2018-09-06 01:52:10 所属栏目:教程 来源:机器学习算法与Python学习
导读:9月15日技能沙龙 | 与来自京东金融、AWS、东华软件三位大咖试探精准快速运维! 在呆板进修规模,有种说法叫做世上没有免费的午餐,简而言之,它是指没有任何一种算法能在每个题目上都能有最好的结果,这个理论在监视进修方面浮现得尤为重要。 举个例子来说
副问题[/!--empirenews.page--] 9月15日技能沙龙 | 与来自京东金融、AWS、东华软件三位大咖试探精准快速运维!

在呆板进修规模,有种说法叫做“世上没有免费的午餐”,简而言之,它是指没有任何一种算法能在每个题目上都能有最好的结果,这个理论在监视进修方面浮现得尤为重要。

举个例子来说,你不能说神经收集永久比决定树好,反之亦然。模子运行被很多身分阁下,譬喻数据集的巨细和布局。

因此,你应该按照你的题目实行很多差异的算法,同时行使数据测试集来评估机能并选出最优项。

虽然,你实行的算法必需和你的题目相合适,个中的门道即是呆板进修的首要使命。打个例如,假如你想拂拭屋子,你也许会用到吸尘器、扫帚可能拖把,但你必定不会拿把铲子开始挖坑吧。

对付盼愿相识呆板进修基本常识的呆板进修新人来说,这儿有份数据科学家行使的十大呆板进修算法,为你先容这十大算法的特征,便于各人更好地领略和应用,快来看看吧。

1. 线性回归

线性回归也许是统计学和呆板进修中最知名和最易领略的算法之一。

因为猜测建模首要存眷最小化模子的偏差,可能以可表明性为价钱来做出最精确的猜测。 我们会从很多差异规模借用、重用和盗用算法,个中涉及一些统计学常识。

线性回归用一个等式暗示,通过找到输入变量的特定权重(B),来描写输入变量(x)与输出变量(y)之间的线性相关。

保藏 | 数据说明师最常用的10个呆板进修算法!

Linear Regression

举例:y = B0 + B1 * x

给定输入x,我们将猜测y,线性回归进修算法的方针是找到系数B0和B1的值。

可以行使差异的技能从数据中进修线性回归模子,譬喻用于平凡最小二乘和梯度降落优化的线性代数解。

线性回归已经存在了200多年,而且已经举办了普及的研究。 假如也许的话,行使这种技能时的一些履历法例是去除很是相似(相干)的变量并从数据中移除噪声。 这是一种快速简朴的技能和精采的第一种算法。

2. 逻辑回归

逻辑回归是呆板进修从统计规模小心的另一种技能。 这是二分类题目的专用要领(两个类值的题目)。

逻辑回归与线性回归相同,这是由于两者的方针都是找出每个输入变量的权重值。 与线性回归差异的是,输出的猜测值得行使称为逻辑函数的非线性函数举办调动。

逻辑函数看起来像一个大S,并能将任何值转换为0到1的范畴内。这很有效,由于我们可以将响应法则应用于逻辑函数的输出上,把值分类为0和1(譬喻,假如IF小于0.5,那么 输出1)并猜测种别值。

保藏 | 数据说明师最常用的10个呆板进修算法!

Logistic Regression

因为模子的特有进修方法,通过逻辑回归所做的猜测也可以用于计较属于类0或类1的概率。这对付必要给出很多根基道理的题目异常有效。

与线性回归一样,当你移除与输出变量无关的属性以及互相很是相似(相干)的属性时,逻辑回归确实会更好。 这是一个快速进修和有用处理赏罚二元分类题目的模子。

3. 线性鉴别说明

传统的逻辑回归仅限于二分类题目。 假如你有两个以上的类,那么线性鉴别说明算法(Linear Discriminant Analysis,简称LDA)是首选的线性分类技能。

LDA的暗示很是简朴。 它由你的数据的统计属性构成,按照每个种别举办计较。 对付单个输入变量,这包罗:

  •  每类的均匀值。
  •  跨全部种别计较的方差。

保藏 | 数据说明师最常用的10个呆板进修算法!

Linear Discriminant Analysis

LDA通过计较每个类的鉴别值并对具有最大值的类举办猜测来举办。该技能假定命据具有高斯漫衍(钟形曲线),因此最好先手动从数据中移除非常值。这是分类猜测建模题目中的一种简朴而强盛的要领。

4. 分类和回归树

决定树是呆板进修的一种重要算法。

决定示范子可用二叉树暗示。对,就是来自算法和数据布局的二叉树,没什么出格。 每个节点代表单个输入变量(x)和该变量上的阁下孩子(假定变量是数字)。

保藏 | 数据说明师最常用的10个呆板进修算法!

Decision Tree

树的叶节点包括用于举办猜测的输出变量(y)。 猜测是通过遍历树举办的,当到达某一叶节点时遏制,并输出该叶节点的类值。

决定树进修速率快,猜测速率快。 对付很多题目也常常猜测精确,而且你不必要为数据做任何非凡筹备。

5. 朴实贝叶斯

朴实贝叶斯是一种简朴但极为强盛的猜测建模算法。

该模子由两种范例的概率构成,可以直接从你的实习数据上钩较出来:1)每个类此外概率; 2)给定的每个x值的类此外前提概率。 一旦计较出来,概率模子就可以用于行使贝叶斯定理对新数据举办猜测。 当你的数据是数值时,凡是假设高斯漫衍(钟形曲线),以便可以轻松预计这些概率。

保藏 | 数据说明师最常用的10个呆板进修算法!

Bayes Theorem

朴实贝叶斯被称为朴实的缘故起因,在于它假设每个输入变量是独立的。 这是一个倔强的假设,对付真实数据来说是不切现实的,但该技能对付大范畴内的伟大题目仍很是有用。

6. K近邻

KNN算法很是简朴并且很是有用。 KNN的模子用整个实习数据集暗示。 是不是特简朴?

(编辑:河北网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读