非监视进修最强攻略
副问题[/!--empirenews.page--]
MLK,即Machine Learning Knowledge,本专栏在于对呆板进修的重点常识做一次梳理,便于日后复习,内容首要来自于《百面呆板进修》一书,团结本身的履历与思索做的一些总结与归纳。本次首要讲授的内容是呆板进修里的非监视进修经典道理与算法,非监视,也就是没有target(标签)的算法模子。 Index
在呆板进修中存在一种题目,那就是模子是没有target的,给呆板输入大量的特性数据,祈望呆板可以进修出傍边的共性可能布局又可能是关联,并不必要像监视进修那样输出某个猜测值。 K-Mean聚类算法 K-Mean的根基头脑就是通过迭代的方法探求K个簇(Cluster)的一种分别方案,使得聚类功效对应的Cost Function最小,一样平常K-Mean的Cost Function为各个样本间隔所属簇中心点的偏差平方和,公式为: 个中Xi代表第i个样本,Ci是Xi所属的簇,μci代表簇对应的中心点,M是样本总数。 起首先来看一下K-Mean算法的详细步调描写: 1)数据预处理赏罚,如归一化、非常值处理赏罚; 2)随机抽取K个簇(K由人工设定); 3)界说Cost Function: 4)不绝迭代下面👇步调,直到CF收敛:
K-Mean的利益 1)对付大数据集,算法照旧相对高效的,计较伟大度为O(NKt),个中N为样本数,K为聚类数,t为迭代的论数; 2)一样平常环境下都可以满意聚类的需求。 K-Mean的弱点 1)必要人工确定K值,人工对大数据的K值预判有的时辰不太好; 2)K-Mean很轻易局部最优,以是结果很受一开始的初始值影响; 3)轻易受到非常值,噪点的影响。 K-Mean调优思绪 1)数据归一化和非常值处理赏罚。 由于K-Mean本质上是基于欧式间隔怀抱的数据聚类要领,以是少量的极度值会影响聚类结果的,并且差异量纲的数据也会有纷歧样的影响,以是必要做一下预处理赏罚。 2)公道选择K值。 K值并不是拍脑壳拍出来的,必要用科学的步伐去确定。一样平常可以通过多次试验功效抉择,如回罢手肘法: 个中,横轴为K的取值,纵轴为偏差平方和所界说的Loss Function。 可以看出,K值越大,间隔和越小,我们看到当K=3的时辰,曲线呈现"拐点",因此一样平常我们选择这个点作为我们的K值。 另外,这里还先容一个GS(Gap Statistic)要领,可参考: https://blog.csdn.net/baidu_1... 3)回收核函数。 传统的欧式间隔怀抱方法使得K-Mean算法本质上是假设各个簇的数据具有一样的先验概率,并泛起球形可能高维球形漫衍,但这种漫衍在实际中不太常见,这个时辰我们引入一个核K-Mean算法,首要面临非凸的数据漫衍。 这类核聚类要领首要是通过一个非线性映射,将输入控件中的数据点映射到高位的特性空间中,并在新的特性空间中举办聚类,非线性映射增进了数据点线性可分的概率,从而到达更高精度的聚类功效。 再说说两种算法 1)K-Mean++算法 这个从名字上看,就是K-Mean的改善版,首要是在初始值的选取上作了改造。原先的K-Mean是随机选择初始值,而K-Mean++算法例是:
2)ISODATA算法 当K值的巨细不确定的时辰,可以行使ISODATA算法,全称叫迭代自组织数据说明法。ISODATA算法在K-Mean算法的基本上增进了两个操纵:
ISODATA的应用也是较量伟大的,必要填较量多的参数:
高斯殽杂模子 高斯模子,对应着高斯漫衍,高斯漫衍也就是我们平常常说的正态漫衍,高斯殽杂模子(Gaussian Mixed Model,GMM)也是一种聚类算法,和K-Mean算法相同,都是用了EM算法举办迭代计较。高斯殽杂模子是假设每个簇的数据都切合正态漫衍,当前数据泛起的漫衍则是每个正态漫衍的殽杂功效。 (编辑:河北网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |