加入收藏 | 设为首页 | 会员中心 | 我要投稿 河北网 (https://www.hebeiwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

非监视进修最强攻略

发布时间:2019-10-15 08:11:00 所属栏目:建站 来源:SAMshare
导读:MLK,即Machine Learning Knowledge,本专栏在于对呆板进修的重点常识做一次梳理,便于日后复习,内容首要来自于《百面呆板进修》一书,团结本身的履历与思索做的一些总结与归纳。本次首要讲授的内容是呆板进修里的非监视进修经典道理与算法,非监视,也就
副问题[/!--empirenews.page--]

非监视进修最强攻略

MLK,即Machine Learning Knowledge,本专栏在于对呆板进修的重点常识做一次梳理,便于日后复习,内容首要来自于《百面呆板进修》一书,团结本身的履历与思索做的一些总结与归纳。本次首要讲授的内容是呆板进修里的非监视进修经典道理与算法,非监视,也就是没有target(标签)的算法模子。

Index

  • K-Mean聚类算法
  • 高斯殽杂模子
  • 自组织映射神经收集
  • 聚类算法的评估指标
  • 常见聚类算法比拟
  • 常见聚类算法的Python实现

在呆板进修中存在一种题目,那就是模子是没有target的,给呆板输入大量的特性数据,祈望呆板可以进修出傍边的共性可能布局又可能是关联,并不必要像监视进修那样输出某个猜测值。

K-Mean聚类算法

K-Mean的根基头脑就是通过迭代的方法探求K个簇(Cluster)的一种分别方案,使得聚类功效对应的Cost Function最小,一样平常K-Mean的Cost Function为各个样本间隔所属簇中心点的偏差平方和,公式为:

非监视进修最强攻略

个中Xi代表第i个样本,Ci是Xi所属的簇,μci代表簇对应的中心点,M是样本总数。

起首先来看一下K-Mean算法的详细步调描写:

1)数据预处理赏罚,如归一化、非常值处理赏罚;

2)随机抽取K个簇(K由人工设定);

3)界说Cost Function:

非监视进修最强攻略

4)不绝迭代下面👇步调,直到CF收敛:

  • 对付每个样本Xi,将其分派到间隔最近的簇:

非监视进修最强攻略

  • 对付每个簇,从头计较簇中心:

非监视进修最强攻略

K-Mean的利益

1)对付大数据集,算法照旧相对高效的,计较伟大度为O(NKt),个中N为样本数,K为聚类数,t为迭代的论数;

2)一样平常环境下都可以满意聚类的需求。

K-Mean的弱点

1)必要人工确定K值,人工对大数据的K值预判有的时辰不太好;

2)K-Mean很轻易局部最优,以是结果很受一开始的初始值影响;

3)轻易受到非常值,噪点的影响。

K-Mean调优思绪

1)数据归一化和非常值处理赏罚。

由于K-Mean本质上是基于欧式间隔怀抱的数据聚类要领,以是少量的极度值会影响聚类结果的,并且差异量纲的数据也会有纷歧样的影响,以是必要做一下预处理赏罚。

2)公道选择K值。

K值并不是拍脑壳拍出来的,必要用科学的步伐去确定。一样平常可以通过多次试验功效抉择,如回罢手肘法:

非监视进修最强攻略

个中,横轴为K的取值,纵轴为偏差平方和所界说的Loss Function。

可以看出,K值越大,间隔和越小,我们看到当K=3的时辰,曲线呈现"拐点",因此一样平常我们选择这个点作为我们的K值。

另外,这里还先容一个GS(Gap Statistic)要领,可参考:

https://blog.csdn.net/baidu_1...

3)回收核函数。

传统的欧式间隔怀抱方法使得K-Mean算法本质上是假设各个簇的数据具有一样的先验概率,并泛起球形可能高维球形漫衍,但这种漫衍在实际中不太常见,这个时辰我们引入一个核K-Mean算法,首要面临非凸的数据漫衍。

这类核聚类要领首要是通过一个非线性映射,将输入控件中的数据点映射到高位的特性空间中,并在新的特性空间中举办聚类,非线性映射增进了数据点线性可分的概率,从而到达更高精度的聚类功效。

再说说两种算法

1)K-Mean++算法

这个从名字上看,就是K-Mean的改善版,首要是在初始值的选取上作了改造。原先的K-Mean是随机选择初始值,而K-Mean++算法例是:

  • 第1个聚类中心也是随机;
  • 接下来的聚类中心,也就是第2个,凭证间隔当前聚类中心越远越好;
  • 凭证上述头脑,选择了k个初始的聚类中心;
  • 初始值选取完毕后,后续的流程和K-Mean是一样的。

2)ISODATA算法

当K值的巨细不确定的时辰,可以行使ISODATA算法,全称叫迭代自组织数据说明法。ISODATA算法在K-Mean算法的基本上增进了两个操纵:

  • 破碎操纵,对应着增进聚类中心数
  • 归并操纵,对应着镌汰聚类中心数

ISODATA的应用也是较量伟大的,必要填较量多的参数:

  • 预期的聚类中心数据K0:在ISODATA运行进程中聚类中心数可以自动变革,这里的K0只是一个参考值;
  • 每个类所要求的的起码样本数Nmin:假如破碎后会导致某个子种别所包括的样本数目少于该阈值,会拒绝本次破碎操纵;
  • 最大方差Sigma:用于节制某个种别中样本的分手水平,当样本的分手水平高出某个阈值时,且破碎后满意第一条要求,则举办破碎操纵;
  • 两个聚类中心之间所应承的最小间隔Dmin:假如两个簇靠得很近,就会被举办归并操纵。

高斯殽杂模子

高斯模子,对应着高斯漫衍,高斯漫衍也就是我们平常常说的正态漫衍,高斯殽杂模子(Gaussian Mixed Model,GMM)也是一种聚类算法,和K-Mean算法相同,都是用了EM算法举办迭代计较。高斯殽杂模子是假设每个簇的数据都切合正态漫衍,当前数据泛起的漫衍则是每个正态漫衍的殽杂功效。

非监视进修最强攻略

(编辑:河北网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读