加入收藏 | 设为首页 | 会员中心 | 我要投稿河北网（https://www.hebeiwang.cn/）- 科技、建站、经验、云计算、5G、大数据,站长网!

当前位置：首页 > 建站 > 正文

非监视进修最强攻略

发布时间：2019-10-15 08:11:00 所属栏目：建站来源：SAMshare

导读：MLK，即Machine Learning Knowledge，本专栏在于对呆板进修的重点常识做一次梳理，便于日后复习，内容首要来自于《百面呆板进修》一书，团结本身的履历与思索做的一些总结与归纳。本次首要讲授的内容是呆板进修里的非监视进修经典道理与算法，非监视，也就

副问题[/!--empirenews.page--]

非监视进修最强攻略

MLK，即Machine Learning Knowledge，本专栏在于对呆板进修的重点常识做一次梳理，便于日后复习，内容首要来自于《百面呆板进修》一书，团结本身的履历与思索做的一些总结与归纳。本次首要讲授的内容是呆板进修里的非监视进修经典道理与算法，非监视，也就是没有target(标签)的算法模子。

Index

K-Mean聚类算法
高斯殽杂模子
自组织映射神经收集
聚类算法的评估指标
常见聚类算法比拟
常见聚类算法的Python实现

在呆板进修中存在一种题目，那就是模子是没有target的，给呆板输入大量的特性数据，祈望呆板可以进修出傍边的共性可能布局又可能是关联，并不必要像监视进修那样输出某个猜测值。

K-Mean聚类算法

K-Mean的根基头脑就是通过迭代的方法探求K个簇(Cluster)的一种分别方案，使得聚类功效对应的Cost Function最小，一样平常K-Mean的Cost Function为各个样本间隔所属簇中心点的偏差平方和，公式为：

非监视进修最强攻略

个中Xi代表第i个样本，Ci是Xi所属的簇，μci代表簇对应的中心点，M是样本总数。

起首先来看一下K-Mean算法的详细步调描写：

1)数据预处理赏罚，如归一化、非常值处理赏罚;

2)随机抽取K个簇(K由人工设定);

3)界说Cost Function：

非监视进修最强攻略

4)不绝迭代下面👇步调，直到CF收敛：

对付每个样本Xi，将其分派到间隔最近的簇：

非监视进修最强攻略

对付每个簇，从头计较簇中心：

非监视进修最强攻略

K-Mean的利益

1)对付大数据集，算法照旧相对高效的，计较伟大度为O(NKt)，个中N为样本数，K为聚类数，t为迭代的论数;

2)一样平常环境下都可以满意聚类的需求。

K-Mean的弱点

1)必要人工确定K值，人工对大数据的K值预判有的时辰不太好;

2)K-Mean很轻易局部最优，以是结果很受一开始的初始值影响;

3)轻易受到非常值，噪点的影响。

K-Mean调优思绪

1)数据归一化和非常值处理赏罚。

由于K-Mean本质上是基于欧式间隔怀抱的数据聚类要领，以是少量的极度值会影响聚类结果的，并且差异量纲的数据也会有纷歧样的影响，以是必要做一下预处理赏罚。

2)公道选择K值。

K值并不是拍脑壳拍出来的，必要用科学的步伐去确定。一样平常可以通过多次试验功效抉择，如回罢手肘法：

非监视进修最强攻略

个中，横轴为K的取值，纵轴为偏差平方和所界说的Loss Function。

可以看出，K值越大，间隔和越小，我们看到当K=3的时辰，曲线呈现"拐点"，因此一样平常我们选择这个点作为我们的K值。

另外，这里还先容一个GS(Gap Statistic)要领，可参考：

https://blog.csdn.net/baidu_1...

3)回收核函数。

传统的欧式间隔怀抱方法使得K-Mean算法本质上是假设各个簇的数据具有一样的先验概率，并泛起球形可能高维球形漫衍，但这种漫衍在实际中不太常见，这个时辰我们引入一个核K-Mean算法，首要面临非凸的数据漫衍。

这类核聚类要领首要是通过一个非线性映射，将输入控件中的数据点映射到高位的特性空间中，并在新的特性空间中举办聚类，非线性映射增进了数据点线性可分的概率，从而到达更高精度的聚类功效。

再说说两种算法

1)K-Mean++算法

这个从名字上看，就是K-Mean的改善版，首要是在初始值的选取上作了改造。原先的K-Mean是随机选择初始值，而K-Mean++算法例是：

第1个聚类中心也是随机;
接下来的聚类中心，也就是第2个，凭证间隔当前聚类中心越远越好;
凭证上述头脑，选择了k个初始的聚类中心;
初始值选取完毕后，后续的流程和K-Mean是一样的。

2)ISODATA算法

当K值的巨细不确定的时辰，可以行使ISODATA算法，全称叫迭代自组织数据说明法。ISODATA算法在K-Mean算法的基本上增进了两个操纵：

破碎操纵，对应着增进聚类中心数
归并操纵，对应着镌汰聚类中心数

ISODATA的应用也是较量伟大的，必要填较量多的参数：

预期的聚类中心数据K0：在ISODATA运行进程中聚类中心数可以自动变革，这里的K0只是一个参考值;
每个类所要求的的起码样本数Nmin：假如破碎后会导致某个子种别所包括的样本数目少于该阈值，会拒绝本次破碎操纵;
最大方差Sigma：用于节制某个种别中样本的分手水平，当样本的分手水平高出某个阈值时，且破碎后满意第一条要求，则举办破碎操纵;
两个聚类中心之间所应承的最小间隔Dmin：假如两个簇靠得很近，就会被举办归并操纵。

高斯殽杂模子

高斯模子，对应着高斯漫衍，高斯漫衍也就是我们平常常说的正态漫衍，高斯殽杂模子(Gaussian Mixed Model，GMM)也是一种聚类算法，和K-Mean算法相同，都是用了EM算法举办迭代计较。高斯殽杂模子是假设每个簇的数据都切合正态漫衍，当前数据泛起的漫衍则是每个正态漫衍的殽杂功效。

非监视进修最强攻略

（编辑：河北网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1

相关内容

推荐文章

6个值得珍藏的搜索引擎	网站优化核心减少SEO污
网站seo优化三个基础知	什么时候宣布文章收录

站长推荐

热点阅读