浅谈聚类分析的几种算法

马化腾数码 · 发表于 2016-6-29 02:00:34

随着数据的发展，聚类技术也得到了发展。聚类分析简单直观，在现在的数据挖掘分析中被普遍应用。比如医疗行业经常使用聚类分析方法区分出高收益病种，为医疗资源的合理配置、医院选定特色专科，调整发展战略提供决策依据等。

作为数据挖掘中很活跃的一个研究领域，聚类分析有多种算法。传统的聚类算法可以被分为五类：划分方法、层次方法、基于密度方法、基于网格方法和基于模型方法。

【K-means算法】

首先从n个数据对象任意选择 k 个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。

【K-pototypes算法】

K-pototypes算法结合了K-means方法和根据K-means方法改进的能处理符号属性的K-modes方法，同K-means方法比，K-pototypes算法能够处理符号属性。

【Fuzzy算法】

首先建立Fuzzy相似矩阵，然后对其进行聚类。目前所见一般分为两种。

【CLARANS算法】（划分方法）

CLARANS算法即随机搜索聚类算法，是一种分割聚类办法。它首先随机选择一个点作为当前点，然后随机检查它周围不超过参数Max neighbor个的一些邻接点，假如找到一个比它更好的邻接点，则把它移入该邻接点，否则把该点作为局部最小量。然后在随机选择一个点来寻找另一个局部最小量，直到找到的局部最小量书目达到用户要求为止。

【BIRCH算法】（层次方法）

核心是用一个聚类特征3元组表示一个簇的有关信息，从而使一簇点的表示可用对应的聚类特征，而不必用具体的一组点来表示。它通过构造满足分支因子和簇直径限制的聚类特征树来求聚类。BIRCH算法通过聚类特征可以方便地进行中心、半径、直径以及类内、类间距离的运算。

【CURE算法】（层次方法）

CURE算法即使用代表点的聚类方法。该算法先把每个数据点看成一类，然后合并距离最近的类直到类个数为所要求的个数为止。CURE算法将传统对类的表示方法进行了改进，回避了用所有点或用中心和半径来表示一个类，而是从每一个类中抽取固定数量、分布较好的点作为描述此类的代表点，并将这些点乘以一个适当的收缩因子，使它们更靠近类的中心点。将一个类用代表点表示，使类的外延可以向非球形的形状扩展将其表达。

【DBSCAN算法】（基于密度的方法）

利用类的密度连通性可以快速发现任意形状的类。对于一个类中的每个对象，在其给定半径的领域中包含的对象不能少于某一给定的最小数目。

（完）

*域名交易已结束*	*域名交易已结束*	*域名交易已结束*	*域名交易已结束*	*域名交易已结束*	*域名交易已结束*
*域名交易已结束*	*域名交易已结束*	*域名交易已结束*	*域名交易已结束*	*域名交易已结束*	*域名交易已结束*