搜索
我要展示 竞拍规则 竞拍管理
域名交易已结束 域名交易已结束 域名交易已结束 域名交易已结束 域名交易已结束 域名交易已结束
域名交易已结束 域名交易已结束 域名交易已结束 域名交易已结束 域名交易已结束 域名交易已结束
查看: 11116|回复: 200
打印 上一主题 下一主题

浅谈聚类分析的几种算法

  [复制链接]
跳转到指定楼层
楼主
发表于 2016-6-29 02:00:34 | 显示全部楼层 回帖奖励 |倒序浏览 |阅读模式

随着数据的发展,聚类技术也得到了发展。聚类分析简单直观,在现在的数据挖掘分析中被普遍应用。比如医疗行业经常使用聚类分析方法区分出高收益病种,为医疗资源的合理配置、医院选定特色专科,调整发展战略提供决策依据等。

作为数据挖掘中很活跃的一个研究领域,聚类分析有多种算法。传统的聚类算法可以被分为五类:划分方法、层次方法、基于密度方法、基于网格方法和基于模型方法。

【K-means算法】

首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然 后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。

【K-pototypes算法】

K-pototypes算法结合了K-means方法和根据K-means方法改进的能处理符号属性的K-modes方法,同K-means方法比,K-pototypes算法能够处理符号属性。

【Fuzzy算法】

首先建立Fuzzy相似矩阵,然后对其进行聚类。目前所见一般分为两种。

【CLARANS算法】(划分方法)

CLARANS算法即随机搜索聚类算法,是一种分割聚类办法。它首先随机选择一个点作为当前点,然后随机检查它周围不超过参数Max neighbor个的一些邻接点,假如找到一个比它更好的邻接点,则把它移入该邻接点,否则把该点作为局部最小量。然后在随机选择一个点来寻找另一个局部最小量,直到找到的局部最小量书目达到用户要求为止。

【BIRCH算法】(层次方法)

核心是用一个聚类特征3元组表示一个簇的有关信息,从而使一簇点的表示可用对应的聚类特征,而不必用具体的一组点来表示。它通过构造满足分支因子和簇直径限制的聚类特征树来求聚类。BIRCH算法通过聚类特征可以方便地进行中心、半径、直径以及类内、类间距离的运算。

【CURE算法】(层次方法)

CURE算法即使用代表点的聚类方法。该算法先把每个数据点看成一类,然后合并距离最近的类直到类个数为所要求的个数为止。CURE算法将传统对类的表示方法进行了改进,回避了用所有点或用中心和半径来表示一个类,而是从每一个类中抽取固定数量、分布较好的点作为描述此类的代表点,并将这些点乘以一个适当的收缩因子,使它们更靠近类的中心点。将一个类用代表点表示,使类的外延可以向非球形的形状扩展将其表达。

【DBSCAN算法】(基于密度的方法)

利用类的密度连通性可以快速发现任意形状的类。对于一个类中的每个对象,在其给定半径的领域中包含的对象不能少于某一给定的最小数目。

(完)





西部数码爱米人社区,争做受米农欢迎的交流平台!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

在线咨询|西部数码官网|小黑屋|西部数码域名论坛 ( 蜀ICP备12028237号

GMT+8, 2024-5-12 07:30

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表