聚类分析算法理论研究综述

来源：化拓教育网

聚类分析算法理论研究综述

杨文雅

（西北师范大学，甘肃兰州730070）

［摘要］聚类分析起源于分类学，随着人类科学技术的发展，对分类的要求越来越高，以致有时仅凭经验和专业

知识难以确切地进行分类，于是人们逐渐地把数学工具引用到了分类学中，形成了数值分类学，之后又将多元分析的技术引入到数值分类学形成了聚类分析。聚类分析内容丰富，从实际应用的角度看，聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个的工具获得数据的分布状况，观察每一簇数据的特征，集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法的预处理步骤，本文将对现有的主流聚类算法理论进行综合研究与论述。

［关键词］聚类分析；数据处理；算法；模型在这个日益信息化的社会中，聚类分析算法已成为以一种被广泛应用的数据处理方式。聚类就是将数据对象分组成为多个类或簇，在同一个簇中的对象之间具有较高的相似度，而不用簇中的对象差别较大。聚类分析对现实生活里中的众多事情有指导作用，这使得对聚类分析算法理论的研究很有必要。

1、聚类分析算法概述

聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类是将数据分类到不同的类或者簇这样的一个过程，所以同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。这是一个搜索簇的无监督学习过程，无监督学习不依赖预先定义的类或带类标记的训练实例，需要由聚类学习算法自动确定标记，而分类学习的实例或数据对象有类别标记。因此，聚类是观察式学习，而不是示例式的学习。

2、聚类分析算法的基本原理

聚类分析是一种数值分类方法，要进行聚类分析就要首先建立一个由某些事物属性构成的指标体系，或者说是一个变量组合。入选的每个指标必须能刻画事物属性的某个侧面，所有指标组合起来形成一个完备的指标体系，它们互相配合可以共同刻画事物的特征。所谓完备的指标体系，是说入选的指标是充分的，其它任何新增变量对辨别事物差异无显著性贡献。如果所选指标不完备，则导致分类偏差。

3、聚类分析算法的分类

基于输入算法的数据类型、定义数据相似性的方法以及算法

是针对处理空间数据挖掘提出的，其指导思想是，首先把数据空

间划分成有限个单元(Cell)的网格结构，然后以单个单元为对象进行所有的处理。其突出特点是处理速度快，通常与目标数据库中记录的个数无关，只与划分的单元个数有关。代表算法有：STING算法(Wang，1997年)和Wave—Cluster算法(Sheikholes-lami，1998年)等。

4、聚类分析算法的特征及缺陷

4.1特征。聚类分析是根据事物本身的特性研究个体的一种方法，目的在于将相似的事物归类。它的原则是同一类中的个体有较大的相似性，不同类的个体差异性很大。这种方法有三个特征：

4.1.1适用于没有先验知识的分类。如果没有这些事先的经验或一些国际标准、国内标准、行业标准，分类便会显得随意和主观。这时只要设定比较完善的分类变量，就可以通过聚类分析法得到较为科学合理的类别；

4.1.2可以处理多个变量决定的分类。例如，要根据消费者购买量的大小进行分类比较容易，但如果在进行数据挖掘时，要求根据消费者的购买量、家庭收入、家庭支出、年龄等多个指标进行分类通常比较复杂，而聚类分析法可以解决这类问题；

4.1.3聚类分析法是一种探索性分析方法，能够分析事物的内在特点和规律，并根据相似性原则对事物进行分组，是数据挖掘中常用的一种技术。

4.2缺陷。在样本量较大时，要获得聚类结论有一定困难。

华章

MagnificentWriting所基于的概念和基本理论，可以将聚类分析算法大致分为四类。由于相似系数是根据被试的反映来建立反映被试间内在联系的

3.1分区聚类算法(Partitionalclustering)。给定一个有N个指标，而实践中有时尽管从被试反映所得出的数据中发现他们

但事物之间却无任何内在联系，此时，如果元组或者纪录的数据集，法将构造K个分组，每一个分组就之间有紧密的关系，代表一个聚类，K3.2分层聚类算法(Hierarchicalclustering)。该算法基本上有两种算法即合并法和分割法。合并法是先将所有的研究对象都各自算作一类，然后将最“接近”的两类合并成一类，之后，再将最“接近”的两类合并成一类，一直继续下去，直到满足终止条件为止。分割法思想正好与此相反。代表算法有：Birch算法、Cure算法、Rock算法等。

3.3基于密度的算法(DensityBasedclustering)。基于密度的方法与其它方法的一个根本区别是：它不是基于各种各样的距离的，而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。这个方法的指导思想就是，只要一个区域中的点的密度大过某个阈值，就把它加到与之相近的聚类中去。

3.4基于网格的算法(GridBasedclustering)。这类方法主要

作者简介：杨文雅（19—），女，西北师范大学商学院2009级，研究方向：信息管理与信息系统。根据距离或相似系数得出聚类分析的结果，显然是不适当的，但是，聚类分析模型本身却无法识别这类错误。

5、总结

聚类分析在现实生活中的各个领域具有广泛的应用前景，同时也面临着越来越多的挑战。如处理大规模数据和高维数据的能力有待提高；探究融合不同的聚类思想形成新的聚类算法，从而综合利用不同聚类算法的优点；对聚类的结果进行准确评价，以判断是否达到最优解，这也自然要求聚类结果具有可解释性；选取合适的聚类类别数，这是一个重要的参数。这些都是值得我们进一步研究的问题，以使聚类分析更好地为社会服务。

【参考文献】

[1]JiaweiHan，概念与技术[M].范明，MichelineKamber.数据挖掘：

译：北京：机械工业出版社，2007.3.

[2]马仲来.系统聚类分析中应注意的两类问题，数理统计与管理[J].1994.12.

[3]马飞.数据挖掘中的聚类算法研究：[南京理工大学硕士学位论文].南京：南京理工大学，2008.1—5.

二○一二年第二十三期３０５

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文