您好,欢迎来到化拓教育网。
搜索
您的当前位置:首页聚类分析算法理论研究综述

聚类分析算法理论研究综述

来源:化拓教育网
聚类分析算法理论研究综述

杨文雅

(西北师范大学,甘肃兰州730070)

[摘要]聚类分析起源于分类学,随着人类科学技术的发展,对分类的要求越来越高,以致有时仅凭经验和专业

知识难以确切地进行分类,于是人们逐渐地把数学工具引用到了分类学中,形成了数值分类学,之后又将多元分析的技术引入到数值分类学形成了聚类分析。聚类分析内容丰富,从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法的预处理步骤,本文将对现有的主流聚类算法理论进行综合研究与论述。

[关键词]聚类分析;数据处理;算法;模型在这个日益信息化的社会中,聚类分析算法已成为以一种被广泛应用的数据处理方式。聚类就是将数据对象分组成为多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不用簇中的对象差别较大。聚类分析对现实生活里中的众多事情有指导作用,这使得对聚类分析算法理论的研究很有必要。

1、聚类分析算法概述

聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。这是一个搜索簇的无监督学习过程,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。因此,聚类是观察式学习,而不是示例式的学习。

2、聚类分析算法的基本原理

聚类分析是一种数值分类方法,要进行聚类分析就要首先建立一个由某些事物属性构成的指标体系,或者说是一个变量组合。入选的每个指标必须能刻画事物属性的某个侧面,所有指标组合起来形成一个完备的指标体系,它们互相配合可以共同刻画事物的特征。所谓完备的指标体系,是说入选的指标是充分的,其它任何新增变量对辨别事物差异无显著性贡献。如果所选指标不完备,则导致分类偏差。

3、聚类分析算法的分类

基于输入算法的数据类型、定义数据相似性的方法以及算法

是针对处理空间数据挖掘提出的,其指导思想是,首先把数据空

间划分成有限个单元(Cell)的网格结构,然后以单个单元为对象进行所有的处理。其突出特点是处理速度快,通常与目标数据库中记录的个数无关,只与划分的单元个数有关。代表算法有:STING算法(Wang,1997年)和Wave—Cluster算法(Sheikholes-lami,1998年)等。

4、聚类分析算法的特征及缺陷

4.1特征。聚类分析是根据事物本身的特性研究个体的一种方法,目的在于将相似的事物归类。它的原则是同一类中的个体有较大的相似性,不同类的个体差异性很大。这种方法有三个特征:

4.1.1适用于没有先验知识的分类。如果没有这些事先的经验或一些国际标准、国内标准、行业标准,分类便会显得随意和主观。这时只要设定比较完善的分类变量,就可以通过聚类分析法得到较为科学合理的类别;

4.1.2可以处理多个变量决定的分类。例如,要根据消费者购买量的大小进行分类比较容易,但如果在进行数据挖掘时,要求根据消费者的购买量、家庭收入、家庭支出、年龄等多个指标进行分类通常比较复杂,而聚类分析法可以解决这类问题;

4.1.3聚类分析法是一种探索性分析方法,能够分析事物的内在特点和规律,并根据相似性原则对事物进行分组,是数据挖掘中常用的一种技术。

4.2缺陷。在样本量较大时,要获得聚类结论有一定困难。

华章

MagnificentWriting所基于的概念和基本理论,可以将聚类分析算法大致分为四类。由于相似系数是根据被试的反映来建立反映被试间内在联系的

3.1分区聚类算法(Partitionalclustering)。给定一个有N个指标,而实践中有时尽管从被试反映所得出的数据中发现他们

但事物之间却无任何内在联系,此时,如果元组或者纪录的数据集,法将构造K个分组,每一个分组就之间有紧密的关系,代表一个聚类,K3.2分层聚类算法(Hierarchicalclustering)。该算法基本上有两种算法即合并法和分割法。合并法是先将所有的研究对象都各自算作一类,然后将最“接近”的两类合并成一类,之后,再将最“接近”的两类合并成一类,一直继续下去,直到满足终止条件为止。分割法思想正好与此相反。代表算法有:Birch算法、Cure算法、Rock算法等。

3.3基于密度的算法(DensityBasedclustering)。基于密度的方法与其它方法的一个根本区别是:它不是基于各种各样的距离的,而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。这个方法的指导思想就是,只要一个区域中的点的密度大过某个阈值,就把它加到与之相近的聚类中去。

3.4基于网格的算法(GridBasedclustering)。这类方法主要

作者简介:杨文雅(19—),女,西北师范大学商学院2009级,研究方向:信息管理与信息系统。根据距离或相似系数得出聚类分析的结果,显然是不适当的,但是,聚类分析模型本身却无法识别这类错误。

5、总结

聚类分析在现实生活中的各个领域具有广泛的应用前景,同时也面临着越来越多的挑战。如处理大规模数据和高维数据的能力有待提高;探究融合不同的聚类思想形成新的聚类算法,从而综合利用不同聚类算法的优点;对聚类的结果进行准确评价,以判断是否达到最优解,这也自然要求聚类结果具有可解释性;选取合适的聚类类别数,这是一个重要的参数。这些都是值得我们进一步研究的问题,以使聚类分析更好地为社会服务。

【参考文献】

[1]JiaweiHan,概念与技术[M].范明,MichelineKamber.数据挖掘:

译:北京:机械工业出版社,2007.3.

[2]马仲来.系统聚类分析中应注意的两类问题,数理统计与管理[J].1994.12.

[3]马飞.数据挖掘中的聚类算法研究:[南京理工大学硕士学位论文].南京:南京理工大学,2008.1—5.

二○一二年第二十三期305

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo9.cn 版权所有 赣ICP备2023008801号-1

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务