基于语义密度的文本聚类研究
来源:化拓教育网
第36卷 第5期 计算机工程 2010年3月 VoL36 No.5 Computer Engineering March 2010 ・软件技术与数据库・ 文章编号:100o_3428(2010)05—_008l— 3 文献标识码:A 中图分类号:TP311 基于语义密度的文本聚类研究 刘金岭 (淮阴工学院计算机系,淮安223003) 摘要:结合文本数据的语义相似度,给出一种基于语义密度文本数据聚类的方法。根据文本数据的特点,从一个随机选定的文本对象出 发,向文本数据最为密集的区域扩张,组织成一个能反映语料结构的有序序列进行聚类。在处理噪声文本数据的过程中,利用有效结果重 组策略来辅助噪声文本数据重新定位。实验结果表明,该方法具有良好的聚类性能。 关健诃:密度;簇;邻域;聚类 Study on Text Clustering Based on Semantic Density LIU Jin-ling (Department ofComputer,Huaiyin Institute ofTechnology,Huaian 223003) [Abstract]Combined with semantic similarity oftext data,this paper gives a method oftext data clustering based on semantic density.According to the characteristics of text data,from a randomly selected text object,it expands towards the most intensive area of the text data,organizes into a structure to reflect the corpus in an orderly sequence,and then clusters.In dealing with noise text data,it USeS the results of the reorganization of atl effective strategy to support the re—positioning noise text data.Experimental results show that the method has good clustering performance. |Key words]density;cluster;neighborhood;clustering 1概述 2.1基本概念 随着网络的飞速发展,如何分析和管理大规模的文本数 文献[4]中给出了基于“知网”的中文短信文本的语义相 据成为研究热点。聚类分析作为一种重要的数据分析方法, 似度概念,对于中文文本也是适用的,即若P,Q是2个文本, 能够很好地满足这方面的需求。它能挖掘语料的潜在结构, 则P,Q的语义相似度定义为sim(P,Q) J。 将文档划分为有意义的子簇,协助人们更好地对大规模文本 定义1设文本集TS,文本^ ∈TS,给定充分小的正数 进行理解,同时也能作为一种有效的预处理步骤,为进一步 值e<l,称{ l sier(Mr, )_q J>l一£, ∈TS}为以%为中心,s 的文本分析提供初步的语料结构。大部分的划分方法都是基 为半径的邻域称为Mo的s邻域。 于对象之间的距离进行聚类,通常只能发现球状簇,在发现 定义2如果s邻域中的文本数超过指定阈值MinPts,则 任意形状的簇时遇到了困难。而基于密度的数据聚类方法的 认为该点处于某个簇内,称为核心对象(core—object),否则认 主要思想是:将具有足够高密度的区域划分为簇,并可以在 为该点处于某个簇的边界上,称为边界点(bounder—object)。 具有噪声的数据空间内发现任意形状的簇。 定义3如果文本P是核心点,文本Q在P的s邻域内, DBSCAN和其扩展算法OPTICS是2个典型的基于密度 则称P直接密度可达(directly density—reachable)Q。 聚类的方法I IJ,它们根据一种基于密度的连通性进行聚类。 定义4如果存在文本序列Pl,尸2,…, ,其中,P-=尸, = 但是这2类算法也存在问题。DBSCAN聚类过程对输入参数 Q,并且对于任意1≤i<n,Pf直接密度可达P川,则称P密 很敏感,若参数印 和MinPts选取不当,将造成聚类质量下 度可达(density—reachable)Q。 降。变量印 和MinPts是全局唯一的,当数据分布不均匀时, 定义5如果文本O密度可达尸,且O密度可达Q,则称 聚类质量较差。针对这些问题,虽然已有一些改进方法 j, P和Q密度相连(density—connected)。 但它们或多或少都存在一些不足。而在OPTICS聚类过程中, 直接密度可达、密度可达和密度相连示例如图1所示。 由于自身策略的局限,低密度区域的对象往往被累积在结果 密度可达是直接密度可达的传递,密度相连则是从同一点密 序列的末尾,未能充分体现算法性能。 度可达的任意2点的对称关系。因此,如果从某个选定的核 针对此不足,本文提出一种有效的结果重组织策略,使 心点出发,不断向密度可达的区域扩张,将得到一个包括核 稀疏区域的对象能够更合理地与离自己最近的高密度区域的 对象相邻。在该策略的基础上,针对文本领域的特点对算法 基金项目:国家自然科学基金资助项目(60632050);2009年度淮安 进行局部调整,形成了一种较好的文本聚类算法。 科技基金资助项目“基于语义的垃圾短信分类器设计与实现” 2基于语义密度的聚类 (HAG09061);淮阴工学院基金资助重点项目(HGA0907) 假设文本集TS中已经进行了分词、词义消岐 ,去掉了 作者简介:刘金岭(1958一),男,教授,主研方向:数据仓库,文本 停用词及连词、代词等,转化为向量形式 ={( , z,…, 数据挖掘 )I卢l,2,…, }。 收稿日期:2009—07—20 E—mail:liujinlingg@126.corn 81— 心点和边界点的最大化区域。区域中任意2点密度相连,即 为一个聚类簇。 算法的时间复杂度为O(n )。以结果队列中的点序列作为 横坐标,可达相似度作为纵坐标,将得到文本数据集的可达 图…。图3是一个简单的二维数据集合的可达图,其中,诹 O.90, ’取O.96。它给出了如何对数据结构化和聚类的一般观 @ (a)直接密度可达 (b)密度可达 (c)密度相连 察。数据对象连同它们各自的可达距离按簇顺序绘出。图中 可达相似度大的波谷区域代表数据稠密的簇内的文本对象; 波峰区域则代表文本数据稀疏的边界点。根据文献[5】可以在 遍历可达图的过程中,通过陡峭下降区域和陡峭上升区域来 辨别和提取聚类簇。 圈1直接密度可达、密度可达和密度相连示倒 定义6文本P的核心相似度定义为P成为核心对象的最 小邻域半径;文本9关于文本P的可达相似度定义为尸的核 心相似度和P与Q的相似度之间的较小者。 核心相似度和可达相似度示例如图2所示。假设e=0.9, MinPts=5。P的核心相似度是与第4个最近的文本对象之间 的距离s’。Q1关于P的可达相似度是P的核心相似度s’,而 Q2关于P的可达相似度是Q2与P的文本相似度sim(Q2,P) J。 (a)核心相似度 (b)可达相似度 圈2棱心相似度和可达相似度示倒 2.2基于语义密度的文本聚类算法 可达相似度的概念与文本空间密度直接相关,如果某文 本数据的所在空间密度大,则相邻点直接密度可达相似度就 大,反之亦然。如果想要向数据尽量稠密的空间进行扩张, 那么可达相似度最大的文本数据是最佳的选择。本文对算法 OPTICS算法加以改进,记为OPTICSTS算法,使之适应中 文文本的聚类。因此,构造一个可达相似度的递增序列的种 子队列来存储待扩张的文本,以便快速定位稠密空间的文本 对象。算法具体描述如下: ■入文本集TS; 出按相似递增队列ASCQueue,结果队列RESLTQueue。 ASCQueue初始化为空,RESLTQueue初始化为空; do while TS≠中 取文本数据M】∈TS,AscQueue=AscQueue u{Ml}并且 TS=TS-{Mf}; Do while ASCQueue≠ then 取P EASCQueue进行扩张; ifP是核心点then 对P的£邻域内任一未扩张的邻居Q进行如下处理: ifQ∈ASCQueue then if从P到Q的可达相似度大于旧值then 更新Q的可达相似度,并调整Q到相应位 置以保证队列的递增性; endif else 根据P到Q的可达相似度将共插入到ASCQueue; endif else ASCQueue=AscQueue一{P},P存入队列RESLTQueue; endif End do End do 一82一 越 苍 翥 文本对象簇次序 圈3 二雉数据集合的裙戗可选圈 3噪声文本数据的处理 在OPTICS TS算法执行时,总是选择可达相似度最大的 文本数据进行处理,即总是沿着尽可能稠密的区域进行扩张。 直至处理完当前稠密区域,它才会探索稀疏的边界,进入下 一个稠密区域。而一旦进入新的稠密区域,未处理的稀疏文 本数据将再次搁置,直至没有比它们更为稀疏的文本数据为 止。‘这种处理稀疏数据的策略会导致可达图失真,不能完全 反映数据空间的真实结构。为进一步提高s—Ts算法的性能, 可以做如下假定:文本噪声数据应该属于和它邻近的稠密区 域所在的簇。为此,可以为每一个文本对象增加一个指针域 Point adjacent 指向最近相邻的文本数据,并利用该指针最终将噪声文本数据放入与之相邻的稠密区域所在的簇中。 在OPTIONTS算法中,ASCQueue中的每个文本数据都 保存着一个动态的可达相似度。如果可达相似度发生更新, 则预示着与当前文本最近的相关文本发生改变,此时 Point adjacent也需要实时更新;如果在当前状态下, ASCQueue队列中的某些文本数据的可达相似度发生改变, 导致此改变的一定是当前刚完成扩张的文本数据,它被放置 在队列的末尾,此时,只需要将可达相似度改变的文本数据 指针Pointadjacent指向RESLTQueue队列的末尾即可;对新 加入ASCQueue队列中的文本数据,也需要将Point__adjacent 指向RESLTQueue队列的末尾。在文献[5]的基础上,本文给 出基于语义密度的文本数据聚类算法OPTION—TS—NEW。 输入RESLTQueue; 输出新的聚簇。 Piont=RESULTQueue.head; 指针指向RESULTQueue的头部 / Do while Piont≠RESULTQueue.tail ,掌指针不指向 RESULTQueue的尾部 / if陡峭下降区域then 定义新簇C,并开始将对应的文本数据点存入c; else c结束; endif if P=Piont and EPoinf_adjacent=Q if Q∈C then C=CU(P) else 将P插入到Q所在簇的末尾; endlf 和OPTICSTS NEW算法也能达到较为满意的聚类效果。 Point后移一个位置; end do 5结束语 通常基于密度的聚类方法能够以可达图的形式清晰地反 应语料的自身结构,但其结果组织策略在处理稀疏点时具有 一将所有簇首尾拼接,可得新的文本相似可达图。 如果在算法运行的同时实时记录已处理点到对应簇的映 射,寻找9所在的簇并将P插入簇尾将在常数时间内完成。 因此,结果的重组织同样无需引入额外的时间代价。 定的局限性。本文针对该问题提出一种改进的结果重组织 策略,使稀疏点能够纳入离自己最近的类中,从而提高了聚 类的质量。实验证明,本文的聚类算法在聚类质量上取得了 令人满意的结果。 4实验结果与分析 实验语料从复旦大学文本分类语料库的测试集中构造, 为保证语料规模,本文随机选出5个较大的类,并从每个类 中随机抽取出数百篇文档,并有意加入了一些噪声文本数据, 参考文献 [1]Hart Jiawei.数据挖掘概念与技术[M].范明,译.北京:机械 构成文档总数为1 000篇的语料;为保证不均衡性,语料中 出版社,2007. 每个簇的文档数从100篇~400篇不等。 [2】周水庚,范晔,周傲英.基于数据取样的DBSCAN算法[J】. 聚类评价指标目前尚不统一,本文参照文献【6]的分析结 小型微型计算机系统,2000,2i(i2):1270—1274. 果,采用较为有效的聚类簇数、ClassF、CluTSerF和Entropy [3]吴云芳,王淼.多分类器集成的汉语词义消歧研究[J1.计算机 作为聚类效果评价标准。为使实验结果能与常见文本聚类算 研究与发展,2008,45(8):1354—1361. 法性能相比,加入K—means[71算法在该实验语料上的运行结 [4]刘金岭.基于语义的高质量中文短信文本聚类算法[J].计算机 果。在K—means算法中,聚类数目CluTSerNo指定为5,控 工程,2009,35(1O):201—203. 制收敛的阈值设为0.2。实验结果如表1所示。 [5]Ankerts M,Breunig M,Kriegel H et a1.OPTICS:Ordering Points 表1 3种聚类评价指标比较 tO Identify the Clutsering Structure[C]//Proc.of ACM—SIGMOD International Conf.on Management of Data.Philadelphia,PA,USA 【S.n.],1999. [6]周昭涛.文本聚类分析效果评价及文本表示研究【D】.北京: 中科院计算技术研究所,2005. 通过对K・means,OPTICSTS和OPTICS【7】索红光,王玉伟.一种用于文本聚类的改进K-means算法[J]. TSNEW 3种 算法的聚类质量比较可以看出,各项指标都有较为明显的提 山东大学学报:理学版,2008,43(1):6l一64. 高。与人为设定正确簇数的K.means算法相比,OPTICS TS 编辑顾姣健 (上接第80页) 图2表明,0的选取对数据挖掘的影响不是很大。本测 试0与误差的关系是在k和P给定的情况下得出的,在以后 的研究中,主要考虑k,P,0三者与误差的关系。 5结束语 本文对分组无关问题模型做了改进,并且将该模型用于 关联规则挖掘中,通过实验分析各个参数的取值对误差造成 的影响。下一步的研究中是将该模型用在其他数据挖掘算 法中。 图1误差 与P的关系 参考文献 (4)当k和P给定时,k-O.2,p=O.4,0=0.0,0.1,O.2,0.3 【1]Wamer S L.Randomized Response:A Survey Technique for 0.4,0.5,0.6,0.7,0.8,0.9,1.0。 Eliminating Evasive Answer Bias[J].The American Statistical 用第(3)步中的方法2),可以得出图2。 Association,1965,60(39):63—69. [2]Du Wenliang,Zhan ZhOun.Using Randomized Response Techniques for Privacy—preserving Data Mining[C]//Proc.of hte 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Washington D.C.,USA:【S.n.],2003:24—27. [3]Horvitz D G The Unrelated Question Randomized Response Model[C]//Proceedings of the Social Statistics Section Conference. N USA:[S.n.],1967:65—72. 【4]Lu Fang,Zhong We ̄un,Zhang Yulin,et a1.Privacy Preserving Association Rules Mining Using the Grouping Unrelated—question Model[C]//Proc.of International Conference on WiCom.【s.1.】: IEEE Press,2007:5589-5592. 图2误差 与0的关系 编辑 索书志 83—
因篇幅问题不能全部显示,请点此查看更多更全内容