2013年第12期 基于特征聚类的网络评论信息挖掘研究 苏红旗 ,聂金慧 ,曾志 (1.中国矿业大学机电与信息工程学院,北京100083;2.总装后勤部指挥自动化工作站,北京100101) 摘要:网络评论中的信息特征及情感倾向是一种重要信息,文章针对有的中文产品评论信息挖掘 存在的不足,提出了一种基于词;F-共现性的产品特征聚类技术与细粒度情感分析技术。在产品评论中, 同类的产品属性会有多种多样的表述方式,文章将产品评论中的产品特征进行归类,且与以往基于句子 的整体情感分析不同,提出了针对产品特征的更细粒度情感分析技术,并且对没有相应情感倾向的属性 词做出合理处理。 关键词:产品特征归类;相邻共现;细粒度情感分析;非极性观点词 中图分类号:TP309 文献标识码:A 文章编号:1671—1122(2013)12—0051—04 Research on Mining Network Comments based on Feature Clustering SU Hong—qilNIE Jin.hui1ZENG Zhi ,,(1.China University fMioning and Technology,Beijing 100083,China;2.Logistics Department ofGeneral Equipment Department ofCommandAutomation Workstation,BeUing 100101,China) Abstract:The characteristics of information and emotional tendencies of comments in the network is a kind of important information,the Chinese product reviews existing mining problems,proposed one kind based on the lexical CO—occurrence technology products feature clustering and ine・grfained affective analysis technique.In product reviews,product attributes similar will have a variety of ways of expression,the product features product reviews are classiied,afnd the whole emotional sentence analysis based on different,proposed a more fine—grained emotion analysis technique for product features,and on the attribute words without a corresponding emotional tendency to make the reasonable processing. Key words:feature classiifcation;adjacent CO--occurrence;analysis offeer--grained emotion;nonpolar opinion word 0引言 网络评论通常是一种主观性自然语言表达文本,其中的评价性语素具有重要的研究价值。以针对产品的网络评论研究为例, —方面,研究人员可以通过分析评论来跟踪用户需求、了解用户的消费体验;另—方面,用户可以通过商品评论来了解产品性能, 从而做出更加可靠的购买决策 】。为了提高消费者的满意度以及调查消费者的消费体验,电子商务网站纷纷支持消费者发表对所 购产品的评论。但很多产品的评论文本数据量很大,庞杂的信息使人工查阅评论成为困难 I。因此,迫切需要借助技术手段来高效、 快速、全面地从大量客户评论中捕获用户评论信息,帮助消费者快速获取决策信息以及厂商及时获取用户反馈信息。本文将以电 子商务网站的中文产品评论信息为研究对象,探索评论内容中用户观点提取的相关技术,提出了评论文本中产品特征信息聚类的 技术和针对产品特征的细粒度情感分析技术。 1特征聚类技术分析 作为一种主观}生文本,它主要描述了作者对产品,如物品、事件、服务等的主观感受与满意程度 0。产品特征提取是指从用 户的评论中提取出能够描述产品性能或者描述产品某个方面或者某部分的词语。产品特征词一般要具备以下条件之一 :一是 给定主体的一部分;二是给定主体的部分的一个属性。但是由于用户评论的主观性很强,不同用户对同一产品属性可能有多种不 同的描述。目前国内已有不少关于产品特征抽取的研究,但产品特征聚类方面仍是产品评论情感分析的一个瓶颈。因此,本文 所要解决的主要问题是产品属性的聚类,并在产品聚类基础上挖掘针对产品评论中产品特征的情感倾向。 ● 收稿日期:2013—08—20 作者简介:苏红旗(1963一),男,陕西,副教授,主要研究方向:图形图像处理、计算机测控技术;聂金慧(1989一),女,山东,硕士研究生, 主要研究方向:计算机应用技术;曾志(1975一),男,江西,高级工程师,硕士,主要研究方向:计算机网络信息安全及数据恢复处理。 2013年第12期 1.1基于词汇的相邻共现计算语义相似度的聚类方法 产品聚类把大量的数据对象划分为一个或者多个对象 组成的类簇。聚类操作的输入为大量没有关联的数据,输出 是若干组可归为一类的特征对象的集合 ]。特征集合(簇, Cluster)里的对象相似于同一簇中的其他对象,同时又相异于 其他簇中的所有对象[5,61 o一般方法是,先计算词语的相似度, 相似度高的词汇则认为可以成为一簇。而计算词汇对象相似 度的较为传统的方式大多是以对象间的距离来确定,可评论 文本是来自于不同评论人的主观观点,且其数据量很大,大 量不同用户的评论中各个属性对象是否相似与这些对象之间 的距离并不是完全对应的 。 本文提出了一种新的基于词汇的相邻共现性来计算特征 词汇的语义相似度的方法,从而得到较为准确的产品特征聚 类。这种方法从基于语料库的词汇聚类方法得到启发,并对 基于语料库的聚类方法加以改进: 1)特征词汇在名词短语中的搭配能够反映该词汇某方面 的语义性质。例如小米手机评论文本中,“反应速度”、“运行 很快”等能反映出词汇的大致语义是评价用户对于手机处理 速度的体验观点。 2)比基于语料库的词汇上下文方法具有更高的抽取—与{ 辛 淬。 1.2产品特征聚类算法分析 产品特征聚类算法有两大难点,即如何量化产品特征词 汇的共现词向量,以及如何计算共现词向量问的成簇可能性。 为取得较为精准的产品特征簇,本文使用基于间接共现词的 方法。基于间接共现词 的方法在构造词汇的共现词向量时, 向量元素不是直接搭配词,而是由一组相似的词汇所组成的 词簇。因此,在构建共现词时,要首先计算共现词间的成簇, 这是一个递归的过程。 任意两个词wi,wi,记两者基于k词迭代共现词的成簇 可能性为Tk(wi,wj),X基于k次迭代搭配相似的词集为Tk( x)={X’l Tk(x,x’)>£l使用下面给出的算法来计算两者第 k+1次迭代的成簇可能性。即输入S,t k={Tk(wi,wi)},词对 <x,y>,输出Tk+l(x,v),具体步骤如下: 1)给定词簇向量<Tx(x1),Tx(x2),…,rrx(xn)>,词X在 S中的k+1次左搭配词簇向量Lk(x)=<xgt L,xgt L .,xgtnL> 是一个U维实数向量,元素xgt”L为词簇T 【x )在x的所有左 搭配词簇中的重要程度,其值为: f lO fv ∈ <Lx >) ( , , 蟛 ( 卜………………㈠ 2)同上述步骤,得到x在s中的右搭配词向量Rk(Tk(x)) =<xgt R,xgt R .,xgt“R>,其中 f0 (V ∈瓦,< , >) < , > 1 ( …………… 2 l 52 ~…一 3)记 三 , 为 ,b基于左直接搭配词的相似度。若 , b左搭配次数小于阈值,则T ̄L(a,6)=一l;否则为口,b左直接 搭配向量的余弦距离,即 ) …………………………(3] 4)同理,记 为口,b基于右直接搭配词的相似度。得 【 ) …………………………(4) 5)最后得到 ):互 2 至 2……………………(5) 随着递归次数的增加,越来越多的共现词将会减少共现 词较少带来的偶然性,这将有助于提高特征词相似度(成簇 可能性)度量准确率。在接下来的实验中将可以看到,当迭代 次数达到一定值时,方法将在准确率上达到一个峰值,迭代 次数为这个值以外的其他值时,准确率都会下降。 1.3实验 本文研究的重点是产品特征聚类,需要预先准备产品特 征集,该特征集来自于淘宝网的300条用户关于手机、衣服、 化妆品的评论,其中包含100个属性描述,共分为l3类,使 用分类准确率、标准熵和纯粹度作为产品特征聚类的评价标 准。对于评论语句的挑选,本文参考了Miller—Charles测试集 的构成。借鉴文献[17],我们采用人工评分方法。该评分方 法满分l0分制,0分表示完全不相似,10分表示完伞相似, 多次评分并得出多次评分的平均分。部分数据见表1。并 从实验结果可以发现,相关系数在第二次迭代时达到最高值, 然后下降。出现这种结果的原因是,每次迭代巾错误的相似 词汇是不断累加的。覆盖率在第二次迭代结果中,就可达到1, 如图1所示。 表1基于词汇相邻共现的词语语义相似度度量实验结果 } _H }0 8 ◆/ ? I拥0 5 ~… 一 …………~…… l蟊: {0 2 … 』 03. - … 1 0 n , I 邀代次数 I 图1相关系数与迭代次数 2情感倾向性识别及非极性观点词的处理技术 2.1依赖于特征簇的细粒度极性词抽取及其倾向性识别 产品评论倾向性研究最终是希望挖掘出用户对于产品某 2013年第12期 该依赖关系转化为关系树,如图3所示。 图2覆盖率与迭代次数 一个特征的褒贬性评价 】。因此需要进一步提取出与产品特 图3依赖关系图 征相对应的情感词。一个产品特征可能对应于用户的多种表述 方式,我们通过第二章的方法获得产品某特征的聚类(产品特 征簇),那么产品特征簇与依赖于该簇的极性共同描述了用户 对于该产品特征的情感倾向。用户针对一个产品特征(簇)可 能提出多个意见,故产品特征簇与情感倾向为—对多的关系。 我们用<Cluster,Opinion>表示产品特征簇一观点词对,其 中,Cluster表示产品相似特征词聚类后的特征词簇,Opinion 指修饰这个产品特征的情感词。针对句子“包包的质量没的说, 宝贝无论大小及款式都很不错,五金配件和内里的里衬也 都很好,唯一的不足就是备用的肩带太宽”。抽出的Cluster— Opinion为<质量,好>、<大小,不错>、<款式,不错>、 <五金配件,很好>、<里衬,很好>、<肩带,太宽>。 目前大多数关于产品情感倾向的研究多是基于句子的。本 文是以更细粒度的针对于产品特征的产品情感倾向为研究对 象,即基于产品特征簇的情感倾向研究。通过大量的语料分析 不难发现,特征词与情感词之间存在语法依赖关系,这种关系 允许我们利用词汇与词汇之间的从属关系来描述语言结构,语 言学家Tesniere在《结构语法基础》中主张将核心动词作为一 个句子的中心(HED),支配句子中的其他成分 。l。语言学家 J.Robinson在《依存结构和转换规则》中提出 :1)一个句子 只有唯一的一个成ho 2)句子中的其他成分都依存于某 一成ho 3)句子的任何一个成分都不能依存于一个以上的成 分。4)如果成分A直接依存于成分B,而在句子中,成分C位 于成分A和成分B之间,那么成分C或者依存于成分A,或者 依存于成分B,或者直接依存于成分A和成分B之间的某一成 ho使用依存语法处理文本的最大优势在于,基本不需要考虑 句子中词语的顺序,而只是通过句子各成分之间的修饰与被修 饰、支配与被支配关系来处理文本内容…】。本文利用Stanford 依赖关系 ,分析并.总结了中文词语问的依赖关系。以句子“包 包五金质量很棒,发货迅速”为例,获得的依赖关系如表2所示 表2依赖关系列表 帅(质量一3,包包一1) nn(质量一3,五金一2) ~ (很棒一4,质量一3) rOOt(ROOT一0.很棒一4) dep(很棒4,发一5) dobj(发一5,货一6) dep(很棒一4.迅速一7) 我们把句子的依赖关系分为三个层次 :局部依赖关系 (句子中谓语之外的其他成分之间的依赖关系),单句依赖关 系(句子中谓语成分与其他成分的依赖关系)和复句依赖关系 (单句与单句的依赖关系)。这样划分的一句是三个层次能够 囊括所有的语法关系,又不会有数据稀疏问题[14]0 nn为名词 依赖关系,nsubj为主谓依赖关系,dobj为名词依赖关系,dep 表示不确定是何种但却存在的依赖关系。在句子“包包五金 质量很棒,发货迅速”中,用户表达的是包包五金的质量好 和发货的速度快。我们分析句子的语义依赖关系,发现“质量” 依赖于“包包”与“五金”,可以得到“包包五金”复合词语,“货” 依赖于“送”,因此可以得到“发货”复合词语。通过依赖关系, 可以提取句子中的存在依赖关联的词语组合成复合词语,将复 合词语作为产品的复合特征It S]。 2.2情感词的极性判断与处理方法 可以通过查找褒贬义词典来分析和获取词汇的情感倾向 性[1610但是,只使用这种方法会带来一些问题:一方面,褒 贬义词典不能囊括所有的情感倾向词,因此这种方法无法处 理没有在词典中出现的词语;另一方面,如果某些词本身没 有褒贬义,但却是一种重要的用户体验,对应于特定产品的 特定属性特征,却能明显体现用户的喜好。对于这种产品特征, 我们通过产品特征词聚类,将得到的产品特征词反馈给用户 和商家。如衣服太紧身、针对于某品牌面膜的“用过几次都过 敏”。对于这类词,我们期望的结果示例如表3所示。 表3用户评论中的产品特征簇 产品特征簇 用户评论 1美白效果看得出.就足不够温和 不温和 2味道很好闻,可是用后感觉很刺激。 3美白效果 错,町是用后会过敏,不敢用r。 1和图片 样,不错的款式。 描述相符 2与描述的一致哦,常见很漂亮 对于第一方面的问题,即褒贬义词不在词典所囊括的褒 贬义词集合之内,我们可以扩大褒贬义词词库,并且计算该 词与极性词的倾向相似性来解决。手工标注HowNetl】 的所 有情感词,同时从网络上选取大量情感极性词,共同组成 一定规模的褒贬义词库。第二方面中,关于没有褒贬义,却 仍然能够表达一种重要的用户体验的词语。这次词语在情 感极性词库中找不到,却不可以简单地放弃这些有着重要 意义的词。本文所使用的方法是根据表达用户喜好的词进 2013年第12期 行聚类。Cluster与Opinion具有一对多的关系,即<Cluster, Opinionl>,<Cluster,Opinion2>,<Cluster,Opinion3>,再利用 对产品特征聚类的方法,对Opinionl、Opinion2、Opinion3进 行聚类,得到聚类后的产品特征簇一产品观点对,如<Cluster, OpinionA>,<Cluster,0pinion3>,其中OpinionA为Opinionl 与Opinion2聚类后的用户针对于Cluster产品特征簇的观点。 可以很好的对用户评论结果进行归类。 根据以上分析,产品特征簇和观点词关联对的产生过 程如下:首先获得句子的产品特征簇,然后利用Standford Online工具包获得句子中的所有依赖关系[18]7并获得与该产 品特征簇内某个特征存在nsubj或dobj依赖关系的词语作为 该产品特征的观点词。算法输入为产品A对应的评论文本的 集合S,输出为产品A对应的特征簇和观点关联对列表L,具 体步骤如下: 1)分词,抽取产品特征词,利用前文介绍的方法将产品 特征词聚类得到产品特征簇。 2)提取<Cluster,Opinion>,即产品特征簇与产品特征观 点对。对于分词后的待处理文本,利用Standford Online工具 包得到句子中的所有依赖关系。若产品特征簇中的某个特征 词与某一个或几个词语问存在nsubi或dobi的关系,则认为 该产品特征簇与该词为一个<Cluster,Opinion>。 3)将<Cluster,Opinion>加入到产品特征簇一观点词对列 表中。 4)首先检查<Cluster,Opinion>中的Opinion是否在领域 极性词典中。若存在,进一步查找是否在褒义/贬义特征中, 若存在,确定相应特征词的褒贬义,若不在,Opinion为中性 词。若Opinion不在极性词典中,则扩大情感词库,从网络中 获取情感词构成极性词库,并在其中查找Opinion,若仍不存在, 认为其没有极性。对于没有极性的Opinion,可能是一种很重 要的用户对于该产品特征的观点,我们不舍弃,而是与极性词 共同执行下一步操作。 5)对产品观点Opinion进行聚类。 本文的情感倾向主要借鉴现有的情感倾向研究,并在 此基础上加以改进。在产品特征聚类的基础之上,针对于 产品进行特征簇的情感倾向分析。对于本身没有褒贬义, 但却是一种重要的用户体验特征且能明显体现用户喜好的 特征词汇,本文对其聚类并提取,可以作为一种产品的网络 评论参考。 3结束语 本文以网络产品评论文本的数据挖掘为研究重点,对 海量评论文本中的海量产品特征进行归类,把用户对同一 产品特征的不同描述归并成为产品特征簇,进而研究用户 对产品特征簇的情感倾向。在产品聚类方面,本文从基于 语料库的词汇聚类方法得到启发,并对基于语料库的聚类 方法加以改进,提出了一种新的基于词汇的相邻共现性来计 算特征词汇的语义相似度的方法,从而得到较为准确的产 品特征聚类。在用户情感倾向研究方面,与以往对评论文 本句子进行情感分析不同,本文提出了针对产品特征簇的 更细粒度情感分析技术,使获取更加全面、精准的用户观 点成为可能。 (责编杨晨) 参考文献 [1]杨源.评论挖掘中产品属性归类问题研究 中文信息学报, 2012,26(03):103—115. f2徐琳宏,林鸿飞,潘宇等2_情感词汇本体的构造 情报学报, 2008,27(2):180—1 85. [3]李赘.基于中文维基百科的语义知识挖掘相关研究fD1北京:北 京邮电大学,2009. [4】王荣洋.基于CRFs的评价对象抽取特征研究卟中文信息学报, 2012,26(2):58—61 [5]TANG Hui—feng,TAN Song—bo,CHENG Xue—qi.A survey on senti—ment detection of reviews[J】Expert Systems with Applications, 2009,36(7):10760—10773 【6]Pi—Chuan Chang,Huihsin Tseng,Dan Jurafsky,et al Discriminative Reordering with Chinese Grammatical Relations FeaturesfC]In Proceedings of the Third Workshop on Syntax and Structure in Statistical Translation.2009 【7】严琰基于依赖关系的产品网络评论倾向性研究与实现[1)1.上海: 东华大学.2013. [8]朱征宇.基于语法模式的产品评论主题词和极性词提取u】l重庆: 重庆理工大学学报(自然科学),2010,24(5):86—90 [9]顾正甲,姚天日方.评价对象及其倾向性的抽取和判别ull中文信 息学报,2012,26(4):91—97 [10]李亚红,王素阁,李德玉.使用多元语义特征的评论文本主题聚 类卟计算机工程与应用,2013,49(2):188—192. [11]李实,叶强等.挖掘中文网络客户评论的产品特征及情感倾向【『1l 计算机应用研究,2010,27(8):3016-3019. [12]许方,张桂殊一种改进的混合蛙跳和K均值结合的聚类算法 计算机工程与应用,2013,49(1):176—180 [13]LITVIN S W,GOLDSMITH R E,PAN Bing.Electronic word— of-mouth in hospitality and tourism management l_『1.Tourism Man— agement,2008,29(3):458—468 [14]李方涛基于产品评论的情感分析研究[D】北京:清华大学, 2011. [15】Rao D,Ravichandran D.Semi supervised polarity lexicon induction[C]//EACL 2009.Athens:[S.n】.2009:675—682. [16]余刚基于词汇语义计算的文本相似度研究[J1.计算机工程与设 计,2006,27(2):241—234 『171李天颍.一种基于依存文法的需求文本策略依赖关系抽取方法 Ⅱ].计算机学报,2013,36(1):54—62. [1 8]FENG Sheng,ZHANG Ming,ZHANG Yanxing Recommended or not recommended review classiifcation through opinion extraction[C] //Proceedings of the12th InternationalAsia—PaciifcW ebConference W ashington:IEEE Computer Society,2010:350—352.