多参未夕l)p硕士学位论文网络用户数据挖掘与行为分析InternetUsersDataMiningandBehaViorA的lysis作者:刘丽娟导师:沈波北京交通大学2014年4月学位论文版权使用授权书本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。(保密的学位论文在解密后适用本授权说明)学位论文作者签名:减翮强签字日期:知圩年节月五日导师签名:签字日期:垆/¥年F月z日中图分类号:TP30I.6UDC:004.93学校代码:10004密级:公开北京交通大学硕士学位论文网络用户数据挖掘与行为分析InternetUsersDataMiningandBehaviorAnalysis作者姓名:刘丽娟导师姓名:沈波学位类别:工学学科专业:通信与信息系统学职号:11120126称:副教授学位级别:硕士研究方向:计算机网与信息系统北京交通大学2014年4月致谢时光飞逝,转眼间就要结束两年半的研究生生活,期间的许多往事都历历在目,仿佛昨日。在硕士论文完成之际,谨向所有给予我无私关心、支持和爱护的老师、同学、家人、朋友表示衷心的感谢。首先,要感谢我的导师沈波副教授。在这两年多的时间里,我不仅从沈老师身上学习到了做学问的严谨态度,更领略到做人应有的大度和真诚。衷心地感谢沈老师一直以来对我的信任和支持。在论文开题、论文算法研究和论文撰写的整个过程中,沈老师百忙中仍悉心关注我的论文进展情况。当我遇到问题而烦恼时,沈老师的一句话往往就能起到醍醐灌顶的作用,使我的论文工作得以顺利进行下去,少走弯路。沈老师一丝不苟的工作精神和严谨的科研作风使我受益匪浅,老师将是我今后工作和生活中的榜样。同时,感谢实验室的所有老师,老师们的共同努力为我们营造了良好的学习环境和锻炼机会。感谢刘云老师一直以来像对待自己的孩子一样地对待我们,悉心关注我们的生活和工作情况,给我们以信心和勇气,使我们能够在未来的人生道路上坚强地走下去。感谢张振江老师一直以来对我们论文研究和科研工作的指导和督促,使我们的科研能力有了极大提高,同时也从张老师身上学习到了许多为人处事的道理,张老师的谆谆教诲我终生难忘。其次,感谢所有帮助过我的同学。在实验室进展工作和完成论文的过程中,各位同学在不同程度上给我提供了帮助。感谢刘桐欢、王慧、孙芬芬等同学对我论文的算法研究和软件编程方面提供的热情帮助。再次,感谢我的家人。他们为我的成长和学习提供了良好的环境,他们的默默支持和无微不至的关爱给我前进的无限动力。衷心感谢他们和所有关心我的亲人。最后,谨向百忙中审阅我论文的老师们和参加答辩的老师们表示由衷的谢意!中文摘要摘要:随着互联网的不断发展和用户需求的不断提高,有关网络用户的行为分析和数据挖掘研究迅速发展起来。作为Web2.0技术的典型代表,网络论坛承担着传播信息和导向的作用。因此,对论坛用户的兴趣建模和预测不仅有助于正确分析用户的兴趣所在,而且有助于向用户提供个性化服务。论坛帖子的热度预测对于提前掌握动向具有重要意义。本文首先对常用的数据挖掘算法和用户兴趣模型进行简要介绍,然后对天涯论坛的用户数据集进行处理分析,设计了适合论坛的用户兴趣权重更新算法,并对用户兴趣进行有效预测,接下来分析了帖子热度的影响特征来对热门帖子进行预测。基于论坛访问时间间隔和发帖回帖数量的用户兴趣权重更新算法,建立在用户访问时间存在较大间隔的基础上,将用户的访问时间间隔和发帖回帖次数同时作为权重计算的重要变量;在兴趣预测方面,设计了一种两阶段的用户兴趣聚类算法。通过对论坛数据集进行仿真实验,验证了用户兴趣更新算法和推荐的有效性和准确性。论坛帖子热度受多方面因素的影响。根据网站用户的好友关系、关注关系、经验值等信息提取出用户性质和用户关系特征;帖子受众程度与其讨论内容有密切联系,因此帖子内容也是热度的重要影响因素;另外,帖子的发帖时问也会对其热度产生一定程度的影响。在分析帖子热度影响特征的基础上对帖子热度进行支持向量机回归,取得了满意的预测结果。最后,将用户兴趣建模和热帖预测相关算法应用到网络分析中,设计了基于论坛的用户行为分析系统。系统分为数据获取、数据预处理、用户行为分析和数据存储模块,负责实现用户兴趣识别、上网时间统计、活跃用户发现、意见领袖发现和热帖预测等功能,并详细介绍了各个模块的设计,然后对系统的设计框架进行构建,作为未来系统实现的基础。论文的工作得到了国家自然科学基金(No.61172072,61271308)、北京市自然科学基金(No.4112045)、高等教育博士点基金(No.WllCl00030)、北京科技计划(No.Z121100000312024)和北京市教育委员会学科建设与研究生建设项目等课题的支持。关键词:互联网;用户行为分析;数据挖掘;兴趣模型;网络分类号:TP301.6ABSTRACTABSTRACT:WiththecontinuousdevelopmentoftheInternetandusers’requirements,researchesaboutbehavioranalysisanddataminingofIntemetusersaredevelopingrapidlv.AsaexampleofWeb2.0,Intemetforumundertakestheroleoftypicalinfomationdisseminationandpublic·opinionguidance.Therefore,modelingalldforecaLstinginterestsofforumusersnotonlydohelptoproperlyanalyzeuser’smterest,butalsoconl矗butetoprovidingpersonalizedservicetousers.TheheatofBBSpostsforecastisofgreatsignificanceforgraspingpublicoplmontrends·Firstly,somecommonlyuseddataminingalgorithmsanduserinterestmodelsarebrieflvin扛oducedinthispaper,thenthedatasetofTianYaBBSisprocessed·Onthebasisoftheaboveprocessing,thispaperdesignsaninterestweightupdatingaIgont胁suitableforBBSusersandeffectivelypredicteduser’sinterests.Then,thepaperdoesa11alysisontheinfluencecharacteristicsofpostheatandforecasttheprobablehotPosts·User,sinterestweightupdatealgorithmisbasedonforumaccesstimeintervalandmen啪berofpostsandrepliesduringtheinterval,becausethere1Salargegapmusersaccesstimeintenral.Thedesignedupdatealgorithmtakesintoconsiderationbothuser。stimeintervala11dpostnumberastheimportantweightvariables·Intheinterestaccessforecastaspect,thispaperdesignsatwo-stageuserinterestsclusteringalgom呦·1hIoughfon】mdatasetsimulation,experimentresultsverifytheeffectivenessandaccuracvofuser’sinterestupdatingalgorithmandinterestpredictionalgorithm·Fonlmpostheatis疵ctedbymanyfactors.AccordingtotherelationshipofBBSusers.therearefriendshipandattentionrelationshipbetweenusersandempificalValueofindivid砌user,SOweextractthenatureandrelationshipofusersasoneaspectot砌uence.Asthedegreeofaudienceiscloselyrelatedtopost’Scontent,wetakepostcontentaSanimportantinfluenceaspect.Besides,post’sreleasetimeISofacertamdegreeimportancetoitsheatdegree,SOwealsotaketimefactorintoconsideration·0nthebasisofanalyzingpost’sheatimpactcharacteristics,thispaperdoesSVMregressiononpostheatandachievessatisfyingresults·Inthelastpartofthispaper,theuserinterestmodelingandhotpostsforecastingareappliedtothenetworkofpublicopinionanalysis,andaforumbaseduserbehavioranalysissystemisdesigned.Thewholesystemisconstitutedbyseveralmodules,includingdataacquisition,datapreprocessing,user’sbehavioranalysisanddatastorage·Thesystemisresponsibleforimplementinguserinterestidentification,accesstimeSOon.statistics,discoveringactiveusersandopinionleader,predictinghotposts,andThedetaileddesignofeachmoduleispresented.Thispaperalsobuildstheframeworkasaofthissystembasisforfuturesystemimplementation.supportedbytheNationalNaturalScienceFoundationofThisworkhasbeenChinaunderGrant61172072,61271308,andBeijingNaturalScienceFoundationunderGrant4112045,andtheResearchFundfortheDoctoralProgramandofHigherEducmionTechnologyofChinaunderGrantW11C100030,theBeijingScienceProgramunderGrantZ121100000312024,andBeijingMunicipalProject.CommissionofEducationDisciplineConstructionandGraduateConstructionKEYWORDS:Internet;UserNetworkConsensusCLASSN0:TP301.6BehaviorAnalysis;DataMining;InterestModel;目录中文摘要………………………………………………………………………….iiiABSTRACT……………………………………………………………………………………………….iv11.11.21.31.422.1引言……………………………………………………………………….1研究背景及意义……………………………………………………..1网络用户数据的挖掘与行为分析…………………………………一2论文研究内容和主要工作…………………………………………..3论文结构和安排……………………………………………………一4相关理论与技术概述…………………………………………………….6常用数据挖掘算法…………………………………………………..62.1.1数据挖掘…………………………………………………………62.1.2聚类分析…………………………………………………………62.1.3K.Mealls聚类算法………………………………………………82.1.4支持向量机………………………………………………………92.2用户兴趣模型概述…………………………………………………122.2.1用户兴趣模型………………………………………………….122.2.2用户兴趣建模算法…………………………………………….132.3网络用户行为分析…………………………………………………142.3.1网络用户行为的特点和分类………………………………….142.3.2数据挖掘与用户行为分析的关系…………………………….152.433.13.2本章小结……………………………………………………………16用户兴趣建模与兴趣推荐………………………………………………17整体思路……………………………………………………………17论坛用户数据处理与兴趣分析……………………………………173.2.1数据处理及分析关键环节…………………………………….183.2.2用户兴趣分析………………………………………………….183.33.43.5用户兴趣模型构建与更新…………………………………………21用户兴趣推荐………………………………………………………24实验结果与分析……………………………………………………263.5。l评价指标……………………………………………………….263.5.2结果及分析…………………………………………………….273.6本章小结……………………………………………………………2944.14.24.3论坛用户行为分析及热帖预测…………………………………………30论坛用户行为及热帖分布分析……………………………………30热门帖子定义………………………………………………………33帖子特征提取………………………………………………………334.3.1用户性质及用户关系………………………………………….344.3.2帖子内容因素………………………………………………….364.3.3时间因素……………………………………………………….374.44.5支持向量机回归预测………………………………………………38热度预测结果与分析………………………………………………394.5.1评价指标……………………………………………………….394.5.2预测结果及分析……………………………………………….394.655.15.25.3本章小结……………………………………………………………4l论坛用户行为分析系统设计……………………………………………42系统功能和目标……………………………………………………42系统的总体设计……………………………………………………43系统功能模块详细设计……………………………………………445.3.1数据获取模块………………………………………………….445.3.2数据预处理模块……………………………………………….445.3.3用户行为分析模块……………………………………………。455.3.4数据存储模块………………………………………………….475.45.566.16.2系统框架设计………………………………………………………5l本章小结……………………………………………………………51总结与展望………………………………………………………………52总结………………………………………………………………….52未来工作展望………………………………………………………53参考文献…………………………………………………………………………54作者简历…………………………………………………………………………57独创性声明………………………………………………………………………58学位论文数据集…………………………………………………………………591引言1.1研究背景及意义Internet的出现极大地促进了网络信息的传播,人们对信息的意识、对开发和充分利用信息资源越来越重视,这些需求对推动科学、文化、经济和社会的发展有不可估量的作用。截至2014年1月8日,我国网民数量达6.18亿,2013年全年新增网民5358万人【l】。随着社交媒体流量的迅速增长和搜索服务逐渐进入成熟期,许多即时性的消息服务和社交网络【2J迅速兴起,现在的互联网已成为一个开发和使用数据资源的信息海洋。Web2.0时代的到来使得各种社交媒体迎来了爆发式增长,BBS、微博、人人网【3】等社交网站如雨后春笋般出现,并已赢得了众多网络用户的喜爱。网络用户参与网络互动的行为又推动了网络规模的快速增长,使得网络上的数据达到前所未有的高度。随着社交网络业务量的提高,网络用户访问量和数据流量快速增长,如何充分挖掘和利用网络数据资源成为目前研究的热点。最近几年,有关复杂网络和复杂系统的研究正成为社会网络分析的重点内容【4刮,学者们试图对这些网络特征建模来模拟实际网络的增长过程17,8J。目前在用户行为分析方面的研究发现主要有无标度特性19J及小世界特征【loj等。BenevenutoFabricio等【llJ对Orkut、MySpace、Hi5和Linkedln网站进行了用户行为的比较研究,对后期OSN的进一步研究提供了很好的指引作用;AdamicLA等112】在一系列分析的基础上,证实互联网存在幂率分布特征;ClausetA等【13】为识别和量化经验数据的幂律分布特征,将最大后验拟合和拟合优度测试结合起来,构造分布函数的统计框架:BarabasiAL等【14J验证了网络图的全局幂律分布特性,并构造模型来模拟网络的自组织过程。在论坛用户行为分析研究方面,现已发现帖子参与的用户数目和回复数呈现幂率衰减的分布趋势【l51、网络拓扑关系的演化趋势受用户参与行为的影响。DingFei[16J等对论坛用户的发帖和回复行为进行了系统分析,发现用户兴趣分布并不服从幂律分布,并且帖子热度与其话题类型有较大联系。除了上述的统计规律和演化特性外,论坛用户行为还会受其他用户行为的影响117j,在这个过程中好友的影响作用要比非好友用户的影响更加强烈。在类似论坛的服务性网站中,如果能准确把握用户关系和用户属性特征,无疑会对用户访问效率和满意度有很大程度的提高。AgichteinE等【18,191将用户行为分析用在W西搜索应用中,使得不同用户搜索同一个关键词返回不同的回结果,充分实现了搜索个性化。作为Web2.0的典型代表,论坛(BBS)通过用户发布内容和用户的互相回复而形成自组织网络社区。论坛中能吸引较多用户关注的帖子一般都描述比较新鲜的事件,比如,最近刚发生的“乙肝疫苗致死”事件、红得发紫的“爸爸去哪儿”等。用户通过访问论坛帖子,可以在短时间内了解当下的时事热点和自己感兴趣的消息,对于节省用户访问时间、提高用户满意度等具有极大的促进作用。利用BBS的虚拟环境,一篇初始波及范围很小的帖子在经过用户的几番讨论后可能会引发超出其初始范围的巨大影响。因此,网络论坛能够极大地促进信息的传播。鉴于论坛对消息推广的巨大推动作用,企业单位可以通过数据挖掘和用户行为分析进行广告投放分析,以便制定正确的投资计划,精确预估未来企业投资回报率和资本价值【20|。由此可见,对用户行为进行挖掘分析和预测,有助于引导向正确的方向发展,并对节省上网时间,提高用户访问网站的满意度有重要意义。1.2网络用户数据的挖掘与行为分析目前社交网络的研究主要集中在社会网络分析方面,包括大众传播、公共关系等领域,借鉴并融合了社会学、心理学【2¨、传播学、信息论等多门学科,形成了较为系统、完整的理论研究方法。数据挖掘最广泛接受的定义是:数据模型的发现过程【221。在当今数据海量增长的情况下,如何从数以TB甚至PB计的数据中发现有用的知识,成为亟待解决的问题。网络用户的数据挖掘主要是指Web数据挖掘,通过对Web超链接、网站内容和Web日志文件的处理分析,从中发现有用的信息。ZaianeOR等【23】将数据挖掘和OLAP技术应用在W曲日志的处理分析上,并设计了用于发现用户访问模式的W曲日志挖掘系统;ShawMJ,SubramaniamC等【24】成功地将数据挖掘技术应用于数据管理和市场决策;ZhangChen等【25】改进了K.Means聚类初始簇中心的选择方式,有效克服了算法在初始簇中心选取方面的敏感性。在过去的几年中,时间序列数据挖掘已得到广泛的研究和应用。Tak.chungFu[26】在现有研究的基础上,对时间序列数据挖掘算法进行全面系统的总结,并对未来研究方向进行展望,为算法的深层次发展提供有力指导。由于传统的数据挖掘算法是在原始数据集上进行的,在发现用户行为模型和信息传播模式的过程中有可能造成隐私泄露的问题,因此,数据挖掘过程中的隐私保护就成为数据挖掘发展的必然要求。WangJiant27l、DakshiAgrawalⅢJ、KantarciogluMurat和CliftonChrisl29j分别从不同角度对隐私保护数据挖掘进行了研究和改进。2近年来用户的个性化研究受到了越来越多的关注,主要涉及网络热点话题挖掘和追踪、用户情感分析、用户兴趣挖掘等。GuoJing,ZhangPengpo]等提出利用频繁模式挖掘算法检测Twitter流中的热点话题:ZhangZhongfeng和LiQiudanplJ构建了一个用来捕获CQA系统中热门话题的热点话题检测和趋势分析系统;XiongFei等【32】利用逻辑回归模型将论坛帖子的多个特征进行融合,进而对帖子热度进行提前预测:LiNall【33】将文本挖掘和情感分析结合起来,对BBS进行热点检测和预测。AlexanderPark【34】等将Twitter作为一个语料库,并构建了一个情感分类器来对网络用户进行情感分析和观点挖掘。社交网络的用户行为分析可以帮助决策者掌握用户的行为特点和兴趣变化情况。这方面的研究主要涉及利用Markov链进行用户行为预测135J和借助统计学方法来分析用户行为。DuncanWatts研究了网络统计学建模的六度分隔理论【3酬,揭示了社会网络普遍存在的连接现象,也反应出社会网络呈现的短直径、大聚类系数等小世界特征。在个性化系统中,用户行为分析和用户兴趣建模都是至关重要的。根据用户兴趣的持续时间,可以分为长期兴趣和短期兴趣‘371。ZukermanI等【381对复杂网络的用户预测模型进行比较分析,探究了建模的主要技术;WlliteRW和Baileypt391提取了五个影响用户兴趣预测结果的变量,并对预测有效性进行评估,发现用户的上下文信息对预测结果有重要影响:xuZhiheng[40】等构造了用户.话题模型,使用一个潜变量来指示用户是否对话题感兴趣,这种兴趣建模方式能很好地发现Twitter用户的兴趣。用户行为分析常用的数据挖掘技术有关联规则、序列模式、聚类分析、分类和预测。关联规则通过挖掘Web日志,发现用户的访问模式和规律;序列模式挖掘从用户事务集合中提取频繁模式序列,进而分析和发现用户行为特征。聚类分析能够将兴趣相似的用户聚合到一个簇中,或者将相似的文档划分到一个簇中【411。用户行为分析和兴趣建模【21】已经在自适应系统、个性化服务系统、内容管理等领域得到应用。随着网络用户交互复杂度越来越高,对数据进行更深层次的分析需求也在不断提高。因此,通过数据挖掘算法对网络用户行为进行全面深入的分析,并建立用户兴趣模型和兴趣预测仍有待进一步的研究;社交网络的消息热度预测也是未来研究的一项重要内容。1.3论文研究内容和主要工作本文主要针对论坛用户的上网行为进行挖掘分析,在分析论坛数据集分布和聚集状况的基础上,建立适合论坛的用户兴趣更新算法,并对热门帖子进行预测。具体内容和工作包括:相关理论与技术概述。介绍了常用的数据挖掘算法,并对K-MeaIls聚类、支持向量机分类和预测进行描述;对常用的用户兴趣模型表示和构建算法进行介绍;阐述了网络用户行为分析的特点和分类。用户兴趣建模与兴趣推荐。通过对天涯论坛数据集进行分析,发现用户的访问时间存在较大时间间隔,这种情况并不适合采用传统的基于记忆的遗忘曲线进行兴趣更新,设计了一种同时考虑用户访问时间间隔和发帖回帖次数的兴趣更新算法,并对用户的兴趣进行预测。论坛用户行为分析及热帖预测。通过对论坛帖子进行统计分析,发现帖子的受欢迎程度与多项特征有关,从用户特征、内容特征、时间特征三方面对帖子热度的影响因素进行归纳,最后用回归的支持向量机进行帖子热度预测,并利用仿真结果验证预测的可靠性。论坛用户行为分析系统设计。对用户行为分析系统要实现的功能和目标进行介绍,并就系统的数据获取模块、预处理模块、用户行为分析模块和数据存储模块的详细设计进行描述。1.4论文结构和安排通过阅读和借鉴国内外有关数据挖掘和用户行为分析的参考文献,本文从介绍常用数据挖掘算法出发,对论坛数据集进行处理分析,设计了适合论坛的用户兴趣更新算法和兴趣预测算法,并对帖子热度影响特征进行分析归纳,最终设计了一个论坛用户行为分析系统。本文共包含六章,每个章节的内容安排如下:第一章,引言。主要介绍了数据挖掘与用户行为分析的研究背景和意义,总结并分析了当前数据挖掘的发展现状和用户行为分析的研究进展。概括了本文研究的重点内容和完成的主要工作,并对论文的结构和安排做了相应介绍。第二章,相关理论与技术概述。本章主要从数据挖掘的基本算法出发,介绍了聚类、支持向量机等算法,对常见的用户兴趣模型表示和构建算法进行概述,阐述了用户行为分析的特点和分类情况。第三章,用户兴趣建模与兴趣推荐。本章通过对天涯论坛数据集处理分析,发现用户兴趣的异构性和话题热度的差异性,提出了基于访问时间间隔和发帖回帖数量的兴趣更新算法和兴趣聚类算法。利用仿真实验验证算法的可靠性和有效性。第四章,论坛用户行为分析及热帖预测。首先对论坛帖子的受欢迎情况进行分析,比较用户的活跃程度的差异性,然后提取帖子热度有关的多个影响特征,4利用回归的支持向量机对热门帖子进行回归预测,最后通过仿真验证预测结果的可靠性。第五章,论坛用户行为分析系统设计。本章主要介绍了论坛用户行为分析系统的功能和目标,并对系统的数据获取模块、数据预处理模块、行为分析模块和数据存储模块的设计进行详细说明,最后设计了系统实现的整体框架。第六章,总结与展望。对本文的研究工作进行总结,并对未来的研究工作进行了展望。2相关理论与技术概述常用数据挖掘算法2.12.1.1数据挖掘数据挖掘(DataMining)又称为数据库知识发现(KnowledgeDiscoveryinDatabases,KDD)[42】,它通常包括数据清理、数据集成、数据选择、数据变换、模式发现、模式评估和知识表示七个阶段。数据清理、数据集成、数据选择和数据变换是数据预处理的过程,数据挖掘质量的好坏在很大程度上取决于预处理的效果。模式发现就是利用数据挖掘算法从数据中提取有用模式的过程。模式评估和知识表示是后续处理步骤,通过某种度量标准,识别出真正有用的知识,并采用可视化等技术呈现给用户。图2.1是数据挖掘的流程图。乡恒瓣!炒厂1数据清理hL1双话父挟)一I数据触i\n,一r数据预处理模式发现模式知识库数据库图2—1数据挖掘流程Figure2一lProcedureofdatamining2.1.2聚类分析聚类分析是数据挖掘最常用的数据分析技术之一,和机器学习的无监督学习有关。聚类在商务智能、图像模式识别H31、Web搜索、生物学和安全等众多领域有广泛的应用,还可以作为其他数据挖掘算法的预处理步骤。聚类是把数据对象划分成不同簇的过程,簇内的对象彼此相似,不同簇的对象则彼此不同。在许多情况下,同一个簇内的对象可以作为一个整体来对待。6j篓塞童适-大堂亟±堂位途塞扫差堡途盏垫盔拯述(1)聚类划分标准根据聚类划分的不同准则,聚类算法通常分为划分方法、层次方法、基于密度的方法和基于网格的方法。划分方法:该方法将n个原始数据对象划分成k个簇(k≤,2),每个簇至少包含一个对象。假设e(1≤t≤k)是聚类划分后的一个簇,U表示原始数据集合,则有:1)u名1Cr=U;2)C二ne=矽,m≠”,l≤n≤k,1≤m≤k典型的划分算法有k.均值(K—Means)和k.中心点(K—Medoids)算法,它们都是采用启发式方法来逐步逼近最优聚类结果的。基于划分的聚类算法适合发现中小规模数据库中的球状簇。层次方法:层次方法分为凝聚的层次聚类和的层次聚类两种。层次聚类方法可以发现不同层次上的数据聚集模式。BIRCH算法是一种传统的层次聚类算法,用来处理大规模数据集的聚类问题:Chameleon算法是目前应用较好的动态聚类算法,能够发现任意形状的聚类簇。基于密度的方法:这种聚类方法是为了发现非球状簇。其主要思想是:只要密度超过某一个限定的密度阈值,就可以继续扩大该簇的范围。通常基于密度的聚类算法只考虑互斥的簇,而忽略模糊集合。DBSCAN和DENCLUE都是基于密度的聚类算法。基于网格的方法:该方法把数据空间划分为有限个数的数据单元,形成网格结构,然后在网格结构上进行聚类。基于网格的聚类主要有GRIDCLUS、STING等。(2)相似性度量常用的相似性度量包括四种方法,分别是基于距离的度量、基于密度的度量、基于概率的度量和基于连接的度量。基于距离的相似性度量方法具有计算简单,易于理解的特性,缺点是对噪声敏感。常见的距离度量指标有欧几里德距离、曼哈顿距离、角度的余弦值。基于密度的相似性度量有最近邻方法、基于网格的方法和基于密度函数的方法,这些度量方法都不受数据对象分布情况的,能用于发现任意形状的簇。DBSCAN、OPTICS和CLIQUE都是基于密度的相似度量方法。基于概率的度量方法建立在统计学理论基础上,采用概率的相似性度量方法的算法有COBWEB、AutoClass和混合模型等。基于连接的相似性度量方法建立在数据连接图的基础上,依据图的边测信息进行数据聚类,将满足一定连接数阈值的数据对象聚合成簇。该方法的度量标准是数据对象的连接数量。层次聚类中的Chameleon聚类就是基于连接的7相似性度量算法。(3)簇的分离性按簇的分离性可以将聚类结果分为互斥簇和模糊簇。传统的聚类划分是一种硬划分,每一个数据对象都是被严格地划分到某一簇中,导致簇问具有明显的分类界限。模糊聚类簇并不是互斥的,数据对象可以对多个簇有不同的隶属度,这就建立了数据对象对于类别的不确定性描述。相对于硬划分的聚类簇,模糊簇能更好地反应客观世界。模糊C均值(FCM)聚类算法就是一种典型的模糊聚类算法,通过计算目标函数的最小值获取最终的软化分结果。2.1.3K.Means聚类算法K.Means算法最早由J.B.MacQueen提出,在医学、生物学、文本文档聚类等领域得到广泛应用。这种聚类算法是为了发现对象簇的分布情况和相似程度,从而获得对象的群体特征。K.Means算法用于网络用户数据挖掘中,可以快速有效地发现网络用户的兴趣特征,进而可以对群体用户的兴趣特征进行聚类分析,发现用户的兴趣所在,有助于后期有效地进行用户兴趣预测和内容推荐。假设数据点集合为D:{xl,x2,-*-9吒),其中薯=(薯。,‘:,...,b)是,.维实数空间的向量,n表示数据点个数。K.Means算法的具体描述如下:算法2.1:K.Means算法弱久:数据集D,划分簇个数k耢缘k个聚类簇l:choosekdatapoint2repeat345:67.endsastheinitialclustercenters声,.eachdatapointX∈Ddocecomputethedistanassi‘gnxbetweenXandeachclustercenter;tothenearestclustercenter;fo,.ceure-computethedistansingthecurrentclustermemberships8untilthestoppingcriterionismet步骤(1),随机从数据集D中选取k个数据点作为初始簇中心;步骤(2—8),每一个簇中心以外的数据点分别计算到各簇中心的距离,将数据点划分到最近的簇中心所代表的簇中,然后重新计算每个簇的簇中心。这个过程经多次重复迭代,直到满足终止条件为止。K.Means算法簇中心的计算公式是:j匕立童逗盔堂亟±堂位途塞担羞理途兰建苤褪述%=南∑tIL/l而5q(2.1)其中,C,表示第歹令簇,J=1,2,...,k;mj表示簇C,的簇中心(簇中所有数据点的均值向量);lqI表示簇q中包含的数据点数。数据点薯到簇中一mj的距离计算公式为:dist(x,,m,)=J|薯一mj=√(薯l一7乃1)2+(葺2—7乃2)2+…+(‘,一7%)2迭代终止条件可以是下面条件中的任意一个:(1)不再有数据点被重新分配;(2.2)(2)簇中心不再发生变化;(3)误差平方和(SSE)局部最小。SSE的计算公式为:.她=∑∑dist(x,%)2‘_一‘一(2.3)』21xECj其中,dist(x,m,)表示数据点x和簇中心mj之间的距离。K.Means的计算复杂度为O(tkn),其中t为循环迭代次数,k为划分簇个数,刀是数据点的个数。K.Means聚类的特点是需要预先确定将要划分的簇个数k,且聚类效果在较大程度上依赖于初始簇中心的选取。目前常用的确定簇个数k的方法是设定多个k值,进行多次聚类,将多次聚类结果进行评估,根据评估结果来最终确定簇个数。初始簇中心的选择方法有很多种,比较容易理解和接受的是“密度法”,这种方法首先将所有数据点按照一定的半径进行划分,选择落在数据点为中心的圆形区域内的数据点数最多的前k个点为初始簇中心。2.1.4支持向量机支持向量机(SupportVectorMachine,SVM)最早由Vapnik在20世纪90年代提出l州,用来解决机器学习中模式识别问题。SVM具有坚实的理论基础和简洁明了的数学模型,在模式识别、时间序列预测和函数估计等领域得到广泛应用和长足发展。SVM建立在统计学习理论(StatisticalLeamingTheory,SLT)145】VC维(Vapnik.ChervonenkisDimension)和结构风险最小化(StructuralRiskMinimization,SRM)准则的基础上,具有良好的泛化能力和全局最优解。统计学习理论(sLT)是专门研究小样本情况下统计估计和预测的理论。VC维的直观定义【46】是:对一个指示函数集,如果存在h个样本能够被函数集的函数按所有可能的26种形式分开,则称函数集能够把h个样本打散。VC维反映了函数集的学习能力,VC维越大,则学习能力就越强。9(1)用于分类的支持向量机假设给定的训练数据{葺,M)(江l,2,...,k)是线性可分的,薯∈R”是输入向量,只∈{-1,+1)是输出的类标记。用于分类的最佳分类超平面取决于离它最近的少数样本点,而与其他样本点无关,这些起决定作用的样本点称为支持向量。最佳分类超平面表示为:W·‘+6=0(2.4)其中,W={wl,w2,...,Ⅵ)是权重向量;玎是数据‘的属性个数;b是标量,通常称作偏倚量;薯={Xi。,t:,...,%)是行维输入向量。W·薯表示形和薯的点积。最佳分类超平面上方的数据集合满足:W·薯+6>0(2.5)类似的,最佳分类超平面下方的数据集合满足:W·耳+6<0(2.6)总的来说,如果所有数据样本被正确分类,则满足公式:Y,【形·毛+6】≥l,(f-1,2,...,k)(2.7)两类数据集的边缘距离为2川WII,要想获得最佳分类超平面,则需要求解If形I|的最小值,即求解如下约束优化问题:min剖形|J2s.t.Y;吵·毛+6】≥1(f_l,2,...,k)函数:(2.8)(2.9)根据最优化理论,该约束化问题存在唯一的全局最优解,构造如下的Lagrange£(矿,口,6):三JI形J12一壹%咒(薯.W+6)+壹%(2.10)i=1i=1其中,磁为拉格朗日乘子,b为偏倚量。上式分别对形和b求偏导,并偏导数为零,即:月斋L(W,a,b)=o(2.11)a詈L(w,口,6)=0oD将上面两式带入到Lagrange函数中,得到最优问题的对偶问题:(2.12)maxW(a)=∑q一去∑一tM乃q哆i=1‘j,J(2.13)(2.14)s.t.∑呸咒=0(q≥o)i=I采用优化算法可以求解出口,根据Karush.Kuhn.Tucker(KKT)条件求出参数b:10b=咒一W。‘(2.15)最后得到如下分类函数:上f(x)=sgn{(W。x)+6}=sgn{y.q咒(誓。x)+6}(2.16)如果输入数据不是线性可分的,支持向量机就不能直接在输入空间进行分类,而是通过非线性映射函数≯(x)将输入数据映射到高维特征空间再进行线性分类。为避免维数灾难,可以在高维空间采用核函数代替复杂的点积运算,这种方法称为“核技巧”。支持向量机的泛化能力在很大程度上依赖于核函数的选择,常用的核函数包括线性核函数、多项式核函数、径向基函数核函数(RBF)和S型核函数。线性核函数:K(置,X,)=置·x,h次多项式核函数:K(五,X,)=(置·x『+1)6(2.17)(2.18)(2.19)(2.20)高斯径向基函数核函数:K(z,x,):一五一酬‘助2S型核函数:K(置,X,)=tanh(KX,·X,一5)径向基函数核函数的泛化能力随参数盯的增大而减弱,局部性较强;多项式核函数通过调整参数h来控制映射维数,函数的计算量随h的增大而增加,有较强的全局性。包含核函数的支持向量机分类函数为:上f(x)=sgn{ZaiYiK(xi,x)+6}其中,K(一,x)=≯(薯)·≯@)是核函数。(2)用于回归的支持向量机(2.21)回归问题与分类问题的区别在于输出量咒(扛1,2,...,,)的取值上,用于回归的支持向量机的输出值可以取任意实数,即y.∈R。给定训练集:T=fix,,M),-.op(而,乃))(2.22)其中,t∈R“为输入向量,只∈R为输出值,f-1,2,...,,。回归问题就是要寻找回归函数f(x)作为观测值Y的估计值。定义如下占一不敏感损失函数:c[x,Y,厂(x)】=I少一/(x)l。=max{O,Y=厂(x)I—s)(2.23)其中,s为预先设定的正数。£一不敏感损失函数类似于一个s管道,当输入数据X的观测值Y和预测值f(x)之间的差异不超过s时,可以认为对该数据点的输出预测是无损失的。根据统计学习理论,对于回归估计函数f,实际风险R(厂)和经验风险R。。(厂)应至少以l-的概率(rl>0)满足不等式:足(厂)≤‰(/)+hln(2k/h+1)-ln(k/4).(2.24)其中,h为VC维,k为样本数。上式表明,实际风险与经验风险和置信范围两部分有关,而置信范围与VC维和训练数据的样本数有关。机器学习要同时满足经验风险和VC维最小的条件,这种思想就是所谓的结构风险最小化。假设给定的训练数据为{薯,咒}(扛1,2,...,七),其中薯∈R”是n维数据输入;y;∈R是预测输出值,k为样本数。类似于支持向量分类机对非线性可分数据的处理方式,非线性回归需要首先将输入数据通过非线性映射函数矽(x)映射到高维空间,然后在高维特征空间进行线性回归。s一支持向量回归机的最优化问题为:min。Wnc∑(磊+等)f-l(2.25)s.t.咒一W·≯(薯)一b≤占+戋(2.26)W·多(薯)+6一咒≤s+等(2.27)其中,∥为权重向量,C>0为惩罚系数,专≥o和等≥o为松弛变量,占为损失函数值,≯(t)为映射函数。引入Lagrange函数,可以得到用于回归的支持向量机的对偶最优化问题:maxL=一去∑∑(呸一西)(q一嘭)K(薯,_)钆引‘1k)8k2.2(一占∑(晖+茸)+∑儿(嘭一西)j2l1“女其中,o≤q≤c和O<a?≤c是拉格朗日乘子,∑(q一西)=0。最终得到的回归估计函数为:一fix)=∑(%一彰Ⅸ(薯,x)+6i=1(2.29)支持向量机用于预测时,首先需要分析影响输出值的输入特征,选择对输出值影响较大的特征属性,并进行类似归一化的预处理,然后将输入向量作为系统的输入,进行输出值预测。2.2用户兴趣模型概述2.2.1用户兴趣模型个性化系统建立在用户行为分析和用户兴趣模型的基础上。用户兴趣模型能否全面精确地表示用户的兴趣偏好和行为特征在很大程度上决定了个性化系统的性能。用户模型的表示主要有:关键字模型、向量空间模型、主题模型、基于本体论的用户模型。(1)关键字模型。关键字模型是用户兴趣特征词的简单罗列。用户的兴趣特征词以列表的形式存储,如{摇滚、轻音乐、足球、桌球),这种兴趣简单罗列的表示形式并没有体现关键字的重要程度。(2)向量空间模型。向量空间模型是目前最流行的用户模型表示方式,它将用户兴趣模型表示成一个n维向量的形式:{(局,川),(乞,%),...,(包,%)),其中每一维分量都是由关键字t和它的权重Ⅵ组成,权重的大小表示用户对关键字的兴趣程度。(3)主题模型。主题模型是用户兴趣模型的细粒度表示,它将用户的兴趣关键字按不同主题分类,每个主题表示成关键字词表中词的分布。这种建模方式可以清晰准确地体现用户兴趣所属主题类别,有利于提供高质量的个性化服务。(5)基于本体论的用户模型。基于本体论的模型表示方法将本体论应用到用户模型中,能有效提高个性化系统的服务质量。主流的用户兴趣建模方法一般都有其各自的应用领域,如向量空间模型和关键字列表法主要应用在基于内容的个性化系统中,而基于用户.项目评价矩阵的用户建模方法在协同推荐系统得到广泛应用。因此,构建高质量的,能够应用于多领域的通用用户兴趣模型是有待进一步研究的问题。2.2.2用户兴趣建模算法用户模型能精确地表示用户兴趣的重要前提是有效的建模算法。常用的建模算法有聚类、贝叶斯方法、决策树归纳和遗传算法(GA)。(1)聚类算法。聚类算法主要用在群体用户兴趣建模和个体兴趣发现方面。基于聚类的用户兴趣建模算法通过设置不同的簇数,可以发现不同的用户兴趣簇。由于同一簇内的用户也存在一定程度的兴趣差异,因而这种建模算法可以用来推荐多样化特征。(2)贝叶斯方法。贝叶斯分类建立在朴素贝叶斯概率的基础上,具有强大的数学理论支持。贝叶斯分类假设数据特征之间相互,具有最大后验概率的类别作为数据的最终类别划分。贝叶斯分类及贝叶斯网络在电子商务系统、医学等领域得到广泛应用。(3)决策树归纳。典型的决策树算法有ID3,C4.5,CART。决策树的输入量是一组带有类别标记的数据,利用输入数据训练出一棵决策树,然后再用这棵决策树判断其它数据的类别。一种有效的提高决策树准确性的方法是进行树剪枝,以便去掉树中的噪声。(4)遗传算法。遗传算法通过选择、交叉、变异三步运算模拟自然进化过程。算法通过交叉和变异操作来产生后代,直到群体中的每一个体都满足预定的拟合度阂值。遗传算法的改进研究主要集中在适应度函数的选择和确定方面。从上面的论述可以看出,尽管这些建模算法都是在机器学习和数据挖掘的研究范围内,但是不同算法所利用的基本原理有很大差异,导致算法的计算复杂度和建模质量也存在不同。在实际应用中要综合考虑用户模型要求和数据特征来确定具体的建模算法。2.3网络用户行为分析网络用户行为的特点和分类2.3.1网络用户行为主要是指用户在使用网络资源过程中呈现出来的具有一定规律性的行为特征。网络用户行为分析的目标就是通过一些算法和分析工具对网络用户的上网行为进行研究,发现用户行为特征,进而为网络用户行为预测和网络优化等提供决策支撑。网络用户行为存在于虚拟空间中,它既具有现实社会行为的一般特征和基本要素,又具有网络行为自身的特点。(1)主动性强,涉及范围广。网络用户可以完全突破地域和身份地位的,充分表达自己的意见和看法,不管是普通百姓还是领导专家,都可以相互交流。这种完全自由的交流平台又反过来促进了信息的传播。(2)知识丰富,升级快。网络上信息资源丰富,用户可以上传、分享资料、发表帖子、回复内容、浏览资料等等,这些用户上网行为蕴含了丰富的行为信息,并且数据量增长迅速。(3)特点鲜明。网络用户特有的偏好特征、访问网站的习惯往往不随地域和时域的,表现出各自鲜明的上征。(4)隐蔽性强。网络用户访问网站过程中其真实身份都是隐藏起来的,因此难以判断传达信息的真实性。互联息的在物理介质中的传播也具有隐蔽性。(5)随机性与规律性并存。每位用户的上征具有很大的随机性,从整体看又呈现出一定的规律性。用户行为分析正是凭借这种规律性才得以实现。网络用户行为根据应用场景和研究角度的不同可以分成不同的类别。根据研究对象数目的差别,可以分为网络用户群体行为和个体行为;根据用户访问网络的不同目的,可以分为有意识的网络行为和无意识的网络行为;根据网络用户行为分析的应用场景不同,可以分为网络安全和入侵监测、网站设计和管理、14管理和舆情控制等。本文主要针对天涯论坛用户的上网行为进行分析,研究用户个体及群体的兴趣偏好,以及在此基础上体现出来的用户行为特征。2.3.2数据挖掘与用户行为分析的关系网络用户都具有自身特有的兴趣偏好和行为习惯。不同的网络用户由于具有不同的社会经历、知识水平、工作职责以及社会地位,行为模式就呈现出迥然不同的特征。数据挖掘是从大规模数据中提取出有用知识的过程,这些知识往往隐藏在大量真实的有噪声的数据中。另外,数据挖掘的作用对象不仅仅是数据库,任何组织在一起的数据集合都可以利用数据挖掘技术训练获得有用的规律。数据挖掘在用户行为分析过程的主要应用有以下几种:(1)推荐系统。推荐系统包括基于内容的推荐和协同过滤推荐。基于内容的推荐依赖于产品或者信息的文本说明,最早出现在各大购物网站,如Amazon、京东商城等,目前在优酷土豆等视频网站也获得广泛应用。基于内容的方法植根于信息论,利用特征关键词和包含用户兴趣偏好的信息作为用户模型,然后再计算用户对其他内容消息的兴趣度,将满足一定兴趣阈值的内容推荐给用户。协同过滤可以是基于启发式的或者基于模型的,通常采用k.邻近方法找出与目标用户最相似的k个邻居用户,再将邻居用户感兴趣的内容推荐给该用户。(2)入侵检测与预防。入侵检测和预防系统利用基于特征的检测或基于异常的检测。基于特征的检测常用于监测网络流量的异常,如果监测结果与预先设置的攻击模型相匹配,预防系统就采取相应措施阻止异常行为发生。这种检测方式动态更新能力较差,而且不能检测新的或预先未知的网络病毒入侵。基于异常的检测则是通过构造正常行为的模式特征,检测和阻止那些显著偏离正常模式的行为。数据挖掘算法在入侵检测中的作用是训练匹配威胁的特征或正常行为特征,采用的方法包括聚类、离群点检测、分类和统计学方法等。(3)零售与电信业。数据挖掘应用在零售业可以用来分析顾客的购买行为,发现顾客购买模式和趋势,将同时可能购买的物品分开摆放以便促进其它商品的销售量。数据挖掘在电信用户行为分析中的应用主要是帮助电信运营商识别用户的行为模式、捕捉盗用行为,以便高效地利用电信资源和提高服务质量。数据挖掘在本文用户行为分析中的应用主要有两个方面。一是发现用户的兴趣特征,在此基础上构建用户的兴趣模型和兴趣更新模型,然后进行用户兴趣预测和推荐。另一个应用是识别用户的兴趣特征,并结合其它帖子热度的影响特征进行论坛热门帖子的回归预测。2.4本章小结本章从数据挖掘的基本理论出发,介绍了数据挖掘的整体流程和相关算法,讨论了用户兴趣模型的构建和表示方式,最后介绍了数据挖掘和用户行为分析的关系,并对论文的整体内容作了简要描述。本章详细地描述了K.Means算法的计算过程及现实应用;鉴于支持向量机在回归预测中的重要作用,本章详细介绍了该算法的具体流程和计算过程。163用户兴趣建模与兴趣推荐用户兴趣建模涉及机器学习、人机交互、哲学、心理学等多个不同领域。尽管用户模型在不同领域有不同的定义,但最终目的都是为了详细准确地给每一位用户建立个性化模型,进而对用户兴趣偏好进行预测推荐。目前网络用户兴趣建模主要应用在各电商网站和一些搜索系统,这些网站通过分析用户输入的搜索关键字和访问行为来预测用户可能感兴趣的信息。随着计算机性能的提高和数据挖掘算法的不断改进,对用户建模的研究逐渐转向构建动态的、高性能的模型方面。3.1整体思路天涯论坛作为全球最具影响力的网络社区之一,截止2013年8月已有注册用户8500万,许多引发社会普遍关注的网络和社会事件就是来自于天涯论坛的帖子。天涯论坛为用户发表意见和抒发情感提供了一个开放、便捷的平台,用户之间通过发帖和回帖的交互过程推动了网络社区的进一步发展。在天涯论坛中,所有用户都可以浏览论坛上的帖子,只有注册用户可以进行发帖和回帖。由于网站上匿名潜水者的浏览行为无法通过爬虫抓取,因此本章通过分析论坛用户的发帖和回帖行为来建立用户兴趣模型并进行用户兴趣预测。选取天涯论坛中拥有最大发帖和回帖数量的“天涯杂谈”版块的数据集,共有117096个根贴,及对应的830276个回帖,涉及883361位用户。帖子的时间跨度从2002年8月至2011年7月。在进行用户聚类分析前,去除用户自回复记录及冗余的无效数据,共保留98983个根贴。本章充分利用数据挖掘在处理大规模数据集时表现出的优良性能,对天涯论坛的数据集分别进行数据聚类分析、帖子回复数量的分布分析和用户回帖时间间隔的分布分析,发现用户访问论坛的时间间隔存在较大的差异,这就导致以往研究的基于人类记忆遗忘曲线的兴趣更新模型并不适用于天涯论坛用户,在此基础上设计了一种基于论坛用户访问时间间隔的兴趣更新模型,并对用户的兴趣进行有针对性的预测。在章节的最后部分通过实验验证了设计的兴趣更新模型和推荐算法的有效性和可靠性。3.2论坛用户数据处理与兴趣分析天涯论坛中,几乎每时每刻都有用户在社区发布帖子或者回复帖子,即使是17在同一时间发表的帖子,也常常描述不同的话题内容。这种现象在“天涯杂谈’’版块更为明显,因为杂谈版块既有关于明星大腕的八卦新闻,也有关于民生反腐的热烈讨论,更有论坛用户对日常事件的见闻感受的表达抒发。对杂谈版块的用户发帖和回贴行为进行分析要比对其它版块的研究更具有代表性。每一位论坛的注册用户所发表或者回复的话题都与其兴趣偏好是密切相关的。用户对网站的访问停留时间、访问次数、保存信息、内容评分等网络行为都是用户兴趣偏好的体现。论坛用户对不同类型的话题具有不同的喜好程度,对自己喜欢多一点的帖子往往会多加关注和回复,而对自己不太感兴趣的话题则选择跳过。3.2.1数据处理及分析关键环节论坛用户兴趣的异构性导致话题热度的异构性,于是导致一些类型的话题拥有较多的回复,另一些类型的话题则由于少有用户感兴趣而很快沉下去。另外,话题的受欢迎程度与参与用户的“性质”是有一定联系的。这里的“性质”主要是指论坛内非常活跃的“意见领袖”。如果一篇帖子刚好是论坛意见领袖感兴趣的话题,通过意见领袖与其他用户之间的不断交互,那么这篇帖子很有可能发展成热门帖子而引起广大用户的共鸣,进而产生超出其初始范围的深远影响,甚至对现实社会产生一定的效应。本章使用文本聚类的方法发现用户的兴趣偏好。首先将每个论坛根贴转化为词条权重向量的形式,再利用词条向量间的欧式距离计算帖子内容的相似性,通过文本聚类的方法将属于同一类型的话题划分到同一个簇中。论文中使用的分词工具是中科院的ICTCLAS(InstituteAnalysisofComputingTechnology,ChineseLexicalSystem)汉语词法分析系统的Java版本,在Myeclipse工作平台将每个根贴分割成单个词条的形式。然后利用TFxIDF词条权重计算公式计算每个词条的权重,将每个根贴表示为词条权重向量的形式。利用的文本聚类算法是K.Means聚类,通过多次迭代找到满足聚类效果的最佳划分簇数。对论坛帖子内容进行聚类的过程是:首先将每个帖子内容进行分词处理,然后将每个帖子表示成词条权重向量的形式,再利用计算词条向量的相似性,最后利用K.Means聚类算法将相似度满足一定阈值的帖子划分到同一个簇中。3.2.2用户兴趣分析对天涯论坛的发帖内容进行聚类分析后,得到每个簇所包含的用户数量的累积分布,如图3.1所示。100《盈ocG互03(10.。一;ii10-2;101102103104numberofparticipantsNforacluster图3-1天涯论坛每个话题簇包含的用户数量累积分布Figure3-1Cumulativedistributionofthenumberofparticipantsforacluster由上图可见每个话题簇包含用户数量的累积分布近似按指数衰减,大部分话题簇拥有的用户数量在10到1000之间,包含用户数量小于10和大于1000的话题簇只占很少比例。用户数量在1000以上的话题簇大多是论坛讨论的热门话题或者小说连载等。从上面的累积分布图可以看出,即使再冷门的话题内容也会有用户关注,并不是所有用户都只热衷于民生、娱乐八卦等热门话题,这种现象很好地验证了用户兴趣偏好的差异性。包含用户数量多的话题簇往往拥有较多的用户参与回复,用户通过相互的回复行为反而推动了话题信息的传播。论坛贴子回复数的统计分布如图3.2所示。帖子回复数呈幂律分布,幂指数为2.64,分布图有冗长的尾部。回复数量超过1000的热帖在所有发帖中占比较少的比重。回帖数量少于10的帖子通常是有关股票、耐火砖研制、建筑设计等冷门话题。论坛用户在浏览网站的时候总是从首页开始浏览,遇到自己感兴趣的帖子可能会查看帖子内容甚至参与回复帖子;对于论坛中讨论热烈的帖子,尽管用户可能不是很感兴趣,但因为热度太高,也有可能吸引用户参与回复讨论,但对用户行为影响起主导作用的仍是用户的兴趣偏好。因此,对论坛用户的兴趣偏好进行研究有助于更好地把握论坛的趋势。任意选择一位用户的回帖时间间隔统计结果如图3.3所示。在分析天涯论坛用户回帖时间间隔分布时,为了不失研究一般性,选取用户过程中避开社区的意见领袖和很少发帖、回帖的低调用户。本章选择分析的用户的回帖记录共50条,时19间跨度从2008年9月至2011年6月,计算相邻回帖之间的时间间隔,共得到49个数据点。以小时为单位,按照时间间隔从小到大的顺序分别给49个数据点设置标号,纵轴表示时间间隔的数值。从图3—3的分布时间间隔可见,用户的回帖间隔从几秒钟到十几个月不等,说明该用户有时会在短时间内频繁回帖,有时会很长时间都不发表回复,而这也是大部分论坛用户所共有的行为特性。因此,图3.3所研究的用户回帖时间间隔分布能很好地代表论坛用户的普遍行为特征。1酽=≤。】.1铲1萨1酽1铲图3-2帖子回复数量分布图Figure3-2Replynumberdistributionofposts酽铲酽铲旷铲0510152025label3035404550图3—3论坛用户回帖时间间隔统计图Figure3-3Statisticalfigureofuser’Sreplytimeinterval从目前用户兴趣建模的研究来看,对用户兴趣偏好随时问演变的特性的研究20是建立在人类记忆遗忘曲线的基础上【47】。基于人类记忆遗忘曲线的判断标准是:用户兴趣特征权重经过一定时间衰减后如果低于某一预先设定的兴趣度阈值,则认为用户已经对该特征词失去兴趣,需要将该特征词从用户的兴趣模型中删除。如果对天涯论坛用户兴趣偏好建模也按照记忆遗忘曲线来计算用户对话题的兴趣度,则可能因为用户较长的回帖间隔而误将用户的某一兴趣特征删除,从而很可能造成不正确的用户兴趣估计。为克服人类记忆遗忘曲线对论坛用户行为特征的不适应性,本章设计了一种基于论坛访问时间间隔的用户兴趣更新模型,并对用户的兴趣偏好进行有效预测,章节的接下来部分将对设计的用户兴趣更新模型和兴趣预测进行详细阐述。3.3用户兴趣模型构建与更新本文将用户兴趣分为长期兴趣和短期兴趣,分别用L(10ng)和S(short)表示,用户的兴趣模型简单地表示为U={厶S},其中£表示长期兴趣向量:L={<‘,wl,‘,一>,<t2,w2,f2,。。一>,...,<乙,%,乙,一>),S表示短期兴趣向量:短期兴趣特征向量的长度。长期兴趣和短期兴趣都由多个元组组成,每个元组表S={<‘,wl,‘,一>,<t2w2,t2。一>,...,<乙,wm,乙,一>),n和m分别为长期兴趣与示为特征词、特征权重和访问时间记录的形式:<‘,Ⅵ,t.。一>,其中,t表示第j个兴趣特征词(term),wf表示特征词‘的兴趣权重(weight),‘.。。一记录用户上一次访问特征词f.的时间点,格式为timestamp形式。长期兴趣是用户通过长期的上网行为表现出来的稳定的、长期的兴趣特征,如某用户对乒乓球的喜好可能是从小学甚至更早就培养起来的,因此在上网过程中就会较多关注这方面的信息或者发表乒乓球有关的帖子。短期兴趣是用户对某方面信息的短期需求,具有易变、短暂的特点。短期兴趣特征经过一段时间后可能转变为长期兴趣,也可能随着兴趣的减弱而逐渐消失。用户的长期兴趣对构建用户的兴趣模型起基础支撑的作用,许多其他的行为都可以从长期兴趣得到解释。特征词提取时,帖子标题的特征词要比正文中的特征词更有代表性,因而要更重要些,而名词往往比动词、形容词等更具有表现力,因此本文在计算特征词的初始权重时对这些词加以区分。TFIDF特征词权重计算公式如下:tfidf=6×idfj=∥;×log(N/刀,)(3.1)其中,tf,j=f0/max;(无)表示特征词f在文档J中的词项频率,是归一化形式;逆文档频率磁=log(N/nj)由总文档数目(N)除以包含该词项的文档数目(,z,)后取对数得到。本章在计算用户兴趣特征词权重时将出现在标题的特征词词频进2l行加倍处理,改造后的特征词权重计算公式为:oqdf=(2昵)xidfj=(2昵)×log(N/nj)(3.2)根据上节的讨论分析,传统的基于人类记忆遗忘曲线的用户兴趣更新算法不能很好地描述论坛用户的兴趣变化情况。本章构造的特征词权重更新公式同时考虑用户兴趣权重的时间间隔△f和在出时间间隔内用户对其他特征词的发帖回帖数量。如果在△f时间间隔内用户没有访问特征词f,而有关其他特征词的发帖和回帖次数较多,说明用户可能更加关注其他兴趣特征,对特征词f的兴趣可能变得很小或者不再感兴趣,因此,在△f时间间隔内用户的兴趣权重衰减很快;如果用户在出时间间隔内没有访问特征词f,也没有访问其他特征词,尽管时间间隔可能很大,但并不能判定用户对该特征词已经失去兴趣,所以,在这段间隔时间内用户的兴趣大致按遗忘曲线衰减。构造的特征词权重更新公式为:W’=%。+w施·exp[一(口·吾+y·等)】一p2(3.3)(3.4)层讲寿其中,w’表示特征词权重更新值,%。表示特征词在用户最新回复或发表的帖子中的兴趣权重;wnH表示用户兴趣向量表中存储的该特征词的权重,它的初始值通过TFIDF计算得到;口是遗忘系数,表示用户兴趣随时间的变化程度:At=T—f。一。。表示当前时间与用户上一次访问该特征词的时间差,它反映了用户前后两次回帖或发帖的时间间隔大小;P表示该用户在△f时间内发帖和回帖总数;y、万、历是用来调节用户兴趣权重变化程度的系数,在长期兴趣和短期兴趣权重计算中取值不同。用户长期兴趣通过两种途径获得:用户长期养成的兴趣偏好;短期兴趣演变发展而成。用户兴趣特征向量的获取方法是:利用K.Means算法,将满足一定相似度阈值的特征词聚到一个簇内,并选择具有较大权重的一些特征词代表一个簇的整体特征。考虑到数据集的庞大,为提高特征词表征用户兴趣的高效性,采用特征选择的方法降低用户兴趣维度。由于用户的短期兴趣偏好可能逐渐演变成长期兴趣,因此设定短期兴趣权重阈值彬打来判定短期兴趣是否应被划分为长期兴趣。用户兴趣偏好更新算法描述如下。在算法3.1中,Record={厶,,2,…,乇,置,s:….,%)为兴趣特征向量,其中,‘=<t,w,气,一>是第f个长期兴趣,sj=<,,,wj,t,j,一>是第/个短期兴趣,R为处于“休珏民状态”的兴趣特征词列表;乃咖和I咖分别是预先设定的长期兴趣和短期兴趣访问时间间隔阈值,simthr表示兴趣特征词相似度阈值,彬。,是预先设定的短期兴趣划分为长期兴趣的阈值,阪。为判断长期兴趣处于“休H民状态”的阈值。“休眠状态’’的特征词仍然属于长期兴趣,只是用户对该特征词的访问时间间隔较长而处于不活跃状态。处于“休眠状态”的特征词会在某种刺激下转变成活跃状态。特征词权重更新公式中,遗忘系数口在长期兴趣和短期兴趣度量中分别取值q和哎。算法3.1:用户兴趣模型更新算法翁久:用户行为记录:Record={11,Z2,...,乙,Sl,S2,...,S,>耢凹:用户兴趣更新后模型:Interests.。1:while(L!=≯)2:fo,.eacht∈L{3:4:5:6:7:8:9:if(at<乃.加){嵋卜嵋。+‰.ex卅c%。筹圻争if(O<W<‰)R<.---t;>elseL<---L—t;)10:while(S!=0)11:12:fo,.eachSf∈S{I-f(at<T¥,thr){㈦14:w卜‰饥.exp【_(哎’尝w桫if(w,>%,){for(each‘∈L){compute15:lj=sj;16:L<--L+,,;17:18:19:20:21:22:23:24:elsesim(1f,,,);if(sim(1,,Z,)≥sim腩,)t<----‘ulj;elseL卜Lwl,;>)S<--.-S--S,;25:)26:>27:Interests。。={厶S);23步骤(1.9),遍历用户长期兴趣向量每一个特征词。若用户对某个特征词的访问时间间隔超过预先设置的阈值(通常为一年或更长的时间),可以判定用户对该特征词已经失去兴趣,于是将该特征词从长期兴趣向量中删除;反之,则根据兴趣更新公式计算更新后的特征词权重,并用新的权重替换原来的兴趣权重。其中步骤(5.7)用来判断更新后的特征词是否仍然处于活跃状态,如果权重低于既一则将特征词添加到“休H民状态”列表尺中。步骤(10.26),遍历用户的短期兴趣向量S,并更新权重。其中步骤(13)用来计算更新后的特征词权重。步骤(14.16)判断更新后的短期向量权重是否满足阈值彬。,,若大于该阈值,则将短期兴趣特征S,添加到长期兴趣向量中。步骤(17—22)计算特征词Si和长期向量内的其它特征词的相似度,如满足相似度阈值simth,,,则将S,与相似度最大的长期特征词合并,否则S,作为单独一个长期兴趣特征存在。步骤(24)表示将访问时间间隔超过阈值死,的短期兴趣特征词从短期向量中删除。步骤(27),合并更新后的长期兴趣和短期兴趣作为最终的用户兴趣模型。基于论坛用户访问时间间隔内发帖回帖次数的兴趣更新算法是建立在对天涯杂谈实际数据分析的基础上,将用户访问特征词的时间间隔和在这段时间间隔内的发帖和回帖数量同时作为变量进行考虑,克服了记忆遗忘曲线更新算法对时间间隔的强依赖性,能有效避免因用户长时间不上网而引发的兴趣计算错误。由于论坛用户访问其它版块的行为特征与访问杂谈版块相似,因此,该算法也适用于论坛其它版块的用户兴趣更新。3.4用户兴趣推荐从3.2节的图3—1和图3.2对用户兴趣的分析可以发现,类似于论坛、Twitter等社交网络具有无标度(Scale.Free)特性。极少的用户作为论坛的意见领袖,拥有较多的兴趣话题类型,他们活跃在自己所感兴趣的话题簇内;而大量用户感兴趣的话题则较少。对论坛用户进行聚类时,容易出现的一种现象是用户兴趣矩阵严重稀疏。特别是当论坛中还存在一些对冷门话题感兴趣的用户时,兴趣矩阵的稀疏问题就表现的更为明显。此外,论坛新注册的用户由于参与讨论时间不长,所发布的帖子、回帖等记录不会很多,对这些用户进行兴趣预测和兴趣推荐往往导致冷启动问题【48J。基于内容的兴趣推荐将与用户兴趣向量相似的内容推荐给用户,所推荐的内容不具备足够的多样性,容易导致收敛到局部最优。本章提出一种两阶段用户兴趣聚类算法(Two.stageUserInterestsClustering),包括第一阶段的核心用户聚类和第二阶段24的全局用户聚类。首先构建NxM的用户兴趣矩阵m,其中Ⅳ为用户集合U数量,M为所有用户的兴趣特征词歹的总数,用户材,对特征词t,的兴趣表示为w,。由于用户兴趣存在异构性,导致用户兴趣矩阵中存在Ⅵ,为空的情况,本章根据非空特征词的数目将用户集合分为核心用户和普通用户。核心用户集合定义为:Uco。={%]Ui∈U,百num>名}』坦(3.5)其中力为预先设置的判定阈值,num是用户兴趣向量v中Ⅵ,非空的个数,M为所有特征词的数量。满足非空特征词个数要求的用户判定为核心用户。(1)核心用户聚类。该阶段对核心用户进行K-Means聚类,将兴趣相似的用户划分到一个簇内。聚类后的簇集合为C={C1,C2基于两阶段的用户兴趣聚类算法描述如下。算法3.2:兴趣聚类算法o¥ck),k为聚类的簇数。(2)全局用户聚类。该阶段按照相似性将非核心用户划分到k个簇中。菊久:用户兴趣矩阵m,划分簇个数k笳凹:k个聚类簇l声reach笔∈U{234ifnum|M>九Uco。=%。+Ut;K-Means(Uco。,k)5:)678fo,eachU,∈U一叱。{computesim(u,,q);sim(uj,q);)assignU,totheclusterwithbiggest其中,%。是核心用户集合,初始值为0;U为所有用户集合;sim(uj,Ci)表示非核心用户U,与簇q的相似性;五为预先设置的核心用户判定阈值。步骤(1.5),根据非空特征词权重的个数确定核心用户,然后对核心用户进行K-Means聚类,划分成k个聚类簇;步骤(6.8),计算每个非核心用户对k个簇的相似性,将非核心用户划分到最相似性的簇中。相似性计算公式采用如下的余弦相似性:Sim(ui,啪2赢25。石)按上式将非核心用户U,加入到具有最大相似值的簇Ci中。直到所有用户都划分到相应的簇内。为防止推荐的冷启动问题,需要尽可能多地向用户推荐多样化内容。用户址未访问的特征词0的兴趣权重估算采用如下方法:∑Sim(i,厅)×(%一巧)%2∑Sim(i,门)^∈Mp+m(3.7)其中:M。=似,“:,...,畋)表示与用户“,的兴趣特征最相似的幻p—h位用户;Sim(i,矗)表示用户U,与用户U。的兴趣相似度;W,和Ⅵ分别表示top—h位用户和用户Ui的平均兴趣权重。数据聚类后可得到非空的用户兴趣矩阵M,对于每一位用户城的兴趣向量,除去已经关注过的兴趣特征,将其余的特征词按兴趣权重w,进行降序排列。根据系统需要,将Ⅵ,排序靠前的几个特征作为对用户兴趣的预测。总的来说,本章设计的两阶段用户兴趣聚类算法能有效克服异构社交网络中数据稀疏性和冷启动问题,聚类算法的计算时间复杂度较K-Means有明显降低。通过将兴趣相似的用户聚合到同一个簇中,并估算未访问的特征词权重,可以有效地向用户推荐可能感兴趣的内容,扩展用户的兴趣范围。3.5实验结果与分析3.5.1评价指标用户模型评估常用的标准有准确率(precision)、召回率(recall)、E一。和平均绝对差(MAE)。准确率是指正确分类的帖子数目占帖子总数的比例。召回率表示预测的用户感兴趣的特征数目与用户关注的总特征数的比例。C一。是准确率和召回率的调和平均值,值越高说明预测算法的综合性能越好。C一。的计算公式为:F:—2.precis—on,recalmesur"f3.8)\.,·V,pr"eClSlOll-rrecallMAE通过计算用户的真实兴趣特征和预测兴趣特征之间的偏差来衡量预测的精确性,MAE值越小说明预测效果越好。本章用MAE计算随访问时间间隔的变化用户兴趣特征词权重更新的精确性。设用户%在时间间隔为f时的兴趣特征权重为{fl,乞,...,‘),兴趣更新公式计算的权重为{eI,e:,...,es),则平均绝对差为:MitE=塑—~胃∑Itj一勺I(3.9)3.5.2结果及分析本节利用上述评价指标,通过多次对比实验来验证所设计算法的有效性和可靠性。一_A一时同同隔,h图3-4兴趣更新MAE值随回帖时间间隔变化趋势Figure3-4ChangetrendofinterestupdateMAEvaluevarywithtimeinterval图3—4是本章设计的兴趣特征词更新算法与传统的基于记忆遗忘曲线的兴趣更新算法对比图。从图中可以看出,设计的基于发帖回帖数量的兴趣更新算法在兴趣权重计算准确度方面要优于传统的基于记忆遗忘曲线的兴趣更新算法。本章算法计算的特征词权重的MAE值随着时间间隔的增大逐渐下降,而传统算法随时间间隔的变化,MAE值逐渐增大。n5¨5n4∞5n3£3∞£蛇5n2一一<卜Content.t目sedCF1——e678=吾一—一~一一~√J,,,£j¨5n1∞5._50————-—————-一——一————910111213稀疏度,%图3-5Figure3-5C一。与数据稀疏度变化关系图C㈣Ⅳandchangeofdatasparsenessdegreediagram27图3—5为数据稀疏度对C一。的影响结果对比图。从图中可以看出,基于内容的兴趣推荐算法随数据稀疏度的增大基本保持稳定,但预测水平较低;协同推荐算法(CF)在数据稀疏度为9%~10%之间有较大幅度的提升,整体呈上升的趋势,但和本文的两阶段聚类算法相比仍有一定差距;本章提出的兴趣聚类算法(Two.stageclustering)的推荐水平在三者中是最好的,而且随着数据稀疏度的增加略有E升。0.95一斗基于发帖数量的算法七基于记忆的更新算法IO.9二¨5祷器姑n8叮5n7萼卷篆丢二:蒡耄享享苔耄叠I50100150200250¨5用户兴趣数量图3-6准确率对比图Figure3-6Precisioncomparisondiagram0.8i0.78}0,76÷0.74L0.72}蔷誊耄:e—争<厂国—争<沁峙国1哭/‘眯~米一*—粒一r球、决一一*j瓣回0.7}阳0.68}0.66}广二萁—甄两丽夏萄网—0≥~基于记忆的更新算法【50j0.64i窒!吣————-—、v-————t一-—-————,..———一.。——————,.一1001502∞用户兴趣数量图3.7召回率对比图Figure3-7Recallcomparisondiagram从图3-6的用户兴趣更新准确率对比图可以发现,本章设计的用户兴趣更新算法随兴趣特征数目的增大,计算准确率呈现缓慢上升的趋势,表明该算法对用户兴趣特征数的变化具有很好的适应性。尽管基于用户记忆遗忘曲线的用户兴趣更新算法计算准确率也会随兴趣特征的增加而增大,但整体效果仍略差于本章设计的算法。图3—7是用户兴趣更新算法的召回率对比图。考虑用户回帖、发帖数目的兴趣更新算法在仿真数据范围内的召回率有大幅度上升,而传统的记忆遗忘模型的召回率则基本保持稳定。当用户特征数为220时,本章的兴趣更新算法召回率有一定幅度下降,但仍高于记忆遗忘曲线的兴趣更新模型的召回率。根据上述仿真结果,可以断定,基于用户访问时间间隔和发帖回帖数量的用户兴趣更新算法能更好地对论坛用户进行兴趣发现和推荐。3.6本章小结本章通过对天涯杂谈版块的用户数据集进行聚类分析,发现用户兴趣偏好的异构性和帖子回复次数的差异性,并对用户的访问时间间隔进行统计分析,证明传统的基于记忆的兴趣更新算法并不适用于论坛用户的访问行为,提出了一种基于访问时间间隔内发帖和回帖次数的兴趣更新算法,以及两阶段聚类的用户兴趣聚类算法,最后通过Matlab仿真验证了兴趣更新和推荐算法的有效性。294论坛用户行为分析及热帖预测近几年有关网络趋势预测、热点话题发现的研究正逐渐发展起来。网络和热点话题预测方面,目前采用较多的是基于常规统计学、时间序列分析、概率论等方法的研究。互联网是一个复杂的网络系统,具有小世界特性和无标度特征,话题信息在网络的传播必然受其网络结构、用户群体数量、话题内容和用户兴趣等多方面因素的影响。因此,简单地用传统分析方法对论坛用户热点话题进行预测难以达到令人满意的效果。本章在天涯论坛数据的基础上,量化与帖子热度相关的影响特征,研究计算社区帖子热度的预测方法。首先对论坛帖子用户的参与行为进行分析,发现帖子热度的不均衡性;接下来探讨影响帖子热度的影响特征,量化这些特征并利用回归的支持向量机生成帖子热度预测;最后将数据集分成训练数据和测试数据,通过对测试数据热度预测结果证明预测方法的有效性。4.1论坛用户行为及热帖分布分析在网络社区,用户通过注册登录后可以在论坛发布和回复帖子。注册用户可以参与到帖子的讨论中,也可以将一些用户加为好友或者添加特别关注,在个人空间主页可以迅速查看关注好友的最新动态。天涯社区总是将最新发布和回复的帖子放在帖子列表的顶端,论坛的帖子顺序处在不断的“刷新"变化中,一些经常被回复的帖子更容易引起用户的注意,呈现一种“富者越富”的现象。用户在访问社区过程中,总是按照帖子列表从上往下挑选自己感兴趣的话题进行浏览或参与回帖讨论,因此话题热度与其讨论的内容是否迎合广大用户的兴趣具有密切联系。本章选用的数据集是天涯杂坛版块从2002年8月至2011年7月用户的发帖、回帖记录。通过对数据集去除冗余和自回复,共剩余98983个根贴。天涯杂谈版块涵盖的内容信息较广,涉及社会生活的方方面面,因此在该版块进行用户行为研究和热帖预测更具代表性。热门帖子能够吸引较多用户参与到讨论中,这些帖子往往具有较大的浏览数、回复数和点击率,因此更容易引发大范围的影响,甚至导致件。另外一些非热门帖子拥有的参与用户数量则较少,很难引发大规模的讨论和影响。对论坛进行用户行为分析和热门帖子预测不仅有助于更好地规划网络,对于准确掌握动向也具有重要作用。图4一l是数据集中帖子回复数与浏览数的统计结果。3010‘’!..。..—.—。..—..。L,...—。—.—,..—。.二.一——一.。,.一100101102103104105回复数图4-1天涯社区帖子回复数与浏览数的关系图Figure4-1ReplyandbrowsecountsdiagraminTianYaBBS从上图可见,帖子的阅读量大致随回复数的增加而呈上升的趋势。大部分用户只浏览帖子而不参与回复,但用户在浏览帖子后就对事件有了一定的了解,因此也会受到帖子的影响。回复量超过1000的帖子数量较少,这些帖子的浏览量非常高,有的甚至超过10万浏览量。大多数帖子的回复数在100以下,而回复量超过1000的往往是有关热门话题,z日‘匕l-,引起用户共鸣或者热烈讨论的帖子。因此,帖子的回复量能有效反应帖子的热度。2910812815哼1652i0刘欢、张雨生、目长学友究寅谁是华语乐坛真正黄哥·他用生命爱汶JI、爱玉树、爱公婆给儿子婚前买的房,儿媳要加匕她的名字讨论中国人结婚房子是否应该由男方出各位协助完成--tq:Ms:不司能完成的任务!留下1河商一一被彻底边缘化的中华核心省份11008488646092355i395528鹕33804095哼1271日53哼3zsl22船1014埒嚣i63275091l=M362柏在招捱撞骗的日子里,炼狱苦海(游走在社会西6F烟台Ⅲ惊爆烟台栖霞市人民医院的怪事扣B300395400440447蹦2弓7813793lol323116961q5S-有危难找,可要找泉州市日寸却∞O为|61辱∞辱∞9日2耳五泞3S23688一}301676八百里加急!救助狗狗,义工、徽博在行动!【∞07记评论一海艺事件l被售辱与被损譬谋杀?交通肇事?叉见平顶山1他惨遵灭门、2死l伤,凶手既不毙,也不赔未婚男青年通过中会到越南相亲,该不该?图4-2回复数超过1000的帖子标题、回复数及浏览量Figure4-2Severalpostswithreplycountsabove1000图4.2是从数据库中截取的一些回复数超过1000的帖子,并显示了帖子的浏览量和回复数。从上面的截图可见,帖子的浏览量最少为14404,最大为301676,表明这些帖子都获得了论坛内较多用户的关注,从而引起较大的影响。另外有些拥有几千甚至上万回复数的帖子是小说连载,由于本章是研究论坛帖子热度预测的问题,因此这些帖子不在本文的研究范围内。帖子标题是对帖子内容的精确概常活跃,经常参与话题讨论,经常发布帖子,对消息的传播起到极大的推动作用,他们是论坛的“意见领袖”。“意见领袖”占论坛用户的极少的比例,但他们的行为对帖子热度提升具有不可替代的作用。图4.4是从数据集中任意选取的一位活跃用户和一位普通用户发布帖子的浏览数和回复数对比图。该图表明,活跃用户经常参与发帖和回帖,他们发布的帖子极有可能获得较多回复数和浏览数。尽管活跃用户发布的有些帖子回复数在100以下,但浏览数却接近10000,因此,其他用户已经在浏览帖子的过程中受到帖子影响。而普通用户发布帖子的浏览数和回复数则维持在不高的水平。4.2热f-]巾di子定义目前对热门话题的研究主要涉及论坛1491、微博、Twitter等,根据研究倾向不同,对热点话题的定义也各异。鉴于微博讨论中大多表达人们对事件的情感,杨亮等【50】根据微博话题中情感词的分布情况确定内容是否为热点事件,并提出了情感语言分布模型。ZhangZhongfeng等【3l】认为热点话题是由一系列的热门词组成的,热门词由其在文档中的出现频率和使用频率的时间演变来决定。XiongFeil32J等将一天内帖子的最大回复数作为衡量帖子热门程度的标准,并利用逻辑回归公式对帖子特征进行融合。本章侧重讨论帖子的影响范围及程度,并不过多考虑帖子发布后几个小时的热度情况,而是从帖子的整个寿命时长考察帖子热度的影响因素,然后从数据中提取与帖子热度相关的多元特征,并对测试数据的用户参与程度进行预测。4.3帖子特征提取论坛消息通过用户对帖子的回复行为得以传播,有些帖子拥有上千的回复量和几十万的浏览量而成为论坛热帖,深刻影响着现实社会。从上面对论坛用户行为分析和热帖分布研究可见,帖子热度与多项特征有关,忽略任何一项影响特征都可能对预测结果产生不利影响。需要将多项影响特征综合考虑,进而对帖子热度加以预测。本节将从以下方面对帖子热度的影响特征进行量化分析。(1)用户性质及用户关系。论坛活跃用户经常发帖和参与回帖,他们的积极参与促使帖子保持在帖子列表的前面,从而更容易引起其他用户的关注;另外,论坛注册用户可以将其他用户加为好友或添加关注,用户之间的这种关系可以保证在最短时间获知好友的新鲜事,对于论坛消息的传播起到一定的促进作用。(2)内容影响。一些新颖的社会热门事件的讨论帖在论坛中很容易引发用户的情感共鸣而演变成热帖;另外,帖子内容是否迎合论坛活跃用户,特别是意见领袖的兴趣对帖子热度也有一定程度的影响。(3)时间影响。网络用户的上网时间与其日常生活习惯密切相关,若帖子发布在半夜时分,那么这篇帖子很可能因为当时上网人数少的原因而沉下去;而如果帖子发布的时候恰好有许多活跃用户在论坛中,则帖子很可能瞬时间就被顶起,从而在短时间内获得较大热度。4.3.1用户性质及用户关系(1)用户活跃程度论坛活跃用户(尤其是意见领袖)的参与行为对提升帖子的热度具有极大的促进作用。意见领袖是论坛中非常活跃且有较大影响力的风云人物,虽然他们在用户总体中占很小的比例,但是所发布或回复的帖子却往往能引起广大用户的关注而成为热帖。一篇同样的帖子,论坛意见领袖和普通用户分别发布后,帖子的热度肯定有一定的差别。网络用户在论坛注册后通过相互之间的回帖行为建立联系。对论坛这样的复杂网络中人际关系的研究大多是通过构建用户关系网络图,进而分析网络用户的交互行为。BBS社区中如果用户A回复了用户B的帖子,则网络节点A和B之间就发生一次交互关系,表现在网络图中就是节点A、B之间出现一条连线。根据复杂网络中节点之间的关联是否存在指向关系,可以将用户关系网络图分为有向网络和无向网络两种,如图4.5所示。A.回复关系图BBAACCB.有向图图4.5用户关系网络图C.无向图Figure4-5Userrelationnetworkdiagram论坛的用户关系网络定义为G=(V,E),其中y表示网络中具有发帖或回帖行为的用户节点集合,E表示用户之间的回复关系。根据本章前面的分析,论坛中34活跃程度高的用户所回复或发布的帖子成为热帖的可能性比普通用户要高,因此,网络图中拥有较多回复连接和发帖连接的用户节点对帖子热度的贡献更大。本章通过计算用户关系网络图中用户节点与其他节点的交互连接次数作为衡量用户活跃程度的指标。衡量用户关系网络中节点重要程度的算法有PageRank、HITS、基于统计学的方法等。PageRank算法计算论坛用户的活跃程度的公式为:诫么)=l-d+d(器+器+...+器)(4.·)其中,LR(A)表示用户节点A的活跃程度;d是阻尼系数,通常取值为0.85;C(∽)表示所有与节点用户U发生交互关系的节点数目。PageRank算法通过多次迭代过程计算获得最终稳定的用户活跃值。HITS算法涉及内容权威值(Authority)和链接权威值(Hub)两个定义。内容权威值是指用户被其他节点指向的权值,链接权威值是指节点指向高权威值节点的中心性。HITS算法的计算公式表示为:上4(f)=≥2H(歹)日(/)=≥:彳(f)百(4.2)(4.3)其中H(j)表示节点,的中心值,A(i)表示节点f的内容权威值;权威值A(i)通过迭代计算所有指向节点f的用户节点的Hub权值和得到,链接权威值H(j)即为节点,所指向的用户节点的权威值总和。基于用户关系网络图的PageRank算法和HITS算法在实验环境下能够较好地发现论坛的意见领袖,但是在真实的BBS社区中发现效果却不一定比简单的统计学算法好,而且这两个算法的计算复杂度要比统计算法高很多。因此,本章利用统计学方法计算论坛中用户的活跃程度,定义节点度值和节点每天的发帖回帖数平均值两个影响特征。节点度值(Degree):口=∑巨:per平均每天发帖和回帖数:Postday=;一;days其中,节点度值p表示网络图中与节点f相连的边的数目,巨表示与节点i相连的边;P表示用户发布和回复的帖子总数,days表示用户从注册开始到最后一次登录经过的天数。(2)用户好友和关注关系天涯论坛中的注册用户可以将其他用户加为好友或者加关注,而被其他用户加好友或者加关注的往往是兴趣相似的用户或者论坛中的意见领袖。因为意见领袖在论坛中的权威很高,他们所发布的帖子一般有较多参与者,当有对同一事件的描述帖子时,人们更愿意相信意见领袖发布消息的真实性。用户在自己的空间首页可以方便地查看好友的新鲜事,而不必从大量的帖子列表中寻找相关用户发布的帖子,这样不仅有助于消息的快速传播,而且能极大提高一些帖子的热度,因为消息在用户好友之间传播的速度要远大于在互不联系的用户之间的传播速度。当用户的好友数或者关注的用户数足够多的时候,他很可能在上网时只从自己的空间查看好友的动态。因此,定义如下几个用户关系特征:好友数目:Friends;关注数目:Attentions;粉丝数目:Fans;4.3.2帖子内容因素(1)话题簇特征论坛帖子能否成为热门与帖子讨论内容是密切相关的。话题内容过于专业的帖子受众用户往往不多,因为天涯论坛不同于一些专业技术论坛,用户上网的主要目的是发表见闻感受和参与评论而不是探讨专业技术问题。论坛上有关情感、民生的帖子经常能引发广大用户的共鸣。由此可见,不同类型的话题受用户的欢迎程度不同,导致帖子热度存在差别。尽管同一个类型的话题内部帖子的热度不完全相同,但类别之间的差别对帖子热度的影响更大。对论坛帖子分类常用的方法是对帖子内容进行聚类,提取同一个簇中话题的共同特征。首先将帖子内容进行分词处理,去除停用词,然后将帖子表示成向量空间的形式:{<t1wl>,<t2w2>,...,<tn,%>),其中t(f_l,2,...,n)表示帖子特征词,眦为特征词对应的权重。特征词权重采用文本分类领域的TFIDF计算。由于论坛中帖子的内容通常比较长,将帖子完全表示成向量权重的形式会产生几百万甚至更长的向量,这样不仅不利于后期聚类,更难以发现帖子共同的特征词。因此,在分词处理后需要进行特征选择,将权重较高和较低的特征词去除,保留最能有效描述帖子内容的特征词及其权重。这里规定每篇帖子保留的词条长度为2500。通过特征选择后,帖子的向量长度会有大幅度缩减。然后计算帖子特征向量之间的相似性。帖子相似性的计算采用余弦距离度量。文本聚类过程所采用的算法是K.Means算法。论坛中大部分话题簇的参与人数较少,而为数不多的话题簇能吸引非常多的用户参与到讨论中,因而这些话题簇中的帖子更可能成为热帖。本章将同一个话题簇内帖子的平均回复数作为帖子的话题簇特征:Replavghum=N/n(4.4)36其中,Replavgnum表示话题簇的平均帖子回复数,即帖子的话题簇特征;Ⅳ表示簇内所有帖子的回复总数:n表示话题簇包含的帖子个数。(2)标题及特征词从图4.2热门帖子标题内容可以看出,一个醒目的有吸引力的帖子标题对增加帖子热度具有不可小觑的作用。除了标题中名人、地名、现实社会上讨论较多的字眼(比如“公务员待遇”、“春运")以外,出现在标题中的情感词、描述性质的形容词对用户也具有一定程度的吸引力。论坛用户在帖子列表从上往下浏览过程中,大致能从帖子标题了解帖子大概内容,然后再考虑是否要进入帖子内容页面继续阅读和参与回复。因此,帖子标题是否具有足够的吸引力对帖子热度也有一定的影响。本章将出现在标题的关键特征词加以量化,每个特征词用二值属性(0和1)来描述。0表示标题中未出现名人、地名等特征词,1表示标题中出现关键特征词。帖子标题中出现关键特征数目越多,则表明帖子成为热帖的可能性越大。帖子标题特征量化规则如下:标题中出现名人名字的数量Ⅳl、出现地名名词的数量Ⅳ’、出现情感词的数量M、出现社会热门字眼的数量M。另外,帖子主体内容中出现的名人、地名、情感词等也对用户具有一定程度的吸引力。因此,定义如下帖子主体内容影响特征:帖子主体内容中出现名人名字的数量M、出现地名名词的数量鸠、出现情感词的数量旭、出现社会热门字眼的数量M。。4.3.3时间因素(1)帖子发布时间影响用户的上网时间相对固定,每天和每个星期的上网时问都呈现一定的规律性。一般周末上网的用户比较多,而工作日较少。如果帖子发布时论坛中活跃用户较多,那么帖子就会在短时间内有较多的读者和参与讨论者,从而更容易被顶起;而如果帖子在半夜时间发布,当时论坛上活跃的用户非常少,那么这篇帖子沉下去的可能性就比较大。将一天划分成四个时间段:0:00---6:00.6:00----12:00,12:00—18:00,18:00-24:00,这样每周可共分为28个类似划分的时间段。定义如下时间影响特征:每天各时间段内平均活跃用户数:绝;每周各时间段的平均活跃用户数:M。(2)短期特征影响短期特征主要是指帖子发布一段时间T内论坛内发帖量、活跃用户数等特征。37帖子发布后几个小时内可能在线用户数目较少,帖子的参与数和浏览数不多,但可能过一段时间后随着论坛用户上线人数的增多而获得爆发式传播。考虑上文将一天划分成四个时间段,这里设置短期时间影响是帖子发布后六小时内论坛的发帖回帖情况。定义如下短期特征:帖子发布后六小时内发布的帖子总数,2l,所有帖子的平均参与人数镌,该贴在发布后六小时内的回复数伤和浏览数刀。。4.4支持向量机回归预测支持向量机是建立在结构风险最小化原则基础上,基于统计学习理论VC维的分类预测方法,具有全局唯一解、不依赖于输入特征空间维数等优良特征,在处理文本分类方面取得了令人满意的效果。用于回归预测的支持向量机的输出值可以是任意实数,输入向量的长度没有维数,因此本章采用回归的支持向量机来预测帖子的热度。利用支持向量机进行回归预测分为模型训练和帖子热度预测两个步骤。首先将数据集分为训练数据和测试数据,通过训练数据构建预测模型——回归估计函数厂,然后利用回归估计函数计算测试数据的热度值。将上节定义的20个热度影响特征进行归一化处理,以便最后计算得到的帖子热度在[O,1]范围内。若预测的帖子热度大于0.5,则认为该帖子属于热门帖子。天涯社区帖子热度预测流程如图4—6所示。论坛数据集上数据预处理上存储至数据库陌可可取用户上取内取时间特征容特征特征训练数据测试数据函…练一r上热度测回归估计函数———————21L—————一预测结果图4-6帖子热度预测流程图Figure4-6Postheatforecastflowchart4.5热度预测结果与分析4.5.1评价指标本文采用召凹率、准确翠、正确翠作为评价预测结果的指标。1段设作为测试数据的帖子总数为N,真实情况下测试数据集有M篇热门帖子,预测模型预测出的结果有L篇热帖,其中包括C篇与真实情况一致。评价指标的计算公式为:召回率:Rec洲2舌(4·5)(4.6)(4.7)准确率:Prec括ion=兰正确率:彳cc舢钞=—2C—+—N丙-—M—-一L4.5.2预测结果及分析本章选取的数据集是天涯杂坛版块从2002年8月至2011年7月用户的发帖回帖数据,经过一系列的筛选和处理,最终选取98983个根贴作为实验数据集。按照数据库内帖子的id值,从前向后依次选取前5000个根贴作为训练数据集,其余id排在后面的根贴作为测试数据集。由于数据量较大,设置热帖的回复数阈值在1000至5000的范围。将4.3节讨论的20个帖子热度影响特性作为支持向量机的输入向量,预测性能结果如图4.7所示。△一一一△一一一△一~~△……一△*—————j}—一一*一——*——————*j—]1——~~—[o一———[r_——————:j一一£o一一镒掣0.5,隧o.4i0.3一jI一争召回率:—企。准确率f—兴…正确率L———————————————__jj0.20.10…——一——————一——————』…——…—————』—————————L————————0100020003000400050006000热帖回复数阈值图4—7预测性能结果图Figure4-7Predictionperformancediagram39从上图的预测性能结果可以看出,热帖预测的正确率和准确率随热帖阈值的增大基本保持稳定,预测正确率都在0.9以上,而召回率也保持在O.85左右。召回率略低于准确率,这是因为论坛中仅有极少数的帖子才能成为热门,而大多数帖子的参与用户数不是很多。从整体来看,本章考虑的帖子热度影响特征能有效预测论坛中帖子的热度值。为了验证论坛用户的活跃性和用户好友关系对帖子热度影响的重要性,本节对去除用户性质和用户关系后的15个影响特征进行帖子热度回归预测。预测结果如图4.8所示。从图4.8的预测结果可见,不考虑用户特性和用户关系的帖子热度预测整体性能要比考虑全部20个影响特征的预测结果差一些。对回复数为1000的预测准确率仅达到30%,而正确率最高也不超过80%。因此,论坛用户的活跃性和用户之间的好友以及关注关系对帖子热度的预测具有不可替代的作用。~0.7二一一///7*一\~—》卜~~~*一一一—.旦一一:一一一圭!∑j每f0.6一*一一一妞掣0.5i燕隧O.4;—j一/—f二-—~~=r一一/分一一公一一台一一0.3—0.2}0.1{…A-准确率f{I卡it!确-g{;f一号一召回率]1000200030004000]L0L050006000热帖回复数阈值图4.8去除用户特征的热度预测Figure4—8Predictionperformancediagramwithoutusertraits图4-9是帖子热度预测性能随短期时间丁的变化情况。当短期时间段设置为3小时,召回率最低为63%;当时间段设置为4小时,召回率呈现较大程度的提高,并随时间段的增长呈现略微上升的趋势,但整体预测效果维持在较低水平。预测的准确率和正确率则基本维持稳定。帖子发布6小时的预测性能跟更长时间的预测结果差别很小,因此,本章将短期时间特征设置为帖子发布6小时内的发帖回帖记录是合理的。0.95-…*~~扩一一*一—*——咏*———‘术~——犬一0.9二0.85—“血犁0.75:.;景S0.8一A一△r一—△一一一△一一一2r一△骚0.7i0.65—0.6—÷召回率一会准确率一*正确率3456T789100.55—0.52图4-9预测性能与短期时间丁的关系Figure4-9PredictionperformancewithchangeofT4.6本章小结本章首先分析了天涯杂谈版块帖子的回复数和浏览数的分布情况,并就论坛用户的不同活跃程度进行对比分析,然后研究在论坛热帖分布情况的基础上,从用户关系、帖子内容和时间因素三个角度分析了影响帖子热度的20个影响特征。最后采用回归的支持向量机融合这20个帖子影响特征,对测试数据进行热度预测,实验结果证实了特征分析的准确性和可靠性。4l5论坛用户行为分析系统设计用户行为分析的主要目标是在分析用户行为的基础上高效精确地发现用户潜在有价值的行为模式,为后期网站优化和舆情监控提供参考。许多信息可能已经在报纸、广播等传统的媒体上出现过,但经过在论坛的发酵就会形成倾向性的观点。论坛用户行为分析是预测论坛信息传播趋势,提高用户访问论坛效率的有效途径。本章在前面章节研究的基础上设计了论坛用户行为分析系统,该系统能够发现论坛中用户的兴趣偏好和进行预测热帖,重点讨论了系统的主要功能以及各模块的详细设计。5.1系统功能和目标论坛用户行为分析系统从天涯论坛爬取数据,将论坛用户的发帖、回帖记录以及用户个人信息存储到关系型数据库,在获取到数据库用户行为数据的基础上实现用户个体兴趣识别、群体用户兴趣发现、用户上网时间分布统计、活跃用户发现、意见领袖发现、热门贴子预测等功能。(1)用户个体兴趣识别。用户在浏览网站的时候总是会关注自己感兴趣的内容,而对自己不太感兴趣的话题关注就会比较少或者直接选择跳过。在论坛爬取的数据足够多的情况下,可以通过识别每个用户的发帖回帖行为,利用数据挖掘算法发现用户个体的兴趣所在。(2)群体用户兴趣发现。群体用户的兴趣发现是建立在用户个体兴趣的基础上,将兴趣相似的用户聚集起来,在系统页面显示每个群体用户的兴趣话题簇特征。发现用户群体的兴趣话题簇能够协助网络管理者和网站设计人员向特定用户群体提供有针对性的服务,提高用户访问论坛的满意度。(3)用户上网时间分布统计。用户的上网时间分布分为每天的分布情况显示和每周的上网时间分布显示。将一天分成12个时间段,每个时间段2个小时;每周分成7个时间段,每个时间段一天。系统页面通过统计论坛用户在每个上网时间段的发帖数目和在线用户数,以柱状图的形式显示。通过查看用户上网时间分布图可以直观了解一天和一周的时间内每个时间段的用户在线人数,用户在线数量多的时间段一般是传播较快的区段。(4)活跃用户发现。论坛中表现活跃的用户比普通用户有更多的发帖和回帖记录,他们的参与行为对论坛信息的传播起到较大的促进作用。系统通过计算每42个用户的发帖和回帖数目发现活跃用户,进而分析他们的上网习惯,有助于把握舆情的可能发展方向。(5)意见领袖发现。意见领袖作为论坛中的核心人物,他们发表的言论往往能引起用户的广泛参与,因此发现论坛中的意见领袖及其兴趣偏好可以预测未来的热门帖子和话题。(6)热门帖子预测。系统热帖预测部分通过提取第四章分析的帖子热度影响特征,分析数据库中帖子未来的用户参与情况,然后将预测的热门帖子的发布者、帖子题目、帖子内容及发布时间、最后回复时间在系统页面显示出来。论坛用户行为分析系统的最终目标是通过对用户行为数据的分析,发现用户的兴趣所在,并对帖子热度加以预测,为舆情监控和网站优化提供支持。5.2系统的总体设计根据系统的功能和最终目标,将用户行为分析系统主要分为四个模块:数据获取模块、数据预处理模块、数据存储模块和用户行为分析模块。系统整体架构如图5.1所示。数据获取模块上e\数据预处理模块心热帖预\用户行为分耖上用网时间活跃用户意见户业趣识统计发现领袖发现测数据库别分析结果显示上/多眵图5一l系统整体架构图Figure5-1Overallsystemarchitecturediagram数据获取模块负责BBS网站舆情信息的采集。获取论坛信息后需要将爬取的数据存储到关系数据库中,保证数据格式的结构化。由于系统采集到的数据信息是文本数据的形式,其中包含了标点、助词等停用词,因此,需要对爬取的数据43进行数据预处理,转化成数据挖掘算法能够处理的形式。用户行为分析模块实现用户行为信息的处理分析,实现用户的行为分析和帖子热度预测等功能,由于行为分析过程中需要不断地进行数据存取,因此该模块与数据库交互比较多。经过上述的处理后,用户行为分析结果通过系统显示界面呈现出来。5.3系统功能模块详细设计5.3.1数据获取模块数据获取模块通过爬虫抓取论坛信息。信息源可以是天涯论坛的任意版块,丰富的信息源可以保证舆情分析的准确性和完整性。下面以天涯杂谈版块为例,分析论坛结构布局和需要爬取的内容。天涯杂谈版块包含默认列表、最新、精品等帖子排列方式,可以按照帖子“默认”列表依次爬取每篇帖子的链接页面信息。每篇帖子内容页面包括发帖人、发帖时间、点击数、回复数、回复内容等,回复信息包括回复作者、回复时间、回复内容。每位论坛用户都有自己的空间,空间内有用户的新鲜事、粉丝数、经验值、社区积分、注册日期、上次登录时间、相册、问答、部落等内容,这些信息都可以用来作为用户行为分析的数据。本章设计的数据获取模块采取广度优先搜索爬虫,需要抓取的论坛数据包括每位用户的用户名、发帖标题、发帖内容、帖子发布时间、浏览数、回复数、用户上次登录时间和注册日期、用户的粉丝数和经验值。然后将采集到的数据存入MySQL关系数据库。5.3.2数据预处理模块数据预处理模块是用户行为分析系统和数据挖掘必不可少的环节,主要用于对数据获取模块抓取的数据进行净化处理,去除无用数据,以便提高后期行为分析和预测的准确率。Lh于从论坛直接爬取的帖子题目、帖子内容等是以文本形式存储在MySQL数据库中,而数据挖掘算法不能直接对文本数据进行处理;另外,从论坛爬取的数据大都是不完整或包含较多冗余信息,直接对这些信息进行数据挖掘所得的结果往往不能令人满意。因此,必须对数据库中的内容进行预处理。本章设计的数据预处理模块包含文本分词、去除停用词、TFIDF特征权重计算、特征选择和数据归一化处理五个步骤。数据预处理流程如图5.2所示。图5-2数据预处理模块流程图Figure5-2Flowchartofdatapreprocessingmodule5.3.3用户行为分析模块用户行为分析模块是系统的核心模块,实现用户兴趣发现和热帖预测等功能。行为分析模块需要与数据库频繁交互,从数据库读取数据进行处理后再将分析结果存储到数据库,因此,如何降低系统与数据库交互的时间复杂度就显得格外重要。该模块涉及数据挖掘的K—Means聚类、用于回归的支持向量机预测等算法,详细功能设计包括个体和群体用户兴趣识别、上网时问统计分析、活跃用户发现、意见领袖发现和热帖预测五个部分。(1)用户兴趣识别。用户兴趣识别包括用户个体兴趣识别和用户群体兴趣识别两部分。用户个体兴趣识别的实现方式是:从预处理后的数据中读取每个特征词的TFIDF权重值,然后调用K.Means算法,对每个用户的所有特征词进行聚类分析,将属于同一类型的特征词划分到一个簇中,用每个簇中权重最高的几个特征词代表用户的兴趣簇特征,该用户的所有簇的特征词组合在一起构成用户的兴趣向量。将系统每位用户的兴趣特征词存储到数据库中,以便系统显示页面调用。用户个体兴趣识别是用户的初始兴趣模型训练过程,由于用户的兴趣偏好不是一成不变的,而且兴趣的变化是过程性的,所以需要有用户兴趣模型的更新过程。系统的用户兴趣模型更新过程采用第三章提出的特征词权重更新公式,计算用户对某个兴趣特征词前后两次访问的时间间隔和这段间隔内用户的发帖回帖总45数,然后更新数据库中对应特征词的兴趣权重值。用户个体的兴趣识别及权重更新流程如图5.3所示。图5-3用户个体兴趣识别及更新流程Figure5-3Individualuser’sinterestrecognitionandupdateprocess用户群体兴趣识别是在用户个体兴趣模型的基础上,将具有相似兴趣的用户聚合,组成兴趣话题簇。兴趣相似性计算需要用到欧式距离,划分聚类需要预先设定划分的簇个数k,然后进行用户聚类分析,将每个话题簇中具有较高兴趣权重的特征词作为簇内用户的共同兴趣,所有簇的特征组合起来构成群体用户兴趣偏好。最后将话题簇特征存储到数据库,以便系统显示界面调用。(2)上网时间统计分析。每位用户的上网时间都依赖日常作息而呈现一定的规律性,并且论坛整个用户群体的上网时间也存在规律性。系统通过读取数据库的发帖和回帖时间计算出一天内12个时间段的在线用户数目分布情况,一周内每天用户在线人数的统计结果也可以计算获得。由于上网时间统计情况可以通过读取数据库后简单计算获得,因此,这部分结果可以直接显示在系统页面。(3)活跃用户发现。活跃用户发现通过统计用户每天、每周甚至每个月的平均发帖和回帖数目计算得到。论坛活跃用户比普通用户表现要活跃得多,系统通过发现论坛中的活跃用户并结合其兴趣偏好,可以协助预测热门帖子。(4)意见领袖发现。意见领袖是论坛中的意见领导者和引导者,相对来说具有比较高的威信,他们所发起的话题更容易引发广大用户的热烈讨论,而且意见领袖参与讨论的话题也较容易吸引大众参与。本系统通过用户的帖子参与人数、发帖数量、粉丝数、经验值、注册时间以及意见领袖在用户总人数中所占的比例等指标了衡量一位用户是否是意见领袖。确定论坛的意见领袖后需要将意见领袖的个人信息、兴趣偏好特征提取出来存储到数据库,便于界面显示和热帖预测。(5)热帖预测。热门帖子预测是系统的重要功能之一,对论坛舆情的有效监控和引导具有重要作用。进行热帖预测首先需要提取出影响帖子热度的影响特征,包括用户的好友关系、关注关系、用户活跃程度、发帖时间、帖子内容等多项因素。然后调用支持向量机的回归预测算法,预测出帖子的热度值。最后将满足一定热度阈值占的帖子存入数据库作为系统预测的热门帖子。图5.4为系统热帖预测流程图。图5-4热帖预测流程图Figure5-4Hotpostpredictionflowchart5.3.4数据存储模块数据存储模块用来存储系统的数据集,包括数据获取模块抓取的论坛数据以及用户行为分析过程中产生的数据。本系统将数据集存储到MySQL关系数据库中,以便系统显示界面读取。图5.5是各数据库表之间的关系。47:biUster1n珏巍蓉i戳PKid—term_weightcluster—id图5-5数据库表格之间的关系Figure5-5Relationshipbetweendatabasetables针对本章设计的用户行为分析系统,在数据库中设计了相应的数据预处理表、用户个体兴趣表、用户群体兴趣表、意见领袖表、热帖预测表等共九个数据库表格。主要数据库表格的字段及字段数据类型详述如下:(1)post表:系统的数据获取模块从论坛爬取的用户发帖信息,将其存储在post数据库表中。该表格需要存储的信息包括发帖用户id、帖子标题、发帖内容、发帖时间、浏览数量、回复数量、发帖所占的页数。其结构如下表所示。表5-1发帖信息表字段名iduser类型int允许空?否否否否否否否否PKFK键值信息字段说明帖子id发帖用户id帖子标题发帖内容帖子发布时间浏览量idintpost_titlevarchar(255)textpos乏-contentpost_pubtimebrowse——numreply_numpostj)age_counttimestampintIntInt回复数发帖所占页数(2)reply表:论坛帖子的回复信息存储在reply表中,包括回帖用户id、发帖id、回复内容、帖子回复时间。其中,回帖用户id是user表的外键,发帖id是post表的外键。详细结构如表5.2所示。表5-2帖子回复信息表字段名idreply_postiduser类型int允许空?否否否否否PKFKFK键值信息字段说明回帖idintinttexttimestamp回复的帖子id回帖用户ididreply_contentreply__pubtime回复内容回帖时间(3)user表:用户信息user表存储了论坛的用户名、注册时间、粉丝数、经验值信息。user表的详细结构如表5—3所示。表5-3用户信息表T£Lble5.3Userinformationtable字段名idint类型否否否否否允许空?PK键值信息字段说明用户id用户名注册时间粉丝数经验值USemamevarchar(255)timestampintintregistertimefans——numexperience(4)individualinterests表:用户个体兴趣数据库表存储了单个用户的兴趣信息,包括用户id、兴趣特征词、特征词兴趣权重。其中,用户id是user表的外键。详细结构如表5.4所示。表54用户个体兴趣特征表Table5-4Userindividualinterestcharacteristictable字段名idintint类型否否否否允许空?PKFK键值信息字段说明特征词id用户id用户兴趣特征词useridkeywordinterest_weightvarchar(255)double兴趣特征词权重(5)clusterinterests表:群体用户兴趣表用于存储具有相似兴趣的用户簇的兴趣特征词及权重,包括用户簇兴趣特征词、兴趣特征词权重、用户簇id。数据表的详细结构如表5.5所示。49表5.5群体用户兴趣表字段名idtermint类型允许空?否否否否键值信息PK字段说明用户簇兴趣特征词id用户簇兴趣特征词兴趣特征词权重用户簇idvarchar(255)doubleintterm_weightcluster——id(6)hot_post表:热帖预测数据库表用来存储系统的用户行为分析模块对热门帖子的预测结果,包括热帖的发帖用户名、帖子内容、帖子发布时间、帖子回复数、帖子浏览数、帖子热度预测值。热帖预测的结构如表5-6所示。表5-6热帖预测表字段名idint类型否否否否否否否允许空?键值信息PK字段说明预测的热帖id发帖用户名帖子发布时间帖子内容帖子回复数浏览数帖子热度预测值USem锄epost_pubtimevarchar(255)timestamptextpos-ontentpost_repl_countpost_browse_countintintheat_predicteddouble(7)leader表:意见领袖数据库表用于存储系统中对论坛舆情演变起导向作用的活跃用户信息,包括用户id、兴趣特征词、用户粉丝数、经验值、注册时间、发帖数、回帖数量。意见领袖表的结构如表5—7所示。表5.7意见领袖表字段名iduseridtermsfans——numint类型否否否否否否否否允许空?键值信息PKFK字段说明意见领袖id用户idinttext用户兴趣特征词粉丝数经验值注册时间发帖数回帖数intinttimestampintintexperienceregistertimepostnumreply_num505.4系统框架设计根据系统需要实现的功能和目标,系统采用B/S框架,将整个系统分为数据获取层、数据处理层和结果显示层三个层次。数据获取层利用Java编写爬虫程序,按照广度优先搜索原则,爬取天涯论坛的用户发帖回帖数据以及用户个人信息。数据处理层是一系列的Servlet,负责实现业务处理功能,包括聚类、回归预测等任务。结果显示层将数据处理结果展示给用户。整个系统的框架图如下所示。◇譬§:结果显示层(JSP)I胤橐羹怿忡J囟√数据获取层图5-6系统框架Figure5-6Systemframework5.5本章小结论坛用户行为分析系统是以天涯论坛的用户发帖回帖行为作为研究对象,首先介绍了系统要实现的功能和目标,然后对系统的总体设计进行简要介绍,详细描述了系统各功能模块的设计,包括数据获取模块、数据域处理模块、用户行为分析模块和数据存储模块,最后对系统的整体框架设计进行了概述。6总结与展望总结网络用户的行为中蕴含着丰富的有用信息,这些信息不仅反映了用户的兴趣6.1偏好,也能用来对舆情发展进行有效预测。本文首先介绍了用户行为分析和数据挖掘方面的相关理论基础,并对现有的用户模型表示方法和常用建模算法进行简要概述;然后对天涯论坛数据集进行用户兴趣分析,设计了一种基于用户访问时间间隔和发帖回帖数量的兴趣权重更新算法,并对用户兴趣进行预测;接下来对论坛用户行为进行简要分析,提取帖子热度相关特征,并利用回归的支持向量机对帖子热度进行预测;最后设计了论坛用户行为分析系统,并对其中的关键模块详细设计进行描述。用户兴趣建模与兴趣推荐。通过对天涯杂谈版块的数据集进行分析,发现传统的基于用户记忆遗忘曲线的兴趣更新算法不适用于论坛用户。本文设计的基于用户访问时间间隔和发帖回帖数量的兴趣权重更新算法不仅将用户访问特征词的时间间隔考虑在内,同时考虑了在这段时间间隔内用户的发帖回帖次数,这种算法能更好地计算特征词的更新权重。在对用户兴趣建模的基础上进行了兴趣推荐,提出了一种两阶段的聚类算法,提高了计算效率和准确性,并能有效解决冷启动问题。论坛用户行为分析及热帖预测。通过对天涯论坛的用户进行行为分析,发现论坛帖子热度不仅与帖子内容有关,同时也与用户活跃程度有关。本文对帖子热度相关影响特征进行总结归纳,分别从论坛用户的性质及用户之间的关系、帖子内容影响因素和时间影响因素三个方面进行讨论,共发现20个对帖子热度影响较大的特征,然后利用回归的支持向量机进行帖子热度预测,得到令人满意的预测结果。论坛用户行为分析系统设计。结合用户兴趣建模和兴趣预测以及热帖预测的相关研究分析,设计了用于论坛的用户行为分析系统。系统主要由数据获取模块、数据预处理模块、用户行为分析模块和数据存储模块组成。首先利用Java编写的爬虫程序获取论坛的用户行为数据,然后进行一系列的数据预处理步骤,将预处理后的数据传送至行为分析模块进行用户兴趣发现和热帖预测等,最后通过JSP页面将结果呈现给用户。最后从系统实现方面进行整体框架的设计,以便后期完成系统实现。526.2未来工作展望随着网络用户的不断增多和信息传播的快速发展,有关用户行为分析和数据挖掘的研究越来越多地引起学者的关注。在网络用户兴趣建模和兴趣预测方面,本文提出的兴趣更新算法仅是针对天涯论坛用户行为而言的,在其他网站的适应性仍有待进一步研究;基于论坛用户行为的帖子热度影响特征分析是建立在对论坛数据集分析研究的基础上,这些特征对于其他论坛或购物网站的信息热度分析仍需要更加深入的探讨;目前网络数据量呈指数增长,面对如此海量的用户行为数据,如何进一步提高数据挖掘算法的效率仍是一项艰巨的任务:另外,本文设计的用户行为分析系统仅停留在研究阶段,系统的具体实现并投入实际应用也是未来工作之一。结合目前的研究现状,对未来工作提出几点建议:(1)大数据环境下的数据挖掘网络用户行为数据的急剧增加给现有的数据挖掘算法提出了新的要求,而现有的数据挖掘算法对较大规模的数据量呈现出不同程度的不适应性,而且大多数算法都不具有动态性。因此,如何通过对现有算法的改进使之适合于大数据的处理,是未来研究的一项重要任务。(2)热度预测的应用研究目前大多数的热度预测研究集中在论坛帖子的热门情况,而微博、Facebook等网站对热门消息的预测研究则有待进一步的提高。如何将论坛帖子热度的有关影响特征或研究方法应用到其他网站上将是未来研究的一个方向。(3)兴趣模型的扩展应用从目前网络用户兴趣模型的研究应用来看,很多研究只是停留在理论阶段,而现实应用较少。在用户浏览网站过程中,如果可以借助行为分析的结果,对用户可能感兴趣的内容进行推荐,无疑会极大提高用户满意度。因此,如何将用户兴趣模型和兴趣预测的结果与推荐系统相结合,向用户推荐多样化内容仍有待进一步的研究。参考文献U1Jp1Jp1J1j张辛欣,沈洋.中国网民规模达6.18亿手机网民人数5亿.http://gzdaily.dayoo.com/html/2014—01/17/content2517235.htm.2014—0l一17.EllisonNB..Socialnetworksites:Definition,history,andscholarship.JournalofComputer-MediatedCommunication,2007,13(1):210·230.高彬.大学生社交网站使用动机研究.以人人网为例.学理论,2012,17:92—93.KleinbergJ.,LawrenceS。ThestructureoftheWeb.Science,2001,294(5548):1849—1850.organizationofmetabolicnetworks.p瞄1J陋1JⅣ1j隋1Jp1JJeongH.,TomborB.,AlbeaR.,eta1.Thelarge—scaleNature,2000,407:65l-654.AlbertR..BarabasiAL..Statisticalmechanicsofcomplexnetworks.Reviewsofmodemphysics,2002,74(1):47—97.XieYB.,ZhouT.,WangBH..Scale-freenetworkswithout1683.1688.Ben-NaimE.,KrapivskyPL..Popularity—driven48003。KlemmK.,Eguiluz036123.growth.PhysicaA,2008,387(7):networking.EurophysicsLe舵rS,2012,97(4):networks.PhysicalReviewVM—Highlyclusteredscale—freeE,2002,65(3):【10】WangXF.,ChenQ.Complexnetworks:small-world,scale—freeandbeyond.CircuitsandSystemsMagazine,2003,3(1):6—20.Fabricio,RodriguesTiago.Characterizinguserbehaviorinonlinesocialon[11】Benevenutonetworks.Proceedingsofthe9thACMSIGCOMMconferenceInternetmeasurementconference,2009.USA:ACM,2009,49—62.[12】AdamicLA.,Huberman287(5461):2115.[13】ClausetA.,ShaliziBA..Power-lawdistributionoftheworldwideweb.Science,2000,CR.,NewmanMEJ—Power-lawdistributionsinempiricaldata.SIAMreview,2009,51(4):661-703.【14】BarabasiAL.,AlbertR.,JeongH—Scale—freecharacteristicsofrandomnetworks:thetopologyoftheworld-wideweb.PhysicaA,2000,281:69-77.【15】熊菲。互联网用户行为分析及信息演化模式研究【学位论文】,北京:北京交通大学,2013.【16】DingFei,LiuYun,ChengHui.ReadandreplybehaviorsinaBBSsocialnetwork.AdvancedComputerControl(ICACC),2010.Shenyang,2010,571-576,P.,SobkowiczA..DynamicsofhatebasedIntemetuser[17】Sobkowieznetworks.TheEuropeanPhysicalJournalB,2010,73(4):633—643.the[18】AgichteinE.,BrillE.,DumaisS..Improvingwebsearchrankingbyincorporatinguserbehaviorofinformation.Proceedings29。annualinternationalACMSIGIRconferenceanddevelopmentininformationretrieval,2006.USA:ACM.2006,19—26.【19】费巍,黄如花.基于用户行为分析的搜索引擎优化策略.图书情报工作,2005,49(10):75—77.[20】徐卫,陈丽亚,刘功申.基于用户行为分析的网站广告投放策略.计算机工程与应用,2006,(28):225.226.[2l】付关友,朱征宇.个性化服务中基于行为分析的用户兴趣建模.计算机工程与科学,2005,5427(12):76’78.【22】HanJ.,KamberM.,PeiJ一范明,孟小峰.数据挖掘:概念与技术(原书第3版).北京:机械工业出版社,2012.【23】ZaianeOR.,XinM.,HartJ..DiscoveringwebonaccesspatternsandtrendsbyapplyingOLAPandAdvancesinDigitalLibraries,dataminingtechnologyweblogs.ResearchandTechnology1998.SantaBarbara,CA,1998,19—29.[24】ShawMJ.,SubramaniamC.,TanGW..Knowledge1(1):127-137.managementanddataminingformarketing.Decisionsupportsystems,2001,3【25】ZhangC.,XiaS—K-meansclusteringalgodthmwithimprovedinitialcenteLKnowledgeDiscoveryandDataMining,2009.Moscow,2009,790—792.on【26】Tak-chungFu。Areviewtimeseriesdatamining.EngineeringApplicationsofArtificialIntelligence,201l,24(1):164-181.[27】WangJ.,LuoY,ZhaoY,eta1.Asurveyonprivacypreservingdata4.mining.DatabaseTechnologyandApplications,2009.Wuhan,Hubei,2009,l11-11【28】DakshidataAgrawal,CharuC.Aggarwal.Onthedesignminingonandquantificationofprivacypreservingalgorithms.ProceedingsofthetwentiethACMSIGMOD—SIGACT-SIGARTsymposiumPrinciplesofdatabasesystems,2001.USA:ACM,2001,247—255.distributedminingofassociationon【29】KantarciogluM.,CliftonC..Privacy—preservinghorizontallypartitioneddata.IEEETransactionsrulesonKnowledgeandDataEngineering,2004,16(9):1026-1037.【30】GuoJing,ZhangPeng,TanonJianlong,eta1.Mininghottopicsfromtwitterstreams.InternationalandtrendConferenceComputationalScience,ICCS,2012.USA,2012,2008—2011.【31】ZhangZhongfeng,LiQiudan.QuestionHolic:Hottopicdiscoveryanalysisincommunityquestion6855.answeringsystems.ExpeaSystemswithApplications,2011,38(6):6848—【32】XiongFei,LiuYun,ZhuJiang.HotpostpredictioninBBSforumsbasedonmultifactorfusion.JournalofConvergenceInformationTechnology,2012,7(12):129-137.【33】LiN.,WuDD—Usingtextminingandsentimentanalysisforandforecast.DecisionSupportSystems,2010,48(2):354-368.[34】AlexanderPak,PalrickParoubek.TwitteraSaonlineforumshotspotdetectioncorpusforsentimentonProceedingsoftheInternationalConferenceanalysisandopinionmining.LanguageResourcesandEvaluation,LRECusingMarkovchains.Computer2010.Valletta,Malta,2010,17—23.[35】SarukkaiRR..LinkpredictionandpathanalysisNetworks,2000,33:377-386.[36]WattsDuncan.SixUniversity,2004.Degrees:Thescienceofaconnectedage[Dissertation].USA:Columbia[37】ChengY,QiuG,BuJ..Model[38】Zukermanbloggers’interestsbasedononforgettingmechanism.Proceedingsandofthe170internationalconferenceI.,AlbrechtWorldWideWeb,2008.USA:ACM,2008,1129—1130.statisticalmodelsforusermodeling.UserModelingDW..PredictiveUser-AdaptedInteraction,2001,l1(1—2):5—18.user【39】WhiteRW.,Bailey32“oP..Predictinginterestsfromcontextualinformation.ProceedingsoftheoninternationalACMSIGIRconferenceResearchanddevelopmentininformation55』E塞銮适厶堂亟±堂位途塞叁耋塞筮retrieval,2009.USA:ACM,2009,363-370.[40】XuZhiheng,LuRong,XiangLiang,eta1.Discoveringuserinterestontwitterwithamodifiedonauthor-topicmodel.Proceedingsofthe2011IEEE/WIC/ACMInternationalConferenceWebIntelligence,20ll。Lyon,France,201l,l:422-429。【41】Huang[42】FayyadAnna.Similaritymeasuresfortextdocumentclustering.ProceedingsoftheNewZealandComputerScienceResearchStudentConference,2008.NewZealand,2008,49—56.U.,Piatetsky—ShapiroG,SmythP.Fromdataminingtoknowledgediscoveryindatabases.AImagazine,1996,17(3):37—54.[43】陈珂,殷国富,罗小宾.基于统计特征聚类原理的图像识别技术.四川火学学报(:[程科学版),2003,35(3):83.86.【44】CortesC..VapnikV.Suppoavectormachine.Machinelearning,1995,20(3):273.297.【45】张学工.关于统计学习理论与支持向量机.自动化学报,2000,26(1):32-42.[46】边肇祺,张学工.模式识别.北京:清华大学出版社,2000.[47】于洪,李转运.基于遗忘曲线的协同过滤推荐算法.南京大学学报(自然科学),2010,46(5):520.527.[48】陈克寒,韩盼盼,吴健.基于用户聚类的异构社交网络推荐算法.计算机学报,2013,36(2):349-359.【49】ZhengD,LiEHottopicdeW.iononBBSusingagingtheory.WebInformationSystemsandMining,2009,5854:129—138.[50】杨亮,林原,林鸿飞.基于情感分布的微博热点事件发现.中文信息学报,2012,26(1):84—90.56作者简历教育经历:2011-2014北京交通大学硕士通信与信息系统2006.2010山东理工大学学士电子信息工程硕士期间发表论文:LijuanLiu,BoShen,XingWang.ResearchonKernelFunctionofSupportVectorMachine.AdvancedTechnologies,EmbeddedandMultimediaforHuman-centdcComputing,2014.LectureNotesinElectricalEngineeringVolume260,2014,PP.827—834.57独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京交通大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文作者签名:别翮娥签字日期:矽圩年尹月2日学位论文数据集表1.1:数据集页【关键词幸互联网;用户行为分析;数据挖掘;兴趣模型;网络密级奉公开中图分类号·TP301.6UDC004.93论文资助国家自然科学基金、北京市自然科学基金、高等教育博士点基金、北京科技计划和北京市教育委员会学科建设与研究生建设项目学位授予单位名称}北京交通大学论文题名幸网络用户数据挖掘与行为分析作者姓名幸培养单位名称奉北京交通大学刘丽娟学位授予单位代码奉10004学位类别幸工学学位级别丰硕士并列题名学号幸论文语种·中文11120126培养单位代码宰10004培养单位地址北京市海淀区西直门外上园村3号邮编100044学科专业宰通信与信息系统论文提交日期宰导师姓名宰评阅入2014.2研究方向·计算机网与信息系统沈波答辩委员会宰刘云学制幸2.5学位授予年宰2014职称宰答辩委员会成员王根英穆海冰副教授电子版论文提交格式文本()图像()视频(:I音频()多媒体()其他()权限声明推荐格式:application/msword;application/pdf电子版论文出版(发布)者电子版论文出版(发布)地论文总页数}53共33项,其中带·为必填数据,为22项。59网络用户数据挖掘与行为分析
作者:
学位授予单位:
刘丽娟
北京交通大学
引用本文格式:刘丽娟 网络用户数据挖掘与行为分析[学位论文]硕士 2014