第25卷 第10期 Vo1.25 No.10 电子设计工程 Electronic Design Engineering 2017年5月 Mav.2017 基才数据挖掘的网络用户兴趣分类研究 张志强 (西安外事学院陕西西安710077) 摘要:在移动互联网发展快速的今天,数据是最宝贵的资源之一,如何利用海量数据完成特定应用。 本文基于数据挖掘技术实现网络用户兴趣分类为用户提供特定服务,设定合理的用户兴趣模型确保 个性化服务优劣的核心。提出一种基于HITS算法通过用户访问量实现兴趣分类的策略,通过网络数 据采集、模型分析完成对兴趣数据的处理.得出了HITS在用户兴趣分类方面有较大的优势。 关键词:移动互联网;海量数据;数据挖掘;兴趣分类 中图分类号:TN929.5 文献标识码:A 文章编号:1674—6236(2017)10—0034—04 Research on data mining classiicatifon based on user interest ZHANG Zhi—qiang (Xi"an International University,Xi"an 7 10077,China) Abstract:In today's rapid development of mobile Internet,data is the most precious resources,how to use the vast amounts of data to complete a speciifc application.Thispaperproposedthatthedata mining technology network user interest classification is to provide users with a particular service,andset a reasonable user interest model is to ensure that the core of personalized service merits.Also presenting a user views HITS algorithm to achieve the classification of interest policy,through the network data collection,analysis model to complete the processing of the data of interest,and by examples demonstrate obtain the advantages of the policy. Key words:mobile Internet;vast amounts of data;data mining;classification of Interest 数据挖掘的基础技术研究已经进展了将近十 年,各类基于数据挖掘的应用服务已经得到了广泛 网络用户兴趣分类是指根据互联网用户的访问 点击量来实现自动分类推荐功能,常见有通过统计 的推广。对于互联网的使用,如何实现面向用户群的 特定服务推广是学者专家以及各类互联网公司研究 的热点问题,本文提出了一种面向用户兴趣分类的 移动互联网数据分类算法。 关键词、点击链接等方式来统计用户的兴趣热点,比 如用户输入关键词“苹果”,有些用户关注水果“苹 果”方面的知识.有些用户关注“IPhone”等系列电子 产品的知识,通过这种方式形成个性化服务。利用数 据挖掘技术完成个性化服务的研究[51。 当前对于兴趣分类研究,国内外学者已经做了 大量的研究工作,Cantador I E 1等人提出了一种从个 1 概 述 数据挖掘技术的发展推进了移动互联网应用的 广泛推广,根据CNNIC(China Internet Network 人配置的语义信息文件中获取用户兴趣的方法。主 Information Center)公布的统计结果表明,截止到 2015年l2月,中国网民规模达到6.88亿,手机用户 要策略是对用户共享的这些语义信息文件进行聚 类,得到若干类簇,并根据聚类结果,建立多层结果 也达到了1.27亿,如何提升用户上网感知度是当前 的兴趣模型。Kramar 等人提出了一种基于元数据 互联网研究的热点问题。 的用户兴趣模型。其中元数据是由从用户访问的每 个页面提取的关键字,术语和标记等词组与扩展的 收稿日期:2016—07—18 稿件编号:201607130 基金项目:教育部信息管理中心项目(EIJYB2015053);西安市专项基金项目(16IN08) 作者简介:张志强(1978一),男,河南许昌人,硕士,讲师。研究方向:数据挖掘、云计算、计算机网络。 -34- 张志强 基于数据挖掘的网络用户兴趣分类研究 词组合而成的序列。当用户使用短语进行搜索时,可 的问题进行改进,传统的HITS模型通常在网页访问 以根据这种扩展的词组能准确的获取用户所需要的 中将hub中每一个指向的链接都将指定一个权重高 信息。Liu Z,Chen X[31等人针对微博用户发表的信息 的值,假若页面中仅有1条链接,那么hub值会被传 的嘈杂性和词语的多样性,提出一种将基于转化的 递给连接页面的authority值,但如果一个页面存在 方法和基于频次的方法相结合的关键词提取方法来 大量的连接时,将会有大量的hub值被传递给页面 挖掘用户的兴趣 的authority值,这显然是不符合实际应用情况的。为 此本文对公式(2)提出进行了修改,如公式(5)所示, 文中提出一种利用数据挖掘技术实现网络用户 兴趣分类的应用模型。首先介绍了经典的HITS模型 在模型中增加了网络流的方向性,O 表示用户i的 理论,从数据采集、理论分析等方面介绍模型的具体 出度。 实现过程,并通过实验分析了模型的性能特性。 2 HITS模型介绍 在互联网搜索领域中,HITS(Hypertext Induced Topic Search)算法是一种重要的基于权重排序的互 联网数据搜索算法,HITS算法的核心是利用网页设 计中两个通用的值:hub值与authority值,所谓hub 值是由页面所指向的所有网页的authority值构成: 而authority值由指向该页面的所有网页hub值构 成。在互联网应用中。通常采用较高权值的网页更加 倾向与其它相关网页进行连接,换句话说,多个权值 高的网页若指向同一个未知网页。那么该网页具备 更高权值的可能性会很大【5 。 HITS的逻辑实现过程如下公式如下所示,描述 过程如下:假设在实际网络中节点i在时刻t时的 authority值由所有指向i节点在t-1时刻的hub值 累加构成,如公式(1)所示,而公式(2)中表示节点i 在时刻t的hub值由节点i所指向的所有节点的t-1 时刻的authority值累加构成,而公式(3)和公式(4) 是权值计算的迭代过程。经过 次迭代后实现 authority值和hub值的归一化,直到排序结果趋于 稳定后停止迭代。 ?).∑ c (1) V 一 :Vi∑n: c , (2) ( )= ! 一甘∑0( )z=1 (3) 1/∑[。( )2] 一 ( ): 一岱∑ ( )z:1 (4) \/∑【 )2]一 文中针对HITS模犁在实际互联网应用中存在 ∑nc , h7)_ (5) tYi.0 2.1数据采集 数据采集主要完成模型数据的采集工作,通过 对互联网上所关注用户一数据的抓取,利用文献[4100 所提的HTML页面数据收集算法.通过wireshark网 络工具采集具体的数据信息。采集结果如表1所示。 表1数据采集结果 通过将用户浏览的html页面内容表示成文本 的特征向量形式。作为数据预处理的过程,便于后续 模型的使用。 2.2模型实现 文中通过Hadoop框架进行模型的实现设计,通 过IE浏览器实现搜索引擎的连接。在Hadoop的编 程框架中利用MapReduce函数匹配搜索引擎并进 行分析处理[6】。在Map阶段对数据进行预处理,去除 字段不完整的记录,按照设定的规则拆分相应字段, 用于匹配各个搜索引擎的Host字段,然后根据各个 搜索引擎的特点,进行相应的解码『101。采取这种处理 模式,实现了对多个搜索引擎(也可认为是多业务输 出的目的)的处理。伪代码如下: MaD阶段: //Firefox if(host.compareTo(”www.Firefox.com”)==0){ Stirng url=a[5].trimO; -35- 《电子设计工程》20l7年第1O期 if(ur1.index0f(”%25”)!=-1) url=ur1.replaceAll(”%25”,” ); if(ur1.startsWith(“/web?”) ll(ur1.startsWith(”/Firefox?”)&&(ur1 .indexOf(”query=”)!=-1))){ if((ur1.mdexOf(”ie=utf8”)!=-1) Il(ur1.indexOf(”ie=utf-8”)!=-1)){ context.write(new Text(siP),new Text( UrlDecoder .decode(extract_fun(url,”query ”),” UTF一8”).trim0)); )else{ context.write (new Text(siP), new Text (UdDecoder .decode(extract_tim(url,”query=”),” gb2312”).triin())); } } Reduce阶段: @Ove=ide public void reduce(Text key,herable<Text> values.Context context) throws 1OException,InterruptedException{ StringBufiFer buffer=new StringBufiferQ: for(Text value:values){ buffer.append(value.toStringO); buffer.append(”@#”); l context.write (key, new Text (new Striiig (buffer)));//全局用户数据 2.3实验验证 在本节中.我们评估使用相应的测试集本文提 出的分类器的性能。该实验基于SVM根据该信息在 个人网站发布的用户的消费意愿进行分类。本章中 所使用的所有数据均来自Amazon.com。 在亚马逊的网站有10个大类和60多万的采购 数据,这些数据从数字设备选定表1所示。从所有的 采购数据,2 000条记录,随机拿起本实验中使用 amazon.con的数据类别。我们删除了这些短信息,最 后剩下的是第1 898个标记后,我们获得了990个 消费意图的信息和908个没有信息消费的意图【“ 5J。 通过获人工标注的方法得测试数据,我们从个 -36- 表2测试数据 人网站随机抽取的发布信息的记录。然后手动注明 这些记录是否与消费兴趣相关,依照本文提出的分 类算法得出如表3所示的分类结果。 表3改进的HITS分类性能 通过该测试结果显示在本文提出HITS算法在 网络用户兴趣分类上有明显的应用效果。 3 结 论 文中利用数据挖掘的思想设计实现了用于解决 互联网用户兴趣分类的研究,利用经典的HITS算法 的迭代思想,对算法进行部分改进实现,并且按照数 据采集、模型实现.采用Hadoop的挖掘框架完成整 个模型的设计。实验证明模型的性能的优势。 参考文献: [1]Cantador I,Castells R.Extracting muhilayered communities of Interest from semantic user profiles:Application to group modeling and hybrid recommendations【J].Computers in Human Behavior, 2011,27(4):1321-1336. 【2】Kramar T,Bada M,Bielikovi M.Personalizing search using socially enhanced interest model built 张志强 基于数据挖掘的网络用户兴趣分类研究 from the stream of User’S activity[J].J.Web Eng., 2013,12(1&2):65—92. [3】uu Z,Chen X,Sun M.Mining the interests of Chinese microbloggers via keyword extraction[J], Frontiers of Computer Science,2012,6(1):76—87. its Applications,2011,390(23):4636-4651. [9]Pieter N,Michiel H.Mining twitter in the Cloud: A Case Study[c]//CLOUD 2010,Miami,FL, United states,IEEE Computer Society,2010: 107-1 14. [4]梅佩.基于浏览内容的用户兴趣研究【M].北京:北 京交通大学.2015. [10]Abraham R,Martinez T.Twitter.Network properties analysis[C]//CONIELEC0MP 2010,Cholula Puebla, Mexico,IEEE Computer Society,2010:180-184. 【5】陈如明.大数据时代的挑战,价值与应对策略[J]. 移动通信,2012(17):14—15. 【11]余肖生,孙珊.基于网络用户信息行为的个性化 [6】陈吉荣,乐嘉锦.基ff'Hadoop ̄态系统的大数据 解决方案综述[J].计算机工程与科学,2013,35 (10):25—35. 推荐模型[J1.重庆理工大学学报自然科学版, 2013,27(1):47-50. [12]Garcia L M.Programming with Libpcap Sniffing the Network From Our Own Application[J]. Hakin9-Computer Security Magazine,2008:2— 2008. 【7】Liu C,Zhou W X.Heterogeneity in initial resource configurations improves a network—- basedhybrid recommendation algorithm[J].Physica A:Statistical Mechanics and itsApplications, [13]XurenW,Famei H,An implement of broadband network monitoring system based on libnidsand 2012,391(22):5704-5711. [8]Nacher J C,Akutsu T.On the degree distribution of projected networks mapped frombipartite networks[J].Physica A:Statistical Mechanics and winpcap[C]#New Trends in Information and Service Science,2009一NISS 1 09.International Conference on.IEEE,2009:8 12—8 14. (上接第33页) Topological Relations Between Geographic Regions 【8】丁琛.基于HBase的空间数据分布式存储和并行 化查询算法的研究[D].南京:南京师范大学,2012. [9】辛大欣,屈伟.基-I-'HadoopN云计算算法研究[J]. 电子设计工程,2013,21(3):33—35. ed.O’ReillyMedia,Inc,2011. with Indeterminate Boundaries[J】.Soft Computing, 1998,2(2):28—34. [4]吴华意,刘波,李大军,等.空间对象拓扑关系研究 1269—1276. 综述[J].武汉大学学报信息科学版,2014,39(11): [10]Tom White.Hadoop:The Definitive Guide[M].2nd 【5]YANG G.The application of MapReduce in the [1 1]M.Zaharia,M.Chowdhury,M.J.Franklin,S. cloud computing[C]//Proceedings of the 201 1 2nd Shenker,and I.Stoica.Spark:Cluster Computing International Symposium on Intelligence Ifor-n mation Processing and Trusted Computing.Piscata— with Working Sets[C]//In 2nd USENIX Conference on Hot Topics in Cloud Computing(HotCloud), 2010. way:IEEE,201 1:154-156. [6]WANG L,CHEN B,LIU Y.Distirbuted storage and [12]Maribeth Price.Mastering ArcGIS【M].McGraw— index of vector spatial data based on HBase[c]// Proceedings of the 2013 21st International Con- ference on Geoifornmatics.Piscataway:IEEE,2013: 1-5. Hill Education,2015. [13]Zheng kun,Yanli Fu.Research on Vector Spatial Data Storage Schema Based on Hadoop Platform[J]. International Journal of Database Theory and [7】郑坤,付艳丽.基于HBase和GeoTools的矢量空间 (3):23—26. Application,2013,6(5):85-94. 2013. 37— 数据存储模型研究【J】.计算机应用与软件,2015,32 [14]NYC Taxi Trips[EB/OL].http://www.andresmh.corn/ 一