基于数据挖掘的网络用户兴趣分类研究

来源：化拓教育网

第２５卷　第１０期　Ｖｏ１．２５　Ｎｏ．１０　电子设计工程　Ｅｌｅｃｔｒｏｎｉｃ　Ｄｅｓｉｇｎ　Ｅｎｇｉｎｅｅｒｉｎｇ　２０１７年５月　Ｍａｖ．２０１７　基才数据挖掘的网络用户兴趣分类研究　张志强　（西安外事学院陕西西安７１００７７）　摘要：在移动互联网发展快速的今天，数据是最宝贵的资源之一，如何利用海量数据完成特定应用。　本文基于数据挖掘技术实现网络用户兴趣分类为用户提供特定服务，设定合理的用户兴趣模型确保　个性化服务优劣的核心。提出一种基于ＨＩＴＳ算法通过用户访问量实现兴趣分类的策略，通过网络数　据采集、模型分析完成对兴趣数据的处理．得出了ＨＩＴＳ在用户兴趣分类方面有较大的优势。　关键词：移动互联网；海量数据；数据挖掘；兴趣分类　中图分类号：ＴＮ９２９．５　文献标识码：Ａ　文章编号：１６７４—６２３６（２０１７）１０—００３４—０４　Ｒｅｓｅａｒｃｈ　ｏｎ　ｄａｔａ　ｍｉｎｉｎｇ　ｃｌａｓｓｉｉｃａｔｉｆｏｎ　ｂａｓｅｄ　ｏｎ　ｕｓｅｒ　ｉｎｔｅｒｅｓｔ　ＺＨＡＮＧ　Ｚｈｉ—ｑｉａｎｇ　（Ｘｉ＂ａｎ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｕｎｉｖｅｒｓｉｔｙ，Ｘｉ＂ａｎ　７　１００７７，Ｃｈｉｎａ）　Ａｂｓｔｒａｃｔ：Ｉｎ　ｔｏｄａｙ＇ｓ　ｒａｐｉｄ　ｄｅｖｅｌｏｐｍｅｎｔ　ｏｆ　ｍｏｂｉｌｅ　Ｉｎｔｅｒｎｅｔ，ｄａｔａ　ｉｓ　ｔｈｅ　ｍｏｓｔ　ｐｒｅｃｉｏｕｓ　ｒｅｓｏｕｒｃｅｓ，ｈｏｗ　ｔｏ　ｕｓｅ　ｔｈｅ　ｖａｓｔ　ａｍｏｕｎｔｓ　ｏｆ　ｄａｔａ　ｔｏ　ｃｏｍｐｌｅｔｅ　ａ　ｓｐｅｃｉｉｆｃ　ａｐｐｌｉｃａｔｉｏｎ．Ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｄｔｈａｔｔｈｅｄａｔａ　ｍｉｎｉｎｇ　ｔｅｃｈｎｏｌｏｇｙ　ｎｅｔｗｏｒｋ　ｕｓｅｒ　ｉｎｔｅｒｅｓｔ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｉｓ　ｔｏ　ｐｒｏｖｉｄｅ　ｕｓｅｒｓ　ｗｉｔｈ　ａ　ｐａｒｔｉｃｕｌａｒ　ｓｅｒｖｉｃｅ，ａｎｄｓｅｔ　ａ　ｒｅａｓｏｎａｂｌｅ　ｕｓｅｒ　ｉｎｔｅｒｅｓｔ　ｍｏｄｅｌ　ｉｓ　ｔｏ　ｅｎｓｕｒｅ　ｔｈａｔ　ｔｈｅ　ｃｏｒｅ　ｏｆ　ｐｅｒｓｏｎａｌｉｚｅｄ　ｓｅｒｖｉｃｅ　ｍｅｒｉｔｓ．Ａｌｓｏ　ｐｒｅｓｅｎｔｉｎｇ　ａ　ｕｓｅｒ　ｖｉｅｗｓ　ＨＩＴＳ　ａｌｇｏｒｉｔｈｍ　ｔｏ　ａｃｈｉｅｖｅ　ｔｈｅ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｏｆ　ｉｎｔｅｒｅｓｔ　ｐｏｌｉｃｙ，ｔｈｒｏｕｇｈ　ｔｈｅ　ｎｅｔｗｏｒｋ　ｄａｔａ　ｃｏｌｌｅｃｔｉｏｎ，ａｎａｌｙｓｉｓ　ｍｏｄｅｌ　ｔｏ　ｃｏｍｐｌｅｔｅ　ｔｈｅ　ｐｒｏｃｅｓｓｉｎｇ　ｏｆ　ｔｈｅ　ｄａｔａ　ｏｆ　ｉｎｔｅｒｅｓｔ，ａｎｄ　ｂｙ　ｅｘａｍｐｌｅｓ　ｄｅｍｏｎｓｔｒａｔｅ　ｏｂｔａｉｎ　ｔｈｅ　ａｄｖａｎｔａｇｅｓ　ｏｆ　ｔｈｅ　ｐｏｌｉｃｙ．　Ｋｅｙ　ｗｏｒｄｓ：ｍｏｂｉｌｅ　Ｉｎｔｅｒｎｅｔ；ｖａｓｔ　ａｍｏｕｎｔｓ　ｏｆ　ｄａｔａ；ｄａｔａ　ｍｉｎｉｎｇ；ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｏｆ　Ｉｎｔｅｒｅｓｔ　数据挖掘的基础技术研究已经进展了将近十　年，各类基于数据挖掘的应用服务已经得到了广泛　网络用户兴趣分类是指根据互联网用户的访问　点击量来实现自动分类推荐功能，常见有通过统计　的推广。对于互联网的使用，如何实现面向用户群的　特定服务推广是学者专家以及各类互联网公司研究　的热点问题，本文提出了一种面向用户兴趣分类的　移动互联网数据分类算法。　关键词、点击链接等方式来统计用户的兴趣热点，比　如用户输入关键词“苹果”，有些用户关注水果“苹　果”方面的知识．有些用户关注“ＩＰｈｏｎｅ”等系列电子　产品的知识，通过这种方式形成个性化服务。利用数　据挖掘技术完成个性化服务的研究［５１。　当前对于兴趣分类研究，国内外学者已经做了　大量的研究工作，Ｃａｎｔａｄｏｒ　Ｉ　Ｅ　１等人提出了一种从个　１　概　述　数据挖掘技术的发展推进了移动互联网应用的　广泛推广，根据ＣＮＮＩＣ（Ｃｈｉｎａ　Ｉｎｔｅｒｎｅｔ　Ｎｅｔｗｏｒｋ　人配置的语义信息文件中获取用户兴趣的方法。主　Ｉｎｆｏｒｍａｔｉｏｎ　Ｃｅｎｔｅｒ）公布的统计结果表明，截止到　２０１５年ｌ２月，中国网民规模达到６．８８亿，手机用户　要策略是对用户共享的这些语义信息文件进行聚　类，得到若干类簇，并根据聚类结果，建立多层结果　也达到了１．２７亿，如何提升用户上网感知度是当前　的兴趣模型。Ｋｒａｍａｒ　等人提出了一种基于元数据　互联网研究的热点问题。　的用户兴趣模型。其中元数据是由从用户访问的每　个页面提取的关键字，术语和标记等词组与扩展的　收稿日期：２０１６—０７—１８　稿件编号：２０１６０７１３０　基金项目：教育部信息管理中心项目（ＥＩＪＹＢ２０１５０５３）；西安市专项基金项目（１６ＩＮ０８）　作者简介：张志强（１９７８一），男，河南许昌人，硕士，讲师。研究方向：数据挖掘、云计算、计算机网络。　－３４－　张志强　基于数据挖掘的网络用户兴趣分类研究　词组合而成的序列。当用户使用短语进行搜索时，可　的问题进行改进，传统的ＨＩＴＳ模型通常在网页访问　以根据这种扩展的词组能准确的获取用户所需要的　中将ｈｕｂ中每一个指向的链接都将指定一个权重高　信息。Ｌｉｕ　Ｚ，Ｃｈｅｎ　Ｘ［３１等人针对微博用户发表的信息　的值，假若页面中仅有１条链接，那么ｈｕｂ值会被传　的嘈杂性和词语的多样性，提出一种将基于转化的　递给连接页面的ａｕｔｈｏｒｉｔｙ值，但如果一个页面存在　方法和基于频次的方法相结合的关键词提取方法来　大量的连接时，将会有大量的ｈｕｂ值被传递给页面　挖掘用户的兴趣　的ａｕｔｈｏｒｉｔｙ值，这显然是不符合实际应用情况的。为　此本文对公式（２）提出进行了修改，如公式（５）所示，　文中提出一种利用数据挖掘技术实现网络用户　兴趣分类的应用模型。首先介绍了经典的ＨＩＴＳ模型　在模型中增加了网络流的方向性，Ｏ　表示用户ｉ的　理论，从数据采集、理论分析等方面介绍模型的具体　出度。　实现过程，并通过实验分析了模型的性能特性。　２　ＨＩＴＳ模型介绍　在互联网搜索领域中，ＨＩＴＳ（Ｈｙｐｅｒｔｅｘｔ　Ｉｎｄｕｃｅｄ　Ｔｏｐｉｃ　Ｓｅａｒｃｈ）算法是一种重要的基于权重排序的互　联网数据搜索算法，ＨＩＴＳ算法的核心是利用网页设　计中两个通用的值：ｈｕｂ值与ａｕｔｈｏｒｉｔｙ值，所谓ｈｕｂ　值是由页面所指向的所有网页的ａｕｔｈｏｒｉｔｙ值构成：　而ａｕｔｈｏｒｉｔｙ值由指向该页面的所有网页ｈｕｂ值构　成。在互联网应用中。通常采用较高权值的网页更加　倾向与其它相关网页进行连接，换句话说，多个权值　高的网页若指向同一个未知网页。那么该网页具备　更高权值的可能性会很大【５　。　ＨＩＴＳ的逻辑实现过程如下公式如下所示，描述　过程如下：假设在实际网络中节点ｉ在时刻ｔ时的　ａｕｔｈｏｒｉｔｙ值由所有指向ｉ节点在ｔ－１时刻的ｈｕｂ值　累加构成，如公式（１）所示，而公式（２）中表示节点ｉ　在时刻ｔ的ｈｕｂ值由节点ｉ所指向的所有节点的ｔ－１　时刻的ａｕｔｈｏｒｉｔｙ值累加构成，而公式（３）和公式（４）　是权值计算的迭代过程。经过　次迭代后实现　ａｕｔｈｏｒｉｔｙ值和ｈｕｂ值的归一化，直到排序结果趋于　稳定后停止迭代。　？）．∑　ｃ　（１）　Ｖ　一　：Ｖｉ∑ｎ：　ｃ　，　（２）　（　）＝　！　一甘∑０（　）ｚ＝１　（３）　１／∑［。（　）２］　一　（　）：　一岱∑　（　）ｚ：１　（４）　＼／∑【　）２］一　文中针对ＨＩＴＳ模犁在实际互联网应用中存在　∑ｎｃ　，　ｈ７）＿　（５）　ｔＹｉ．０　２．１数据采集　数据采集主要完成模型数据的采集工作，通过　对互联网上所关注用户一数据的抓取，利用文献［４１００　所提的ＨＴＭＬ页面数据收集算法．通过ｗｉｒｅｓｈａｒｋ网　络工具采集具体的数据信息。采集结果如表１所示。　表１数据采集结果　通过将用户浏览的ｈｔｍｌ页面内容表示成文本　的特征向量形式。作为数据预处理的过程，便于后续　模型的使用。　２．２模型实现　文中通过Ｈａｄｏｏｐ框架进行模型的实现设计，通　过ＩＥ浏览器实现搜索引擎的连接。在Ｈａｄｏｏｐ的编　程框架中利用ＭａｐＲｅｄｕｃｅ函数匹配搜索引擎并进　行分析处理［６】。在Ｍａｐ阶段对数据进行预处理，去除　字段不完整的记录，按照设定的规则拆分相应字段，　用于匹配各个搜索引擎的Ｈｏｓｔ字段，然后根据各个　搜索引擎的特点，进行相应的解码『１０１。采取这种处理　模式，实现了对多个搜索引擎（也可认为是多业务输　出的目的）的处理。伪代码如下：　ＭａＤ阶段：　／／Ｆｉｒｅｆｏｘ　ｉｆ（ｈｏｓｔ．ｃｏｍｐａｒｅＴｏ（”ｗｗｗ．Ｆｉｒｅｆｏｘ．ｃｏｍ”）＝＝０）｛　Ｓｔｉｒｎｇ　ｕｒｌ＝ａ［５］．ｔｒｉｍＯ；　－３５－　《电子设计工程》２０ｌ７年第１Ｏ期　ｉｆ（ｕｒ１．ｉｎｄｅｘ０ｆ（”％２５”）！＝－１）　ｕｒｌ＝ｕｒ１．ｒｅｐｌａｃｅＡｌｌ（”％２５”，”　）；　ｉｆ（ｕｒ１．ｓｔａｒｔｓＷｉｔｈ（“／ｗｅｂ？”）　ｌｌ（ｕｒ１．ｓｔａｒｔｓＷｉｔｈ（”／Ｆｉｒｅｆｏｘ？”）＆＆（ｕｒ１　．ｉｎｄｅｘＯｆ（”ｑｕｅｒｙ＝”）！＝－１）））｛　ｉｆ（（ｕｒ１．ｍｄｅｘＯｆ（”ｉｅ＝ｕｔｆ８”）！＝－１）　Ｉｌ（ｕｒ１．ｉｎｄｅｘＯｆ（”ｉｅ＝ｕｔｆ－８”）！＝－１））｛　ｃｏｎｔｅｘｔ．ｗｒｉｔｅ（ｎｅｗ　Ｔｅｘｔ（ｓｉＰ），ｎｅｗ　Ｔｅｘｔ（　ＵｒｌＤｅｃｏｄｅｒ　．ｄｅｃｏｄｅ（ｅｘｔｒａｃｔ＿ｆｕｎ（ｕｒｌ，”ｑｕｅｒｙ　”），”　ＵＴＦ一８”）．ｔｒｉｍ０））；　）ｅｌｓｅ｛　ｃｏｎｔｅｘｔ．ｗｒｉｔｅ　（ｎｅｗ　Ｔｅｘｔ（ｓｉＰ），　ｎｅｗ　Ｔｅｘｔ　（ＵｄＤｅｃｏｄｅｒ　．ｄｅｃｏｄｅ（ｅｘｔｒａｃｔ＿ｔｉｍ（ｕｒｌ，”ｑｕｅｒｙ＝”），”　ｇｂ２３１２”）．ｔｒｉｉｎ（）））；　｝　｝　Ｒｅｄｕｃｅ阶段：　＠Ｏｖｅ＝ｉｄｅ　ｐｕｂｌｉｃ　ｖｏｉｄ　ｒｅｄｕｃｅ（Ｔｅｘｔ　ｋｅｙ，ｈｅｒａｂｌｅ＜Ｔｅｘｔ＞　ｖａｌｕｅｓ．Ｃｏｎｔｅｘｔ　ｃｏｎｔｅｘｔ）　ｔｈｒｏｗｓ　１ＯＥｘｃｅｐｔｉｏｎ，ＩｎｔｅｒｒｕｐｔｅｄＥｘｃｅｐｔｉｏｎ｛　ＳｔｒｉｎｇＢｕｆｉＦｅｒ　ｂｕｆｆｅｒ＝ｎｅｗ　ＳｔｒｉｎｇＢｕｆｉｆｅｒＱ：　ｆｏｒ（Ｔｅｘｔ　ｖａｌｕｅ：ｖａｌｕｅｓ）｛　ｂｕｆｆｅｒ．ａｐｐｅｎｄ（ｖａｌｕｅ．ｔｏＳｔｒｉｎｇＯ）；　ｂｕｆｆｅｒ．ａｐｐｅｎｄ（”＠＃”）；　ｌ　ｃｏｎｔｅｘｔ．ｗｒｉｔｅ　（ｋｅｙ，　ｎｅｗ　Ｔｅｘｔ　（ｎｅｗ　Ｓｔｒｉｉｉｇ　（ｂｕｆｆｅｒ）））；／／全局用户数据　２．３实验验证　在本节中．我们评估使用相应的测试集本文提　出的分类器的性能。该实验基于ＳＶＭ根据该信息在　个人网站发布的用户的消费意愿进行分类。本章中　所使用的所有数据均来自Ａｍａｚｏｎ．ｃｏｍ。　在亚马逊的网站有１０个大类和６０多万的采购　数据，这些数据从数字设备选定表１所示。从所有的　采购数据，２　０００条记录，随机拿起本实验中使用　ａｍａｚｏｎ．ｃｏｎ的数据类别。我们删除了这些短信息，最　后剩下的是第１　８９８个标记后，我们获得了９９０个　消费意图的信息和９０８个没有信息消费的意图【“　５Ｊ。　通过获人工标注的方法得测试数据，我们从个　－３６－　表２测试数据　人网站随机抽取的发布信息的记录。然后手动注明　这些记录是否与消费兴趣相关，依照本文提出的分　类算法得出如表３所示的分类结果。　表３改进的ＨＩＴＳ分类性能　通过该测试结果显示在本文提出ＨＩＴＳ算法在　网络用户兴趣分类上有明显的应用效果。　３　结　论　文中利用数据挖掘的思想设计实现了用于解决　互联网用户兴趣分类的研究，利用经典的ＨＩＴＳ算法　的迭代思想，对算法进行部分改进实现，并且按照数　据采集、模型实现．采用Ｈａｄｏｏｐ的挖掘框架完成整　个模型的设计。实验证明模型的性能的优势。　参考文献：　［１］Ｃａｎｔａｄｏｒ　Ｉ，Ｃａｓｔｅｌｌｓ　Ｒ．Ｅｘｔｒａｃｔｉｎｇ　ｍｕｈｉｌａｙｅｒｅｄ　ｃｏｍｍｕｎｉｔｉｅｓ　ｏｆ　Ｉｎｔｅｒｅｓｔ　ｆｒｏｍ　ｓｅｍａｎｔｉｃ　ｕｓｅｒ　ｐｒｏｆｉｌｅｓ：Ａｐｐｌｉｃａｔｉｏｎ　ｔｏ　ｇｒｏｕｐ　ｍｏｄｅｌｉｎｇ　ａｎｄ　ｈｙｂｒｉｄ　ｒｅｃｏｍｍｅｎｄａｔｉｏｎｓ【Ｊ］．Ｃｏｍｐｕｔｅｒｓ　ｉｎ　Ｈｕｍａｎ　Ｂｅｈａｖｉｏｒ，　２０１１，２７（４）：１３２１－１３３６．　【２】Ｋｒａｍａｒ　Ｔ，Ｂａｄａ　Ｍ，Ｂｉｅｌｉｋｏｖｉ　Ｍ．Ｐｅｒｓｏｎａｌｉｚｉｎｇ　ｓｅａｒｃｈ　ｕｓｉｎｇ　ｓｏｃｉａｌｌｙ　ｅｎｈａｎｃｅｄ　ｉｎｔｅｒｅｓｔ　ｍｏｄｅｌ　ｂｕｉｌｔ　张志强　基于数据挖掘的网络用户兴趣分类研究　ｆｒｏｍ　ｔｈｅ　ｓｔｒｅａｍ　ｏｆ　Ｕｓｅｒ’Ｓ　ａｃｔｉｖｉｔｙ［Ｊ］．Ｊ．Ｗｅｂ　Ｅｎｇ．，　２０１３，１２（１＆２）：６５—９２．　［３】ｕｕ　Ｚ，Ｃｈｅｎ　Ｘ，Ｓｕｎ　Ｍ．Ｍｉｎｉｎｇ　ｔｈｅ　ｉｎｔｅｒｅｓｔｓ　ｏｆ　Ｃｈｉｎｅｓｅ　ｍｉｃｒｏｂｌｏｇｇｅｒｓ　ｖｉａ　ｋｅｙｗｏｒｄ　ｅｘｔｒａｃｔｉｏｎ［Ｊ］，　Ｆｒｏｎｔｉｅｒｓ　ｏｆ　Ｃｏｍｐｕｔｅｒ　Ｓｃｉｅｎｃｅ，２０１２，６（１）：７６—８７．　ｉｔｓ　Ａｐｐｌｉｃａｔｉｏｎｓ，２０１１，３９０（２３）：４６３６－４６５１．　［９］Ｐｉｅｔｅｒ　Ｎ，Ｍｉｃｈｉｅｌ　Ｈ．Ｍｉｎｉｎｇ　ｔｗｉｔｔｅｒ　ｉｎ　ｔｈｅ　Ｃｌｏｕｄ：　Ａ　Ｃａｓｅ　Ｓｔｕｄｙ［ｃ］／／ＣＬＯＵＤ　２０１０，Ｍｉａｍｉ，ＦＬ，　Ｕｎｉｔｅｄ　ｓｔａｔｅｓ，ＩＥＥＥ　Ｃｏｍｐｕｔｅｒ　Ｓｏｃｉｅｔｙ，２０１０：　１０７－１　１４．　［４］梅佩．基于浏览内容的用户兴趣研究【Ｍ］．北京：北　京交通大学．２０１５．　［１０］Ａｂｒａｈａｍ　Ｒ，Ｍａｒｔｉｎｅｚ　Ｔ．Ｔｗｉｔｔｅｒ．Ｎｅｔｗｏｒｋ　ｐｒｏｐｅｒｔｉｅｓ　ａｎａｌｙｓｉｓ［Ｃ］／／ＣＯＮＩＥＬＥＣ０ＭＰ　２０１０，Ｃｈｏｌｕｌａ　Ｐｕｅｂｌａ，　Ｍｅｘｉｃｏ，ＩＥＥＥ　Ｃｏｍｐｕｔｅｒ　Ｓｏｃｉｅｔｙ，２０１０：１８０－１８４．　【５】陈如明．大数据时代的挑战，价值与应对策略［Ｊ］．　移动通信，２０１２（１７）：１４—１５．　【１１］余肖生，孙珊．基于网络用户信息行为的个性化　［６】陈吉荣，乐嘉锦．基ｆｆ＇Ｈａｄｏｏｐ￣态系统的大数据　解决方案综述［Ｊ］．计算机工程与科学，２０１３，３５　（１０）：２５—３５．　推荐模型［Ｊ１．重庆理工大学学报自然科学版，　２０１３，２７（１）：４７－５０．　［１２］Ｇａｒｃｉａ　Ｌ　Ｍ．Ｐｒｏｇｒａｍｍｉｎｇ　ｗｉｔｈ　Ｌｉｂｐｃａｐ　Ｓｎｉｆｆｉｎｇ　ｔｈｅ　Ｎｅｔｗｏｒｋ　Ｆｒｏｍ　Ｏｕｒ　Ｏｗｎ　Ａｐｐｌｉｃａｔｉｏｎ［Ｊ］．　Ｈａｋｉｎ９－Ｃｏｍｐｕｔｅｒ　Ｓｅｃｕｒｉｔｙ　Ｍａｇａｚｉｎｅ，２００８：２—　２００８．　【７】Ｌｉｕ　Ｃ，Ｚｈｏｕ　Ｗ　Ｘ．Ｈｅｔｅｒｏｇｅｎｅｉｔｙ　ｉｎ　ｉｎｉｔｉａｌ　ｒｅｓｏｕｒｃｅ　ｃｏｎｆｉｇｕｒａｔｉｏｎｓ　ｉｍｐｒｏｖｅｓ　ａ　ｎｅｔｗｏｒｋ—－　ｂａｓｅｄｈｙｂｒｉｄ　ｒｅｃｏｍｍｅｎｄａｔｉｏｎ　ａｌｇｏｒｉｔｈｍ［Ｊ］．Ｐｈｙｓｉｃａ　Ａ：Ｓｔａｔｉｓｔｉｃａｌ　Ｍｅｃｈａｎｉｃｓ　ａｎｄ　ｉｔｓＡｐｐｌｉｃａｔｉｏｎｓ，　［１３］ＸｕｒｅｎＷ，Ｆａｍｅｉ　Ｈ，Ａｎ　ｉｍｐｌｅｍｅｎｔ　ｏｆ　ｂｒｏａｄｂａｎｄ　ｎｅｔｗｏｒｋ　ｍｏｎｉｔｏｒｉｎｇ　ｓｙｓｔｅｍ　ｂａｓｅｄ　ｏｎ　ｌｉｂｎｉｄｓａｎｄ　２０１２，３９１（２２）：５７０４－５７１１．　［８］Ｎａｃｈｅｒ　Ｊ　Ｃ，Ａｋｕｔｓｕ　Ｔ．Ｏｎ　ｔｈｅ　ｄｅｇｒｅｅ　ｄｉｓｔｒｉｂｕｔｉｏｎ　ｏｆ　ｐｒｏｊｅｃｔｅｄ　ｎｅｔｗｏｒｋｓ　ｍａｐｐｅｄ　ｆｒｏｍｂｉｐａｒｔｉｔｅ　ｎｅｔｗｏｒｋｓ［Ｊ］．Ｐｈｙｓｉｃａ　Ａ：Ｓｔａｔｉｓｔｉｃａｌ　Ｍｅｃｈａｎｉｃｓ　ａｎｄ　ｗｉｎｐｃａｐ［Ｃ］＃Ｎｅｗ　Ｔｒｅｎｄｓ　ｉｎ　Ｉｎｆｏｒｍａｔｉｏｎ　ａｎｄ　Ｓｅｒｖｉｃｅ　Ｓｃｉｅｎｃｅ，２００９一ＮＩＳＳ　１　０９．Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ．ＩＥＥＥ，２００９：８　１２—８　１４．　（上接第３３页）　Ｔｏｐｏｌｏｇｉｃａｌ　Ｒｅｌａｔｉｏｎｓ　Ｂｅｔｗｅｅｎ　Ｇｅｏｇｒａｐｈｉｃ　Ｒｅｇｉｏｎｓ　【８】丁琛．基于ＨＢａｓｅ的空间数据分布式存储和并行　化查询算法的研究［Ｄ］．南京：南京师范大学，２０１２．　［９】辛大欣，屈伟．基－Ｉ－＇ＨａｄｏｏｐＮ云计算算法研究［Ｊ］．　电子设计工程，２０１３，２１（３）：３３—３５．　ｅｄ．Ｏ’ＲｅｉｌｌｙＭｅｄｉａ，Ｉｎｃ，２０１１．　ｗｉｔｈ　Ｉｎｄｅｔｅｒｍｉｎａｔｅ　Ｂｏｕｎｄａｒｉｅｓ［Ｊ】．Ｓｏｆｔ　Ｃｏｍｐｕｔｉｎｇ，　１９９８，２（２）：２８—３４．　［４］吴华意，刘波，李大军，等．空间对象拓扑关系研究　１２６９—１２７６．　综述［Ｊ］．武汉大学学报信息科学版，２０１４，３９（１１）：　［１０］Ｔｏｍ　Ｗｈｉｔｅ．Ｈａｄｏｏｐ：Ｔｈｅ　Ｄｅｆｉｎｉｔｉｖｅ　Ｇｕｉｄｅ［Ｍ］．２ｎｄ　【５］ＹＡＮＧ　Ｇ．Ｔｈｅ　ａｐｐｌｉｃａｔｉｏｎ　ｏｆ　ＭａｐＲｅｄｕｃｅ　ｉｎ　ｔｈｅ　［１　１］Ｍ．Ｚａｈａｒｉａ，Ｍ．Ｃｈｏｗｄｈｕｒｙ，Ｍ．Ｊ．Ｆｒａｎｋｌｉｎ，Ｓ．　ｃｌｏｕｄ　ｃｏｍｐｕｔｉｎｇ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　２０１　１　２ｎｄ　Ｓｈｅｎｋｅｒ，ａｎｄ　Ｉ．Ｓｔｏｉｃａ．Ｓｐａｒｋ：Ｃｌｕｓｔｅｒ　Ｃｏｍｐｕｔｉｎｇ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｓｙｍｐｏｓｉｕｍ　ｏｎ　Ｉｎｔｅｌｌｉｇｅｎｃｅ　Ｉｆｏｒ－ｎ　ｍａｔｉｏｎ　Ｐｒｏｃｅｓｓｉｎｇ　ａｎｄ　Ｔｒｕｓｔｅｄ　Ｃｏｍｐｕｔｉｎｇ．Ｐｉｓｃａｔａ—　ｗｉｔｈ　Ｗｏｒｋｉｎｇ　Ｓｅｔｓ［Ｃ］／／Ｉｎ　２ｎｄ　ＵＳＥＮＩＸ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｈｏｔ　Ｔｏｐｉｃｓ　ｉｎ　Ｃｌｏｕｄ　Ｃｏｍｐｕｔｉｎｇ（ＨｏｔＣｌｏｕｄ），　２０１０．　ｗａｙ：ＩＥＥＥ，２０１　１：１５４－１５６．　［６］ＷＡＮＧ　Ｌ，ＣＨＥＮ　Ｂ，ＬＩＵ　Ｙ．Ｄｉｓｔｉｒｂｕｔｅｄ　ｓｔｏｒａｇｅ　ａｎｄ　［１２］Ｍａｒｉｂｅｔｈ　Ｐｒｉｃｅ．Ｍａｓｔｅｒｉｎｇ　ＡｒｃＧＩＳ【Ｍ］．ＭｃＧｒａｗ—　ｉｎｄｅｘ　ｏｆ　ｖｅｃｔｏｒ　ｓｐａｔｉａｌ　ｄａｔａ　ｂａｓｅｄ　ｏｎ　ＨＢａｓｅ［ｃ］／／　Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　２０１３　２１ｓｔ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎ－　ｆｅｒｅｎｃｅ　ｏｎ　Ｇｅｏｉｆｏｒｎｍａｔｉｃｓ．Ｐｉｓｃａｔａｗａｙ：ＩＥＥＥ，２０１３：　１－５．　Ｈｉｌｌ　Ｅｄｕｃａｔｉｏｎ，２０１５．　［１３］Ｚｈｅｎｇ　ｋｕｎ，Ｙａｎｌｉ　Ｆｕ．Ｒｅｓｅａｒｃｈ　ｏｎ　Ｖｅｃｔｏｒ　Ｓｐａｔｉａｌ　Ｄａｔａ　Ｓｔｏｒａｇｅ　Ｓｃｈｅｍａ　Ｂａｓｅｄ　ｏｎ　Ｈａｄｏｏｐ　Ｐｌａｔｆｏｒｍ［Ｊ］．　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｊｏｕｒｎａｌ　ｏｆ　Ｄａｔａｂａｓｅ　Ｔｈｅｏｒｙ　ａｎｄ　［７】郑坤，付艳丽．基于ＨＢａｓｅ和ＧｅｏＴｏｏｌｓ的矢量空间　（３）：２３—２６．　Ａｐｐｌｉｃａｔｉｏｎ，２０１３，６（５）：８５－９４．　２０１３．　３７—　数据存储模型研究【Ｊ】．计算机应用与软件，２０１５，３２　［１４］ＮＹＣ　Ｔａｘｉ　Ｔｒｉｐｓ［ＥＢ／ＯＬ］．ｈｔｔｐ：／／ｗｗｗ．ａｎｄｒｅｓｍｈ．ｃｏｒｎ／　一

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文