您好,欢迎来到化拓教育网。
搜索
您的当前位置:首页数据挖掘研究及发展探析

数据挖掘研究及发展探析

来源:化拓教育网
信息产业 ・95・ 数据挖掘研究及发展探析 赵志强 (南通航运职业技术学院,江苏南通226010) 摘要:随着全球进入网络信息时代,web技术正快速的普及和迅猛的发展。人们在网络上更快速更简便地获取信息,但有用和无用 的信息同时存在,网络上的信息量不断增多,人们要从中获取有用的信息,就必须对信息进行筛选。如何从网络众多的数据中获取有用的 信息,数据挖掘就显得十分的重要。主要就数据挖掘在其研究领域中的研究现状及数据挖掘的发展进行深入探析,为数据挖掘研究和发 展提供理论参考依据。 关键词:网络信息;数据挖掘;研究现状;发展趋势 1数据挖掘的概念 数据挖掘在科研领域的应用也是非常广泛,主要是地理、医学、 生物工程等方面。数据挖掘目前在远程教育的应用中比较成熟,老 1l.1数据挖掘的定义 数据挖掘就是从存放在数据库,数据仓库或其他信息库的大量 师可以根据学生的学习基础对学生的教学活动和学习情况进行跟 数据中获取有效的、新颖的、潜在有用的、最终可理解模式的非平凡 踪,根据学生的特点建立不通的教学方法库,动态调整教学方法和 内容,数据挖掘在地理信息工程中的应用主要体现在空间数据的应 过程。 数据挖掘的特点: 用和研究上,空间数据挖掘可以理解为将数据挖掘和地理信息系 1.1.1数据:挖掘行为的数据来源,是关于主题的集合,描述现 统、遥感信息学、全球定位、模式识别等综合在一起的交叉学科的研 在世界的有关方面信息,是进行挖掘和知识发现的原始材料。 究应用,空间应用也是现在数据挖掘中的一个重点和热门领域,军 1.1.2新颖:数据挖掘和知识发现的模式应该是新颖的,它可以 事领域的应用对打赢信息化条件下的局部战争提供了很好的技术 通过当前得到的数据和同期相比得到的数据的新颖程度,或者通过 支持。 知识发现的内容和原先内容相比的新颖程度来判定模式的新颖。 3国内外数据挖掘的研究现状 1.1.3隐含应用性:提取的数据应该是对人们有价值的信息,即 目前,数据挖掘的研究和应用已经引起人们的关注,学术界、实 按照商业主题为对象的数据挖掘具有经济价值或实用价值。 业界和部门越发重视数据挖掘的研究。以美国为核心的发达国 1.2数据挖掘的分类 家对数据挖掘的研究和应用取得了重大进展,在数据挖掘的研究领 数据挖掘由于受到数据库系统、统计、机器学习、可视化和信息 域,数据挖掘开展最早的也是美国,数据挖掘的核心研究还是在美 科学等多个学科的影响,具有自身独特的特点,形成了一个交叉科 国,作为具有全球影响力的KDD学术会议从1995年到现在已经有 学领域。从数据挖掘的使用方法来看,数据挖掘可以使用神经网络、 13次会议,其中9次在美国召开,凸显了美国的重要作用和比重。 模糊/粗糙集理论、知识表示、归纳逻辑程序设计、或高性能计算的 全球应用最为广泛的数据挖掘产品主要是美国研发生产出来  技术;若从挖掘的数据类型或给定的数据挖掘应用来看,数据挖掘 SPSS、SAS。可以使用空间数据分析、信息提取、模式识别、图像分析、信号处理、 我国数据挖掘研究比美国晚,21世纪才开始起步,2001—2003 计算机图形学、Web技术、经济、或心理学领域的技术。由此,我们得 发表的这方面的论文占比很低,近年来该方面论文收录比重开始急 知数据挖掘有各种不同类型的数据挖掘系统,在进行数据挖掘研究 剧上升,由此可见数据挖掘的研究越来越受到大家的重视,同时相 时,必须要先对数据挖掘进行清楚的分类,这样可以帮助我们明确 关的IT公司也在研发这方面的产品,数据挖掘的人才培养也越来 数据挖掘系统,选择正确的数据挖掘系统。根据数据挖掘的特点,可 越受到高校、公司的重视。由此可见数据挖掘已成为一个热门的研 以分成:a.根据挖掘的数据库类型分类;b.根据挖掘的知识类型分 究领域,将带动大量相关产业的发展。 类Ic.根据所用的技术分类;d.根据应用分类。 4数据挖掘的发展趋势 1.3数据挖掘产生的背景 经过多年的研究和发展,数据挖掘充分的吸收了多门学科的最 在全球信息化背景下,大量的数据产生,人们要对这些大量的 新研究成果,逐步形成了自己独特的风格特点,形成了独具特色的 数据进行处理并转换堆成自己有用的数据,同时,计算机及相关技 研究分支。但是,数据挖掘研究和应用仍具有巨大的挑战性,凡事都 术的发展,数据挖掘就应运而生了。总的来说,数据挖掘的产生得益 要有一个过程,数据挖掘的研究和发展也一样,如同其他新技术的 于数据库、数据仓库和In.met等信息技术的发展,计算机性能的提 发展历程,都是一步一个脚印的过来的,概念提出、概念接受、广泛 高和先进的体系结构的发展,统计学和人工智能等方法在数据分析 研究和探索、逐步应用和大量应用这些过程一个都不能少。目前,数 中的研究和应用。 据挖掘的概念已经被人们广泛接受,由于技术原因,数据挖掘的应 2数据挖掘应用意义 用还不能大量投入使用,需要深入研究积累和丰富的工程实践。 数据挖掘的领域非常广泛,未来世界的各个方面都需要数据挖 人们已经广泛的接受了KDD,KDD在学术界和工业界引起了 掘,目前只要集中在如下领域: 很大的影响,很大研究人员投身到数据挖掘的研究之中,数据挖掘 2.1商业领域 广泛的研究领域正需要这些研究人员,这极大的推动了数据挖掘研 数据挖掘的商业领域主要是电子商务的出现和发展带动了数 究的发展。 据挖掘的发展,客户关系CRM系统的繁荣和发展也带动了数据挖 分析目前的研究和应用现状,数据挖掘在如下六个方面需要重 掘的发展,数据挖掘能发现商务客户的共性点和差异的、现实和未 点开展工作。 来预测的信息、必然的信息、或者关联的信息等,通过发掘这些 4.1数据挖掘技术与特定商业逻辑的平滑集成问题 信息知识能够归纳和总结用户的消费行为如消费能力,消费需求、 有效、显著的应用实例能够很好的证明数据挖掘和知识发现技 对产品的关注度,消费心理等,这些有价值的信息能够为管理者的 术的广阔应用前景。数据挖掘过程很多关键课题已经嵌入了对行业 决策提供依据和信息来源。在CRM即客户关系管理系统中可以根 或企业知识挖掘的约束与指导、商业逻辑等领域知识,这些领域知 据需求对客户进行分类,分析客户的消费能力,客户住址区域倍息, 识将是数据挖掘与知识发现技术研究和应用的重点发展方向。 客户购买产品的能力等。借助数据挖掘系统的相关工具如数据仓 4.2数据挖掘技术与特定数据存储类型的适应问题 库、知识发现、数据决策分析等工具可以预测投资行情如股票、期 数据挖掘的具体实现机制、目标定位、技术有效性会受到不同 货,也可以用于分析电信、医疗行业深入了解客户的喜好,调整营销 数据存储方式的影响。要想依靠单一通用的应用模式适合所有的数 策略和提高产品质量等 据存储方式去发现有效知识是不可能的。因此,根据不同数据存储 2.2科研领域 类型的特点,进行针对性数据挖掘的研究是目前 (下转94页) ・94・ 信息产业 的。 数据发生传输时,终端软件会收到一个根据IP地址信誉度的 则来过滤。这种方法不仅效率高,而且维护相对简单。 排 ,这个排名是根据指向的是否为包含恶意代码的网站和该IP 另外,在检测URL地址的同时IPS规则也可以对网页的内容进 之前的访问量等信息而生成的。根据这个排名,便可以给出用户一 行检测。分析网页编程代码,查找特征,并对网页做出相应的动作, 个信息:即这个IP地址是可信任的还是可疑的或者是被禁止的,据 比如允许访问、阻拦访问、给出警告提示。这种方式和上面提到的 此告知网民该网站是否钓鱼网站。 Web实时防护类似。IPS设备也可以应对系统或者软件漏洞的攻击、 4.1.4与云计算结合 木马传播的识别拦截等,所以,能够较好地对那些采用此类攻击技 当今IT信息技术界火热的云计算也能够给防范钓鱼网站提供 术的钓鱼网站起到防护作用。 新的思路。“云安全”这个概念已被越来越多的安全软件所采纳。众 IPS设备是专业的检测识别设备,有专门的硬件和应用软件,并 所周知,各类安全软件都拥有足够庞大的用户群,当这些用户碰到 且这种整体性的防护不会影响一般的网络行为,也不会消耗额外的 的钓鱼网站可以迅速的有序的集中整合到云数据库中,并可以便捷 系统资源,因此较为适合企业或者局域网用户。 的分享给其他用户。这个云数据库可以包含前面所述的技术数据, 结束语 也可以是他们的一种组合,从而提供多层次的防护保障。 目前的安全软件或IPS设备厂商已经有足够多的技术手段对钓 4.2中问防护 鱼网站进行防护。鉴于钓鱼网站的危害性,国家相关部门也采取了 上述终端防护的优势在于可以集多种防护于一身,数据更新也 定的措施,设置了专门的网络安全监管机构,随时发布最新的钓 快。但是这种方式的额外开销大,对于个人会增加网络的数据交互, 鱼网站信息,提醒广大网民。然而,钓鱼网站之所以能够大行其道, 消耗客户端计算设备的系统资源,影响上网体验。对于集团而言,额 最根本的原因还是利用了人们普遍的好奇心或贪欲等,对互联网知 外的资源消耗也就意味着成本的增加。因此这种情况下中间防护设 识的缺乏也是重要原因。我觉得只要网民树立了正确的上网观念. 备就起到了重要的作用。 养成良好的上网习惯,钓鱼网站便难有生存的土壤。 现今的IPS设备一般都会集成钓鱼网站的防护功能。在防护拦 参考文献 截时能采用前述的URL地址数据库查找对比方式进行拦截,也能 【1】石国岩,李冰.互联网安全技术浅谈【J】.信息与电脑(理论版),201 1 将漏洞检测技术应用到钓鱼网站的识别上。例如,针对常见的钓鱼 (1). 网站URL地址变化开发专门的IPS检测规则并集成到规则库中, 【2]杨峻青,从网络钓鱼到URL欺骗IJ1.电脑知识与技术(经验技巧), 这些规则可以把URL作为检测对象。虽然IPS的规则是自身是固 2010(2). 定的,但其技术特点决定了这种规则有着较为广泛的覆盖面,可以 [3]李佟鸿,麦永浩.网络钓鱼犯罪技术分析与对策研究【JI.信息网络 预见式地涵盖可能出现的URL地址变化。例如,WWW.3gqqcn.conl, 安全,201 1(4). www.ganjil.com等这几种钓鱼网站的URL就可以通过一个IPS规 一(上接95页) 流行而且也是将来一段时间的主要问题之一。 富和具有挑战性的。 4.3大型数据的选择与规格化问题 5结论 在对大型数据集进行数据挖掘时,由于源数据库中的数据呈现 数据挖掘技术的出现和兴起得益于技术数据的发展和经济社 动态变化,还有数据存在噪声、不确定性、信息丢失、信息冗余、数据 会的发展,数据挖掘是一个复杂的多学科话题,通过数据挖掘技术 分布稀疏等问题,必须要进行挖掘前的预处理工作。对特定商业目 可以生产出很多有价值的数据,未来数据挖掘的技术还在不断发 标进行数据挖掘时,由于存在大量的数据,必须要选择性的利用,因 展,应用领域也在不断扩大,前景十分广阔,这需要从业人员不断努 此如何进行数据选择、规格化特定挖掘方法是无法回避的问题。 力,推出更多高性能的产品。 4.4数据挖掘系统的构架与交互式挖掘技术 参考文献 随着研究的发展,数据挖掘系统的基本构架已经逐步形成,过 【1】Jiawei Han,Micheline Kamber范明,孟小峰等译.数据挖掘概 M】.北京:北京:机械工业出版社,2001,8. 程已经趋于明朗,但是受其他因素的影响,在进行数据挖掘研究时, 念与技术【很多方面仍需要深入研究。由于数据挖掘是在大量的源数据集中发 【2】朱玉全,杨鹤标,孙蕾.数据挖掘技术【M】.南京:东南大学出版社, 2006,7. 现潜在的、事先并不知道的知识,因此和用户交互式进行探索性挖 掘是必然的。这种交互可能发生在数据挖掘的各个不同阶段,从不 【3]梁循.数据挖掘算法与应用【M】.北京:北京大学出版社,2006,9. 同角度或不同粒度进行交互。所以良好的交互式挖掘(Interaction 【4】钱峰.基于SPSS知识地图的国内数据挖掘研究现状分析IJ1.情报 Mining)也是数据挖掘系统成功的前提。 科学,2008,4. 4.5数据挖掘语言与系统的可视化问题 【5】李华,刘帅,李茂等.数据挖掘理论及应用研究『J1_断块油气田, 由于数据挖掘技术诞生较晚,加上其复杂的特点,在开发相应 201 0,23(1):88—89. 的数据挖掘操作语言时将会困难重重。可视化要求成为了信息处理 系统的不可缺的技术。可视化挖掘除了要和良好的交互式技术结合 外,还必须在挖掘结果或知识模式的可视化、挖掘过程的可视化以 及口『视化指导用户挖掘等方面进行探索和实践。数据的可视化从某 种角度说起到了推动人们主动进行知识发现的作用,因为它可以是 人们从对KDD的神秘感变成可以直观理解的知识和形象的过程。 4.6数据挖掘理论与算法研究 经过研究,数据挖掘已经形成了独具特色的理论体系。但是,这 决不意味着挖掘理论的探索已经结束,而是给我们带来了更加丰富 的理论研究课题,这些新理论面对实际应用目标进行数据挖掘时具 有重要的指导作用,新理论的发展必然促进新的挖掘算法的产生, 这些算法对扩展数据挖掘非常具有有效性,因此,对数据挖掘理论 和算法的探讨将是长期而艰巨的任务。 从上面的叙述可以看出,数据挖掘研究和探索的内容是极其丰 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo9.cn 版权所有 赣ICP备2023008801号-1

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务