您的当前位置:首页正文

基于数据挖掘的入侵检测系统研究

来源:化拓教育网
第3卷第4期

2007年10月

沈阳工程学院学报(自然科学版)

JournalofShenyangInstituteofEngineering(NaturalScience)

Vol13No14Oct.2007

基于数据挖掘的入侵检测系统研究

章小龙

(漳州师范学院计算中心,福建漳州363000)

摘 要:提出了一种基于数据挖掘技术的入侵检测系统模型,该模型是一个核模型,具有很好的扩展能力和适应能力.结合异常检测和误用检测方法,提出了一种改进型的基于数据挖掘的入侵检测系统.论述了数据挖掘技术在入侵检测系统中的应用,讨论了数据预处理和特征提取问题.

关键词:数据挖掘;误用检测;异常检测;关联规则;序列模式;数据预处理中图分类号:TP393.08       文献标识码:A       文章编号:1673-1603(2007)04-0364-03

1 入侵检测系统的现状入侵,是指任何试图危及计算机资源的完整性、机密性或可用性的行为.而入侵检测是对入侵行为的发觉.入侵检测方法一般可分为异常入侵检测和误用入侵检测2种.误用检测是利用已知的入侵方法和系统的薄弱环节识别非法入侵;异常检测是通过检查当前用户行为是否与已建立的正常行为轮廓相背离来鉴别是否有非法入侵或越权操作.

入侵检测系统中用于分析检测的信息主要来源于系统主机的日志记录、网络数据包、系统针对应用程序的日志数据以及其他入侵检测系统或系统监控的报警信息.由于数据来源和格式多样化、操作系统的日益复杂和网络数据流量的急剧增加,导致了审计数据剧增和数据分析任务繁重.由于数据挖掘技术在数据提取特征与规则方面有巨大的优势.因而,在入侵检测系统中引入数据挖掘技术就有着重要的意义.

2)关联分析.在数据记录的数据项之间发掘关联

关系.由于某些数据项的出现预示着该记录中其他一些数据项出现的可能,运用关联分析,能够提取入侵行为在时间和空间上的关联.可以进行的关联包括源IP关联、目标IP关联、数据包特征关联、时间周期关联、网络流量关联等;在入侵检测中可用于构造正常用户使用轮廓的基础.

3)序列模式.给定一段时间内的数据记录,发掘记录间的相关性.当前记录中某些数据项的出现,预示着其他数据项在随后记录中出现的可能性;在入侵检测中可用于预示入侵行为之间可能出现的时间序列特征.

3 基于数据挖掘的入侵检测模型

基于安全审计数据所具备的特征,所选取的安全审计数据分为网络数据和主机数据.这些信息经过数据预处理,成为网络连接记录和会话记录,每条记录都是由一系列连接特征组成.通过对正常的历史数据的整理,将其插入到训练数据集,作为某种数据挖掘算法的输入;再通过挖掘算法程序,生成相应的模式/特征;然后对其进行评估,如不满意,可重新选取数据和挖掘算法,重新生成模式/特征.如此反复,直到满意,则可将模式/特征转化为规则,收入到规则库中.当前数据通过预处理整理后,作为异常检测模块的输入.在异常检测模块中,当前数据与规则库中的数据进行模式匹配,如发现异常,则产生报警信息,由入侵检测响应机制作出相应的处理.如图1所示.

2 数据挖掘

将数据挖掘技术用于入侵检测领域,利用数据挖掘中的数据分类、关联分析和序列模式挖掘等算法提取相关的用户行为特征,并根据这些特征生成安全事件的分类模型,应用于安全事件的自动鉴别.

1)数据分类.给定属于不同类型的数据记录,根据记录中数据项的特征为每种类型生成分类模型.分类模型用于预测新数据记录所属的类型,在入侵检测中可用于预测正常或异常的新的数据特征.

收稿日期:2007-05-23

作者简介:章小龙(1963-),男,浙江黄岩人,讲师.

第4期章小龙:基于数据挖掘的入侵检测系统研究365 ・・

图1 基于数据挖掘的入侵检测模型311 数据预处理31211 基于连接记录的误用检测实验中处理的数据可从网络上截获tcpdump格式的数据包.截获的数据包括网段内部主机之间、经及网段内部主机与外部主机之间通信的数据包头及数据内容.由于tcpdump截获的数据不能直接用分类算法进行分析,需要对它进行预处理.

数据预处理是从连接层次上而不是数据包的层次上做记录,这样可以大大减少需要处理的数据量.对于TCP连接,从连接建立到连接终止之间的所有数据包

首先将网络中传输的数据包还原成基于传输层的连接记录,从中提取出可以用于对传输层连接记录进行分类的特征属性.对于在传输层中无法判断的连接记录,则进行高层的协议分析,分解为相应的FTP、Telnet、Http会话,针对每一种高层协议,提取出可以用于判断的特征属性.针对各种己知的攻击手段,利用数据挖掘分类算法,通过对包含特定攻击手段的训练数据的机器学习,挖掘出对应的分类规则,用于对实际网络中的连接记录进行分类.31212 基于用户行为的异常检测

异常检测的关键问题在于正常使用模式的建立以及如何利用该模式对当前用户行为进行比较和判断.大量的实践经验表明,无论是程序的执行还是用户的行为,在系统特性上都呈现出紧密的相关性.而带有强一致性的行为特征正是所希望挖掘出的正常使用模式的组成部分.为了对用户行为进行异常检测,这里使用数据挖掘中的关联分析和序列挖掘,提取出正常情况下用户所执行命令存在的相关性,建立每个用户的历史行为模式,为实际检测过程中用户行为的判别提供比较的依据.其工作流程如图2所示.

的传送过程抽象为一个连接事件,对每一个连接事件建立一个连接记录,对无连接的UDP,简单地将每一个数据包看作一个连接,对每个连接,记录在通信期间连接的基本属性的特征集,称之为可测属性集F.312 挖掘频繁模式和序列模式

通过预处理得到的大量连接会话记录,需要采用关联规则和序列模式挖掘出频繁模式,目前多采用Apriori算法进行关联规则挖掘.由于Apriori算法仅依照预先设定的支持度的下限来进行关联规则挖掘,并不能保证规则的合理性,因此需要加入一些规则的限制条件,使用扩展的关联规则,以保证挖掘出的关联规则具备描述用户特征的特点.

图2 用户行为异常检测模块结构

  由于网络技术的高速发展,进行远程维护已成为

现实.通常使用一种叫做Telnet的服务.用户向Telnet主机提交的命令和主机返回的结果,通过获取网络中传输的数据包并进行相应的协议解析,就可以完全还

366 ・・沈阳工程学院学报(自然科学版)第3卷

原.把用户提交的每一条Shell命令以及与之相关的其他属性作为一条审计记录,每一条审计记录包含的数据项如表1所示.

表1 审记记录格式

用户名

时间戳

主机IP

HostIP

Command=vi,Param=c->Command=gcc,Param=-9一o->

Command=gdb(0.4)

(6)

用户IP

UserIP

命令

Command

命令参数

Param

Usemametimestamp

表示用户Tom经常执行的命令序列是首先使用vi编辑c程序,然后用gcc编译,再使用gdb进行程序的调试.该序列模式的支持度是40%.依照以上挖掘出的关联规则和序列模式,可以判断用户TOM应该是一个c程序员,其工作时间是每天的下午,并且通常从IP为192.168.0.175的客户机登录到IP地址为192.168.0.1的主机上进行编程操作.如果在实际的检测过程中,发现该用户行为有些异常,例如执行了大量与编程无关的操作,这就应该引起管理员的注意了.

在得到历史行为模式和当前行为模式之后,需要进行模式比较工作,以检测用户行为是否出现异常.此时,只需将挖掘的模式提交给入侵检测子系统即可.

  关联规则的关键属性包括支持度和置信度.对于关联规则R,支持度和置信度的计算公式为

(1)支持度:Support(R)=NRIN

(2)置信度:Confidence(R)=NR1Nusername=d其中,N代表审计记录集所包含的记录总数;NR表示

满足规则R的记录数;Nt则代表用户名字段值为Tom的记录数.例如通过对用户Tom历史数据的分析,发现如下的关联规则:Nusenametom-Timestamp=pm-HostIP=192.

(3)168.0.1-USER=192.168.0.175(0.98.0.60)

(4)Command=vi-param=.c(0.45,0.05)

关联规则(3)表示用户TOM通常在每天的下午登录,登录的主机是192.168.0.1,登录时的IP地址是192.168.0.175,其置信度是98%,支持度是60%.关联规则(4)表示用户Tom经常执行vi命令,执行该命令时所使用的参数通常是.c为后缀的文件,其置信度是45%,支持度是5%.序列模式的挖掘是找出不同审计记录之间的相关性,其关键属性是模式的支持度.对于序列模式P,假设其长度为1,则有

(5)Support(P)=NpIN其中,Np表示序列模式P在审计记录中出现的次数;

N表示审计记录集所包含的所有长度为1的序列数目.

例如对用户Tom所执行的命令序列进行分析,发现如下的序列模式:

4 结束语

这项技术的难点在于如何根据具体应用的要求,从用于安全的先验知识出发,提取出可以有效反映系统特性的特征属性,应用适合的算法进行数据挖掘.另一技术难点在于如何将挖掘结果自动地应用到实际的IDS中.应当看到,数据挖掘技术用于入侵检测的研究总体上还处于理论探讨阶段,实际应用还有待发展.参考文献

[1]戴英侠,连一峰,王 航.系统安全与入侵检测[M].北京:

清华大学出版社,2002.

[2]高永强,郭世泽.网络安全技术与应用[M].北京:人民邮

电出版社,2003.

[3]BarbaraD,WuN,JajodiaS.Detectingnovelnetworkintrusionsus2

ingBayesestimators[A].FirstSIAMInternationalConfer2enceonDataMining[C].2001.

[4]LeeW,StolfoSJ.DataMiningApproachesforIntrusionDe2

tection[DB/OL].http://www.cs.rpi.edu/brancj/publica2tions/lee00data.pdf,2002.

BasedonDataMiningIntrusionDetectionSystem

ZHANGXiao2long

(ZhangzhouTeachersCollegeZhangzhou363000)

Abstract:AtechniquebasedondataminingIntrusionDetectionSystemmodel,whichisacoremodel,hasagoodca2pacityforexpansionandadaptation.CombiningAnomalyDetectionandmisusedetectionmethod,amodifiedbasedonthedataminingofIntrusionDetectionSystem.Expositionsofdatamininginintrusiondetectionsystemapplications.Discussedthedatapreprocessingandfeatureextractionproblems.

Keywords:DataMining;anomalydetection;misusedetection;associationrule;sequencepattern;DataPretreatment

因篇幅问题不能全部显示,请点此查看更多更全内容