务l 匐 化 数据挖掘技术在教务信息挖掘系统中的应用 The application of data collection technique in the teaching affairs information collection system 李羰琳。张璞 Ll Yi—lin,ZHANG Pu (平顶山工业职业技术学院。平顶山467001) 摘要:本文结合平顶山工业职业技术学院教务管理实际情况,将数据挖掘技术应用于高职院校教务 信息挖掘中,辅助管理者决策。首先,阐述了相关的数据仓库和数据挖掘的基础理论知识和技 术方法,重点介绍了数据挖掘的相关算法,然后提出了教务信息挖掘系统的总体框架的构建方 案,最后结合实际教务管理需求目标,采用Microsoft SOL Server 2000中文企业版建设 数据仓库并对教务信息数据挖掘进行实现,使用决策树算法对学生综合素质进行了评价,使用 关联规则算法对公共选修课的开课规律进行了测评,并对其结果进行分析,通过两个教务信息 挖掘实例的实现过程与结果分析,最终得出教务信息挖掘系统对提高教务管理质量和水平大有 裨益。 关键词:高职院校:数据挖掘:教务决策 中图分类号:TP391;TH1 22 文献标识码:A 文章编号:1 009-01 34(201 0)04-0200—04 0 引言 以平顶山工业职业技术学院现行的教务信息管 1.2数据挖掘 数据挖掘是获取新颖、准确、具有潜在应用价 值和最终可理解模式的非平凡的过程[5】。数据挖掘 理系统为基础,将数据挖掘技术运用于学院日常教 务管理中,在对数据挖掘以及数据仓库等关键技术 研究的基础上,结合高职院校教务管理的具体要求, 设计基于数据挖掘技术的教务信息挖掘系统,挖掘 教务系统中有价值的信息,找出教行规律,辅 挖掘出来的信息可以用概念、约束、模式、规律、可 视化等形式表示出来。数据挖掘的体系结构由数据 源层、挖掘层、用户界面层三部分组成【6】。挖掘的处 理过程分为定义问题、准备数据、执行数据挖掘算 法、解释和评价结果四个阶段f71。 数据挖掘常用算法有:决策树算法和关联规则 助管理者正确决策,提高管理质量和效率。 1 相关基础理论 1.1数据仓库 数据仓库是面向主题的、集成的、相对稳定的、 反映历史变化的数据集合,用以支持管理中的决策 制定过程”】。 算法。决策树算法:决策树算法是一种根据输入数 据建立分类模型的系统方法,使用一种学习算法确 定分类模型,即决策树,其解决分类问题的一般方 法为:首先,需要一个训练集,它由类标号已知的 记录组成,其次,使用训练集建立分类模型,该模 型随后将运用于检验集,检验集由类标号未知的记 数据仓库是以业务数据库的数据为基础,对数 据加以整理归纳和重组,并及时提供给相应的管理 决策人员,它不是一个静态的概念【2】。数据仓库的整 体系统是由三部分构成的:具有可操作性的外部数 据源、一个或多个数据库、一个或多个数据分析工 具。具体操作过程为:聚集各种源数据、存储并管 理数据和获取所需信息[31。数据仓库的体系结构包 括:数据源、数据的存储与管理、OLAP服务器和 前端:[具【 。 收稿日期:2010-03-30 录组成[8 ;关联规则算法关联规则算法用于发现隐 藏在大型数据集中的令人感兴趣的联系,所发现的 联系可以用关联规则或频繁项集的形势表示【9j,关 联规则挖掘任务可以分为两步:第一步是频繁项集 的产生,其目标是发现满足最小支持度阈值的所有 项集,这些项集称之为频繁项集,第二步是规则的 产生,其目标是从上一步发现的频繁项集中提取所 有高置信度的规则,这些规则称之为强规则 。 作者简介:李皴琳(1964一),女,河南平顶山人,讲师,本科,主要从事计算机及应用专业的研究工作。 [2001 第32卷第4期2010—4 l lI5 似 2 系统分析与设计 数据挖掘技术出现和发展较晚,在教育教学领 域的开发和应用更是刚刚起步。因此,到目前为止 国内还未出现一套成熟、完整、合理的教务信息挖 掘系统,供管理者使用。依据对目前现状地调查和 分析,教务信息挖掘系统要解决的主要问题为:数 据量庞大、数据不完整、挖掘方法的合理选择和有 效使用。 基于上述分析,教务信息挖掘系统的设计,大 体上分为三个大的功能模块,分别为:教务数据采 集模块、教务数据仓库和教务数据集的创建及 管理模块、数据挖掘和分析模块。系统总体结构如 图1所示。 图1系统总体构架 3系统实现 直接应用SQL Server提供的数据挖掘和联机分 析处理功能来实现教务管理数据的分析和挖掘。具 体实现方法和步骤是:首先,将教务管理系统中的 各相关业务数据库中的数据导入到SQL Server,经 过对这些数据的一系列加工处理,构建星型结构的 教务数据仓库,为形成有效的数据挖掘模型,做好 数据准备工作;然后,直接启动Microsoft SQL Server2000 Analysis Services,借助SQL Server 2000 提供的“挖掘模型向导”,构建数据挖掘的模型;最 后,选择SQL Server 2000的提供的有关数据挖掘 算法(如决策树方法),对教务数据源进行数据挖掘, 发现规律,获取有利用价值的信息,支持教务决策。 4系统应用举例 4.1数据挖掘在学生综合素质评价测评中的应用 学生综合素质评价测评的指标属性有很多,结 合实际情况,选择X,=(思想品德素质)、X,=(专业素 质)、X,=(社会实践素质)、X =(身心素质)、X =(综 合素质)五个指标作为学生综合素质评价属性指标的 类别和训练样本的数据,其中Y1为参加评价的学生 编号,学生综合素质评价的指标属性和结果属性共 有五个级别:即I=优秀:90—100;Ⅱ=良好:80・ 89;Ⅲ=中等:70.79;I憔摄稻所两 69;V=不及 格:小于60。如表1 表1数据表 学生编号 指标属性 结果 (Y.) Xl X2 X3 Xd X5 000l II II II I 良好 0002 II II II II 良好 0003 II II II II 良好 0004 III III III III 中等 0005 II III III III 中等 0006 I I I I 优秀 0007 III III II III 中等 0008 I II I II 优秀 0009 Ill II III II 中等 00l0 II III II III 中等 运用决策树算法的ID3算法,检验每一个信息 增益的特征属性,找出信息增益最大的判别属性构 建决策树的结点,使决策树具有的结点数最少,能 够准确地判断样本数据,并按照此特点所取的数值 不一样,建立决策树的分支;对该决策树的分支的 样本进行子集递归,以此方法构建决策树的结点和 分支,直到某一子集中的样本同属于一类为止。详 细执行步骤是:由表1中的数据可知,给定的样本 所需的期望信息为: (s )一 l一 gos:(‘ )一 l osz(‘ ) 一一 l孟 zosz ’( ) , 2954602 针对属性X,: Values(Xj)=(I,1I,Ⅲ),S I={6,8},Is I l:2,SⅡ={1, 2,3,5,10},ISⅡI=5,SⅢ={4,7,9), ls I=3,则属性x 的条件信息熵为: E(sj)=一÷].ogz(÷)一log2(÷)=1.0 E(sII)一{logz(去)一logz({)=0.5403435 E(sⅡI)一÷logz(去)一logz({)=0.6500224 一 所以E(xo Z E(S1) E( n) E( m) 69311344 E(X )=0.68547533,E(X。)=O.83645282.E(X )=O.84902256 第32卷第4期2010-4 [201】 l 匐 化 .= 属性X,的信息增益:Gain(X )=I(S)一E(X )=0. 男性,D19一女性,D20一非常满意(95% ̄100%), D2I一比较满意(85%~95%),D22_-一般(70%~ 50544676同理,可分别计算出属性x,、x 、X 的信 息增益分别为: Gain(X,)=I(S)一E(X.)=O.60998487 Gain(X )=I(S)一E(X )=0.45900738 Gain(X )=I(S)・E(X )=0.44643764 85%),D23一不太满意(50%~70%),D24一很不 满意(0%~5O%)。 然后,根据所提取的信息的情况产生数据表。 表中包括25个字段,字段ID,测评序号,每个学生 对每门课程的每次测评均产生一条记录。当字段值 得出结果为:Gain(X,)>Gain(X )>Gain(X )> Gain(X4)。 由以上计算结果得出,信息增益最大的属性是 x 因此选择属性x,为构建决策树的根节点,进行 属性测试,并对应在此根节点下选取其他属性向下 创建分支,运用ID3算法继续进一步的划分,如果 从根节点到当前节点的路径已包括所有属性,或者 当前节点的训练样本同属一类时,算法结束。如图 2所示。 X, 图2决策树型图 从上面分析可知,在学生综合素质测评中,专业 素质测评是关键,这也与职业教育要求学生专业素 质能力强是相符的。它在职业教育中占有主要地位, 因此,加强专业素质能力地培养,也是提高高职类 院校学生综合素质的第 要务。其次,思想品德素 质对综合测评也起着不小的做用,所以在加强专业 素质教育的同时要强化学生思想教育,全面提高学 生素质,提高教育教学质量。 4-2数据挖掘在公共选修课评测中的应用 首先确定数据结构。抽取出所有对公共选修课 的开设有影响的基本信息,D01~艺术类选修课, D02一体育类选修课,D03一计算机类选修课,D04 一文史类选修课,D05一理工类选修课,D06~其 他类选修课,DO7一基础部,D08一机电工程系,D09 资源开发系,D10~计算机系,DI1一服装艺术 系,D12一经济管理系,D13一教授,DI4一副教 授,DI5一讲师,D16一助教,D17一外聘.D18一 [2021 第32卷第4期2010-4 为“1”时表示事务中存在于该项,为“0”时表示 事务中不存在于该项。例如200833055的学生对课 程2512做出了测评,该课程是基础部某位讲师(男) 教师的一门体育类选修课,学生给出的测评分值足 83分,那么这条记录的表示就应该如表2所示。 表2数据表 ID D0l D02 D03 D04 DO5 DO6 D07 D08 DO9 D10 Dl1 D12 0 1 0 0 0 O 1 0 O O O O 2o0833O55. D13 D14 D15 D16 D17 Dl8 D19 D2O D21 D22 D23 D24 2512.1 0 0 1 0 O l 0 0 O 1 0 O 接着,用Apriori算法程序将数据库中的测评数 据与课程数据相连接,得到准确的信息数据。再根 据上面说述的划分方式,将记录的信息表示项逐条 统计,并将其存入数据仓库表Datas之中。 最后,按照表Datas的数据统计出各项的出现次 数,连接Apriori算法程序。 以下逐步介绍数据挖掘在公共选修课开设评测 中的应用情况。 1)载入数据。在对各数据库中的数据进行预处 理的基础之上,装载到数据仓库之中。 2)参数选取。按照算法的要求对支持度和置信 度进行设置,这两个参数选取的是否合理,直接影 响到挖掘结果的准确性和科学性。在这里,把数据 的支持度和置信度设置为600以上和0.35以上。 3)数据挖掘。对数据运用Apriori算法进行公 选课开设情况评测的挖掘处理,经过数据挖掘技术 处理得到的频繁集合和最终的过滤后的规则。 4)过滤规则。系统可以通过设置规则左右边出 现的项目,将挖掘出来的规则进行过滤,以得到最 感兴趣的规则。例如:最小支持度为600;最小置信 度为0.35;栏日选择选修课类别为“0l艺术类选修 课”现测评结果项目选择为“2l比较满意”项。执 行挖掘处理后,获取表3关联规则列表。 表3关联规则列表 | I 越 |碰 l l|燕'撩葭l\ 孽 0l 01艺术类选修课 21比较满意 2670 46.52% 02 O1艺术类选修课 21比较满意 11服装艺术系 2550 46.49% 03 Ol艺术类选修课 21比较满意 19女性 2550 35.O5% 11服装艺术系 04 叭艺术类选修课 19女性 2550 35.05% 21比较满意 05 叭艺术类选修课 2l比较满意 2550 46.49% 11服装艺术系 06 O1艺术类选修课 l9女性 2550 35.05% 11服装艺术系 21比较满意 07 01艺术类选修课 2l比较满意 1547 46.01% l5讲师 08 O1艺术类选修课 11服装艺术系 1547 46.15讲师 21比较满意 01% 09 Ol艺术类选修课 19女性 1547 35.46% 15讲师 2l比较满意 O1艺术类选修课 11服装艺术系 lO 15讲师 19女性 l547 35.46% 21比较满意 l】 O1艺术类选修课 2l比较满意 l582 49.14% 19女性 12 叭艺术类选修课 11服装艺术系 l582 49.14% 19女性 21比较满意 13 叭艺术类选修课 o4副高 1582 36.19女性 2l比较满意 21% 0l艺术类选修课 14 l1服装艺术系 2l比较满意 1547 46.01% l5讲师 Ol艺术类选修课 19女性 l5 11服装艺术系 21比较满意 1547 35.46% l4副教授 O1艺术类选修课 16 11服装艺术系 21比较满意 1582 49.14% l9女性 17 Ol艺术类选修课 11服装艺术系 l5中级 1582 3619女性 21比较满意 .21% Ol艺术类选修课 18 15讲师 21比较满意 1086 50.49% 19女性 19 0l艺术类选修课 11服装艺术系 1086 50.15讲师 21比较满意 49% 01艺术类选修课 20 11服装艺术系 21比较满意 1086 50.49% 15讲师 l9女性 4.3结果分析 按照表3列出的规则,选择其中置信度最高的 规则1 8,进行分析研究:这条规则表示,公共选修 课类别是“艺术类选修课”,并且任课教师职称是 “讲师”,教师的性别是“女性”时,大部分学生对 该课程的满意度比较高。此规则与实际现实调查的 情况吻合。所以,在公共选修课开设过程中,可以 增强艺术类课程,讲师以上职称,女性教师的课程 开设力度,以此满足学生的需要,获取良好的教学 效果,从而达到提高教育教学质量的目的。 5 结论 根据现有教务系统不能实现辅助管理者决策的 实际情况,通过对数据仓库和数据挖掘的分析和研 究,把他们有机结合,构建并实现教务信息挖掘系 统,达到从教务数据仓库中挖掘教务信息,发现规 律或规则,科学合理地指导教务管理实践,提高管 理水平的目的。 参考文献: 【1]H.Inmon.王志海等译.数据仓库(原书第3版)【M】.北京:机 械工业出版社,2003.47—49. 【2]林宇.数据仓库原理与实践【M】.北京:人民邮电出版社, 2003.14—17. 【3】王冕.基于数据仓库的教务决策支持系统研究与实现【D】. 厦门:厦门大学图书馆,2007. 【4]王珊.数据仓库技术和联机分析处理[M】.北京:科学出版 社,1995.20-22. 【5]康晓东.基于数据仓库的数据挖掘技术IM].北京:机械工业 出版社,2004.6-9. 【6】王继民.数据挖掘[M】.北京:北京大学信息管理系,2006. 66.67. 【7】夏火松.数据仓库与数据挖掘技术[MI.北京:科学出版社, 2004.10—11. 【8】Pang-Ning Tan Michael Steinbach Vipin Kumar,范明,范宏 建等译.数据挖掘导论IM].北京:人民邮电出版社,2006.90- 91. 【9]Hand D,Maunila H.张银奎译.数据挖掘原理【M】.北京:机 械工业出版社,2003.72—75. 【10】毛国君.数据挖掘技术与关联规则挖掘算法研究[D】.北京: 北京工、I 大学图书馆,2003. 第32卷第4期2010-4 [2031