第15卷 总第59期 Vol.15 SumNo.59
广东广播电视大学学报
JOURNALOFGUANGDONGRADIO&TVUNIVERSITY
2006年第3期 No.3.2006
数据挖掘技术在高校教学评估中的应用
吕 爽,陈高云
1
2
(1.成都信息工程学院计算机系,四川成都,610225;2.成都信息工程学院软件工程系,四川成都,610225)
=摘要>本文讨论了数据挖掘技术在高校教学评估中的应用,分别利用聚类和关联规则挖掘方法获取了具有不同成绩特征的学生群体和分析出影响学生成绩的主要教师因素,所得出的结论对高校教学评估和教学工作都具有一定的指导意义。
=关键词>教学评估;层次聚类;关联规则;数据挖掘
=中图分类号>TP31 =文献标识码>B =文章编号>1008-97(2006)03-0024-05
1、引言
近年来,中国高等教育规模快速增长。全国各类高等教育在学人数已超过2000万人,数量规模居世界首位。为了进一步推动高等学校提高教育教学质量,教育部组织了专门的专家队伍对普通高校的本科教学工作进行水平评估。教育部颁布的本科教学工作水平评估方案指标体系包括:一级指标7个,二级指标19个(其中重要指标11个),主要观测点44个。主要观测点中,有34个观测点需要用从大量的教育数据中获取结论,面对海量教育数据,要从其中提取评估所需的有价值的信息,亟需更高效的数据处理方法和技术。此时数据挖掘技术显示出了它特有的优越性。
提供决策支持。具体的挖掘方法有很多种,例如关联分析、聚类分析、分类和预测等。
211 应用凝聚的层次聚类分析方法获取具有不同成绩特征的学生群体
[1]
聚类是将物理的或抽象的对象分为几个群体,在每个群体内部的对象之间有较高的相似性,而在不同群体之间,相似性则比较低。凝聚的层次聚类方法的基本思想是:一开始将每个对象作为单独的一组,然后相继地合并相似的对象或组,直到所有的组合并为一个,或者达到了终止条件。
21111 聚类分析的初始数据
评估专家在评估学生的基本理论水平情况时,除了进行问卷调查和抽调学生座谈之外,还应考察学生的成绩情况。本文从某高校的学生成绩库中抽取了一部分大三学生英语四级和专业基础课的成绩数据,对其进行凝聚的层次聚类分析,目的是获取具有不同成绩特征的学生群体,分析每个群体内学生的共同特征。由于篇幅有限,本文只列出16名同学的成绩和分析过程。初始数据如下面表1所示:
2、数据挖掘技术在高校教学
评估工作中的应用
数据挖掘(DataMining)是一个利用各种分析技术和工具从大量数据中提取有用知识的过程。它是一门交叉学科,把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,
=收稿日期>2006-05-25
=作者简介>吕爽,硕士研究生,成都信息工程学院计算机系;陈高云,硕士生导师,成都信息工程学院软
件工程系。
2006年第3期吕 爽,陈高云:数据挖掘技术在高校教学评估中的应用
25
学号200301200302200303200304200305200306200307200308200309200310200311200312200313200314200315200316
专业基础课平均成绩
8580608668658265606387696965
英语四级通过情况
1110000110100111
Case1:2003012:2003023:2003034:2003045:2003056:2003067:2003078:20030:20030910:200301011:200301112:200301213:200301314:200301415:200301516:2003016
ClusterMembership
5Clusters1123344125243222
表1 (1表示四级通过,0代表未通过)
21112 聚类分析过程
在spss1310中输入初始数据,进行层次聚类分析过程如下:
表2表示,观测量总数为16个,进行聚类分析的有效观测量为16个,缺省值为0。其中SquaredEuclideanDistance是一种对距离的测度方法,计算公式为:
EUCLID(x,y)=
表4为聚为5类的结果表,图1为聚类结果的树形描述。
21113 聚类结果及特征分析
根据聚类过程,我们可以用下面的表5描述聚类结果:
学号专业基础课平均成绩英语四级通过情况2003018512003028012003036012003048602003050200306680200307650200308821200309661200310450200311601200312630200313870200314691200315691200316651表5类1123344125243222E
t
(x-y)
ii2
表3为具体的凝聚过程:第一步使观测量14与15合并为一类,相关系数为0;
第二步使观测量3和11合并,依次类推,直到使观测量全部合并为止。
26
广东广播电视大学学报 (第15卷 总59期) 2006年9月20日
由表5可知16名同学被分为5类:
第1类同学的学号为{200301,200302,200308},共同特点是专业基础课成绩高而且全部通过四级;第2类同学的学号为{200303,200309,200311,200314,200315,200316}共同特点是专业基础课成绩一般,但都通过了四级;
第3类同学的学号为{200304,200305,200313},共同特点是专业基础课成绩高,但都未通过四级;
第4类同学的学号为{200306,200307,200312},共同特点为专业基础课成绩一般而且都未通过四级;
第5类同学的学号为{200310},特点是专业基础课和四级的情况都很差。由此我们可以看到有一大部分同学集中到第2类,1,3,4类的同学分布均衡,第5类的同学占少数。
21114 聚类挖掘结果的指导作用
通过聚类挖掘结果,评估人员可以很清楚的看到这一部分学生专业基础课和英语四级的成绩分布情况。同时,对被评估高校来说,在平时的教学管理中可以根据各类同学的特点调整教学方法,使学生全面发展。例如对于第3类同学来说虽然专业基础课的成绩高,但是四级通过情况很差,这类同学可能在学习过程中忽略了英语学习的重要性,所以在教学过程中应采取相应的教学方法提高这类同学的英语水平。
本文只针对一部分同学进行了聚类分析,在教学评估或平时的教学管理中我们可以利用上面所描述的聚类分析模型对大量学生的数据进行分析,会取得更好的指导效果。
212 应用关联规则挖掘方法分析影响学生成绩的因素
[2]
关联规则挖掘是由R.Agrawal等人提出来的,关联规则是描述数据库中数据项之间某种潜在关系的规则,它已成为数据挖掘中非常重要的一个方向。在高校教学评估中可以利用关联规则挖掘分析影响评估结论的重要指标以及通过分析课程之间的关系考察教学计划的合理性。
21211 关联规则基本概念
关联规则基本概念:设I={i1,i2,+,im}为数据项集合,设D为与任务相关的数据集合,也就是一个交易数据库,其中的每个交易T是一个数据项子集,即TAI;每个交易均包含一个识别编号TID。设A为一个数据项集合,当且仅当AAT时就称交易T包含A。一个关联规则就是具有/A]B0形式的蕴含式;其中有A规则A]B在交易数据集D中成立,具有支持度s,其中s是D中交易包含AGB(即A和B二者)的百分比,这是概率P(AGB)。如果D中包含A的事务同时也包含B的百分比是c,则规则A]B在交易数据集D中具有置信度c。这是条件概率P(B|A)。即Support(A]B)=P(AGB),Confidence(A]B)=P(B|A)
满足最小支持度阈值(min)supp)和最小置信度阈值(min)conf)的关联规则就称为强规则。这两个阈值均在0%到100%之间。
挖掘关联规则主要包含以下二个步骤:
(1)发现所有的频繁项集,根据定义,这些项集的支持度至少应等于(预先设置的)最小支持度阈值;
(2)根据所获得的频繁项集,产生相应的强关联规则。根据定义这些规则必须满足最小支持度阈值和最小置信度阈值。
21212 关联规则挖掘的基础数据
在考察教学质量的过程中,经常要分析影响学生成绩的因素,我们从教师库、教学督导听课记录和学生成绩库中提取相关数据,把其整合到关系表中进行关联规则挖掘。下面的表6为整合之后的信息,表中所示的10名教师为某高校近三年来曾教授数据结构课程的任课教师,关于表中责任心和专业水平的评价结果是从教学督导的听课记录中提取出来的,表中的数据结构成绩为在试卷难度相同的情况下教师所授课班级学生的平均成绩。
教师编号001002003004005责任心较好较好一般较好一般专业水平较好较好较好较好一般年龄2735523029工作年限4112533数据结构成绩8687667258 2006年第3期吕 爽,陈高云:数据挖掘技术在高校教学评估中的应用
27
006007008009010
较好一般较好一般较好
较好一般较好较好较好
4853284937
212611911
809290
则挖掘过程如下:
(1)首先利用基于事物压缩的Apriori算法找出频繁项集如图2所示。
表6
21213 基于概化的数据预处理
为了更好的进行关联规则挖掘,要对表6中的基础信息进行基于概化的数据预处理,具体的概化处理方法为:
(1)用符号A描述责任心,A1表示较好,A2表示一般。
(2)用符号B描述专业水平,B1表示较好,B2表示一般。
(3)用符号C描述教师年龄,把年龄进行分段概化为:C1(20-30岁),C2(30-40岁),C3(40-50岁),C4(50-60岁)。
(4)用符号D表示工作年限,进行分段概化为:D1(小于10年),D2(10-20年),D3(20-30年),D4(大于30年)。
(5)用符号E表示数据结构成绩,进行分段概化为:E1(小于60分),E2(60-70分),E3(70-85分),E4(大于85分)。
根据上述方法对表6中的数据进行概化的结果如表7所示:
教师编号001002003004005006007008009010
责任心A1A1A2A1A2A1A2A1A2A1
专业水平
B1B1B1B1B2B1B2B1B1B1
年龄C1C2C4C2C1C3C4C1C3C2
工作年限
D1D2D3D1D1D3D3D1D2D2
数据结构成绩
E4E4E2E3E1E4E3E4E2E4
(2)找出支持度至少为30%而且置信度至少为50%的强关联规则。
由以上两步我们得出的和成绩有关而且实用的强关联规则为:(A1,B1)yE4(置信度为83%,支持度为60%)此规则可解释为当任课教师的责任心和教学水平都为较好的情况下,学生的成绩比较高。
21215 关联规则挖掘结果的指导作用
根据挖掘结果,可以得出如下结论:从教师的角度出发,任课教师的专业水平和责任心是影响学生成绩优劣的重要因素,所以对于被评估高校来说应意识到教师专业水平和责任心的重要性,多提供教师外出参加培训和进修的机会,使其不断学习,提高专业水平。此结论对于评估专家和高校来说都具有一定意义的指导作用。
3、结束语
本文利用聚类和关联规则挖掘方法分析出了隐藏在评估数据背后的有效知识,然而挖掘技术在高校教学评估中的应用不只是文中提到的这几个方面,例如利用预测方法分析师资队伍结构的发展趋势以及利用粗糙集理论和关联规则方法对评估指标进行优化处理等等。所以如果我们把数据挖掘技术合理的应用到高校教学评估中,不仅能减少评估工作人员的工作量,更重要的是增强了评估工作的客观性与合理性。数据挖掘技术是具有广阔前景的数据处理与分析技术,它将在有大量信息的教育领域中发挥不可估量的作用。
表7
21214 关联规则挖掘过程
由关联规则的概念和表7的概化结果,可得出项目集合为{A1,A2,B1,B2,C1,C2,C3,C4,D1,D2,D3,D4,E1,E2,E3,E4},我们目的是要分析教师的各方面情况和数据结构成绩之间内在的关联规则。假设关联规则的支持度至少为30%,置信度至少为50%。进行关联规 28
广东广播电视大学学报 (第15卷 总59期) 2006年9月20日
=参考文献>
[1]JiaweiHan.数据挖掘概念与技术[M].北京:机械工业出版社,2004.6
[2]陈文伟,黄金才.数据仓库与数据挖掘[M].北京:人民邮电出版社,2004.1
[3]杨晓明.spss在教育统计中的应用[M].北京:高等教育出版社,2004.2
ApplicationofDataMiningTechnologytoCollege
TeachingEvaluation
LUShuang,CHENGao_yun
1
2
(1.DepartmentofComputer,UniversityofChengduInformationTechnology,Chengdu,Shichuan610225;
2.DepartmentofSoftwareEngineering,UniversityofChengduInformationTechnology,Chengdu,Shichuan610225)
Abstract:Thispaperisconcernedwithapplicationofdataminingtechnologytocollegeteachingevaluation.Hierarchicalclusterandassociationrulesareusedtoobtaindifferentstudents.groupswithvariousscores.charac-ters,mainfactorsaffectedstudents.scoresarealsodiscussed.Theresultsobtainedarevaluableforcollegeteachingevaluation.
Keywords:teachingevaluation;hierarchicalcluster;associationrules;datamining
(上接第4页)
知过程中,学习者的高级思维能力的训练和元认知能力得到提高;同时,在自评、互评中,学生也获得了成功的情感体验,积极主动参与网上学习活动受到鼓励,学习的内部动机得到强化,自我评价能力和自我能力得到有效培养。从教师的角度说,自评、互评也可以帮助教师更清楚地了解学习者的网络学习情况,为教师更准确地评判学生及其学习提供了更真实的信息。
从技术的层面看,基于技术的网络环境为学生自评、同学互评和教师评价的结合提供了强大的支撑平台,网络学习平台、具有交互功能的学习资源、数据库技术等使得对网络学习的记录和评
价更加便捷、有效。因此,自评、互评和教师评价
的结合,在成人网络学习评价中越来越被重视,越来越被广泛应用。
=参考文献>
[1]顾明远.教育大辞典(简编本)[S].上海:上海教育出版社.1999:185.
[2]周蔚.现代远程教育的学习支持服务[M].北京:广播电视大学出版社.2005:165-168.
[3]李雁冰.课程评价论[M].上海:上海教育出版社.2002:60.
[4]杨孝堂.远程教育学习测评[M].北京:广播电视大学出版社.2004:173.
[5]Bloom,B.S.,etal.,HandbookonFormativeandSummativeEvaluationofStudentLearning[A].1971.陈玉琨.教育评价学[M].北京:人民教育出版社.1999:13.
OntheBasicPrincipleofAdults.E-learning
Evaluation
ZHOUWei
(JiangsuRadio&TVUniversity,Nanjing210036)
Abstract:Adultslearners.evaluationisaprocessoftesting,estimatingandevaluatinglearningbehaviorsandresultsoflearningunderanelectronicnetworkenvironment.Thespecificcharactersofadultlearnersandonlineed-ucationfeatureitwithflexibilityofobjects,varietyofwaysandintelligenceofmethods.Therefore,theevluationofadulte-learningmustfollowtheprincipleinrespectofobjectiveandintegrity,procedureandcontinuity,combina-tionofself,mutualandteacher.sassessment.
Keywords:adulte-learning;learningevaluation;basicprinciples;onlinelearning