实验二:EXCEL的数据特征描述、列联分析、多元回归分析
一、实验目的及要求:
(一)目的
熟悉EXCEL用于数据描述统计、列联分析、多元回归的基本菜单操作及命令。 (二)内容及要求
根据学生实验数据2011-2012,
1.对学生的身高进行描述统计,说明学生身高的一些基本特征。
2.对不同户口中贫困生的分布情况编制列联表,并分析贫困生的数量的多少是否与户口的不同是有关。
3.根据学生的体育成绩(y)与学生的年龄(x1)、体重(x2)、身高(x3) 和性别(x 4)建立一个多元回归模型,并判断此模型对于解释学生体育成绩差异有无意义。
二、仪器用具
硬件:计算机(安装Windows98 、Windows2000 或Windows XP或以上) 软件:EXCEL
三、实验原理
统计中数据整理与显示的相关理论。
四、实验方法与步骤
1.第一步:“工具”——“数据分析”-——“描述统计”——“确定”
第二步:输入区域$A$2:$A$181,单击确定。如图所示。 身高 平均 标准误差 中位数 众数 标准差 方差 峰度 偏度 区域 最小值 最大值
1.772222 0.59512976 163.5 155 7.98450354 63.7522967 -0.6969825 0.24812533 36 150 186
求和 观测数 最大(1) 最小(1) 29659 180 186 150 2第一步:在工具菜单中选择数据,再选择数据透视表和数据透视图„,从其对话框中选定是否贫困生这一列数据,点击下一步,单击布局,将是否贫困生拖动到行,再将是否贫困生作为计数项,将户口拖动到列,最后单击确定。得到以下的透视表。 计数项:是否贫困生 户口 城市户口 农村户口 总计 是否贫困生 否 122 36 158 是 14 8 22 总计 136 44 180 第二步:首先将透视表复制,选择性粘贴至某一位置,对不同户口中贫困生的分布情况编制列联表。
第三步:整理观测值和期望值频数对比分布表。
第四步: “插入”—— “函数”——“统计”—— “CHITEST”,点击“确定” 第五步:不是贫困生:在对话框“Actual_range”输入观察数据区域:E17:F17。 在对话框“Expectual_range”输入观察数据区域:E18:F18。
得到P值为0.6273784。由于P>α,所以接受原假设。
是贫困生:在对话框“Actual_range”输入观察数据区域:E21:F21。 在对话框“Expectual_range”输入观察数据区域:E20:F20。
得到P值为0.193302066。由于P>α,所以接受原假设。见下图
3 、 第一步:将体育成绩、性别、年龄、体重、身高复制到另一个工作表。
第二步:引入一个虚拟变量,令女生=0,男生=1,编辑—查找与替换,将女生与男生分别用
0、1替换。
第三步:由于男生和女生体育成绩的分别是1000、800米的成绩。选中性别,数据——筛选——自动筛选。筛选出0(女生),将体育成绩/0.8,在筛选出1(男生),将体育成绩/1,最后将数据还原。
第四步:单击工具菜单,选择数据分析选项,出现数据分析对话框,在分析工具中选择回归。 单击确定按钮,弹出回归对话框,在Y值输入区域输入$A$2:$A$181,在X值输入区域输入$B$2:$E$181,单击确定。 SUMMARY OUTPUT
回归统计
Multiple R
0.7969335
R Square 0.6351031 Adjusted R Square 0.6267626 标准误差 观测值
25.019962
180
方差分析
回归分析 残差 总计
Intercept 性别 年龄 体重 身高
df 4 175 179
Significance
SS MS F
F
190671.3073 47667.82682 76.14687 2.77007E-37 109549.7382 625.9985041 300221.0455
标准误差 78.61949543
6.201458795 2.046021902 0.339211687 0.427452815
t Stat 5.8460468 -9.18023942 -0.81481263 0.904771521 -2.15114174
P-value 2.199E-08 1.203E-16 0.416287 0.3668303 0.03283
Lower 95% 305.65102 -69.17015261 -5.705178732 -0.362563325 -1.763137778
Coefficients
461.06092 -56.93088 -1.667124 0.3069091 -0.919512
五、实验结果与数据处理
1、由excel 输出的描述统计量可知:平均数,众位,中位数相差不大,故平均数可以代表性好。峰度系数K= -0.75823<0,身高为扁平分布,数据的分布较分散。偏态系数SK=0.16146>0,身高正离差值较大,为正偏。 2、列联表
关于是否贫困生的调查结果
城市户口 农村户口 总计 否贫困生 122 36 158 是贫困生 14 8 22 总计 136 44 180
P=0.6273784>a,接受原假设,城市和农村不是贫困生的比例是一致的。 P=0.193302066>a,接受原假设,城市和农村是贫困生的比例是一致的。
贫困生的数量的多少与户口的不同无关。
3、得到回归方程y= 461.06 -56.93x1-1.667x2+0.307x3-0.9195x4
由修正的判定系数,可知体育成绩的变差中,能被性别、年龄、体重、身高解释的比例为62.6%。F=2.77007359707285E-37,F六、讨论与结论容易忽略男女跑步的长度不同,不能进行比较,要注意进行转换之后才能将男女的成绩进行比较。