您好,欢迎来到化拓教育网。
搜索
您的当前位置:首页统计学 实验报告二

统计学 实验报告二

来源:化拓教育网


实验二:EXCEL的数据特征描述、列联分析、多元回归分析

一、实验目的及要求:

(一)目的

熟悉EXCEL用于数据描述统计、列联分析、多元回归的基本菜单操作及命令。 (二)内容及要求

根据学生实验数据2011-2012,

1.对学生的身高进行描述统计,说明学生身高的一些基本特征。

2.对不同户口中贫困生的分布情况编制列联表,并分析贫困生的数量的多少是否与户口的不同是有关。

3.根据学生的体育成绩(y)与学生的年龄(x1)、体重(x2)、身高(x3) 和性别(x 4)建立一个多元回归模型,并判断此模型对于解释学生体育成绩差异有无意义。

二、仪器用具

硬件:计算机(安装Windows98 、Windows2000 或Windows XP或以上) 软件:EXCEL

三、实验原理

统计中数据整理与显示的相关理论。

四、实验方法与步骤

1.第一步:“工具”——“数据分析”-——“描述统计”——“确定”

第二步:输入区域$A$2:$A$181,单击确定。如图所示。 身高 平均 标准误差 中位数 众数 标准差 方差 峰度 偏度 区域 最小值 最大值

1.772222 0.59512976 163.5 155 7.98450354 63.7522967 -0.6969825 0.24812533 36 150 186

求和 观测数 最大(1) 最小(1) 29659 180 186 150 2第一步:在工具菜单中选择数据,再选择数据透视表和数据透视图„,从其对话框中选定是否贫困生这一列数据,点击下一步,单击布局,将是否贫困生拖动到行,再将是否贫困生作为计数项,将户口拖动到列,最后单击确定。得到以下的透视表。 计数项:是否贫困生 户口 城市户口 农村户口 总计 是否贫困生 否 122 36 158 是 14 8 22 总计 136 44 180 第二步:首先将透视表复制,选择性粘贴至某一位置,对不同户口中贫困生的分布情况编制列联表。

第三步:整理观测值和期望值频数对比分布表。

第四步: “插入”—— “函数”——“统计”—— “CHITEST”,点击“确定” 第五步:不是贫困生:在对话框“Actual_range”输入观察数据区域:E17:F17。 在对话框“Expectual_range”输入观察数据区域:E18:F18。

得到P值为0.6273784。由于P>α,所以接受原假设。

是贫困生:在对话框“Actual_range”输入观察数据区域:E21:F21。 在对话框“Expectual_range”输入观察数据区域:E20:F20。

得到P值为0.193302066。由于P>α,所以接受原假设。见下图

3 、 第一步:将体育成绩、性别、年龄、体重、身高复制到另一个工作表。

第二步:引入一个虚拟变量,令女生=0,男生=1,编辑—查找与替换,将女生与男生分别用

0、1替换。

第三步:由于男生和女生体育成绩的分别是1000、800米的成绩。选中性别,数据——筛选——自动筛选。筛选出0(女生),将体育成绩/0.8,在筛选出1(男生),将体育成绩/1,最后将数据还原。

第四步:单击工具菜单,选择数据分析选项,出现数据分析对话框,在分析工具中选择回归。 单击确定按钮,弹出回归对话框,在Y值输入区域输入$A$2:$A$181,在X值输入区域输入$B$2:$E$181,单击确定。 SUMMARY OUTPUT

回归统计

Multiple R

0.7969335

R Square 0.6351031 Adjusted R Square 0.6267626 标准误差 观测值

25.019962

180

方差分析

回归分析 残差 总计

Intercept 性别 年龄 体重 身高

df 4 175 179

Significance

SS MS F

F

190671.3073 47667.82682 76.14687 2.77007E-37 109549.7382 625.9985041 300221.0455

标准误差 78.61949543

6.201458795 2.046021902 0.339211687 0.427452815

t Stat 5.8460468 -9.18023942 -0.81481263 0.904771521 -2.15114174

P-value 2.199E-08 1.203E-16 0.416287 0.3668303 0.03283

Lower 95% 305.65102 -69.17015261 -5.705178732 -0.362563325 -1.763137778

Coefficients

461.06092 -56.93088 -1.667124 0.3069091 -0.919512

五、实验结果与数据处理

1、由excel 输出的描述统计量可知:平均数,众位,中位数相差不大,故平均数可以代表性好。峰度系数K= -0.75823<0,身高为扁平分布,数据的分布较分散。偏态系数SK=0.16146>0,身高正离差值较大,为正偏。 2、列联表

关于是否贫困生的调查结果

城市户口 农村户口 总计 否贫困生 122 36 158 是贫困生 14 8 22 总计 136 44 180

P=0.6273784>a,接受原假设,城市和农村不是贫困生的比例是一致的。 P=0.193302066>a,接受原假设,城市和农村是贫困生的比例是一致的。

贫困生的数量的多少与户口的不同无关。

3、得到回归方程y= 461.06 -56.93x1-1.667x2+0.307x3-0.9195x4

由修正的判定系数,可知体育成绩的变差中,能被性别、年龄、体重、身高解释的比例为62.6%。F=2.77007359707285E-37,F六、讨论与结论

容易忽略男女跑步的长度不同,不能进行比较,要注意进行转换之后才能将男女的成绩进行比较。

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo9.cn 版权所有 赣ICP备2023008801号-1

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务