可编辑
应用回归分析实验报告
日期:20 14 年 月 日
班级 实验 名称 13应用统计 姓名 刘金兴 学号 2013154020 利用spss软件研究货运总量y(万吨)与工业总产值x1(亿元)、农业总产值x2(亿元)、居民非商品支出x3(亿元)的关系。 问题背景描述: 软件研究货运总量y(万吨)与工业总产值x1(亿元)、农业总产值x2(亿元)、居民非商品支出x3(亿元)的关系。 数据见表3.9. 表3.9 编号 1 2 3 4 5 6 7 8 9 10 货运总量 y(万吨) 160 260 210 265 240 220 275 160 275 250 工业总产值农业总产值居民非商品x1(亿元) x2(亿元) 支出x3(亿元) 70 75 65 74 72 68 78 66 70 65 35 40 40 42 38 45 42 36 44 42 1.0 2.4 2.0 3.0 1.2 1.5 4.0 2.0 3.2 3.0 实验目的: 学会运用SPSS软件对数据作回归分析,进一步了解多元线性回归模型的建立过程。 实验原理与数学模型: 从SPSS软件计算的相关阵可以看出,y与x1,x2,x3的相关系数都在0.5以上,说明所选自变量与y是线性相关的 用y与自变量作多元线性回归是合适的。 实验所用软件及版本:IBM SPSS 19.0 主要内容(要点): (1) 计算出 y,x1,x2,x3的相关系数矩阵。 (2) 求y关于x1,x2,x3的三元线性回归方程。 (3) 对所求得的方程作拟合优度检验。 (4) 对回归方程做显著性检验。 (5) 对每一个回归系数作显著性检验。 (6) 如果有的回归系数没通过显著性检验,将其剔除,重新建立回归方程,在作回归方程的显著性检验和回归系数的显著性检验。 (7) 求出每一个回归系数的置信水平为%95的置信区间。 (8) 求标准化回归方程。 精品文档,欢迎下载
可编辑
(9) 求当x0175,x0242,x033.1时的yˆ0,给定的置信水平为%95,用SPSS软件计算精确置信区间,用手工计算近似预测区间。 (10) 结合回归方程对问题作一些基本分析。 实验过程记录(含基本步骤、主要程序清单及异常情况记录等): (1) 由SPSS软件可得相关系数表如下 相关性 Pearson 相关性 y x1 x2 x3 Sig. (单侧) y x1 x2 x3 N y x1 x2 x3 y 1.000 .556 .731 .724 . .048 .008 .009 10 10 10 10 x1 .556 1.000 .113 .398 .048 . .378 .127 10 10 10 10 x2 .731 .113 1.000 .547 .008 .378 . .051 10 10 10 10 x3 .724 .398 .547 1.000 .009 .127 .051 . 10 10 10 10 1.0000.556由相关系数表得相关系数矩阵为r0.7310.724系数 a0.5560.7310.7241.0000.1130.398 0.1331.0000.5470.3980.5471.000(2) 对数据利用SPSS软件作线性回归,得相关系数表如下: 非标准化系数 标准 误模型 1 x1 x2 x3 a. 因变量: y B (常量) -348.280 3.754 7.101 12.447 差 176.459 1.933 2.880 10.569 试用版 .385 .535 .277 t -1.974 1.942 2.465 1.178 Sig. .096 .100 .049 .284 标准系数 由表可得y关于x1,x2,x3的三元线性回归方程为yˆ348.2803.754x17.101x212.447x3 (3)对所求得的方程作显著性检验: 模型汇总 精品文档,欢迎下载
可编辑
调整 R 模型 1 标准 估计的误差 23.44188 R .8 aR 方 .806 方 .708 精品文档,欢迎下载
可编辑
模型汇总 模型 1 R .8 aR 方 .806 调整 R 方 .708 标准 估计的误差 23.44188 a. 预测变量: (常量), x3, x1, x2。 由上表可知,调整后的决定系数为0.708,说明回归方程对样本观测值得拟合程度较好。 (4) 利用SPSS软件可以得到方差分析表: Anova b模型 1 回归 残差 平方和 13655.370 3297.130 df 6 均方 3 4551.790 549.522 F 8.283 Sig. .015 a总计 16952.500 9 a. 预测变量: (常量), x3, x1, x2。 b. 因变量: y H:230原假设:01 F统计量服从自由度为(3,6)的F分布,给定显著性水平=0.05,F(3.6)4.76查表得0.05,由方查分析表得,F值=8.283>4.76,p值H=0.015,拒绝原假设0,由方差分析表可以得到F8.283,P0.0150.05,说明在置信水平为95%下,回归方程显著。 (5)对每一个回归系数做显著性检验: 系数 a非标准化系数 标准 误模型 1 x1 x2 x3 a. 因变量: y 标准系数 试用版 .385 .535 .277 t -1.974 1.942 2.465 1.178 Sig. .096 .100 .049 .284 B (常量) -348.280 3.754 7.101 12.447 差 176.459 1.933 2.880 10.569 H:0做t检验:设原假设为0i, ti统计量服从自由度为n-p-1=6的t分布,给定显著性水平0.05,查得单侧检验临界值为1.943,X1的t值=1.942<1.943,处在否定域边缘。 X2的t值=2.465>1.943。拒绝原假设。 x由上表可得,在显著性水平0.05时,只有2的P值<0.05,通过检验,即只有x2的回归系数较为显著 ;其余自变量的P值均大于0.05,即x1,x2的系数均不显著。 精品文档,欢迎下载
可编辑
(6)根据提议可有: 系数 a非标准化系数 标准 误模型 标准系数 试用版 t Sig. B 差 精品文档,欢迎下载
可编辑
系数 a非标准化系数 标准 误模型 1 x1 x2 x3 2 标准系数 试用版 .385 .535 .277 .479 .676 .385 .535 .277 .479 .676 t -1.974 1.942 2.465 1.178 -3.003 2.575 3.634 -1.974 1.942 2.465 1.178 -3.003 2.575 3.634 Sig. .096 .100 .049 .284 .020 .037 .008 .096 .100 .049 .284 .020 .037 .008 B (常量) -348.280 3.754 7.101 12.447 4.676 8.971 3.754 7.101 12.447 4.676 8.971 差 176.459 1.933 2.880 10.569 153.058 1.816 2.468 176.459 1.933 2.880 10.569 153.058 1.816 2.468 (常量) -459.624 x1 x2 1 (常量) -348.280 x1 x2 x3 2 (常量) -459.624 x1 x2 a. 因变量: y 选择模型二,重新建立的回归方程为: ˆ459.6244.676x18.971x2 yAnovac 模型 平方和 回归 残差 总计 13655.370 3297.130 16952.500 123.199 4059.301 16952.500 df 3 6 9 2 7 9 均方 4551.790 549.522 46.600 579.900 F 8.283 11.117 Sig. .015a .007b 1 2 回归 残差 总计 精品文档,欢迎下载
可编辑
a. 预测变量: (常量), x3, x1, x2。 b. 预测变量: (常量), x1, x2。 c. 因变量: y 模型汇总 更改统计量 调整 R 模型 1 2 R .8 .872 ba标准 估计的误差 23.44188 24.08112 R 方更改 F 更改 .806 -.045 8.283 1.387 df1 3 1 df2 6 6 Sig. F 更改 .015 .284 R 方 .806 .761 方 .708 .692 a. 预测变量: (常量), x3, x1, x2。 b. 预测变量: (常量), x1, x2。 对新的回归方程作显著性检验: H:20原假设:01 F(2.7)4.74F服从自由度为(2,7)的F分布,给定显著性水平=0.05,查表得0.05,由方差分析表得,HF值=11.117>4.74,p值=0.007,拒绝原假设0. 认为在显著性水平=0.05下,x1,x2整体上对y有显著的线性影响,即回归方程是显著的。 对每一个回归系数做显著性检验: H:0t1做t检验:设原假设为01,统计量服从自由度为n-p-1=7的t分布,给定显著性水平0.05,查得单侧检验临界值为1.5,X1的t值=2.575>1.5,拒绝原假设。故 精品文档,欢迎下载
可编辑
1显著不为零,自变量X1对因变量y的线性效果显著; 同理β2也通过检验。同时从回归系数显著性检验表可知:X1,X2的p值 都小于0.05,可认为对x1,x2分别对y都有显著的影响。 (7) 系数 a非标准化系数 模型 1 (常量) x1 x2 x3 2 (常量) x1 x2 a. 因变量: y 标准系数 试用版 .385 .535 .277 .479 .676 t -1.974 1.942 2.465 1.178 -3.003 2.575 3.634 Sig. .096 .100 .049 .284 .020 .037 .008 B 的 95.0% 置信区间 下限 -780.060 -.977 .053 -13.415 -821.547 .381 3.134 上限 83.500 8.485 14.149 38.310 -97.700 8.970 14.808 B -348.280 3.754 7.101 12.447 -459.624 4.676 8.971 标准 误差 176.459 1.933 2.880 10.569 153.058 1.816 2.468 由回归系数表可以看到,β1置信水平为95%的置信区间[0.381,8.970], β2置信水平为95%的置信区间[3.134,14.808] (8)由回归系数表(上表)可得,标准化后的回归方程为: ˆ*0.479x1*0.676x2* y(9) 精品文档,欢迎下载
可编辑
系数 aB 的 95.0% 置信区非标准化系数 标准 误模型 1 x1 x2 x3 2 x1 x2 B (常量) -348.280 3.754 7.101 12.447 4.676 8.971 差 176.459 1.933 2.880 10.569 153.058 1.816 2.468 试用版 .385 .535 .277 .479 .676 t -1.974 1.942 2.465 1.178 -3.003 2.575 3.634 Sig. .100 .049 下限 -.977 .053 上限 83.500 8.485 14.149 38.310 8.970 14.808 .096 -780.060 标准系数 间 .284 -13.415 .037 .008 .381 3.134 (常量) -459.624 .020 -821.547 -97.700 yˆ0267.829(见上表)由SPSS输出结果可知,当x0175,x0242,x033.1时,y,0的y置信度为95%的精确预测区间为(204.4,331.2)(见下表),0的置信度为95%的近ˆ02ˆ),手工计算得:似预测区间为(y(219.6,316.0)。 (10)由回归方程 ˆ459.6244.676x18.971x2 y可知农业总产值固定的时候,工业总产值每增加1亿元,货运总量增加4.676万吨;工业总产值固定的时候,农业总产值每增加1亿元,货运总量增加8.971万吨。而居民非商品支出对货运总量没有显著的线性影响。由标准化回归方程ˆ*0.479x1*0.676x2*y可知: 工业总产值、农业总产值与Y都是正相关关系,比较回归系数的大小可知农业总产值X2对货运总量Y的影响程度大一些。 思考与深入: 通过在计算机上作SPSS实验,我深刻地认识到了专业的重要性,以及这门学科对社会和科学的作用。 我对SPSS软件的了解还不够深入,我会在以后的学习中深入地学习它。 教师评语: .
精品文档,欢迎下载