回归方程及回归系数的显著性检验
1、回归方程的显着性检验 (1) 回归平方和与剩余平方和
建立回归方程以后, 回归效果如何呢?因变量
与自变量
是否确实存在线性关系呢?这是需要进行
取值的变化规律。
与
的每次取值次观测值的平均值
是
统计检验才能加以肯定或否定, 为此, 我们要进一步研究因变量有波动的, 这种波动常称为变差, 每次观测值
的变差大小, 常用该次观侧值
的差
(称为离差)来表示, 而全部次观测值的总变差可由总的离差平方和
其中:
,
引起的
称为回归平方和, 是回归值
的波动, 其自由度
(
与均值之差的平方和, 它反映了自变量的变化所
为自变量的个数)。
称为剩余平方和(或称残差平方和), 是实测值
。总的离差平方和是确定的, 即
与回归值之差的平方和, 它是由试验误。 大则
小, 反之,
小则
大,
差及其它因素引起的, 其自由度 如果观测值给定, 则总的离差平方和所以
与
的自由度为是确定的, 因此
都可用来衡量回归效果, 且回归平方和越大则线性回归效果越显着, 或者说剩余平方和
大, 则线性回归效果不好。
越小回归效
果越显着, 如果(2) 复相关系数
=0, 则回归超平面过所有观测点; 如果
为检验总的回归效果, 人们也常引用无量纲指标
或
, (3.1)
, (3.2)
称为复相关系数。因为回归平方和在总回归平方和中所占的比例, 因此
实际上是反映回归方程中全部自变量的“方差贡献”, 因此表示全部自变量与因变量
的相关程度。显然
就是这种贡献
。复相关系数越接近1,
及观测
回归效果就越好, 因此它可以作为检验总的回归效果的一个指标。但应注意, 组数取
有关, 当相对于至少为检验
是否存在线性关系, 就是要检验假设
, (3.3)
成立时, 则与
并不很大时, 常有较大的
与回归方程中自变量的个数
与
值, 因此实际计算中应注意的适当比例, 一般认为应
的5到10倍为宜。
(3)
要检验与 当假设
无线性关系, 否则认为线性关系显着。检验假设
应用统计量
, (3.4)
及
的
分布, 即
这是两个方差之比, 它服从自由度为
用此统计量
, (3.5)
可检验回归的总体效果。如果假设≤
, (3.6)
分布表可查得
为O, 即
的值, 如果根据统计量算得的
值为
,
成立, 则当给定检验水平α下, 统计量
应有
对于给定的置信度α, 由则拒绝假设 利用
, 即不能认为全部
个自变量的总体回归效果是显着的, 否则认为回归效果不显着。
检验对回归方程进行显着性检验的方法称为方差分析。上面对回归效果的讨论可归结于一个方差分析表中,
如表3.1。
表3.1 方差分析表
来 源 回 归 剩 余 总 计 根据
与
的定义, 可以导出
平方和 自由度 方 差 方差比 与
的以下关系:
,
。
值多大时回归效果才算是显着的问题。因为对给定的检验水平α, 由即可求出
的临界值
:
分布表可
利用这两个关系式可以解决查出
的临界值
, 然后由
当
, (3.7)
时, 则认为回归效果显著。
例3.1 利用方差分析对例2.1的回归方程进行显著性检验。 方差分析结果见表3.2。
表3.2
来 源 回 归 剩 余 总 计 取检验水平α=0.05, 查归效果是显著的。 2、回归系数的显著性检验
前面讨论了回归方程中全部自变量的总体回归效果, 但总体回归效果显著并不说明每个自变量变量
都是重要的, 即可能有某个自变量
对
并不起作用或者能被其它的
对因
平方和 自由度 方 差 方差比 , 而
, 所以例2.1的回归方程回
分布表得
的作用所代替, 因此对这种自变量我
作用不显著, 则它的系数
就
们希望从回归方程中剔除, 这样可以建立更简单的回归方程。显然某个自变量如果对应取值为0, 因此检验每个自变量 (1) 检验: 在
假设下, 可应用检验:
,
是否显著, 就要检验假设: , (3.8)
,
, (3.9) 的对角线上第个元素。
其中为矩阵
对给定的检验水平α, 从分布表中可查出与α对应的临界值与0有显著差异, 这说明对(2)
对
有重要作用不应剔除; 如果有
, 如果有则接受假设
, 则拒绝假设, 即认为
, 即认为成立, 这说明
不起作用, 应予剔除。 检验:
, 亦可用服从自由度分别为1与
的
分布的统计量
检验假设
, (3.10)
其中为矩阵
, 如果有
的主对角线上第个元素。对于给定的检验水平α, 从
, 则拒绝假设
对
, 认为
对
有重要作用。如果
分布表中可查得临界
, 则
接受假设, 即认为自变量不起重要作用, 可以剔除。一般一次检验只剔除一个自变量, 且这个自变量是
所有不显著自变量中著为止。
值最小者, 然后再建立回归方程, 并继续进行检验, 直到建立的回归方程及各个自变量均显
最后指出, 上述对各自变量进行显著性检验采用的两种统计量式知, 有
(3.11)
与实际上是等价的, 因为由(3.9)式及(3.10)
例3.2 对例2.1的回归方程各系数进行显著性检验。 经计算:
于是
,
,
=0.002223,
=0.004577。由(3.7)式知
其中
,
,
查分布表得, 所以两个自变量 如果应用
及
都是显著的。又由
分布表有
, 因为, 说明体长
, 又由
比胸围
对体重
,
的影响更大。
,
检验, 查
,
因为
留在回归方程中。 (3) 偏回归平方和
,
,
, 因此
及
都是显著的, 均为重要变量, 应保
检验某一自变量是否显著, 还可应用偏回归平方和进行检验。
个自变量
,
个自变量中去掉
, 在回归平方和
中的贡献,
称为
的偏回归平方和或贡献。可以证明
, 则剩下的
个自变量的回归平方和设为
, 并设
的回归平方和为
如果自 则
就表示变量
偏回归平方和
, (3.12) 越大, 说明
在回归方程中越重要, 对的作用和影响越大, 或者说
对回归方程的贡献越大。因
此偏回归平方和也是用来衡量每个自变量在回归方程中作用大小(贡献大小)的一个指标。 例如在例2.1中,
和
的偏回归平方和分别为
,
, 说明在回归方程中
, 的作用比
大。
又如在例2.2中及
的偏回归平方和分别为:
,
,
,
的值最小, 即
,
在回归方程中所起的作用最小,
最大, 说明
在回归方程中所起的作用最大。
因篇幅问题不能全部显示,请点此查看更多更全内容