创作时间:二零二一年六月三十日
格拉布斯法(Grubbs)检验法之欧侯瑞魂创作
创作时间:二零二一年六月三十日 ▲概述:一组丈量数据中, 如果个别数据偏离平均值很远, 那么这个(这些)数据称作“可疑值”.如果用统计方法—例如格拉布斯(Grubbs)法判断, 能将“可疑值”从此组丈量数据中剔除而不介入平均值的计算, 那么该“可疑值”就称作“异常值(粗年夜误差)”.
本文就是介绍如何用格拉布斯法(Grubbs)判断“可疑值”是否为“异常值”.
▲丈量数据:例如丈量10次(n=10), 获得以下数据:、、、、、、、、、.
▲排列数据:将上述丈量数据按从小到年夜的顺序排列, 获得、、、、、、、、、.可以肯定, 可疑值不是最小值就是最年夜值.
▲计算平均值x和标准差s:x=;标准差s=.计算时, 必需将
2(xx)所有10个数据全部包括在内.
sn1--
▲计算偏离值:平均值与最小值之差为-=;最年夜值与平均值之差为-=.
创作时间:二零二一年六月三十日
创作时间:二零二一年六月三十日
▲确定一个可疑值:比力起来, 最年夜值与平均值之差年夜于平均值与最小值之差, 因此认为最年夜值是可疑值.
▲计算Gi值:Gi=(xi-x)/s;其中i是可疑值的排列序号 ——10号;因此G10=( x10-x)/s=-=.由于x10-x是残差, 而
---
s是标准差, 因而可认为G10是残差与标准差的比值.下面要把计
算值Gi与格拉布斯表给出的临界值GP(n)比力, 如果计算的Gi值年夜于表中的临界值GP(n), 则能判断该丈量数据是异常值, 可以剔除.可是要提醒, 临界值GP(n)与两个参数有关:检出水平α(与置信概率P有关)和丈量次数n(与自由度f有关).
▲定检出水平α:如果要求严格, 检出水平α可以定得小一些, 例如定α=, 那么置信概率P=1-α=;如果要求不严格, α可以定得年夜一些, 例如定α=, 即P=;通常定α=, P=. ▲查格拉布斯表获得临界值:根据选定的P值(此处为0.95)和丈量次数n(此处为10), 查格拉布斯表, 横竖相交得临界值G95(10)=.
▲比力计算值Gi和临界值G95(10):Gi=, G95(10)=, Gi>G95(10). ▲判断是否为异常值:因为Gi>G95(10), 可以判断丈量值为异常值, 将它从10个丈量数据中剔除.
创作时间:二零二一年六月三十日
创作时间:二零二一年六月三十日
▲余下数据考虑:剩余的9个数据再按以上步伐计算, 如果计算的Gi>G95(9), 仍然是异常值, 剔除;如果Gi<G95(9), 不是异常值, 则不剔除.本例余下的9个数据中没有异常值.
格拉布斯表——临界值GP(n)
P P n 3 4 5 6 7 8 9 n 17 18 19 20 21 22 23 24 25 30 35 40 45 50 10 11 12 13 14 15 16 对异常值及统计检验法的解释
■丈量过程是对一个无限年夜总体的抽样:对固定条件下的一种丈量, 理论上可以无限次丈量下去, 可以获得无穷多的丈量数据, 这些丈量数据构成一个容量为无限年夜的总体;或者换一个角度
创作时间:二零二一年六月三十日
创作时间:二零二一年六月三十日
看, 原本就存在一个包括无穷多丈量数据的总体.实际的丈量只不外是从该无限年夜总体中随机抽取一个容量为n(例如n=10)的样本.这种样本也可以有无数个, 每个样秘闻当于总体所含丈量数据的分歧随机组合.样本中的正常值应当来自该总体.通常的目的是用样本的统计量来估计总体参量.总体一般假设为正态分布. ■异常值区分:样本中的正常值应当属于同一总体;而异常值有两种情况:第一种情况异常值不属于该总体, 抽样抽错了, 从另外一个总体抽出一个(一些)数据, 其值与总体平均值相差较年夜;第二种情况异常值虽属于该总体, 但可能是该总体固有随机变异性的极端暗示, 比如说超越3σ的数据, 呈现的概率很小.用统计判断方法就是将异常值找出来, 舍去.
■犯毛病1:将原本不属于该总体的、第一种情况的异常值判断出来舍去, 不会犯毛病;将原本属于该总体的、呈现的概率小的、第二种情况的异常值判断出来舍去, 就会犯毛病.
■犯毛病2:还有一种情况, 不属于该总体但数值又和该总体平均值接近的数据被抽样抽出来, 统计检验方法判断不出它是异常值, 就会犯另外一种毛病.
■异常值检验法:判断异常值的统计检验法有很多种, 例如格拉布斯法、狄克逊法(Q法)、偏度-峰度法、拉依达法、奈尔法等等.每种方法都有其适用范围和优缺点.
创作时间:二零二一年六月三十日
创作时间:二零二一年六月三十日
■格拉布斯法最佳:每种统计检验法城市犯犯毛病1和毛病2.可是有人做过统计, 在所有方法中, 格拉布斯法犯这两种毛病的概率最小, 所以推荐使用格拉布斯法.
■多种方法结合使用:为了减少犯毛病的概率, 可以将3种以上统计检验法结合使用, 根据大都方法的判断结果, 确定可疑值是否为异常值.
■异常值来源:丈量仪器不正常, 丈量环境偏离正常值较年夜, 计算机犯错, 看错, 读错, 抄错, 算错, 转移毛病.
创作时间:二零二一年六月三十日 创作时间:二零二一年六月三十日