非参数统计分析
实 验 指 导 书
朱宁编 2012.3.2
桂林电子科技大学非参数统计实验指导书
Excel和Minitab简介
微软的Office是目前最为流行的办公软件,目前主要有Office2003、Office2010和Office2010三个版本。Office 2003是第三代办公处理软件的代表产品,可以作为办公和管理的平台,以提高使用者的工作效率和决策能力。Office 2003中文版有4种不同的版本:标准版、中小企业版、中文专业版和企业版。下面列出了各个版本所包含的组件: 在Office 2003中各个组件仍有着比较明确的分工:一般说来,Word主要用来进行文本的输入、编辑、排版、打印等工作;Excel主要用来进行有繁重计算任务的预算、财务、数据汇总等工作;PowerPoint主要用来制作演示文稿和幻灯片及投影片。
Excel 是微软办公套装软件的一个重要的组成部分,它可以进行各种数据的处理、统计分析和辅助决策操作,广泛地应用于管理、统计财经、金融等众多领域。Excel2003支持VBA编程,VBA是Visual Basic For Application的简写形式。VBA的使用可以达成执行特定功能或是重复性高的操作。
Microsoft Office XP是微软有史以来所发行的Office版本中最重要的版本,而且也被认为是迄今为止功能最强大、最易于使用的Office产品。新版Office放弃了以往以产品发布年命名的惯例。产品名称中的XP,是英文Experience(体验)的缩写,代表着新版Office在包容覆盖广泛设备的Web服务之后,将给用户带来丰富的、充分扩展的全新体验。 在工作当中用电子表格来处理数据将会更加迅速、方便,而在各种电子表格处理软件中,Excel以其功能强大、操作方便著称,赢得了广大用户的青睐。虽然Excel使用很简单,不过真正能用好Excel的用户并不多,很多人一直停留在录入数据的水平掌握这些技巧将大大提高我们的工作效率。
六西格玛(Six Sigma)又称:6σ,Sigma是希腊文的字母,在统计学中称为标准差,用来表示数据的分散程度。其含义引申后是指:一般企业的瑕疵率大约是3到4个西格玛,以4西格玛而言,相当于每一百万个机会里,有6210次误差。如果企业不断追求品质改进,达到6西格玛的程度,绩效就几近于完美地达成顾客要求,在一百万个机会里,只找得出3.4个瑕疪。企业在实施六西格玛项目中,会收集大量的数据,然后借助这些数据,来发现和解决流程中存在的问题,这就需要一款统计软件来帮助我们。 目前,90%的六西格玛实施公司都会选择Minitab软件作为项目实施工具。Minitab软件1972年成立于美国,是企业六西格玛项目必不可少的软件。Minitab软件是现代质量管理统计的领先者,全球六西格玛实施的共同语言,以无可比拟的强大功能和简易的可视化操作深受广大质量学者和统计专家的青睐。Minitab 1972年成立于美国的宾夕法尼亚大学,到目前为止,已经在全球100多个国家,4800多所高校被广泛使用。典型的客户有:GE、福特汽车、通用汽车、3M、霍尼韦尔、LG、东芝、诺基亚、宝钢、徐工集团、海尔、中国航天集团、中铁、中国建设银行、美洲银行、上海世茂皇家艾美酒店、浦发银行、太平人寿、北大光华学院、中欧国际工商学院、华中科大、武汉理工、华东理工、西交利物浦大学等。 Minitab的主要功能有:假设检验(参数检验和非参数检验);回归分析(一元回归和多元回归、线性回归和非线性回归);方差分析(单因子、多因子、一般线性模型等);时间序列分析;图表制作(散点图、点图、矩阵图、直方图、茎叶图、箱线图、概率图、概率分布图、边际图、矩阵图、单值图、饼图、区间图、Pareto、Fishbone、运行图等);模特卡罗模拟和仿真;分布分析;SPC (Statistical Process Control - 统计过程控制) ;DOE (全因子、部分因子设计、响应曲面设计、田口设计、混料设计等) ;MSA(交叉、嵌套、量具运行图、类型I量具研究等);可靠性分析(分布拟合、检验计划、加速寿命测试等);多变量分析等。
1
桂林电子科技大学非参数统计实验指导书
实验一 非参数统计分析常规实验
一. 实验目的
1. 了解Excel、Minitab程序结构及其使用方法; 2. 会用Excel、Minitab对数据进行预处理; 3. 会对原始数据进行描述性统计分析。
二. 实验要求
1. 会用Excel、Minitab软件对建立的数据集进行分析; 2. 会用Excel、Minitab画出散点图。
三. 实验原理及常用统计量
(1) 表示中心位置的数值
平均数(Mean):
xxin
中位数(Median):
一组数据按从小到大(或从大到小)的顺序依次排列,处在中间位置的一个数(或最中间两个数据的平均数,中位数不一定在这组数据中)。
众数(Mode):在一组数据中,出现次数最多的那个数据。 (2) 表示离散程度的数值
样本方差S2(Sample Variance):
n2S(xi1ix)2(n1)
标准差S(Standard Deviation):
SS2
全距R(Range) :
R样本最大值样本最小值
四分位数间距(Inter Quartile Range 简记IQR):
IQRQUQL
其中,QU,QL分别表示上四分位数和下四分位数。 (3) 标准误
标准误(Standard Error):由于平均数x的标准误差为称为标准误。 (4) 偏度(Skewness)
2
n,取其估计Sn桂林电子科技大学非参数统计实验指导书
计算公式:
s[(X)]333
显然,对称分布的偏度S等于0,反之不真,偏度S等于0的分布不一定是对称分布。/*假设检验 (5) 峰度(Kurtosis)
计算公式:
k[(X)]444
正态分布的峰度等于3。如果一个分布的峰度大于3,则称该分布具有过渡的峰度;如果一个分布的峰度小于3,则称该分布具有不足的峰度。
四. 实验相关Excel知识
实验需要Excel软件具有数据分析功能。若Excel的工具菜单下不存在数据分析选项则需要加载宏。其步骤如下: a. 选择工具下拉菜单; b. 选择加载宏选项;
c. 打钩分析工具库选项并确定
图1加载宏对话框
3
桂林电子科技大学非参数统计实验指导书
五. 实例
【例1】某电子公司测试新灯丝的燃烧寿命,如下数据表格列出了200个灯泡样
本的可使用小时数。
表1 灯丝寿命数据 107 79 92 74 93 78 61 81 85 73 61 73 85 70 73 74 77 59 73 98 79 78 70 61 66 71 71 67 81 82 80 73 84 81 76 65 60 77 68 63 78 88 85 65 66 77 85 87 54 65 68 75 83 77 90 82 87 83 97 65 79 77 61 62 94 91 99 80 65 98 78 90 63 72 78 86 84 68 76 66 77 103 65 92 77 96 59 84 71 63 62 92 84 71 79 75 72 79 62 86 88 81 65 63 75 92 93 80 71 72 68 67 101 74 77 67 94 79 63 75 66 94 69 84 62 58 71 81 59 78 66 51 92 59 86 76 68 62 66 75 76 62 76 88 116 69 71 62 58 43 86 45 98 68 74 88 94 83 68 72 68 62 65 82 74 79 73 59 96 63 82 57 74 85 81 71 70 76 77 72 75 61 88 72 70 83 83 67 102 96 构造其频数和频率分布表步骤如下:
① 建立数据文件。由于Excel软件的需要,原始数据需建立在同一行或同
一列,并且给出每一分组数据的上限。在此我们把数据放在A1:A200.具体如下图:
4
桂林电子科技大学非参数统计实验指导书
图2 灯丝寿命数据
② 按下面顺序作数据的频数分布表和直方图:
a. 选择工具下拉菜单; b. 选择数据分析选项;
c. 在数据分析对话框中选择直方图;
d. 直方图对话框中:在输入数据中键入A1:A200,在接收区域键入 B1:B16,输出区域键入C1,勾选图表输出,确定。
5
桂林电子科技大学非参数统计实验指导书
图3 直方图对话框
输出结果如下图:
图4 频数分布表及直方图
直方图钟形对称,也就是直方图中间高,两头低,左右近似对称。从横坐标可以发现灯丝的寿命基本集中在到94,仅有少数灯丝寿命小于54或大于104。
【例2】以上述200个灯泡的灯丝寿命数据为例,利用Excel求衡量中心位置和
离散程度的数值表述统计量。具体步骤如下: a. 选择工具下拉菜单; b. 选择数据分析选项;
c. 从分析工具框中选择描述统计;
d. 在描述统计对话框中:在输入区域键入A1:A200;在输出区域键B2。
图5 描述统计对话框
输出结果:
6
桂林电子科技大学非参数统计实验指导书
图6 输出结果
输出结果给出了数值的描述统计量。灯丝的寿命平均数为76.05,中位数为75.5,众数为77,它们相差并不大。最大寿命数为116,最小为43,它们都只有一个观测值,全距即区域为73。标准误即标准误差为0.852804。方差、标准差为145.4549、12.06046。偏度为0.277028,接近于0,说明200个灯丝样本寿命基本成对称分布。峰度为0.03557,小于3,即该分布具有不足的峰度。说明灯丝样本的寿命并不集中在均值附近和两侧尾部,而是集中在一段区域。95%的置信区间为76.051.682。
由于正态分布的偏度
s等于0,所以样本偏度
s可作为正态性检验问题的检
验统计量。在Excel的某个单元中输入“normdist(x,,,1)”,就可以求得正态分布N(,2)的在x这一点的分布函数值;输入“normdist(x,,,0)”,则求得正态分布N(,2)的在x这一点的密度函数值。在Excel中输入“2*(1normdist(sqrt(200/6)*0.277027534,0,1,1))”就得到p2P(N(0,1)值为
0.05,不能拒绝原假设,即可以p值大于20/60*bs)0.109。727认为灯泡寿命样本服从正态分布。
7
桂林电子科技大学非参数统计实验指导书
六. 实验内容
某航空公司为了了解旅客对公司服务态度的满意程度,对50名旅客作调查。要求他们写出对成绩服务、机上服务和到达机场服务的满意程度。满意程度的评分从0到100.分数越大,满意程度越高。以下为收集到的数据。对50名旅客关于乘机服务、机上服务、到达机场服务及关于这三方面综合的满意程度数据分别作描述性统计分析。
表2 旅客对各项服务满意度评分 乘机 机上 到达机 乘机 机上 到达机 服务 服务 场服务 服务 服务 场服务 71 49 58 72 76 37 84 53 63 71 25 74 84 74 37 69 47 16 87 66 49 90 56 23 72 59 79 84 28 62 72 37 86 86 37 59 72 57 40 70 38 54 63 48 78 86 72 72 84 60 29 87 51 57 90 62 66 77 90 51 72 56 55 71 36 55 94 60 52 75 53 92 84 42 66 74 59 82 85 56 76 51 54 88 55 52 95 66 52 74 70 51 66 62 71 45 68 85 57 67 88 49 42 65 42 68 90 27 67 82 37 54 85 46 82 60 56 79 59 41 80 72 60 45 74 47 63 88 36 47 82 49 91 77 60 75 90 76 70 43 61 78 52 72
8
桂林电子科技大学非参数统计实验指导书
七. 课后练习
某班级有19名学生,以下为班级学生的身高和体重的信息,试对这个班级的身高和体重信息做描述性统计分析。
Name 阿尔弗雷德 爱丽丝 芭芭拉 凯露 亨利 詹姆斯 简 雅妮特 杰弗瑞 约翰 乔伊斯 茱迪 罗伊斯 玛丽 菲利普 罗伯特 罗纳德 托马斯 威廉
男 女 女 女 男 男 女 女 男 男 女 女 女 女 男 男 男 男 男
69 56.5 65.3 62.8 63.5 57.3 59.8 62.5 62.5 59 51.3 .3 56.3 66.5 72 .8 67 57.5 66.5
112.5
84 98 102.5 102.5
83 84.5 112.5
84 99.5 50.5 90 77 112 150 128 133 85 112
Sex
Height
Weight
7 参考文献 8 附录
构造其频数和频率分布表步骤如下:
③ 建立数据文件。由于Excel软件的需要,原始数据需建立在同一行或同
一列,并且给出每一分组数据的上限。在此我们把数据放在A1:A200.具体如下图:
9
桂林电子科技大学非参数统计实验指导书
④ 按下面顺序作数据的频数分布表和直方图:
a. 选择工具下拉菜单; b. 选择数据分析选项;
c. 在数据分析对话框中选择直方图;
d. 直方图对话框中:在输入数据中键入A1:A200,在接收区域键入 B1:B16,输出区域键入C1,勾选图表输出,确定。
10
桂林电子科技大学非参数统计实验指导书
输出结果如下图:
输出结果如下图:
11
桂林电子科技大学非参数统计实验指导书
输出结果如下图:
12