一、绪论
二、数据的搜集、整理与显示
三、数据分布特征的度量(测度)
集中趋势的度量
离中趋势(离散程度)的度量
偏态与峰度的度量
四、相关分析
五、概率与概率分布
六、抽样与总体参数的估计
七、假设检验
八、方差分析
九、列联分析
十、回归分析
十一、非参数检验方法
一、绪 论
1.1 统计与统计学含义
1.2 统计学分类
1.3 统计学与其他学科的关系
1.4 统计学的产生与发展
1.5 几个基本概念
1.1 统计与统计学含义
统计:
已被赋予多种含义,不同场合有不同的含义
(1)统计工作:统计数据的搜集活动;
(2)统计数据:统计活动的结果;
(3)统计学:分析统计数据的方法和技术
统计学:
是一门搜集、整理和分析统计数据的方法的科学,目的是探索数据的内在数量规律性,以达到对客观事物的科学认识。
统计数据的搜集 是取得统计数据的过程,是进行统计推断的基础。如何取得准确、可靠的统计数据是统计学研究的内容之一。
统计数据的整理 是对统计数据的加工处理过程,目的是使统计数据系统化、条理化,符合统计分析的需要。它是数据搜集与数据分析之间的一个必要环节。
统计数据的分析 是统计学的核心内容,是通过统计描述和统计推断的方法探索数据内在规律的过程。
Statistics:
以单数名词出现时表示“统计学”;
以复数名词出现时表示“统计数据”或“统计资料”。
单个数据没有多大意义,但通过多次观察或实验得到大量的统计数据,利用统计方法可以探索出其内在数量规律性。
例如:
新生婴儿的性别比例统计规律是:
男:女=107:100
掷硬币试验中正反面比例的统计规律是:
正面:反面=1:1
1.2 统计学的分类
根据统计方法的构成分为:
描述统计学
推断统计学
根据统计方法的研究与应用分为:
理论统计学
应用统计学

描述统计学
描述统计学主要研究如何整理科学实验或调查得来的大量数据,描述一组数据的全貌,表达一件事物的性质。具体内容包括:数据如何分组、如何使用各种统计表和统计图的方法去描述一组数据的分组及分布情况,如何通过一组数据计算一些特征数,简缩数据,进一步显示与描述一组数据的全貌。
表示数据集中情况的特征有:算术平均数、中数、众数、几何平均数、调和平均数等;
表示数据分散情况的特征有:平均差、标准差、变异系数、标准分数等
表示事物两种以上性质之间关系情况有:相关系数
表示数据分布是否对称、偏斜的程度及扁平程度的特征有:偏度与峰度。
推断统计学
推断统计学是研究如何根据样本数据去推断总体数量特征的方法,它是在对样本数据进行描述的基础上,对统计总体的未知数量特征作出以概率形式表达的推断。具体说,如何从局部的数据估计全局的情况;如何对假设进行检验与估计;如何对影响事物变化的因素进行分析;如何对两种事物或多种事物之间的差异进行比较等。涉及到的统计方法有:
(1)记数资料假设检验方法。包括:百分位检验方法、卡方检验等;
(2)假设检验的各种方法。包括:大样本的检验方法(u检验法),小样本的检验方法(t 检验法),方差分析,回归分析方法等;
(3)总体特征值(总体参数)的估计方法;
(4)各种非参数的统计方法。
理论统计学:
指统计学的数学原理。它主要研究统计学的一般理论和统计方法的数学理论。它是统计学的理论基础。
应用统计学:
研究如何应用统计方法去解决实际问题。
统计学是分析数据的科学,在自然科学及社会科学研究领域,都需要通过数据分析解决实际问题,统计学的应用几乎扩展到了所有的科学研究领域。如:生物统计学、医疗卫生统计学、农业统计学、工业统计学、经济管理统计学、社会统计学、人口统计学、教育与心理统计学等。
1.3 统计学与其他学科的关系
1.3.1 统计学与数学的关系
1.3.2 统计学与其他学科的关系
1.3.1 统计学与数学的关系
统计学与数学有密切联系,又有本质的区别:
现代统计学应用到许多数学知识,似乎是数学的一个分支,实际上,数学只是为统计理论和统计方法的发展提供了数学基础,而统计学的重要特征上研究数据。二者都不能地直接研究和探索客观现象的规律,而是给各个学科提供一种研究和探索客观规律的数量方法。
区别:(1)数学研究的是抽象的数量规律,而统计学是研究具体的、实际现象的数量规律;数学研究的是没有量纲或单位的抽象的数,而统计学研究的是有具体实物或计量单位的数据。(2)二者使用的逻辑方法不同。数学是纯粹的演绎,而统计学是演绎与归纳相结合。
1.3.2 统计学与其他学科的关系
统计方法可以帮助其他学科探索学科内在的数量规律性,而对这种数量规律性的解释并进而研究各学科内在的规律,只能由各学科的研究来完成。统计方法仅仅是一种有用的定量分析的工具,它不是万能的,不能解决我们想要解决的所有问题。
1.4 统计学的产生和发展
统计学从17世纪中叶,至今有300多年的历史。是沿两条主线展开的。
一、政治算术-------社会经济统计
产生于17世纪中叶的英国,主要代表人物是威廉•配第(William Patty,1623--1687年)和约瀚•格郎特(John Graunt,1620-1674年)。他们通过大量观察的方法,研究并发现了一系列人口统计规律,如男婴出生多于女婴,基本是14:13; 男性的死亡率高于女性; 新生儿在大城市的死亡率较高;一般疾病和事故的死亡率较稳定,而传染病的死亡率波动较大等等。
19世纪以后出现了保险统计、卫生统计、农业统计、工商统计、物价指数计算方法。此后,人口调查、社会调查、道德统计等也逐步发展起来。
政治算术学派为后来的社会经济统计的发展奠定了基础。
二、概率论----数理统计
产生于16世纪中叶,代表人物有意大利数学家卡达罗(Kirolamo Cardano),法国数学家帕斯卡尔(Blaise Pascal)、费马特(Pierre de Fermat)和拉普拉斯(Pierre Simon Laplace),瑞士数学家J•贝努里(Jakob Bernoulli)和比利时统计学家凯特勒(Adolphe Quetelet)。
概率论在初期基本上是发展的,它与统计学(政治算术)没有太多的联系。到19世纪,用概率论研究社会经济现象的人日益增多。从9世纪中叶到20世纪中叶,概率论的进一步发展为数理统计学的形成和发展奠定了基础。20世纪50年代以后,统计理论、方法和应用进入全面发展的阶段。统计学由于受计算机、信息论等现代科学技术的影响,新的领域层出不穷。如多元统计分析、现代时间序列分析、贝叶斯统计、非参数统计、线性统计模型等。
4、统计量与参数
统计量(Statistic):是样本的函数,只跟样本有关,与总体参数无关。如样本平均数(X)、样本标准差(S)、样本相关系数(r)、回归系数(b)等。可以用统计量对总体参数进行估计或进行假设检验。
参数(Parameter):总体参数,指描述一个总体情况的一些统计指标。如总体平均值或期望值,用符号表示;反映总体分散情况的指标如标准差,用表示;反映某事物两特性总体之间关系的统计指标为相关系数,用表示;表示两特性之间数量关系的统计指标是回归系数,用表示。
1.5 几个基本概念
一、随机变量
随机现象:在相同条件下进行的实验或观察,其可能结果不止一个,事先无法确定,这类现象称为随机现象。
随机变量:随机现象的各种结果总是可以用一定的数量来表现,而且表现为实验结果数值的不确定性,因而称为变量。这种变量受随机因素的影响,呈随机变化,具有偶然的一面,但也具有规律性的一面。通过大量的实验或观察,这种规律性可以揭示出来。把这种具有变化规律的变量称为随机变量。
二、总体、样本、个体
总体(Population):指具有某种特征的一类事物的全体,又称母体。
个体(Element):构成总体的每个基本单元。
样本(Sample):从总体中抽取的一部分个体,即总体的一个子集。
三、次数、比例、百分比、比率
次数(Frequency):也叫频数,落在各类别中的数据个数。 比例(Proportion):一个总体中各个部分的数量占总体数量的比重。Ni / N 百分比(Percentage):比例乘以100就是百分比或百分数。
比率(Ratio):各不同类别的数量的比值。
⏹
⏹数据的计量与类型
⏹数据的计量尺度⏹1)定类尺度(Nominal Scale)⏹2)定序尺度(Ordinal Scale)⏹3)定距尺度(Interval Scale)⏹4)定比尺度(Ratio Scale)
⏹
⏹ 由于定类尺度只能区分事物是同类或不同类,因此它具有“=和”的数学特性。 通常计算每一类别中各元素或个体出现的“频数或频率”来进行分析。
⏹
⏹ 如考试成绩:优、良、中、及格、不及格。⏹教育水平:小学及以下、初中、高中、
⏹大学及以上。⏹该尺度具有“>和<”、“=和≠”的数学特性,但不能进行加、减、乘、除运算。
⏹
⏹分制;温度等。⏹
⏹
⏹
⏹
⏹
⏹

2.1.2 数据的类型与分析方法
统计数据是采用某种计量尺度对事物进行计量的结果。采用不同的计量尺度会得到不同类型的统计数据。
不同类型的数据
定类数据:表现为类别,但不区分顺序,由定类尺度计量形成;
定序数据:表现为类别,但有顺序,由定类尺度计量形成;
定距数据:表现为数值,可进行加、减,由定距尺度计量形成;
定比数据:表现为数值,可进行加、减、乘、除,对应于定比尺度;
定性数据(Qulitative Data):定类数据、定序数据
定量数据(Quantitative Data):定距数据、定比数据
不同类型的数据采用不同的统计方法
定类数据:计算各组的频数、频率,众数、异
众比率、列联分析、2检验等。
定序数据:中数(中位数)、四分位差、等级
相关系数、非参数分析。
定距数据、定比数据:计算各种统计量、参数
估计、检验。
适用于低层次测量数据的统计方法,也适用于较高层次的测量数据。
变量(Variable):说明事物某种特征的 概念,它的具体表现为变量值
定类变量(Nominal Variable):由定类数
据记录, 如性别(男、女);
定序变量(Ordinal Variable):由定序数据
记录,如产品等级(一、二、三级);
数值变量(Numerical Variable):由数量
数据记录,如年龄、时间、产量等
2.2 统计数据的来源
1、直接来源
(1)调查
普查:
为某一特定的目的组织的一次性全面调查。如人口普查、工业普查等;
特点是:涉及面广,但需要耗费大量的人力、物力、财力,时间较长;准确、规范化程度高。
抽样调查:
从调查对象的总体中随机抽取一部分单位作为样本进行调查,由样本的调查结果来推断总体数量特征的一种非全面调查。
特点是:经济、时效性强、适应面广、准确性较高。
调查方法有:访问调查、邮寄调查、电话调查、电脑辅助调查、座谈会、个别深度访问等。
(2)观察与实验
观察法:
调查人员边观察边记录以搜集信息的方法;
试验法:
在所设定的特殊实验场所、特殊状态下,对调查对象进行实验以取得所需资料的一种调查方法。
室内实验法:如广告效果测试、广告认知;
室外市场实验法:如消费者需求调查。
2、间接来源(二手数据)
不是自己亲自调查的,是别人的数据、公开出版或报道的数据,如:统计年鉴;报刊、杂志、图书、广播、电视传媒中的各种数据资料。
2.3 统计数据的整理与显示
通过各种渠道搜集到统计数据之后,首先应对其进行加工整理,使之系统化、条理化,以符合分析的需要。整理可以大大简化数据,更容易理解和分析。
▪
▪
▪
▪
▪
▪
2.3.1品质数据的整理与显示
频数分布:把各个类别及其相应的频数全部列出来就是频数分布或次数分布(Frequency distribution)

条形图(Bar chart)用宽度相同的条形的高度或长短来表示数据变动的图形。


圆形图(Pie chart):也叫饼图
用圆形及圆内扇形面积来表示数值的大小。主要用于表示总体中各组成部分所占的比例。

2、定序数据的整理与显示
定类数据的整理和显示的内容都适用于定序数据。除此之外定序数据还可以计算累积频数和累积频率,图形显示用到累积频数分布图和环形图。
(1)累积频数(Cumulative frequencies):
将各类别的频数逐级累加起来。有两种方法:
向上累积:从类别顺序开始一方向最后一方累加频数;
向下累积:从类别顺序最后一方向开始一方累加频数
(2)累积频率或百分比(Cumulative percentages)
例2.2 在一项有关住房问题的研究中,研究人员在甲、乙两个城市各抽样调查300户家庭,其中的一个问题是:“您对您家庭目前的住房状况是否满意?”(1)非常不满意; (2)不满意; (3)一般;(4)满意;(5)非常满意。




2.3.2 数值型数据的整理与显示
一、数据的分组
数值型数据包括定距数据和定比数据,在整理时通常要进行分组。然后再计算出各组中出现的次数或频数。分组方法有单变量值分组和组距分组。
1、单变量值分组
把每一个变量值作为一组,它只适合于离散变量且变量值较少的情况。


2、组距分组
在连续变量或变量值较多的情况下,可采用组距分组。它将全部变量值依次分为若干个区间,并将这个区间的变量值作为一组。
下限(Low limit):一个组的最小值
上限(Upper limit):一个组的最大值
组距分组的步骤:
第一步:确定组数
组数过多过少都不合适。太少,数据分布过于集中;太多,数据分布过于分散。都不利于观察数据的分布情况。在实际应用中可按Strurges提出的经验公式来确定k,
k=1+lgn/lg2, n为数据个数。
如:n=50 , k=1+lg50/lg2=7
第二步:确定组距
组距是一个组的上限与下限之差。
组距=(最大值-最小值)/组数
上例中,组距=(139-107)/7=4.6,为便于计算组距取5。
第三步:根据分组整理成频数分布表

数值型数据的图示
(一)分组数据:直方图和折线图
直方图(Histogram):
用矩形的宽度和高度来表示频数分布的图形。
直方图与条形图的区别:
条形图的长度表示各类别的频数,宽度是固定的;直方图用面积表示各组频数的多少,高度表示每一组的频数或百分比,宽度表示各组的组距,高度和宽度都有意义。直方图通常是连续排列,而条形图是分开排列。
折线图: 频数多边形图(Frequency polygon)
把直方图顶部的中点用直线连接起来,在把原来的直方图抹掉,就是折线图。

(2)未分组数据:茎叶图和箱线图
茎叶图(Stem-and-leaf display) :可以对未分组的原始数据显示其分布特征。它既能给出数据的分布状况,又能给出每一个原始数值。茎叶图由“茎”和“叶”两部分构成,其图形是由数字组成的。从图中可以看出,分布是否对称,数据是否集中,是否有极端值等等。





箱线图(Boxplot)
箱线图是有一组数据的5个特征值绘制而成的,由一个箱子和两条线段组成。5个特征值分别是:
最大值(max)
最小值(min)
中位数(Me)
下四分位(QL)
上四分位(QU)

多变量数据:雷达图(radar chart)

频数分布的类型
❑\t正态分布
❑\t正偏态(右偏)分布
❑\t负偏态(左偏)分布
❑\t正J形分布
❑\t负J形分布
❑\tU形分布
第三章 数据分布特征的度量(测度)
3.1 集中趋势的测度
▪\t众数(Mode)
▪\t中数(Median)
▪\t平均数(均值)(Mean)
▪\t简单平均数(Simple mean)
▪\t加权平均数(Weighted mean)
▪\t调和平均数(Harmonic mean)
▪\t几何平均数(Geometric mean)
▪\t3.1.1 众数▪\t众数是一组数据中出现次数最多的变量值。用Mo表示。主要用于测度定类数据的集中趋势,也适用于定序、定距和定比数据的集中趋势的测度值。▪

(2)数值型数据(定距、定比)求众数
当数据未分组时,出现次数最多的变量之值为众数;
当数据经过分组整理后,众数的数值与其相邻的频数分布有一定关系。

3.1.2 中位数
一组数据中按从小到大排序后,处于中间位置上的变量值。它将全部数据分成两部分,每个部分各包含50%的数据。
中位数是一个位置代表值,它主要用于测度定序数据的集中趋势。也适用于数值型数据。但不适用于定类数据。
将全部数据排序后,如果项数是奇数,则正的那一项即为中位数;如果项数是偶数,则正的那两项的平均值即为中位数。
例 3.1 (1)32,42, 46,46,54,Me=46
(2)48,75,80,84,88,90,95,100,Me=(84+88/2=86
分位数(1)百分位数(Percentile):第m百分位是这样一个值,它使得至少有m%的数据小于或等于这个值,且至少有(100-m)%的数据项大于或等于这个值。
(2)四分位数(Quartile):将数据划分为4部分,每部分各占25%的数据项,这种划分的临界点即为四分位数。有三个四分位数分别为:QL,Me,QU
(3) 十分位数(Decile):将数据划分为10个部分,每部分占十分之一的数据项。其划分的临界点为十分位数。

计算第m百分位步骤:
第一步:从小到大排列原始数据;
第二步:计算指数i
i=(m/100)n, n为项数,m为所求的百分位的位置。
第三步:若i不是整数,将i向上取整;若i是整数,则第m百分位数是第i项与第(i+1)项数据的平均值。
例3.2 有12个职员薪金的数据,求第85和第50百分位数。
解:(1)将12个数据从小到达排序如下:
2210 2225 2350 2380 2380 2390 2420 2440 2450 2550 2630 2825
(2) i=(p/100)n=(85/100) 12=10.2
(3) 由于i=10.2不是整数, 向上取整,所以第85百分位数对应的是第11项, 其值为2630。
同理,计算第50百分位(中位数)。i=(50/100) 12=6,是整数,第50百分位数是第6项和第7项的平均值,即(2390+2420)/2=2405。
百分位数分数和百分等级分数
百分位分数:次数分布中对应于某个特定百分点的原始分数。第m个百分点就是这样一个点,次数分布中有m%的数据小于等于这个数,有(100-m)%的数据大于等于这个数。记为Pm
百分等级分数:次数分布中低于某个原始分数的次数百分比,用PR表示。百分位分数是先确定某个百分点m,然后去求相应的百分位分数Pm 。而求百分等级分数正好相反,事先知道次数分布中的一个原始分数,再求该分数在分布中所处的相对位置。



3.1.3 均值
均值(Mean)也称算术平均数(Arithmetic mean),是全部数据的算术平均.主要适用于定距数据和定比数据,但不适用于定类、定序数据。 1、简单平均(Simple mean):未分组的原始数据
设一组数据为X1,X2,•••,XN

算术平均值的优点:
•\t反应灵敏;
•\t确定严密;
•\t简明易解;
•\t计算简单;
•\t符合代数方法进一步演算;
•\t较少受抽样变动的影响;
算术平均数的缺点:
•\t易受极端值的影响;
•\t若出现模糊不清的数据是,无法计算算术平均数;
•\t适用算术平均数的条件要求:
•\t数据必须是同质的,即同一种测量工具所测量的某一特质;
•\t数据取值必须明确;
•\t数据离散不能太大。
•\t2、加权均值(Weighted mean):用于组距分组数据•\t 设原始数据被分成K组,各组的组中值分别为X1,X2,•••,XK,各组变量值出现的频数分别为F1,F2,•••,FK,则均值为:

3、调和平均数:定比数据
总量一定时,求平均值。如路程一定,速度不同,求平均速度。

4、几何平均数(Geometric mean):定比数据
N个变量值相乘积的N次方根。

3.1.4 众数、中数和均值的比较
1、众数、中数和均值的关系

如果分布是对称的,则众数、中数、平均值相等
如果分布是左偏的,则平均数<中数<众数
如果分布是右偏的,则众数<中数<平均数
2、众数、中数、均值的特点与应用场合
•\t众数是一组数据分布的峰值所对应的随机变量的值,它是一种位置代表值,不受极端值的影响。缺点是不具有唯一性。它主要用于定类数据的集中趋势度量;
•\t中位数是一组数据中间位置上的代表值,特点是不受数据极端值的影响。主要适合于定序数据的集中趋势的测度值;
•\t均值是对于数值型数据计算的,而且利用了全部数据信息,它具有良好的数学性质,应用比较广泛。缺点是易受极端数据的影响,对于偏态分布数据,均值代表性较差。当数据为偏态分布,特别是偏度较大时,应选择众数或中位数等位置代表值。
表3.2 数据的类型和所使用的集中趋势测度值

3.2 离中趋势(离散程度)的度量
数据离中趋势是表示数据分散程度的一组统计量,反映的是各变量值远离其中心值的程度。表示数据离中趋势的测度只有:
异众比率
四分位差
方差 ※
标准差 ※
极差
平均差
变异系数※(离散系数):相对离散程度
3.2.1 异众比率(Variation ratio)
异众比率是指非众数组的频数占总频数的比率,作用是衡量众数组对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;反之,异众比率越小,众数的代表性越好。 异众比率主要测度定类数据的离散程度,对其他数据类型也适用。

3.2.2 四分位差 四分位差(Quartile deviation)是上四分位数与下四分位数之差的一半,用QD表示,QD=(QU-QL)/2 四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;反之,越分散。四分位差的大小在一定程度上说明了中位数对一组数据的代表程度。 四分位差适用于测度定序数据的离散程度。
3.2.3 极差和平均差
1、极差(range)
也称全距,是一组数据的最大值与最小值之差。
R=max(Xi)-min(Xi)
2、平均差(Mean deviation)
也称平均离差,是各变量值与其均值离差绝对值的平均数,用MD表示。计算公式为:

3.2.4 方差(Variance)和 标准差(Standard deviation
方差是各变量值与其均值离差平方和的平均数,是测度定距、定比数据离散程度的最主要方法。
1、\t总体方差和标准差



例题
求测量值 (1) 3、7、2、1、8
(2) 13、17、12、11、18
方差、标准差

样本方差与总体方差的区别:
(1)在计算上,总体方差是用数据个数或总频数去除离差平方和,而样本方差则用样本数据个数或总频数减一去除离差平方和;
(2)样本方差是统计量,用S2表示;总体方差是总体参数,用2表示。
(3)当n很大时,S2与2相差很小,前者是后者的无偏估计。
3、方差与标准差的意义
方差与标准差是表示一组数据离散程度的最好的指标。其值越大,说明离散程度大,其值小说明数据比较集中。具有以下优点:
(1)反应灵敏。
(2)由计算公式严格确定;
(3)容易计算;
(4)适合代数运算;
(5)受抽样变动的影响小,既不同样本的标准差或方差比较稳定;
(6)简单明了;
(7)具有可加性。可以把总变异分解为不同来源的变异。
(8)各变量值对均值的方差小于对任意数的方差。即:
2 证明(8): 设X0为不等于X的任意数,D2为对X0的方差,则 例3.4 已知一组数据的均值为350,标准差位20,求该组数据对400的方差。 D2=202+(350-400)2=2900 4 3.2.4 标准化值(Standard score) 标准分数, Z分数. 标准分数可以给出各数值在一组数据中的相对位置。 例某班平均成绩为90分,标准差为3分,甲生得94.2分,乙生得.1分,求甲乙二学生的Z分数各是多少? 解:Z甲=(94.2-90)/3=1.4 Z乙=(.1-90)/3=-0.3 标准分数的平均值为0,标准差为1. Z分数的应用: (1)比较分属性质不同的观测值在各自数据分布中相对位置的高低. 如:某人 Z身高1.70=0.5, Z体重65=1.2, 则该人在某团体中身高稍偏高,而体重更偏重些. (2) 当已知各不同质的观测值的次数分布为正态时,可用Z分数求不同的观测值的总和或平均值,以表明在总体中的位置. 


因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- huatuo9.cn 版权所有 赣ICP备2023008801号-1
违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务