试验2 描述统计
一、试验目的与要求
统计分析的目的在于研究总体特征。但是,由于各种各样的原因,我们能够得到的往往只能是从总体中随机抽取的一部分观察对象,他们构成了样本,只有通过对样本的研究,我们才能对总体的实际情况作出可能的推断。因此描述性统计分析是统计分析的第一步,做好这一步是进行正确统计推断的先决条件。通过描述性统计分析可以大致了解数据的分布类型和特点、数据分布的集中趋势和离散程度,或对数据进行初步的探索性分析(包括检查数据是否有错误,对数据分布特征和规律进行初步观察)。
本本试验旨在于:引到学生利用正确的统计方法对数据进行适当的整理和显示,描述并探索出数据内在的数量规律性,掌握统计思想,培养学生学习统计学的兴趣,为继续学习推断统计方法及应用各种统计方法解决实际问题打下必要而坚实的基础。
二、试验原理
描述统计是统计分析的基础,它包括数据的收集、整理、显示,对数据中有用信息的提取和分析,通常用一些描述统计量来进行分析。
集中趋势的特征值:算术平均数、调和平均数、几何平均数、众数、中位数等。其中均数适用于正态分布和对称分布资料,中位数适用于所有分布类型的资料。
离散趋势的特征值:全距、内距、平均差、方差、标准差、标准误、离散系数等。其中标准差、方差适用于正态分布资料,标准误实际上反映了样本均数的波动程度。
分布特征值:偏态系数、峰度系数、他们反映了数据偏离正态分布的程度。
三、试验内容与步骤
下面给出的一个例题是来自SPSS软件自带的数据文件“Employee.data”,该文件包含某公司员工的工资、工龄、职业等变量,我们将利用此例题给出相关的描述统计说明,本例中,我们将以员工的当前工资为例,计算该公司员工当前工资的一些描述统计量,如均值、频数、方差等描述统计量的计算。 1.频数分析(Frequencies)1
基本统计分析往往从频数分析开始。通过频数分析能够了解变量取值的状况,对把握数据的分布特征是非常有用的。比如,在某项调查中,想要知道被调
1
频数分析多适用于离散变量,其功能是描述离散变量的分布特征。
查者的性别分布状况。频数分析的第一个基本任务是编制频数分布表。SPSS中的频数分布表包括的内容有:
(1)频数(Frequency)即变量值落在某个区间中的次数。 (2)百分比(Percent)即各频数占总样本数的百分比。
(3)有效百分比(Valid Percent)即各频数占有效样本数的百分比。这里有效样本数=总样本-缺失样本数。
(4)累计百分比(Cumulative Percent)即各百分比逐级累加起来的结果。最终取值为百分之百。
频数分析的第二个基本任务是绘制统计图。统计图是一种最为直接的数据刻画方式,能够非常清晰直观地展示变量的取值状况。频数分析中常用的统计图包括:条形图,饼图,直方图等。 频数分析的应用步骤
在SPSS中的频数分析的实现步骤如下:
选择菜单“【文件】—>【打开】—>【数据】”在对话框中找到需要分析的数据文件“SPSS/Employee data”,然后选择“打开”。
选择菜单“【分析】—>【描述统计】—>【频率】”。如图2.1所示
询问是否输出频数分布表
图2.1 Frequencies对话框
确定所要分析的变量,例如 年龄
在变量选择确定之后,在同一窗口上,点击“Statistics”按钮,打开统计量对话框,如下图2.2所示,选择统计输出选项。
图2.2 统计量子对话框
图2.3 Charts子对话框
结果输出与分析
点击Frequencies 对话框中的“OK”按钮,即得到下面的结果。
表2.4 描述性统计量
Statistics
Gender
N Valid Missing 474 0 表2.4中给出了总样本量(N),其中变量Gender的有效个数(Valid)为474个、缺失值(missing)为0。
表2.5 Gender频数分布表
Valid Valid Female Male Total Frequency 216 258 474 Percent 45.6 54.4 100.0 Percent 45.6 54.4 100.0 Cumulative Percent 45.6 100.0 表2.5中,Frequency是频数,Percent是按总样本量为分母计算的百分比,Valid Percent是以有效样本量为分母计算的百分比,Cumulative Percent是累计百分比。
图2.5变量Gender的条形图,图2.6变量Gender的饼图。
Gender300Frequency250200150100500FemaleMaleGender图2.5 变量gender的条形图
GenderFemaleMale 图2.6 变量gender的饼图
2.描述统计(Descriptives)2
SPSS的【描述】命令专门用于计算各种描述统计性统计量。本节利用某年国内上市公司的财务数据来介绍描述统计量在SPSS中的计算方法。具体操作步骤如下:
2
描述统计主要对定距型或定比型数据的分布特征作具体分析。
选择菜单【分析】→【描述统计】→【描述】,如图2.7所示
图2.7 描述 对话框
将待分析的变量移入Variables列表框,例如将每股收益率、净资产收益率、资产负债率等2个变量进行描述性统计,以观察上市公司股权集中度情况和负债比率的高低。
Save standardized values as variables,对所选择的每个变量进行标准化处理,产生相应的Z分值,作为新变量保存在数据窗口中。其变量名为相应变量名前加前缀z。标准化计算公式:
xixs
单击【选项】按钮,如图2.8 所示,选择需要计算的描述统计量。各描述统
Zi计量同Frequencies命令中的Statistics子对话框中大部分相同,这里不再重复。
图2.8 选项 子对话框
在主对话框中单击ok执行操作。 结果输出与分析
在结果输出窗口中给出了所选变量的相应描述统计,如表2.6所示。从表中可以看到,我国上市公司前两大股东持股比例之比平均高达102.9,说明“一股独大”的现象比较严重;前五大股东持股比例之和平均为51.8%,资产负债率平均为46.78%。
另外,从偏态和峰度指标看出,前两大股东持股比例之比的分布呈现比较明显的右偏,而且比较尖峭。为了验证这一结论,可以利用Frequencies命令画出变量z的直方图,如图2.9
表2.6 描述统计量表 Descriptive Statistics
Skewnes N Mean Std. s Std. 前两大股东持股比例之比 前五大股东持股比例Statistic 315 315 Statistic 102.865 Statistic 199.199746 Statistic 4.168 .602 Error .137 .137 Statistic 22.404 -.318 Kurtosis Std. Error .274 .274 .51836 .1496003 的平方和 资产负债率 Valid N (listwise)
315 315 .4677 .16773 -.165 .137 -.414 .274 Histogram150Frequency1209060300-2.000000.000002.000004.000006.00000Mean = -1.42247338.00000E-16Std. Dev. = 1.0000...Zscore: 前两大股东持股比例之比图2.9 变量Z的直方图
3.探索分析(Explore)
调用此过程可对变量进行更为深入详尽的描述性统计分析,故称之为探索分析。它在一般描述性统计指标的基础上,增加有关数据其他特征的文字与图形描述,显得更加细致与全面,对数据分析更进一步。
探索分析一般通过数据文件在分组与不分组的情况下获得常用统计量和图形。一般以图形方式输出,直观帮助研究者确定奇异值、影响点、还可以进行假设检验,以及确定研究者要使用的某种统计方式是否合适。
在打开的数据文件上,选择如下命令:选择菜单“【分析】—>【描述统计】—>【探索】”,打开对话框。
因变量列表;待分析的变量名称,例如将每股收益率作为研究变量。 因子列表:从源变量框中选择一个或多个变量进入因子列表,分组变量可以将数据按照该观察值进行分组分析。
标准个案:在源变量表中指定一个变量作为观察值的标识变量。 在输出栏中,选择两者都,表示输出图形及描述统计量。 选择【统计量】按钮,选择想要计算的描述统计量。如图所示
对所要计算的变量的频数分布及其统计量值作图 打开“Plots对话框”,出现如下图。
结果的输出与说明
(1)Case Processing Summary 表
在Case Processing Summary 表中可以看出female 有216个个体,Male258个个体,均无缺失值。
(2)Descriptives 表
Current Salary
Gender Female
Mean
95% Confidence
Lower Bound
Interval for Mean Upper Bound 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range
Interquartile Range Skewness Kurtosis
Male
Mean
95% Confidence
Lower Bound
Statistic $26,031.92 $25,018.29 $27,045.55 $25,248.30 $24,300.00 57123688.2
68
$7,558.021 $15,750 $58,125 $42,375 $7,013 1.863 4.1 $41,441.78 $39,051.19 $43,832.37 $39,445.87 $32,850.00 380219336.
303
Std. Deviation Minimum Maximum Range
Interquartile Range Skewness Kurtosis
$19,499.214
$19,650 $135,000 $115,350 $22,675 1.639 2.780
Std. Error $514.258
.166 .330 $1,213.96
8 .152 .302
Descriptives
Interval for Mean Upper Bound 5% Trimmed Mean Median Variance
(3)职位员工薪水直方图显示
Histogramfor gender= Female4030Frequency20100$20,000$30,000$40,000$50,000Mean = $26,031.92Std. Dev. = $7,558.021N = 216$60,000Current Salary (4)茎叶图描述
茎叶图自左向右可以分为3 大部分:频数(Frequency)、茎(Stem)和叶(Leaf)。茎表示数值的整数部分,叶表示数值的小数部分。每行的茎和每个叶组成的数字相加再乘以茎宽(Stem Width),即茎叶所表示的实际数值的近似值。 Current Salary Stem-and-Leaf Plot for gender= Female
Frequency Stem & Leaf
2.00 1 . 55
16.00 1 . 6666666666777777 14.00 1 . 8899999999
31.00 2 . 0000000000000111111111111111111 35.00 2 . 22222222222222222222233333333333333 38.00 2 . 44444444444444444444444444555555555555 22.00 2 . 6666666666677777777777 17.00 2 . 8888999999999 7.00 3 . 0001111 8.00 3 . 22233333
8.00 3 . 44444555 5.00 3 . 66777 2.00 3 . 88
11.00 Extremes (>=40800)
Stem width: 10000 Each leaf: 1 case(s)
(5)箱图
$140,00029$120,00032343$100,00018446Current Salary$80,00010345410634431$60,000$40,00034837146824016841380242277134$20,000$0FemaleMaleGender 图中灰色区域的方箱为箱图的主体,上中下3 条线分别表示变量值的第75、50、25百分位数,因此变量的50%观察值落在这一区域中。
方箱中的中心粗线为中位数。箱图中的触须线是中间的纵向直线,上端截至线为变量的最大值,下端截至线为变量的最小值。
四、备择试验
完成下列试验内容,并按试验(1)所附试验报告的格式撰写报告。
1.表2.7为某班级16位学生的身高数据,对其进行频数分析,并对实验报告作出说明。
表2.7 某班16位学生的身高数据 学号 性别 身高(cm) 学号 性别 身高(cm) 1 2 3 4 5 6 7 8 M F F M F F M F 170 173 169 155 174 178 156 171 9 10 11 12 13 14 15 16 M M F M F M F F 150 157 177 160 169 154 172 180 2.测量18台电脑笔记重量,见表2.8,对其进行描述统计量分析,并对试验结果作出说明。
表2.8 18台笔记本电脑重量表 序号 重量 序号 重量 1 1.75 10 1.66 2 1.92 11 1.80 3 1.59 12 1.83 4 1.85 13 2.05 5 1.83 14 1.91 6 1.68 15 1.76 7 1. 16 1.88 8 1.70 17 1.83 9 1.79 18 1.79