非参数统计第二次
习题二
将数据录入并存储为csv文件 d<- read.table(file.choose(),sep=\ d1<- d[,1] d2<- d[,2] d3<- d[,3]
#对乘机服务的满意度分析作描述性统计 a1=c(d1)
a11=cut(a1,breaks=seq(60,95,length=(max(a1)-min(a1))/5+1)) b1=table(a11)
c1=prop.table(table(a11)) x1=data.frame(b1,c1) y1=x1[-3] y1[3]=100*y1[3]
names(y1)=c(\"乘机服务\频数\频率\") y1
乘机服务频数频率 1 (60,65] 3 6 2 (65,70] 2 4 3 (70,75] 14 28 4 (75,80] 5 10
5 (80,85] 11 22 6 (85,90] 13 26 7 (90,95] 2 4
hist(a1,breaks=seq(60,95,length=(max(a1)-min(a1))/5+1),xlab=\"乘机服务评分\人数\乘机服务满意程度评分直方图\")#频数直方图
boxplot(a1,main=\"乘机服务评分箱线图\乘机服务评分\")#箱线图
描述性统计分析:从频率分布表来看,大多数乘客对乘机服务的评分在70分
以上,说明大体上人们对乘机服务还是满意的,其中有10人对其评分较低,说明在某些方面会让人产生不满情愫,还有改善的地方。打高分的人数占比也比较低,说明我们在这些程度还没有做到无可挑剔的程度观察直方图1-1,评分较多集中于(70,90),其中(70,75)分段人数最多,为14人。由箱线图1-2可得,该项打分没有异常值,且数据不对称。
#对机上服务的满意度分析作描述性统计 a2=c(d2)
a22=cut(a2,breaks=seq(20,90,length=(max(a2)-min(a2))/5+1)) b2=table(a22)
c2=prop.table(table(a22)) x2=data.frame(b2,c2) y2=x2[-3] y2[3]=100*y2[3]
names(y2)=c(\"机上服务\频数\频率\") y2
机上服务频数频率 1 (20,25.4] 1 2 2 (25.4,30.8] 2 4 3 (30.8,36.2] 2 4 4 (36.2,41.5] 4 8 5 (41.5,46.9] 4 8 6 (46.9,52.3] 9 18
7 (52.3,57.7] 8 16 8 (57.7,63.1] 9 18 9 (63.1,68.5] 3 6 10 (68.5,73.8] 2 4 11 (73.8,79.2] 3 6 12 (79.2,84.6] 1 2 13 (84.6,90] 2 4
hist(a2,breaks=seq(20,90,length=(max(a2)-min(a2))/5+1),xlab=\"机上服务评分\人数\机上服务满意程度评分直方图\")#频数直方图
boxplot(a2,main=\"机上服务评分箱线图\机上服务评分\")#箱线图
描述性统计分析:有频率分布表发现,机上服务的打分大多在(30,80)区间。由直方图不难发现,在(50,60)分段的人数最多,因此可认为旅客对机上服务满意程度不高。由箱线图1-4得,该项打分存在两个异常值,且数值较大,同时数据不对称。
#对到达机场服务的满意度分析作描述性统计 a3=c(d3)
a33=cut(a3,breaks=seq(15,95,length=(max(a3)-min(a3))/5+1)) b3=table(a33)
c3=prop.table(table(a33)) x3=data.frame(b3,c3) y3=x3[-3] y3[3]=100*y3[3]
names(y3)=c(\"到达机场服务\频数\频率\") y3
到达机场服务频数频率
1 (15,20] 1 2 2 (20,25] 1 2 3 (25,30] 1 2 4 (30,35] 0 0 5 (35,40] 3 6 6 (40,45] 3 6 7 (45,50] 3 6 8 (50,55] 10 20 9 (55,60] 4 8 10 (60,65] 7 14 11 (65,70] 7 14 12 (70,75] 4 8 13 (75,80] 2 4 14 (80,85] 1 2 15 (85,90] 1 2 16 (90,95] 2 4
hist(a3,breaks=seq(15,95,length=(max(a3)-min(a3))/5+1),xlab=\"到达机场服务评分\人数\到达机场服务满意程度评分直方图\")#频数直方图
boxplot(a3,main=\"到达机场服务评分箱线图\到达机场服务评分\")#箱线图
描述性统计分析:观察频率分布表,到达机场服务的打分多集中于(45,75)。
由直方图发现,评分在(45,55)区间人数最多,到达13人。有箱线图1-6得,该项打分存在两个较小的异常值,同样数据不对称。
#对三个方面服务的综合满意度分析作描述性统计 length_a=c(length(a1),length(a2),length(a3))#人数 mean_a=c(mean(a1),mean(a2),mean(a3))#均值
mean2_a=c(mean(a1,trim=0.02),mean(a2,trim=0.02),mean(a3,trim=0.02))#切
尾平均数
median_a=c(median(a1),median(a2),median(a3))#中位数
mode_a=c(names(which(table(a1)==max(table(a1)))),names(which(table(a2)==max(table(a2)))),names(which(table(a3)==max(table(a3)))))#众数 max_a=c(max(a1),max(a2),max(a3))#最大值 min_a=c(min(a1),min(a2),min(a3))#最小值 range_a=max_a-min_a#全距 sd_a=c(sd(a1),sd(a2),sd(a3))#标准差 var_a=c(var(a1),var(a2),var(a3))#方差
quantile1_a=c(quantile(a1,0.25),quantile(a2,0.25),quantile(a3,0.25))#下四分位数
quantile2_a=c(quantile(a1,0.75),quantile(a2,0.75),quantile(a3,0.75))#上四分位数
sm_a=c(sd(a1)/sqrt(length(a1)),sd(a1)/sqrt(length(a2)),sd(a1)/sqrt(length(a3)))#标准误
bs_a=c(skewness(a1),skewness(a2),skewness(a3))#偏度 bk_a=c(kurtosis(a1),kurtosis(a2),kurtosis(a3))#峰度
data_a=data.frame(length_a,mean_a,mean2_a,median_a,max_a,min_a,range_a,sd_a,var_a,quantile1_a,quantile2_a,sm_a,bs_a,bk_a) rest=t(data_a) rest
[,1] [,2] [,3]
length_a50.0000000 50.0000000 50.0000000 mean_a79.7800000 54.4600000 58.4600000
mean2_a 79.8125000 54.3333333 58.58333 median_a82.0000000 55.5000000 58.5000000 max_a95.0000000 90.0000000 92.0000000 min_a63.0000000 25.0000000 16.0000000 range_a32.0000000 65.0000000 76.0000000 sd_a8.3061079 14.7471339 16.0372144
var_a 68.9914286 217.4779592 257.1922449 quantile1_a 72.0000000 45.5000000 51.0000000 quantile2_a 86.7500000 60.0000000 67.7500000 sm_a 1.1746610 1.1746610 1.1746610 bs_a -0.1590548 0.2561272 -0.2622658 bk_a 1.9262078 2.9574148 3.2557238
观察上表,在乘机服务中,均值,中位数,众数的打分最高,打分全距小,较为集中,标准差为三者之内最小,故乘机服务的满意度没有太大波动,总体表现良好;在机上服务与到达机场服务方面,两者全距、方差较大,每个顾客对服务评价差别较大,均值,中位数,众数相比较较小,体现出这两项服务的不足。在偏度的分析方面,三者偏度绝对值与0相距不大,因此三者数据大致对称。在峰度分析上大体表现出乘机服务<机上服务<3<到达机场服务这一趋势,并且在到达机场服务为3.26,可初步认为乘机服务与机上服务的密度曲线两侧尾部较之正态分布较薄,而到达机场服务的密度曲线两侧尾部与正态分布厚度大致相同。
习题三
1(1)录入数据保存为CSV文件并读入到R中
d<- read.table(file.choose()) d1<- d[,1]
me0<- 6500#赋值给me0
n0<-sum(d1[]==me0)#求出数据中等于me0的数值个数 S<-sum(d1[]>me0)#求出数据中大于me0的数个数 n<- sum(table(d1))-n0#求出有效数据个数 p<- 0.5#给定p值
# H0:me0=6500 H1:me0<6500 P<- pbinom(S,n,p,1) P
得到P=0.02662596
P值过小,拒绝原假设,即me0<6500
(2)计算样本数据的中位数
d<- read.table(file.choose()) d1<- d[,1]
median_d1=median(d1)#计算样本数据的中位数 median_d1
得到中位数为6200,故月收入中位数的点估计为6200元 用minitab作中位数的区间估计
导入数据到minitab,并且做非参数单样本的中位数置信区间检验
得到:
中位数的符号置信区间
取得的置信区间
N 中位数置信度下限上限位置
C1 40 6200 0.9193 5800 00 15 0.9500 5800 59 非线性插值 0.9615 5800 6500 14
故样本95%的置信水平的区间估计为[5800,59]
2由题意知:
S+=40, n=70
H0:me=6500 H1:me≠6500
2P{S+≥40}=2*(1-pbinom(39,70,0.5,1))
计算得,2P=0.2819722,接受原假设,即中位数为6500