您好,欢迎来到化拓教育网。
搜索
您的当前位置:首页2012年数学建模国赛A题优秀论文1

2012年数学建模国赛A题优秀论文1

来源:化拓教育网
2012高教社杯全国大学生数学建模竞赛

承 诺 书

我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.

我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。

我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。

我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。

我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。

我们参赛选择的题号是(从A/B/C/D中选择一项填写): A

(隐去论文作者相关信息)

日期: 2012 年 9 月 10 日 赛区评阅编号(由赛区组委会评阅前进行编号):

2012高教社杯全国大学生数学建模竞赛

编 号 专 用 页

评 阅 人 评 分 备 注 赛区评阅编号(由赛区组委会评阅前进行编号):

赛区评阅记录(可供赛区评阅时使用):

全国统一编号(由赛区组委会送交全国前编号):

全国评阅编号(由全国组委会评阅前进行编号):

葡萄酒质量的评价

摘 要

葡萄酒质量的好坏主要依赖于评酒员的感观评价,由于人为主观因素的影响,对于酒质量的评价总会存在随机差异,为此找到一种简单有效的客观方法来评酒,就显得尤为重要了。本文通过研究酿酒葡萄的好坏与所酿葡萄酒的质量的关系,以及葡萄酒和酿酒葡萄检测的理化指标的关系,以及葡萄酒理化指标与葡萄酒质量的关系,旨在通过客观数据建立数学模型,用客观有效的方法来评价葡萄酒质量。

首先,采用双因子可重复方差分析方法,对红、白葡萄酒评分结果分别进行检验,利用Matlab软件得到样品酒各个分析结果,结合01数据分析,发现对于红葡酒有

对于白葡萄酒只有53%的评价结果存在显著性差异。70.3%的评价结果存在显著性差异,

通过比较可知,两组评酒员对红葡萄酒的评分结果更具有显著性差异,而对于白葡萄酒的评分,评价差异性较为不明显。为了评价两组结果的可信度,借助Alpha模型用克伦系数衡量,并结合F检验,得出红葡萄酒第一组评酒员的评价结果可信度更高,而对白葡萄酒的品尝评分,第二组评酒员的评价结果可信度更高。综合来看,主观因素对葡萄酒质量的评价具有不确定性。

结合已分析出的两组品酒师可靠性结果,对葡萄酒的理化指标进行加权平均,最终得出十位品酒师对样品酒的综合评价得分。将每一样品酒的综合得分与其所对应酿酒葡萄的理化指标(一级指标)共同构成一个数据矩阵,采用聚类分析法,利用SPSS软件对葡萄酒样进行分类,根据分类的结果以及各葡萄样品酒综合得分最终将酿酒葡萄分为A(优质)、B(良好)、C(中等)、D(差)四个等级,客观地反映了酿酒葡萄的理化指标与葡萄酒质量之间的联系。

为了分析酿酒葡萄与葡萄酒理化指标之间的联系,采用相关分析法,能有效地反映出两者间的联系,取与葡萄各成分相关性显著的葡萄酒理化指标,与葡萄成分做多元线性回归得出葡萄酒理化指标与酿酒葡萄的拟合方程,从而反映酿酒葡萄与葡萄酒理化指标之间的联系。

由于已经通过回归分析建立了酿酒葡萄和葡萄酒理化指标之间的关系,因此从酿酒葡萄成分对葡萄酒的理化指标的影响,再研究出葡萄酒理化指标与葡萄酒质量的联系,便可作为一个桥梁,反映出葡萄与葡萄酒理化指标对葡萄酒的质量的作用。研究葡萄酒理化指标与葡萄酒质量的联系,需要运用变量间的相关性及Pearson系数法分析葡萄酒的理化指标与葡萄酒质量评价指标的相关性,通过比较选出与葡萄酒评价的一级指标相关性程度大的葡萄酒成分,进行回归分析法,建立酿酒葡萄的理化指标与葡萄酒质量之间的拟合方程,结合各个质量一级指标的权重,从而完成了从葡萄酒成分对葡萄酒质量的客观评价。综合计算结果,与酿酒葡萄分级的结果吻合,所以分析结果较客观。

关键词:葡萄酒 双重多因素分析 01数据分析 Alpha模型 聚类分析及欧式距离

相关性分析 多元回归 Pearson系数法

1

1. 问题重述

葡萄酒的感官质量是评价葡萄酒质量优劣的重要标志。确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量,可辅助感官检查。附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。试建立数学模型求解下列问题:

1. 分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信? 2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。 3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。 4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?

2

2. 问题分析

酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量,本题要求通过酿酒葡萄的理性指标和酿酒师给予的评分,综合考虑酿酒葡萄的理性指标与葡萄酒的质量的关系。 问题一:

要求对两组评酒员评价结果有无差异性进行分析,并分析得出哪一组的品酒员的结果更具有可信。

通过绘制每个样品酒的均值评分差异图,对每个样品酒的两组评酒员在各个指标的均值进行比较,发现对于红葡萄的评价,两组评酒员还是存在着显著性的差异的,而对于白葡萄酒的评价,两组评酒员的差异性并不是很明显,列举部分红、白葡萄酒评分差异图如下:

均值。

图表 1红葡萄酒样品12差异图(左边),系列1为第二组品酒员打分均值,系列2为第一组品酒员打分图表 2红葡萄酒样品15差异图(右边),横坐标为10个指标变量,包括澄清度、色调、香气纯正度、香气浓度、香气质量、口感纯正度、口感浓度、口感质量以及整体评价。

针对两组评酒员在大量差异图中表现出来对红、白葡萄酒的评价存在差异,对红、白葡萄酒进行分开地显著性检验。

第一步,利用每个样品酒都具有两组评酒员的评价结果,对两组结果进行双因子可重复方差分析,得出题中给出的27种葡萄样品酒各个分析结果。比较27个显著性检验的结果,若具有显著性差异的样品酒占总样品酒的比例高于,有足够的把握认定两组评酒员的评价结果具有显著性差异。

第二步,对两组评酒员给予红、白葡萄酒的打分进行可信性分析,将红、白葡萄酒分别进行可信度分析,比较两组评酒员对不同种类葡萄酒的评价是否具有各自的优势。

在进行双因子多重分析和可信性分析之前,需要对原先数据进行如下处理:

3

1.对于附件1给出的数据,先将两组品酒员的评价结果按着样品酒进行统一划分,每一样品酒对应着两种评价结果。将每一样品酒的评价结果组成评价矩阵,矩阵以葡萄酒的评价指标为列项,共10列,以每个评酒员作为横向量,共20行。

2.针对红葡萄酒样品20评酒员4号对色调的评分缺失,利用同组评酒员对红葡萄酒样品20色调评分的平均值作为4号评酒员的评分值。

做可信度分析时,将两组的27种酒样品评价结果组成两组评价总矩阵,以葡萄酒的评价指标为列项,共10列,以每个评酒员作为横向量,共270行,分别用SPSS19.0对两组矩阵进行信度分析,目的是对量表的可靠性与有效性进行检验,判断出哪一组可信度更高。

问题二:

问题二要求对酿酒葡萄进行分级,酿酒葡萄的成分直接影响葡萄酒的质量,选取优质营养成分高的酿酒葡萄酿酒,保证了葡萄酒的营养价值和保健价值。但是葡萄酒质量优劣,不单单从营养成分和养身价值上考虑,一瓶优质的葡萄酒,还得具备着可观赏性,纯正的口感、芬芳的酒香等优点,而这些优点,都得由评酒员来给出评价。

所以,对酿酒葡萄进行分级,不单单从葡萄的成分上考虑,还得结合最终酿成的葡萄酒质量综合考虑。因此将酿酒葡萄的各成分与评价员给予所酿成的葡萄酒的质量打分综合起来,进行聚类分析,将酿酒葡萄依据综合指数进行分类,结合聚类分析的结果以及综合指标的分数将葡萄划分等级。依据:

在进行据聚类分析之前,需要对原始数据进行预先处理

1. 分别计算附件一中评酒员各项评分指标的权重并加和,最后求取10位评酒员的权重平均值作为葡萄酒样品的综合评价指标。

2. 用酿酒葡萄各项理化指标(多次测得的取平均值)以及酒样的综合指标形成一个31列28行的原始资料阵,并用SPSS 的Z标准化将数据标准化。

问题三:

酿酒葡萄和葡萄酒的理化指标都很多,为了找出它们之间的联系,首先将葡萄的成分与葡萄酒的理性指标列成一个大矩阵,分析葡萄成分与葡萄酒理想指标的相关性,找出它们之间相关性大的指标,与葡萄成分做多元线性回归得出葡萄酒理化指标与酿酒葡萄的拟合方程,从而反映酿酒葡萄与葡萄酒理化指标之间的联系。

1. 酿酒葡萄的成分和葡萄酒的理化指标列成一个大矩阵。

2. 通过SPSS软件做相关性分析,选取与葡萄酒理化指标相关性程度大的葡萄酒成分n个指标,建立拟合方程。

问题四:

酿酒葡萄的理化指标并不能直接与葡萄酒的质量建立联系,由于在问题3中已经通过相关性分析建立了酿酒葡萄和葡萄酒理化指标之间的关系,因此我们分析葡萄酒的理化指标与葡萄酒质量的相关性,计算相关性系数,通过比较选出系数高的即与葡萄酒质量指标相关性程度大的葡萄酒成分,进而用回归分析法建立酿酒葡萄的理化指标与葡萄酒质量之间的关系。

1.附表一中列出了十位品酒员对葡萄酒外观、香气和口感分析三者的数据,用Matlab7.6.0b,分别对四项指标求27(28)种红(白)葡萄酒样品权重平均值作为葡萄酒质量的评价指标。

2. 通过SPSS软件作因子分析分析两者之间的相关性,选取与葡萄酒质量指标相关性程度大的葡萄酒成分n个指标,建立拟合方程。

4

3. 符号说明

*  SST SSA 显著性水平 置信度 误差平方和 行组间误差 列组间误差 组内误差 克伦系数 明考斯基距离 欧式距离 SSB SSE  dij dij2

4. 模型假设

(1) 假设数据来源真实有效 (2) 假设各变量的相差微小,各坐标对欧式距离的贡献是同等的且变差大小相同,欧

氏距离效果理想。

(3) 假设酿酒工艺条件相同,无其他人为因素影响

(4)CronbachAlpha0.35为低信度,0.35CronbachAlpha0.7则尚可,若

CronbachAlpha0.7则属于高信度。假设组一与组二评分分别处于不同信度区间,可

信度差异明显。

5

5. 建模过程

5.1. 问题一的建模与求解 模型建立:

利用双因素可重复方差分析结合0-1分析检验两组评酒员的评价结果有无显著性差异

1.双因子可重复方差分析的统计模型1。假设在两因子方差分析中,因子A共有r个水平,记作A1,A2,...,Ar,每个水平下,进行t次试验,因子B共有k个水平。一个典型的双因子方差分析的数据结构如下表所示。

表格 1 双因子可重复方差分析的数据结构

因子A B1 x11 B2 x12因子B … Bk x1k A1 … … xt1 … xt2 … … xtk … Ar… x11 … x12 … x1k … … xt1 … xt2 …… … xtk xtk为因子A的某个水平下第t试验所得结果,Ai表示因子A的第i个水平,

i1,2,...,r。第j列数据为因子B的第j个水平下所考察的变量取值,每一列为一个总

体,j=1,2,…,k。所以一个两因子方差分析的数据结构表里,共有rtk个总体,在本题中,r2,k10,t10。下表给出因子B所对应的各个指标:

B 指标 B1 外观澄清度 B2 外观色调 B3 香气纯正度 B4 香气浓度 B5 香气质量 B6 口感纯正度 B7 口感浓度 B8 口感持久性 B9 口感质量 B10 整体得分 给出双因子可重复方差分析的原假设和备择假设:

H01:两组评酒员的评价结果不存在差异.H02:两组评酒员的评价结果存在着差异.

6

H11:各个指标对评价结果不存在影响.H12:各个指标对评价结果存在影响.

当原假设H01为真时,说明两组评酒员的评价结果不存在显著性差异,反之称两组评酒员的评价结果存在着显著性影响因素。当原假设H11为真时,说明选取的各个指标对评价结果没有显著性影响,在本题中,显然原假设H11是不成立的,后续的检验将证明这点。

2.两因子方差分析的方差分解。

(1)误差平方和。每一个观察值xij与总平均值x之间的离差平方和称为误差平方和,记作SST

SST=xijx

i1j1rk

2其中xxij/rkt,称为总均值。

i1j1rk(2)行组间误差。双因子误差平方和分解的第一部分,称为行组间误差,记作SSA

SSA=kxi.x

i1r2(3)列组间误差。双因子误差平方和分解的第二部分,称为列组间误差,记作SSB

SSB=rx.jx

j1k2(4)组内误差。双因子误差平方和分解的第三部分,称为组内误差,记作SSE

SSE=xijxi.x.jxi1j1rk2

行组间误差衡量的是行因子不同水平之间的差异,列组间误差衡量的是列因子不同水平之间的差异。它们的误差值中既包含随即误差也包含了因子影响的系统误差。所以判断行(列)因子是否有显著性影响,主要考察行(列)组间误差和组内误差之间的差异大小。如果行(列)组间误差和组内误差很接近,就认为行(列)因子无显著性影响。反之,认为行(列)因子有显著性影响。 两因子方差分析的检验统计量。

SST2n1 2其中nrkt。

根据单因素方差分析推导,有行组间误差服从自由度为r1的2分布

7

SSA22r1

列组间误差服从自由度为k1的2分布

SSB22k1

剩余的列组服从自由度为rktrk1的2分布

SSE22rktrk1

则两因素方差分析的检验统计量为如下两个: (1) 行检验统计量。

MSAFAFr1,rktrk1

MSE(2) 列检验统计量。

MSBFBFk1,rktrk1

MSE双因子可重复方差分析的结果判定

当显著性水平为时,如果 FAF1r1,rktrk1,拒绝H01,说明两组评酒员的评价结果存在显著性差异;等价的P值检验是,当PA值<时,拒绝原假设H01;综合来讲,当FAF1r1,rktrk1,或PA值< 时,拒绝原假设H01。 0-1数据分析

在给定*0.05条件下,对于有m个样品酒来说(红葡萄酒m27,白葡萄酒m28),定义函数:

1Yi0其中pi为每个样品酒的PA值。 给定置信度:

pi0.05pi0.05i1,2,...,m (1)

Yim (2)

对m个样品酒的双因子可重复方差检验后,得出值,则认为在置信水平下,两组评酒员的评价结果存在着显著性差异。

Alpha模型进行可靠性分析

克伦系数:测度内部一致性的一个指标, 与皮尔逊r系数都是一样的范

8

围在0—1 之间,如果为负值则表明表中某些项目的内容是其他一些项目的反面;越接近于1,则量表中项目的内部一致性越是高,可信度越大。根据量表中的项目数k和各项之间的相关系数r计算得出

kr

1(k1)r当量表中项目k增加时,值也会增大;同时,项目之间的相关系数r较高时,也会比较大。这里的r是指各项与其他各项之和计算相关系数的平均值。 模型求解:

双因子可重复方差分析模型检验

利用Matlab7.6.0的anova21函数对已经预处理的数据进行双因子可重复方差分析,可以得到每个样品酒的检验结果,列举两个检验结果如下所示:

提取每个样品酒的Rows所对应p值,然后结合公式(1)、公式(2)进行0-1分析,得到红、白葡萄酒的各个样品酒的pi如下:

图表 3模型检验结果

红葡萄酒pi值以及Yi值,得到0.703 pi 0.171 0.00001 0.00040 0.00212 0.16314 0.00138 0.00486 0.00334 0.02476 0.00000 0.00002 0.00011 0.379 0.21870 0 1 1 1 0 1 1 1 1 1 1 1 0 0 Yi pi 0.00046 0.80100 0.00021 0.514 0.17544 1.00000 0.00002 0.04686 0.01131 0.00017 0.00086 0.00112 0.00045 1 0 1 0 0 0 白葡萄酒1 1 1 1 1 1 1 Yi pi值以及Yi值,得到0.535 pi 0.00103 0.00001 0.10777 0.31115 0.50613 0.01060 0.34940 0.67936 0.00329 0.00460 0.00008 0.08585 0.00011 0.20310 1 1 0 0 0 1 0 0 1 1 1 0 1 0 Yi pi 0.01714 0.03333 0.01381 0.19476 0.00339 0.44078 0.00034 0.00005 0.68334 0.46710 0.00031 0.16632 0.138 0.00001 1 1 1 0 1 0 1 1 0 0 1 0 0 1 Yi 模型结果分析

分析图标3的结果,可以知道,对于红葡萄酒来说,对27个葡萄酒样品评分检验中,有70.3%的评价结果中,两组评酒员的评价结果存在着显著性差异(置信水平

9

为95%)。对于白葡萄酒的28个葡萄样品评分的检验,只有53%的评价结果中,两组评酒员的评价结果存在显著性检验(置信水平为95%)。这样的结果,符合之前问题分析中,各个组队样品酒的评分均值差异图。即:两组评酒员对红葡萄的评分结果更具有显著性差异,而对于白葡萄酒的评分,两组评酒员的评价差异性较不明显。

Alpha模型的可靠性分析

1. 利用SPSS19.0进行可靠性统计量对红葡萄酒的两组品酒员评分的分析

第一组红葡萄酒案例处理汇总 案例 有效 已排除 总计 第一组红葡萄酒可靠性统计量

项数 10 第二组红葡萄酒可靠性统计量

% 99.3 .7 100.0 案例 第二组红葡萄酒案例处理汇总 有效 已排除 总计 N 268 2 270 N 270 0 270 % 100.0 .0 100.0 Cronbach's Alpha .874 基于标准化项的 Cronbach's Alpha .750 基于标准化项的 Cronbachs Alpha .906 Cronbachs Alpha .786 项数 10 若将某一项目从量表中剔除,则量表的平均得分、方差(每个项目得分与剩余各项目得分间的相关系数、以该项目为自变量所有其他项目为应变量建立回归方程的R2值以及Cronbach值将会改变。有表知第一组数据中剔除了两项,1增加到0.874,第一组评酒员红葡萄酒的Cronbach10.874Cronbach20.750,组2尚有35%的内容未曾涉及,故信度不高。

表格 2第一组红葡萄酒

人员之间 人员内部 项之间 残差 总计 总均值 = 7.31 类内相关性 .409b .874c 平方和 4947.218 31938.494 5623.506 37562.000 42509.218 df 267 均方 18.529 3548.722 2.340 15.573 15.868 F Sig 9 2403 2412 2679 1516.417 .000 单个测量 平均测量 95% 置信区间 下限 .362 .850 上限 .460 .5 值 7.918 7.918 使用真值 0 的 F 检验 df1 df2 267 267 2403 2403 Sig .000 .000 10

表格 3第二组红葡萄酒

人员之间 人员内部 项之间 残差 总计 总均值 = 7.05 平方和 1232.544 34017.040 2778.260 36795.300 38027.844 df 269 均方 4.582 3779.671 1.148 15.142 14.090 F Sig 3293.639 .000 9 2421 2430 2699 单个测量 平均测量 类内相关性 .230 .750 95% 置信区间 下限 .191 .703 上限 .276 .792 值 3.993 3.993 使用真值 0 的 F 检验 df1 df2 269 269 2421 2421 Sig .000 .000 分析比较两者的F检验表明, F1=516.417p2均小于0.01,表示两组该量表的重复度量效果良好。综合分析结果表明,组一的评

酒员可信度更高。

(2)可靠性统计量对白葡萄酒的两组品酒员评分进行分析

同样利用SPSS可靠性分析,建立Alpha模型对白葡萄酒的品酒员评分数据进行检

验,发现不同种类的酒,因其酿造,成分的不同,品酒员对葡萄口感,质量的分析评价上有差异,得出第一组品酒员白葡萄酒的Cronbach10.763Cronbach20.838

S17.43S27.63、F11270.361F241.463,组2的显著性更强,p1、p2均小于

0.01 表示两组该量表的重复度量效果良好。综合分析结果表明,白葡萄酒组二的品酒员可信度更高。

5.2. 问题二的建模与求解 模型建立:聚类分析及欧式距离

对样品和指标(变量)进行分类主要采用聚类分析法,而求取样品以及类之间的

2距离有多种方法,其中主要使用欧式距离和最短距离法。

(1) 数据标准化

由于所选数据的量纲和数值大小都不一致,数值的变化范围也不同,因此必须首先对所选数据进行标准化处理,如果有n个样本,个样本有m个指标,则每个变量可表示为xij,

11

均值

1nxjxij

ni1标准方差

21nsjxxijij

n1i1则标准化后

*xijxijxjsjsj0

(2)聚类

距离:对样品进行聚类时,“靠近”往往由某种距离来刻画。若每个样品有p个指标,故每个样品可以看成p维空间中的一个点, n个样品就组成p维空间中的n个点,样品与指标构成一个矩阵,此时就可以用距离来度量样品之间的接近程度。

令xij表示第i个样品的第j个指标, dij表示第i个样品与第j个样品之间的距离,最常见最直观的计算距离的方法是:

明考斯基距离(Minkowski)

qpdijxikxjkk11/q

当q1时,

dij1xikxjk 即为绝对距离

k1p当q2时,

2pdij2xikxjk 即为欧氏距离

k11/2当q时

dijmax|xikxjk| 称为切比雪夫距离。

1kp当各变量的测量值相差悬殊时,为了计算的准确性,需先将数据标准化,然后用标

准化后的数据进行计算。

系统聚类;,将n个样品各自看成一类,然后规定样品之间的距离和类与类之间的距离。开始,因每个样品自成一类,类与类之间的距离与样品之间的距离是相等的,选择距离最小的一对并成一个新类,计算新类与其他类的距离,再将距离最近的两类合并,这样每次少一类,直至所有的样品都成一类为止,最终完成养分的分类。计算类与类之

12

间的距离主要有: (1)最短距离法:

设Gp、Gq、Gr分别为一类,则最短距离的计算公式为:

Dk(p,q)min{djljGp,lGq}

此时将类Gp与类Gq合并为类Gr,则任意的类Gk和Gr的距离公式为

2DkrXiGk,XjGrmindijmin{XiGk,XjGpmindij,XiGk,XjGqmindij}min{Dkp,Dkq}

依次下去,最终完成对样品的分类。

(2)最长距离法

Dk(p,q)max{djljGp,lGq}

将类Gp与类Gq合并为类Gr,则任意的类Gk和Gr的距离公式为

2DkrXiGk,XjGrmaxdijmax{maxXiGk,XjGpdij,XiGk,XjGqmaxdij}max{Dkp,Dkq}

(3)类平均法

GG(p,q)1LKiGpjGqdij

将类Gp与类Gq合并为类Gr,则任意的类Gk和Gr的距离公式为

1Dnknr2krnp2nq2122d(dijdij)DkpDkq nknrXiGkXjGpnrnrXiGkXjGrXiGkXjGp2ij(4)重心法

Dc(p,q)dXqXq

将类Gp与类Gq合并为类Gr,则任意的类Gk和Gr的距离公式为

D2krnpnrD2kpnqnrD2kqnpnqn2r2Dpq,

模型求解:根据欧式距离对酿酒葡萄分类

(1)对红葡萄酒进行分类

将附件中的组一评酒员评价标准,算出各项所占权重并加和,最终求得十位品酒员对每个葡萄酒样品的平均值,作为27种酒样品的综合评价指标,并用葡萄酒的综合指标以及酿酒葡萄的理化指标形成一个31列28行的原始资料阵,将其数据标准化,通过spss进行聚类分析,得到酒样品的八个类别,并列出每个酒样品所对应的综合指标,得出下表以及聚类分析树状图

13

图表3:不同来源红葡萄酒聚类分析

表格 4 葡萄酒的分类与综合评价指标

第一类 酒样品 综合评价指标 酒样品 第二类 综合评价指标 第三类 酒样品 综合评价指标 酒样品 综合评价指标 酒样品 酒样品 综合评价指标 酒样品 综合评价指标 酒样品 综合评价指标 12 6.984 13 9.395 17 9.901 25 8.571 8 9.003 1 7.79 3 10.074 10 9.204 11 8.662 21 9.669 18 7.623 19 9.753 24 9.706 14 9.204 2 10.201 6 8.985 4 8.45 5 9.071 9 10.138 7 8.7 16 9.348 20 9.817 15 7.309 27 9.135 26 9.139 23 10.716 22 9.529 第四类 第五类 第六类 第七类 第八类 观察表中数据,不难发现红葡萄酒样品1、10、11、25单独化为一类,而不与综合指标相近的酒品类为一组,根据这四种葡萄酒的理化指标以及酿酒葡萄的成分对综合指标相近的组类进行分析比较,得出酒品1的花色苷含量高达408.028 mg/100g鲜重,单宁22.019 mol/kg、总酚23.604、总黄酮9.480mmol/kg、顺式白藜芦醇3.195mg/kg均高

14

于第一类酒样品理化指标的数据。红葡萄酒样品10、11、花色苷含量较低,白藜芦醇含量较高,样品25氨基酸含量较低,果穗质量含量较高,均与指标相近的类别的理化指标数据有较大差异。据资料[3][4]分析得,新酒主要以花色苷为主色调,陈酒种单宁起主导作用。有单宁存在,花色苷将减少。氨基酸的含量与人体血液中的氨基酸有着密切联系,与脯氨酸成负相关,但与缬氨酸成正相关。这些含量的高低会影响葡萄酒口感、色泽、纯正度,从而评酒员对酒的分数存在差异。因此,聚类分析结果在对各项理化指标进行数据处理时,达不到组间距离。

结合综合指标的高低以及聚类分析的结果,以及每一种酿酒葡萄所对应的红葡萄酒样品,将酿酒葡萄分为A、B、C、D。分别代表优质、良好、中等、差四个等级:如下表

表格 5 酿酒葡萄(红)的等级划分

A 葡萄样品 综合评价指标 葡萄样品 B 综合评价指标 C 葡萄样品 综合评价指标 葡萄样品 综合评价指标 3 10.074 13 9.395 17 9.901 25 8.571 12 6.984 21 9.669 19 9.753 24 9.706 8 9.003 18 7.623 2 10.201 4 8.45 5 9.071 14 9.204 6 8.985 9 10.138 16 9.348 20 9.817 11 8.662 7 8.7 23 10.716 27 9.135 26 9.139 10 9.204 15 7.309 1 7.79 22 9.529

D (1)对酿酒葡萄(白)进行分类 由问题一知,第二组评酒员对白葡萄酒评价可信度更高,用聚类分析的欧式距离可

分出不同组类,根据综合指标的高低划分出A、B、C、D(分别代表优质、良好、中等、差)四个等级:其中葡萄样品3*氨基酸总量5022.14mg/100g、酒石酸11.790g/L、不含柠檬酸、葡萄25*花色苷含量较低、葡萄27*褐变度、黄酮醇含量均远远高于同组水平、因此这3种酿酒葡萄的理化指标与其综合指标相近的组类有一定的差异而达不到组间距离,单独分为一组。

表格 6 酿酒葡萄(白)的等级划分

A 葡萄样品 综合指标 葡萄样品 综合指标 葡萄样品 C 综合指标 D 葡萄样品 综合指标 葡萄样品 综合指标 17 10.148 6 9.492 5 10.236 23 9.599 8 9.025 22 9.915 18 9.682 20 9.582 26 9.299 11 8.942 7 9.237 9 10.02 2 9.503 19 9.604 15

15 9.802 28 9.957 12 9.092 25* 27* 1 9.785 14 9.65 24 9.591 3* 13 9.331 21 9.971

B 9.554 4 9.695 10 10.058 16 8.503 10.02 9.3 5.3. 问题三的建模与求解 模型建立

相关性分析

相关分析是描述两个变量间关系的密切程度,主要由相关系数值表示,当相关系数r的绝对值越接近于1,则表示两个变量间的相关性越显著。双变量系数测量的主要指标有卡方类测量、Spearman相关系数、pearson相关系数等,由于酿酒葡萄和葡萄酒的数据为定距数据,则在进行两者间的相关性检验时用pearson相关系数来判断,其公式为:

r(xx)(yy)(xx)(yy)ii2ii2

Pearson简单相关系数检验统计量为:

trn21r2 其中t统计量服从n2个自由度的t分布。

回归分析

多元回归分析是研究多个变量之间关系的回归分析方法,确定变量之间数量的可能形式,并用数学模型表示如下:

Y0iXii1k

其中

0为截距项,

i为偏回归系数,为残差项。

多元回归方程及其显著性检验

建立模型,要对模型进行拟合度检验,回归方程的显著性检验就是检验样本回归方程的变量的线性关系是否显著,即能否根据样本来推断总体回归方程中的多个回归系数中至少有一个不等于0,主要是说明样本回归方程r的显著性。检验的方法用方差分析,这时因变量Y的总体变异系本分解为回归平方和与误差平方和,即表示为:

LyyQU2

1NLyy(yiy)yi(yi)2

ni1i1i122NN其中

16

ˆ Qyiyi1NN2ˆiy)2 U(yi1此外可以用F检验对整个回归进行显著性检验,即Y与所考虑的k个变量自变量是否有

显著性线性关系,即公式为:

FU/k

Q/(nk1)检验的时候分别与F的临界值进行比较,若FF0.01k,nk1,认为回归高度显著 或称在0.01水平上显著;

F0.05k,nk1FF0.01k,nk1。认为回归在0.05水平上显著; F0.1k,nk1FF0.05k,nk1则称回归在0.01水平上显著。

若FF0.1k,nk1,则回归不显著,此时Y与这k个自变量的线性关系就不确切。

表格 7 多元线性回归方差分析表

变差来源 回归 平方和 自由度 均方 Fit UkS2 ˆtyUyt1NNblt122Nk iiyUk S2Qnk1 剩余 ˆQytyt1NlyyUnk1 总和 lyyytyt12n1

模型求解

葡萄酒的花色苷与酿酒葡萄个别指标的相关性 Correlations 花色苷 苹果酸 褐变度 DPPH自由基 总酚 单宁 葡萄总黄酮 黄酮醇 果梗比 J1 17

花色苷 Pearson Correlation Sig. (2-tailed) N 1 .633** .696** .655** .728** .688** .000 27 .052 .795 27 .295 .135 .000 27 .193 .334 27 .361 .0 27 .000 27 .235 .237 27 .473* .013 27 .566** .002 27 .052 .797 27 .236 .237 27 .836** .000 27 .5** .000 27 .688** .000 .352 .071 27 .056 .782 27 .477* .923** .012 27 .000 27 27 .633** .000 27 .000 27 .000 27 苹果酸 Pearson Correlation Sig. (2-tailed) N 1 .4** .000 27 27 1 .230 .693** .249 27 .000 27 褐变度 Pearson Correlation Sig. (2-tailed) N .696** .4** .000 27 .655** .000 27 .728** .000 27 .688** .000 27 .566** .002 27 .352 .071 27 .477* .012 27 .000 27 .052 .795 27 .193 .334 27 .235 .237 27 .052 .797 27 .056 .782 27 .421* .498** .767** .029 27 .008 27 .000 27 27 .295 .135 27 .361 .0 27 .473* .013 27 .236 .237 27 .421* .029 27 27 DPPH自由基 Pearson Correlation Sig. (2-tailed) N 1 .857** .5** .000 27 .857** .000 27 27 27 .000 27 .428* .501** .567** .026 27 .346 .077 27 .385* .047 27 .263 .186 .008 27 .002 27 总酚 Pearson Correlation Sig. (2-tailed) N 1 .755** .000 27 1 .391* .613** .044 27 .001 27 单宁 Pearson Correlation Sig. (2-tailed) N .5** .755** .000 27 .000 27 .350 .661** .074 27 .269 .175 27 .000 27 .441* .021 27 .408* .035 27 27 27 1 葡萄总黄Pearson 酮 Correlation Sig. (2-tailed) N 黄酮醇 Pearson Correlation Sig. (2-tailed) N 果梗比 Pearson Correlation Sig. (2-tailed) N .836** .5** .688** .000 27 .428* .026 27 .501** .008 27 .000 27 .346 .077 27 .391* .044 27 .000 27 .385* .047 27 .350 .074 27 27 .263 .186 27 27 1 .633** .000 27 27 .230 .498** .249 27 .008 27 .269 .633** .175 27 .000 27 1 .502** .008 27 27 18

花色苷 Pearson Correlation Sig. (2-tailed) N .923** .693** .767** .000 27 .000 27 .000 27 .567** .613** .661** .002 27 .001 27 .000 27 .441* .009 27 .408* .502** .035 27 .008 27 1 27 **. Correlation is significant at the 0.01 level (2-tailed). *. Correlation is significant at the 0.05 level (2-tailed). 由表可知,以上各个变量与葡萄酒中的花色苷的p都小于0.01,则可认为在0.01的显著性水平下,以上各个变量与葡萄酒中的花色苷都显著相关,可做回归分析观察葡萄酒中的花色苷与酿酒葡萄中的果梗比, 苹果酸, 葡萄总黄酮, 多酚氧化酶活力, 黄酮醇, 单宁, 褐变度, DPPH自由基, 花色苷, 总酚,输出结果如下: Model Summaryb Model 1 R .956a R Square .913 Adjusted R Square .859 Std. Error of the Estimate 86.42450 Durbin-Watson 2.063 a. Predictors: (Constant), 果梗比, 苹果酸, 葡萄总黄酮, 多酚氧化酶活力, 黄酮醇, 单宁, 褐变度, DPPH自由基, 花色苷, 总酚 b. Dependent Variable: J1 又表可知调整的判定系数为0.859,可认为方程的拟合性比较高,即被解释变量被模型解释的部分较多,为能解释的部分较少。 ANOVAb Model Regression 1 Residual Total Sum of Squares 1256309.167 119507.118 1375816.285 df 10 16 26 Mean Square 125630.917 7469.195 F 16.820 Sig. .000a a. Predictors: (Constant), 果梗比, 苹果酸, 葡萄总黄酮, 多酚氧化酶活力, 黄酮醇, 单宁, 褐变度, DPPH自由基, 花色苷, 总酚 b. Dependent Variable: J1 一依据该表可进行回归方程的显著性检验,由表我们可以知道F检验统计量和P值分别为16.820、0,在0.01的显著性水平下,由于概率P值小于显著性水平0.01,则拒绝原假设,认为被解释变量个解释变量间存在显著的线性关系,可建立线性回归模型。由此在对方程中个系数进行检验,结果如下:

多元线性回归模型的求解

根据相关性的分析,葡萄酒中的花色苷与酿酒葡萄中的果梗比, 苹果酸, 葡萄总黄酮, 多酚氧化酶活力, 黄酮醇, 单宁, 褐变度, DPPH自由基, 花色苷, 总酚中相关性较大的几项,用SPSS 分析多元线性回归,得出线性关系的拟合方程。

19

输入/移去的变量b 模型 1 输入的变量 总酚, 多酚氧化酶活力, 苹果酸, 果梗比, 黄酮醇, DPPH自由基, 褐变度, 花色苷, 单宁, 葡萄总黄酮 2 . 多酚氧化酶活力 向后(准则: F-to-remove >= .100 的概率)。 3 . 褐变度 向后(准则: F-to-remove >= .100 的概率)。 4 . 花色苷 向后(准则: F-to-remove >= .100 的概率)。 5 . 黄酮醇 向后(准则: F-to-remove >= .100 的概率)。 移去的变量 . 输入 方法 表格 8 葡萄酒花色苷与葡萄理化指标的多元线性回归输入/移出变量 由于当P<0.01时,因变量与变量之间的相关性显著,结合向后推移法,剔除了 多酚氧化酶活力、褐变度、花色苷、黄酮醇、筛选出最吻合的变量。

系数a 非标准化系数 模型 5 (常量) 果梗比 苹果酸 葡萄总黄酮 单宁 DPPH自由基 总酚 0.13 0.32 0.068 -6.6 0 0. 0.72 0.71 0.68 0.4 0.32 22.7 -10.9 0 0 B 6.234 -1 -1.67 3 标准 误差 0 0.13 0.65 0.38 标准系数 试用版 t 10.3 -4.701E+13 Sig. 0 0 0 0 -0.005 -0.017 -1.0759E+14 1.014 4.04267E+15 表格9葡萄酒花色苷与葡萄理化指标的多元线性回归变量筛选结果及系数

20

模型汇总 模型 1 2 3 4 5 R .874 .874 .860 .845 .825 R 方 .0 .829 .778 .755 .715 调整 R 方 .579 .513 .491 .467 .449 标准 估计的误差 .3580 .3494 .3203 .3118 .3080 表格 10葡萄酒花色苷与葡萄理化指标的多元线性回归R方及标准估计的误差

根据R方值的大小,可判断出多元线性回归方程的契合度,观察模型后退5次得到R方值与标准估计的误差,R2 =0.715,可知方程的吻合性较高。最后得到葡萄酒花色苷与葡萄理化指标的线性回归方程为

yx11.670x23x30.0x40.720x50.130x66.234(其中x1、x2、

x3、f1(xi)分别代表葡萄果梗比、苹果酸、葡萄总黄酮、单宁、DPPH自由基、总酚含量、

葡萄酒花色苷)

以上方程可代表,每1单位的果梗比、苹果酸、葡萄总黄酮、单宁、DPPH自由基、总酚含量的变化所引起葡萄酒花色苷的变化。从而反映了酿酒葡萄与葡萄酒理化指标的联系。

5.4. 问题四的建模与求解 模型建立

首先,寻求如何应用葡萄酒的理化指标对葡萄酒质量进行综合评价,然后结合问题三中,酿酒葡萄与葡萄酒之间的联系,我们便可以从酿酒葡萄的理化指标进行对葡萄酒质量的客观评价。

(1) 变量间的相关性及Pearson系数法。

一般|r|>0.95,存在显著性相关;|r|<0.3关系极弱,认为不相关。0.5≤|r|≤0.8中度相关、0.3≤|r|≤0.5认为低度相关。

Pearson系数法:对定距变量的数据进行计算。公式为

r(xx)(yy)iii1n(xx)(yy)2iii1i1nn

2(其中r为相关系数;x、y分别是变量x、y的均值;xi、yi分别是变量x、y的

21

第i个观测值)

使用SPSS19.0,对葡萄酒的理化指标之间相似或不相似测量,进行距离相关分析以考察相互接近程度。

首先设fk,其中k1,2,3,4.,分别为外观、香气、口感和整体评价的评价指标综合得分函数,令xi、xj、xm分别表示为葡萄酒的理化指标,通过SPSS 19.0作分析两者之间的相关性,选取相关性较大的n个指标(2≤n≤10)作为fk(xi)的相关性指标

xi,xj,xm........

建立回归方程如下:

f1f2f3f2fxi,xj,xm........fxk,xp,xz........fxi,xp,xl.........fxi,xj,xm........

(2) 多元线性回归模型的建立

若因变量Y与解释变量X1,X2,X3,X4……具有线性关系,它们之间的线性回归模型

可表示为:

Y=b0b1X1+b2X2++bkXk+

其中为随机扰动项观测值。对于第i个观测值:

Y=b0b1X1i+b2X2i++bkXki+i1,2n

即:

Y11Y12Yn1也即:YXb

假定:

x11x12x1nx21x22x2nbxk101b1xk2b2 2xknnbk22

Ei0VariEi2u2Covi,j0Covxj,i0i1,2,n,ni1,2n

i≠j,i,j=1,2j1,2,k~N0,u2Jn

(3) 拟合方程的显著性检验

方差分析表: 离差名称 回归 残差 总离差

平方和 RSS ESS TSS 自由度 K n-k-1 n-1 均方差 RSS/k (kESS/n-k-1 个解释变量) 检验:与解释变量x1,x2,1.

xk之间的线性关系是否显著。

H0:b1b2H1:bi不全为0bk0i1,2,,k

2.

RSSk~Fk,nk1ESSnk1 R2k或Fk:解释变量个数21-Rnk1F3. 查表得: Fk,nk1 4. 若 F>F,拒绝H0,回归方程显著 F(4) 建立葡萄酒理化指标与葡萄酒质量之间的关系

通过评价指标知道,外观、香气、口感和整体评价在整个葡萄酒的评价中所占权重是不同的,各个权重定义为:1、2、3、4,我们定义葡萄酒的总评分值F的函

数为:

F1f12f23f34f4

23

通过对F的比较,我们便可以客观地从一种葡萄酒的含量来判断葡萄酒的质量了。由问题三,我们已经知道,酿酒葡萄与葡萄酒的理化指标之间存在着联系。于是,我们通过酿酒葡萄与葡萄酒的联系,然后通过对葡萄酒成分进行F评分,就得到了酿酒葡萄与葡萄质量之间的联系了。

模型求解

变量间的相关性及Pearson系数法的求解

首先,“近似矩阵”表格给出的是各变量之间的相似矩阵,图中以线框标注了相关系数较大的几对变量。分析外观与红葡萄酒成分的相关性得到

图表 5外观分析与红葡萄酒理化指标的相关系矩阵

从上表可以看出外观分析与花色苷、单宁、总酚、总黄酮、白藜芦醇、DPPH半抑制体积、L*(D65)、a*(D65)、H平均、C平均含量相关系较大,与其余的成分相关性很弱。

图表 6香气分析与葡萄酒理化指标的相关系矩阵

24

从香气分析与红葡萄酒理化指标的相关系分析,得出与单宁、总酚、总黄酮、白藜芦醇 、DPPH半抑制体积 、L*(D65)相关性较为显著。

图表 7口感分析与葡萄酒理化指标的相关系矩阵

同样可以发现,口感分析与单宁、总酚、总黄酮、白藜芦醇、DPPH半抑制体积、b*(D65)、H平均有相关性。

图表 8平衡及整体评价与红葡萄酒理化指标的相关系矩阵

平衡及整体评价与单宁、总酚、总黄酮、白梨芦醇、DPPH半抑制体积、b*(D65)、H平均、C平均相关。

多元线性回归模型的求解 根据相关性的分析,得出外观分析与红葡萄酒理化指标相关性较大的几项,用SPSS

25

分析多元线性回归,得出方程的线性关系。 输入/移去的变量 模型 输入的变量 C平均, L*(D65), H平均, 白藜芦醇(mg/kg), 总黄酮1 (mmol/kg), 单宁(mmol/kg), 花色苷, 总酚(mmol/kg), DPPH半抑制体积, a*(D65) 2 3 4 5 6 7 . . . . . . b. 因变量: 外观分析. DPPH半抑制体积 向后(准则: F-to-remove >= .100 的概率)。 单宁(mmol/kg) 总酚(mmol/kg) a*(D65) C平均 向后(准则: F-to-remove >= .100 的概率)。 向后(准则: F-to-remove >= .100 的概率)。 向后(准则: F-to-remove >= .100 的概率)。 向后(准则: F-to-remove >= .100 的概率)。 . 输入 移去的变量 方法 b总黄酮(mmol/kg) 向后(准则: F-to-remove >= .100 的概率)。 表格 11外观分析与葡萄酒理化指标的多元线性回归输入/移出变量 由于当P<0.01时,因变量与变量之间的相关性显著,结合向后推移法,剔除了单宁、

总酚、总黄酮、DPPH半抑制体积、a*(D65)、H平均、C平均,筛选出最吻合的变量。

系数a 模型 (常量) 花色苷 白藜芦醇(mg/kg) L*(D65) 非标准化系数 B 6.442 -0.001 0.237 -0.031 标准 误差 0.663 0.001 0.158 0.009 标准系数 试用版 t 9.719 -1.548 1.497 -3.236 Sig. 0 0.010 0.009 0.004 -0.377 0.218 -0.83 表格 12外观分析与红葡萄酒理化指标的多元线性回归变量筛选结果及系数

模型汇总 模型 7 R .794 R 方 .630 调整 R 方 .563 标准 估计的误差 .5197 表格 13外观分析与红葡萄酒理化指标的多元线性回归R方及标准估计的误差

根据R方值的大小,可判断出多元线性回归方程的契合度,观察模型后退7次得到R方值与标准估计的误差, R2 =0.630,可知方程的吻合性较高。最后得到外观分析与红葡萄红酒理化指标的线性回归方程为

f1(xi)0.001x10.237x20.031x36.442(其中x1、x2、x3、

f1(xi)分别代表花色苷、白藜芦醇(mg/kg)、L*(D65)的含量、外观综合评分)

同样对香气分析与红葡萄酒理化指标的相关性进行多元回归分析,剔除了总酚、DPPH

26

半抑制体积 、L*(D65)筛选出相关性最吻合的变量如下表所示。

系数

非标准化系数 标准系数

模型 B 标准 误差 试用版 t

(常量) 4.798 .284 16.888

单宁.045 .062 .217 .728

(mmol/kg)

总黄酮.043 .062 .214 .695

(mmol/kg)

白藜芦醇.279 .148 .335 1.882

(mg/kg)

Anovaf 模型 1 回归 残差 总计 2 回归 残差 总计 3 回归 残差 总计 4 回归 残差 总计 5 回归 残差 总计 平方和 3.766 5.673 9.439 3.754 5.685 9.439 3.724 5.715 9.439 3.662 5.777 9.439 3.540 5.8 9.439 df 6 20 26 5 21 26 4 22 26 3 23 26 2 24 26 均方 .628 .284 F Sig. .000 .004 .001 .003 表格14香气分析与红葡萄酒理化指标的多元线性回归变量筛选结果及系数

Sig. .085 2.213 2.773 .045 .751 .271 3.583 .021 .931 .260 4.859 .009 1.221 .251 7.202 .004 1.770 .246 表格15香气分析与红葡萄酒理化指标的多元线性回归方差 结合方差的处理结果以及所筛选出来的变量,我们可得出香气分析与红葡萄酒理化指标的线性回归方程为

f2(xi)0.045x10.043x20.279x34.798(其中x1、x2、x3、f2(xi)分别代表单宁、总黄酮(mmol/kg)、白藜芦醇(mg/kg)的含量、香气分析综合评分)

同理,对口感与红葡萄酒理化指标进行多元回归分析,剔除了b*(D65)筛选

出相关性最吻合的变量如下表所示。

27

模型 (常量) 单宁(mmol/kg) 总酚(mmol/kg) 总黄酮(mmol/kg) 白藜芦醇(mg/kg) H平均 -.298 .084 -.470 -3.552 .002 .748 .198 .603 3.774 .001 .253 .092 .840 2.744 .010 -.545 .171 -1.534 -3.185 .004 B 10.633 .246 系数a 非标准化系数 标准 误差 .440 .110 标准系数 试用版 t 24.149 2.240 Sig. .000 .006 .797 表格 16口感分析与红葡萄酒理化指标的多元线性回归变量筛选结果及系数 根据R方值的大小,可判断出多元线性回归方程的契合度,观察模型后退3次得到R方值与标准估计的误差,R2=0.4,可知方程的吻合性较高。最后得到口感分析与葡

模型汇总 模型 1 2 3 R .813 .810 .803 R方 .661 .656 .4 调整R 方 .536 .553 .559 标准 估计的误差 .6111253 .5995965 .5955063 表格 17口感分析与红葡萄酒理化指标的多元线性回归R方及标准估计的误差

红萄酒理化指标的线性回归方程为

f3(xi)0.246x10.545x20.253x30.748x40.298x510.633

(其中x1、x2、x3、x4、x5、f3(xi)分别代表单宁、总酚、总黄酮(mmol/kg)、白藜芦醇(mg/kg)、H平均的含量、口感分析综合评分)

对平衡及整体评价与红葡萄酒理化指标进行多元回归分析,白藜芦、DPPH半抑制体积 、b*(D65)。筛选出相关性最吻合的变量如下表所示

系数a

非标准化系数 标准系数

模型 B 标准 误差 试用版 t Sig.

(常量) 7.616 .386 19.710 .000

总黄酮(mmol/kg) .078 .025 .456 3.133 .005

H平均 -.1 .051 -.456 -3.225 .004

C平均 .021 .006 .528 3.626 .001

表格18平衡及整体评价与红葡萄酒理化指标的多元线性回归变量筛选结果及系数

根据R方值的大小,可判断出多元线性回归方程的契合度,观察模型后退4次得到

R方值与标准估计的误差, R2=0.655,可知方程的吻合性较高。

28

模型汇总 模型 1 2 3 4 R R方 .800 .799 .678 .655 调整 R方 .479 .503 .501 .497 标准 估计的误差 .3680 .3594 .3603 .3618 .774 .774 .760 .745 表格 19平衡及整体评价与葡萄酒理化指标的多元线性回归R方及标准估计误差

最后得到平衡及整体评价与红葡萄酒理化指标的方程

f4(xi)0.078x10.1x20.21x37.616

(其中x1、x2、x3、f4(xi)分别代表总黄酮(mmol/kg)、H平均、C平均的含量、平衡及整体评价综合评分)

(3)fk在红葡萄酒指标中占的百分比分别为1、2、3、4,从数据中可知,百分比依次为:

(1,2,3,4)(15%,30%,44%,11%)

则建立如下方程

F1f1(xi)2f2(xi)3f3(xi)4f4(xi)

综合结果得 F0.15f1(xi)0.3f2(xi)0.44f3(xi)0.11f4(xi)

综合问题三和问题四的结果,我们可以看出葡萄酒的花色苷与酿酒葡萄的各项成

分指标具有相关性,并存在线性回归方程,酿酒葡萄某一成分的含量的增加或较少都会引起葡萄酒花色苷含量的变化,即酿酒葡萄对葡萄酒的理化指标具有一定联系,而葡萄酒的理化指标与葡萄酒质量(外观、香气、口感、平衡及整体)综合评分同样具有相关性,并存在线性回归方程,即葡萄酒的理化指标与葡萄酒质量具有一定的联系,综合以上两点,葡萄酒的理化指标以及酿酒葡萄的理化指标,共同影响葡萄酒质量的好坏。

29

6. 模型的综合评价

模型的优点

在于将评价葡萄酒质量评价的各个指标影响因素都考虑在内,给各个指标赋以权重,综合考虑这些指标对葡萄酒质量的影响。在显著性和可靠性分析中,充分考虑了各个指标对葡萄酒质量的影响,选取了符合题意的双因素多重方差分析和信度检验方法,可知模型是合理有效的。在对酿酒葡萄进行分级中,合理借用分析软件做聚类分析,将性质相似的成分聚为一类,简化变量,是处理数据的有效手段,再采用主成分分析法,找出影响葡萄酒质量的主要类别因素,进而根据聚类分析中使用最广泛的欧式距离对酿酒葡萄进行分级,使模型具有很好的适度性。在分析酿酒葡萄与葡萄酒的理化指标之间的联系时,采用了相关性分析法和多元线性回归,很有效地建立了两者间的联系。 模型的缺点

是在酿酒葡萄分级中,欧氏距离与各变量的量纲有关,没有考虑指标间的相关性,也没有考虑各变量方差的不同。

在寻求葡萄酒理化指标和葡萄酒的外观分析、香气分析、口感分析以及整体评价的函数关系,回归只用了线性回归,分析过程中,依然得知其若干相关性很强的指标不具有线性相关。 模型的改进

针对问题三酿酒葡萄与葡萄酒联系的研究,可以使用双重筛选逐步回归分析,其结果会更好。对于葡萄酒理化指标和葡萄的外观分析、香气分析、口感分析以及整体评价做回归分析,应尝试多种非线性回归分析进行比较,选择回归程度最好的一种。 模型的推广

本文所涉及的模型主要建立在多元统计分析上,适用于统计量庞大,多变量对因变量、多变量对多变量的问题解答。

30

7. 参考文献

[1] 肖宇谷,《数学》,北京:中国财经经济出版社,2010年 [2] 于秀林 任雪松,《多元统计分析》,北京:中国统计出版社,1999年 [3] 柴菊花,《昌黎产区7个单品种干红葡萄酒氨基酸分析》,《中国酿造》,2010年 [4] 孙沛杰 孙立颖,《葡萄中单宁对生产葡萄酒的影响》,《酿酒》,1998年

[5] 李运 李记明 姜忠军,《统计分析在葡萄酒质量评价中的应用》,《酿酒科技》,

2009年 [6] 李记明,《关于葡萄品质的评价指标》,《中外葡萄与葡萄酒》,1999年 [7] 李记明 李华,《葡萄酒成分分析与质量研究》,《食品与发酵工业》,1994年 [8] 马腾 赵丽 李军,《2008年份昌黎原产地葡萄酒理化特性的统计分析》,《河北科技

师范学院学报》,2012年 [9] 许凤华 李述山 张英,《基于双重筛选的多因变量偏最小二乘逐步回归法》,《统计

与决策》,2008年

31

8. 附录

附录1:Matlab程序方差分析

%*********以下程序是对各个红葡萄酒样品进行双因子可重复方差分析*******%

X=input('请输入红葡萄酒预处理过的数据矩阵') % 预处理过数据在附件中。 X=input('') p1=ones(27,3); for i=1:27

h_g=20*i-19; B=X(h_g:(20*i),:);

p=anova2(B,10); %利用anova2函数进行方差分析 p1(i,:)=p; end

p1; %每个样品酒3个检验结果的P值,共27组

dd=p1(:,2) %导出每个样品酒在行检验P值 pp=zeros(1,27) for i=1:27 if dd(i)<0.05 pp(i)=1 else end end

sum(pp) %求出Yi值的总和

%*********以下程序是对各个红葡萄酒样品进行双因子可重复方差分析*******%

X=input('请输入白葡萄酒预处理过的数据矩阵') p2=ones(28,3); for i=1:28

h_g=20*i-19; B=Y(h_g:(20*i),:);

p=anova2(B,10); %利用anova2函数进行方差分析 p2(i,:)=p; end

p2; %每个样品酒3个检验结果的P值,共28组

dd=p1(:,2) %导出白葡萄酒每个样品酒在行检验P值 pp=zeros(1,28)

32

for i=1:28 if dd(i)<0.05 pp(i)=1 else end end

sum(pp) %求出白葡萄酒Yi值的总和

附录2:Matlab程序

以下程序求解各个葡萄酒的4项综合评分 X=input('请输入预处理过的数据矩阵') pj=zeros(28,4) for i=1:28

t=zeros(1,4) h_g=20*i-19; B=XX(h_g:(20*i),:);

B1=B(:,1:2) %构建可观性评价矩阵 B11=B1(:,1)*5/15+B1(:,2)*10/15

t(1,1)=mean(B11) %得到可观性评价综合分数 B2=B(:,2:5)

B22=B2(:,1)*6/30+B2(:,2)*8/30+B2(:,3)*16/30 %得到香气评价综合分数 t(1,2)=mean(B22) B3=B(:,6:9)

B33=B3(:,1)*6/44+B3(:,2)*8/44+B3(:,3)*8/44+B3(:,4)*22/44 %得到口感评价综合分数

t(1,3)=mean(B33) B4=B(:,10)

t(1,4)=mean(B4)

pj(i,:)=t %指标变量的4项综合评分 end

33

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo9.cn 版权所有 赣ICP备2023008801号-1

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务