葡萄酒的评价
摘要
葡萄酒十分讲究葡萄的品相和化学成分,葡萄和葡萄酒的理化指标是否对葡
萄酒的质量有影响是一个很重要的研究课题。本文利用题目给出的数据和搜集的
相关资料,建立了独立样本 检验模型,隶属度函数模糊统计,层次聚类模型,
神经网络和主成分分析模型,分析了酿酒葡萄的理化指标和葡萄酒的质量之间的
关系,回答了题目提出的所有问题。
针对问题一,本文分别对外观、香气、口感、平衡整体以及总得分五个方面
采用独立样本 检验模型进行了显著性差异分析,利用 spss 软件对题目提供的附
件一中的数据进行计算处理,分析判定两组评酒员对葡萄酒的评价结果是否存在
显著性差异,计算结果详见第 7 页表 4。然后采用模糊综合统计法对两组评酒员
给出的总评分结果进行分析,通过对隶属度值大小的分析比较,发现无论是对白
葡萄酒还是对红葡萄酒的评价,第二组评酒师的评价结果的可信度均优于第一
组。
针对问题二,本文采用基于距离的层次聚类模型,根据酿酒葡萄指标的相似
度,可将其分为五或六类;然后用单因素方差分析的方法讨论酿酒葡萄被分为五
类和六类时的组内各样品以及组与组之间的的显著性差异,从而选取组内差异小
而组外差异大的六类。在第一问中已经确定了第二组评酒员的评分更加可靠,能
够真实地反映葡萄酒的质量,我们将第二组评分数据作为衡量葡萄酒质量的标
准,从而进行酿酒葡萄优劣分级。
针对问题三,本文首先以红、白酿酒葡萄的理化指标作为神经网络输入层,
葡萄酒的各项理化指标作为神经网络输出层,建立神经网络。利用 BP 学习算法
对此神经网络进行训练,得到输入层、中间层与输出层之间的权值、阈值,进而
推出输入层与输出层之间的关系:
。其中 Z 为葡萄酒理化指标,X 为
酿酒葡萄理化指标,矩阵 A、B 如附录一与附录二所示。
针对问题四,本文首先对酿酒葡萄与葡萄酒理化指标进行主成分分析,找出
其各个主成分中的理化指标项,然后采用回归分析的方法,依据回归系数显著性
分析进一步剔除不重要理化指标。最后将剩下指标为自变量把第二组评酒员总评
分做因变量作回归分析,得出酿酒葡萄与葡萄酒理化指标对葡萄酒质量的影响函
数如 27 页公式(63)、(64)所示
关键词:葡萄酒评价 独立样本 检验 隶属度函数 BP 神经网络 主成分评价模型
- 1 -
ttZAXBt
一、问题重述
确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒
员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡
萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒
葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。需要建立数学模
型讨论下列问题:
1、 分析附件 1 中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?
2、根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
3、分析酿酒葡萄与葡萄酒的理化指标之间的联系。
4、分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄
和葡萄酒的理化指标来评价葡萄酒的质量?
二、模型假设
1、假设每位评酒员对不同葡萄酒的评价是相互独立的;
2、假设评酒员对葡萄酒的评价具有权威性,评价数据真实可靠;
3、假设葡萄酒都由不同葡萄酿成,不同葡萄酒样品对应不同葡萄样品;
4、假设葡萄酒质量符合正态分布;
5、假设所选出的样品具有代表性,能代表酿酒葡萄或葡萄酒。
三、符号说明
符号
符号意义
检验结果
符号
符号意义
BP 神经网络中间层层数
两组测定值的方差
神经网络相邻两层连接权值
评酒员评分
神经网络相邻两层连接阈值
样本 1 容量
T 检验结果
X 的隶属度
MSA
MSE
组间方差
组内方差
R
总离差平方和
组间离差平方和
组内离差平方和
相关系数矩阵
四、问题分析
4.1 问题一的分析
本题要求检验两组评酒员的评价结果是否存在显著性差异,首先通过分析发
现两组数据成对出现,于是利用独立样本 检验,分别对葡萄酒外观、香气、口
感、平衡/整体和总分 5 项因素进行显著性差异分析。然后,为了确定哪组评酒
员的结果更可信,采用隶属度函数模糊统计法对两组评酒员给出的总评分结果进
行分析,通过对隶属度值大小的分析比较,从而确定哪组评酒员的结果更可信。
4.2 问题二的分析
- 2 -
FFN2212SS、1w12XX,ib1nSSTPASSM()AxSSEt
本题要求根据葡萄的理化指标和葡萄酒的质量对葡萄进行分级。根据酿酒葡
萄指标的相似度,建立了基于距离的层次聚类模型,可将葡萄样品分类。然后采
用单因素方差分析的方法检验将葡萄样品分为五类或者六类的合理性,从而确定
分类情况。最后通过对应不同类别葡萄所产出的葡萄酒质量,将不同类的葡萄分
为不同的优劣等级。
4.3 问题三的分析
本题要求分析葡萄理化指标与葡萄酒理化指标之间的联系。首先将酿酒葡萄
理化指标作为输入层,葡萄酒理化指标作为输出层建立神经网络。然后利用 BP
学习算法对此神经网络进行训练,得到输入层、中间层与输出层之间的权值、阈
值,进而推出输入层与输出层之间的关系。最后依据神经网络中各层之间的函数
关系推测出酿酒葡萄与葡萄酒理化指标之间的联系。
4.4 问题四的分析
本题要求分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响。首先,可
以利用主成分分析法分别对酿酒葡萄理化指标与葡萄酒理化指标作主成分分析,
找出其主成分,并剔除理化指标中不重要成分。然后依据找出的主成分中的各项
理化指标,结合第二组评酒员评分,作回归分析,进而根据回归分析中系数的显
著性检验进一步剔除不重要成分。如果最后还有成分剩余,则表示酿酒葡萄和葡
萄酒的这些理化指标对葡萄酒质量影响比较显著。最后根据第二组评酒员评分与
酿酒葡和葡萄酒的理化指标剩余重要部分回归系数,建立用葡萄和葡萄酒的理化
指标来评价葡萄酒的质量的模型。
五、模型的建立与求解
5.1 问题一模型的建立与求解
首先,需要判断两组评酒员的评价结果是否存在显著性差异,针对此问题,
本文使用独立样本 检验法进行检验;其次,需要判断哪一组的结果更加可靠,
对此,本文通过隶属度函数分析计算,并比较两者的隶属函数值来进行判断。
5.1.1 显著性差异模型的建立与求解
双总体 t 检验是检验两个样本平均数与其各自所代表的总体的差异是否显
著。双总体 t 检验又分为两种情况,一是配对样本 t 检验,一是独立样本 t 检验。
基于以上评酒员的评酒过程,可以认为两组评分相互独立,即独立的。某种葡萄
酒(红或白)总体中,品质极优和极差的占少数,品质居中的占大多数,可以认
为该种葡萄酒品质分布即呈正态分布。通过以上分析可以发现,样本满足独立样
本 检验的要求,因此本文采用该方法分析两组评酒员的评价结果有无显著性差
异。独立样本 t 检验又分为异方差检验和等方差检验,我们将根据 F 检验的 p
值大小判断选取哪种检验方法,下文将做具体描述。
1、 F 检验模型的建立
独立样本 t 检验分为等方差 t 检验和异方差 t 检验,等方差 t 检验要求被检
验的两组数据具有相同或者相近的方差,异方差 t 检验则要求被检验的两组数据
具有差异显著的方差。因此,在 t 检验之前必须进行 F 检验,以判别两组数据方
差是否差异显著。
F 检验法值通过计算两族数据的方差之比来检验两组数据是否存在显著差
异。比如,使用不同的分析方法对同一试验进行测定得到的标准偏差不同;或几
个实验室用同一种分析方法测定同一试样,得到的标准偏差不同,这时就有必要
- 3 -
tt
研究产生这种差异的原因,通过 F 检验法就可以得到满意的解决。F 检验法其步
骤如下:
1) 计算统计量方差之比。
;式中,
分别为两组测定值的方差;
2)查 F 分布表;
3)判断显著程度:当计算所得的 F 值大于 F 分布表中相应显著水平 a 和自由度
的临界值
,即 F 大于
时,则两组方差之间有显著差异;
当 F 小于
时,则两组方差无显著性差异。在编制 F 分布表时,是将大
方差做分子,小方差做分母,所以,在由样本值计算统计量 F 值时,也要将样本
方差,
中的较大一个作为分子,较小一个作为分母;
4)判断为 t 检验种类:当 F 检验差异显著时选取异方差 t 检验,若差异不显著
则选取等方差 t 检验。
表 1 t 检验方法判断标准
差异显著程度
差异显著
差异不显著
t 检验方法
异方差检验
等方差检验
由此,从外观、香气、口感、平衡整体以及总得分五个方面进行分别计算出
红、白葡萄酒在的 F 检验值及采用的 t 检验方法为:
属性
外观
香气
口感
整体/平衡
总分
表 2 葡萄酒的 t 检验方法判断
红葡萄酒
白葡萄酒
F
0.0158
0.0037
0.0006
0.0011
0.0009
t 检验方法
异方差检验
异方差检验
异方差检验
异方差检验
异方差检验
F
0.0059
0.2106
0.0005
0.0432
0.0064
t 检验方法
异方差检验
等方差检验
异方差检验
异方差检验
异方差检验
2、独立样本异方差 检验模型的建立[1]
独立样本 检验模型的步骤如下:
(
1)引入一个新的随机变量
的评分),则随机变量对应的样本值为:
分别表示两组评酒员对同一指标
其中,
为样本的观察值。这样,通过变换就转化成了单样本 检验的问题。
2)建立假设,即
3)构造 统计变量,等方差检验计算式为:
- 4 -
(1)
2212/FSS2212SS、12ff、aF12ff(、)aF12ff(、)aF12ff(、)2212SS、F0.05F0.05Ftt12YXX12XX,12,1,2,iiiyxxin12,iixxt0:0YHt,11)(2121nnSXXtw
异方差检验计算式为:
(2)
其中, 是两样本相同的方差; 和
量。
4)由公式(1)、(2)计算得到 值,通过查表得到 值,即可进行分析。 值与
显著性差异关系如下:
为两样本方差; 和 为两样本容
表 3 显著性判断标准表
差异显著程度
差异非常显著
差异显著
差异不显著
3、独立样本 检验模型的求解
对显著性差异的分析,根据附件一的分类指标,分别从外观、香气、口感、
平衡整体以及总得分五个方面进行分析。下面以红葡萄酒为例,进行求解。
首先,为了描述方便,本文引入如下符号:
该符号表示:第 组样品中,第 名评酒员对 样品属性 的评分;其中,
属性分别为澄清度、色调、香气纯正度、香气浓度、香气质量、口感纯正度、口
感浓度、持久性、口感质量、平衡/整体共计 10 个附件一中给出的评价属性。
1)外观方面显著性差异的分析
在第 组样品中,样品 的外观分析方面包括澄清度、色调两个属性,则该
方面得分可以通过如下公式计算得到:
(3)
由公式(2)计算得到两组评酒员对 27 个样品外观方面的评分。
附录 1 中两列数据即为总体的两组观察值,数据如下
其中: 表示第 组数据中第 名评酒员对 方面的评分。根据外观方面
的观察值向量(3),即可对独立样本 检验模型求解。
(4)
2)香气方面显著性差异的分析
- 5 -
12221122121212(1)(1)11()2(2)XXtnSnSnnnndfnnwS1S2S1n2ntPPTP()0.01TTdf0.01P()0.05TTdf0.05P()0.05TTdf0.05Pt,1,2;1,2,,27;,1,2,10mijkCmikjmkijmi10211()10mijkkjmiCw11111111121102122210(,,,),(,.,)xxxxxxJmkxmkJt
在第 组样品中,样品 的香气分析方面包括纯正度、浓度和质量三个属性,
则该方面得分可以通过如下公式计算得到:
(5)
由公式(4)计算得到两组评酒员对 27 个样品香气方面的评分。
附录 1 中两列数据即为总体的两组观察值如下
(6)
根据外观方面的观察值向量(5),即可对独立样本 检验模型求解。
3)口感方面显著性差异的分析
在第 组样品中,样品 的口感分析方面包括纯正度、浓度、持久性和质量
四个属性,则该方面得分可以通过如下公式计算得到:
(7)
由公式(6)计算得到两组评酒员对 27 个样品口感方面的评分。
附录 1 中两列数据即为总体的两组观察值如下:
(8)
根据外观方面的观察值向量(7),即可对独立样本 检验模型求解。
4)平衡整体方面显著性差异的分析
在第 组样品中,样品 的平衡整体分析方面仅有自身一个属性,则该方面
得分可以通过如下公式计算得到:
(9)
由公式(8)计算得到两组评酒员对 27 个样品平衡整体方面的评分见。
附录 1 中两列数据即为总体的两组观察值如下
(10)
根据外观方面的观察值向量(7),即可对独立样本 检验模型求解。
5)总得分的显著性差异的分析
在第 组样品中,样品 的总得分可以通过如下公式计算得到:
(11)
- 6 -
mi10513()10mijkkjmiCw22222211121102122210(,,,),(,.,)xxxxxxtmi10916()10mijkkjmiCw33333311121102122210(,,,),(,.,)xxxxxxtmi101,1010mijkmkiCwj44444411121102122210(,,,),(,.,)xxxxxxtmi101011()10mijkkjmiCw
由公式(10)计算得到两组评酒员对 27 个样品平衡整体方面的评分见。
附录 1 中两列数据即为总体的两组观察值如下
(12)
根据外观方面的观察值向量(12),即可对独立样本 检验模型求解。
3、结果的分析
对独立样本 检验模型求解,得到 值结果如下:
属性
表 4 显著性差异计算结果
红葡萄酒
白葡萄酒
值 有无显著性差异 值 有无显著性差异
外观
香气
口感
0.0924
0.1080
0.2521
平衡/整体 0.7562
0.1100
总分
无
无
无
无
无
0.5509
0.7401
0.0027
0.0043
0.0507
无
无
有
有
无
通过对表 2 的分析,可以发现,对于红葡萄酒,在外观、香气、口感和平衡
/整体四个方面,两组评酒员的评价均不存在显著性差异。对于白葡萄酒,外观
和香气两方面,两组评酒员的评价无显著性差异,而口感和平衡/整体方面存在
显著性差异。整体上看,无论是对红葡萄酒还是白葡萄酒,两组评酒员的评价结
果均不存在显著性差异。
5.1.2 结果可靠性分析模型的建立与求解
本问题要求判断哪一组的结果更加可靠,对于某种葡萄酒,由于只能得到样
品的两组观察值,无法知道每个样品质量的真值,因此只能通过分析这两组观察
值来确定哪一组的结果相对更加可靠。
1、隶属度函数模型的提出[2][3]
1) 确定表示隶属函数的凸模糊集合
设 为两组评价员对红葡萄酒的评估总分的集合,其隶属函数为
,如
果对任意实数
,都有
2) 模糊统计法构建隶属度函数
(13)
模糊统计的基本思想是对于论域 上的一个确定元素 是否属于论域上的
一个可变动的清晰集合 做出清晰的判断。在每次统计中, 是固定的, 的
值是可变的,作 次试验,其模糊统计可按下式进行计算
(14)
随着 的增大,隶属频率也会趋于稳定,这个稳定值就是 对 的隶属度值。
- 7 -
55555511121102122210(,,,),(,.,)xxxxxxttPPPA()Axaxb()min((),())AAAxabU0vA0vAn00=vAvAn的次数对的隶属度试验总次数n0vA
这种方法比较直观地反映了模糊概念中的隶属程度,但其计算量相当大。在这里,
为两组评酒员的所有分数组成集合中间区
, 是二十个评酒员评
分均值, 是二十个评酒员评分方差, 是第一组、第二组的评分,我们只需计
算并比较两组 分别对 的隶属度。两组评审的所有评分构成正态型隶属函数
分布图,即
以红葡萄酒样品一为例,其隶属函数分布图及两组评酒员的评分散点图比较如
下:
(15)
图 1 红葡萄酒酒样品一两组评酒员评分比较
2、隶属度的求解
根据现有数据,对隶属度进行求解得到结果如下:
表 5 两组评酒员对葡萄酒评分隶属度
隶属度
样品
红葡萄酒
白葡萄酒
第一组
第二组
第一组
第二组
1
2
3
4
5
6
7
8
9
10
11
12
0.6
0.7
0.4
0.8
0.5
0.8
0.8
0.8
0.3
0.6
0.7
0.7
0.6
0.6
0.5
0.7
0.5
0.6
0.7
0.7
0.3
0.5
0.6
0.5
0.9
0.9
0.9
0.7
0.9
0.5
0.5
0.5
0.9
0.9
0.6
0.6
1
0.9
1
0.8
1
0.4
0.4
0.4
1
1
0.6
0.4
- 8 -
A(,)0v0vA2()xabxe()=0b