第29卷 增刊 1
2012年12月
工 程 数 学 学 报
CHINESE JOURNAL OF ENGINEERING MATHEMATICS
Vol. 29 Supp.1
Dec. 2012
文章编号:1005-3085(2012)07-
葡萄酒质量的评价研究
周诗灿, 梁 帅, 吴丽丹
指导教师: 封全喜
(桂林理工大学理学院,桂林 541004)
编者按: 文用双因素方差分析和 Cronbach 信度分析的方法,对两组评酒员的品评结果的差异性与可信度进行了合理
的统计分析,这种综合考虑同一酒样评价的一致性与不同酒样评价的区分度的评判方法,在解决此类评价问
题时是值得推荐的.在对酿酒葡萄分级中,文中利用可信度的组别的评判结果,结合相应的葡萄酒和酿酒葡
萄的综合指标,用聚类分析法对酿酒葡萄进行了简单有效的分级.同时在分析酿酒葡萄与葡萄酒理化指标的
相关关系的基础上,本文利用多元分析线性回归的方法给出了它们之间的具体统计依赖关系,并给出利用葡
萄酒的理化指标对葡萄酒质量的客观评价的方法.这种利用相关分析简化指标,并利用回归方法给出合理的
依赖关系的方法是一种有效的分析方法,在本文中得到了很好的体现.本文的研究前后连贯性密切,得到的
结果与分析客观合理,很好地达到了利用数学模型解决实际问题的目的.
摘 要: 葡萄酒质量的好坏主要依赖于评酒员的感观评价,由于人为主观因素的影响,对于酒质量的评价总会存在随
机差异.本文首先,采用双因子可重复方差分析方法,对红、白葡萄酒评分结果分别进行检验,得出对红葡
萄酒的评价结果具有显著差异,借助 Cronbach 信用度分析得第二组评酒员的评价结果可信度高.其次利用
加权平均法对样品酒进行评分,采用聚类分析方法对葡萄酒进行分类,将酿酒葡萄分为优质、良好、中等、
差四个等级.然后,根据酿酒葡萄成分对葡萄酒的理化指标、葡萄酒理化指标与葡萄酒质量的关系,利用变
量的相关性与 Pearson 系数法分析了葡萄酒的理化指标与葡萄酒质量评价指标的相关性,运用回归分析方
法,建立了酿酒葡萄的理化指标与葡萄酒质量之间的拟合方程,结合各个质量一级指标的权重,给予葡萄酒
成分对葡萄酒质量的客观评价.
关键词: 双重多因素分析;聚类分析;多元回归;Pearson 系数法
分类号: AMS(2000)
中图分类号:
文献标识码: A
1 问问问题题题一一一的的的建建建模模模与与与求求求解解解
1.1 模型建立
1) 利用双因素可重复方差分析结合 0-1 分析检验两组评酒员的评价结果有无显著性差异
双因子可重复方差分析的统计模型[1].假设在两因子方差分析中,因子 A 共有 r 个水平,
记作 A1, A2,··· , Ar,每个水平下,进行 t 次试验,因子 B 共有 k 个水平.因子 A 的某个水平
下第 t 试验所得结果,Ai 表示因子 A 的第 i 个水平,i = 1, 2,··· , r.第 j 列数据为因子 B 的
第 j 个水平下所考察的变量取值,每一列为一个总体,j = 1, 2,··· , k.所以一个两因子方差分
析的数据结构表里,共有 r × t + k 个总体,在本题中,r = 2, k = 10, t = 10.
给出双因子可重复方差分析的原假设和备择假设:
H01: 两组评酒员的评价结果不存在差异.⇔ H02: 两组评酒员的评价结果存在差异.
H11: 各个指标对评价结果不存在影响.⇔ H12: 各个指标对评价结果存在影响.
当原假设 H01 为真时,说明两组评酒员的评价结果不存在显著性差异,反之称两组评酒员
的评价结果存在着显著性影响因素.当原假设 H11 为真时,说明选取的各个指标对评价结果没
有显著性影响,在本题中,显然原假设H11 是不成立的,后续的检验将证明这点.
2) 0-1 数据分析
2
工
程
数
学
学
报
第29卷
在给定 α∗ = 0.05 条件下,对于有 m 个样品酒来说 (红葡萄酒 m = 27,白葡萄酒 m = 28),
定义函数
Yi =
其中 pi 为每个样品酒的 PA 值.给定置信度
1, pi ≤ 0.05,
0, pi > 0.05,
β =
Yi
m
i = 1, 2,··· , m,
.
(1)
(2)
对 m 个样品酒的双因子可重复方差检验后,得出 β 值,则认为在置信水平 β 下,两组评酒
员的评价结果存在着显著性差异.
3) Alpha 模型进行可靠性分析
克伦巴赫 α 系数:测度内部一致性的一个指标,α 与皮尔逊 r 系数都是一样的范围 在0–1 之
间,如果为负值则表明表中某些项目的内容是其他一些项目的反面;α 越接近于 1,则量表中
项目的内部一致性越是高,可信度越大.根据量表中的项目数 k 和各项之间的相关系数 r,计
算得出
α =
kr
1 + (k − 1)r
.
(3)
当量表中项目 k 增加时,α 值也会增大;同时,项目之间的相关系数 r 较高时,α 也会比较
大.这里的 r 是指各项与其他各项之和计算相关系数的平均值.
1.2 模型求解:双因子可重复方差分析模型检验
利用 Matlab 7.6.0 的 anova21 函数对已经预处理的数据进行双因子可重复方差分析,可以
得到每个样品酒的检验结果.提取每个样品酒的 Rows 所对应 p 值,然后结合公式 (1), (2) 进
行 0-1 分析,得到红、白葡萄酒的各个样品酒的 pi,如表 1.
表 1: 模型检验结果
pi
Yi
pi
Yi
pi
Yi
pi
Yi
0.1897
0.16314
0.02476
红葡萄酒值 pi 以及
Yi 值,得到 β = 0.703
0.36479
0.00021
2E-05
0.00086
0
0
1
0
1
1
1
0.00001
0.00138
0
0.2187
0.56414
0.04686
0.00112
1
1
1
0
0
1
1
0.0004
0.0049
0.00002
0.0005
0.17544
0.01131
0.00045
1
1
1
1
0
1
1
0.00212
0.00334
0.00011
0.801
1
0.00017
1
1
1
0
0
1
pi
Yi
pi
Yi
pi
Yi
pi
Yi
0.001
0.50613
0.00329
红葡萄酒值 pi 以及
Yi 值,得到 β = 0.533
0.00011
0.01381
0.0003
0.00031
1
0
1
1
1
1
1
0.00001
0.0106
0.0046
0.2031
0.19476
0.00005
0.16632
1
1
1
0
0
1
0
0.10777
0.3494
0.00008
0.0171
0.00339
0.68334
0.13648
0
0
1
1
1
0
0
0.31115
0.67936
0.08585
0.03333
0.44078
0.4671
0.00001
0
0
0
1
0
0
1
增刊 1
周诗灿,等:葡萄酒质量的评价研究
3
1.3 模型结果分析
分 析 表 1 的 结 果 , 可 以 知 道 , 对 于 红 葡 萄 酒 来 说 , 对 27 个 葡 萄 酒 样 品 评 分 检 验 中 ,
有 70.3% 的评价结果中,两组评酒员的评价结果存在着显著性差异 (置信水平为 95%).对
于白葡萄酒的 28 个葡萄样品评分的检验,只有 53% 的评价结果中,两组评酒员的评价结果存
在显著性检验 (置信水平为 95%).这样的结果,符合之前问题分析中,各个组队样品酒的评分
均值差异图.即:两组评酒员对红葡萄的评分结果更具有显著性差异,而对于白葡萄酒的评
分,两组评酒员的评价差异性较不明显.
1) 利用 SPSS19.0 进行可靠性统计量对红葡萄酒的两组品酒员评分的分析,分析结果,见
表 2 至表 5.
表 2: 第一组红葡萄酒案例处理汇总
表 3: 第二组红葡萄酒案例处理汇总
有效
案例
已排除
总计
N
268
2
270
%
99.3
0.7
100
有效
案例
已排除
总计
N
270
0
270
%
100
0
100
表 4: 第一组红葡萄酒可靠性统计量
Cronbach’ Alpha
基于标准化项的 Cronbach Alpha
0.874
0.906
表 5: 第二组红葡萄酒可靠性统计量
Cronbach’ Alpha
基于标准化项的 Cronbach Alpha
0.75
0.786
项数
10
项数
10
若将某一项目从量表中剔除,则量表的平均得分、方差 (每个项目得分与剩余各项目得分
间的相关系数、以该项目为自变量所有其他项目为应变量建立回归方程的 R2 值以及 Cronbach
Cronbach α 值将会改变.由表知第一组数据中剔除了两项,α1 增加到 0.874,第一组评酒员红
葡萄酒的 α1 > α2,组 2 尚有 35% 的内容未曾涉及,故信度不高.见表 6 至表 9.
表 6: 第一组红葡萄酒
人员之间
平方和
4947.218
人员内部项之间
31938.494
残差
总计
5623.506
37562
总均值 = 7.31
42509.218
df
267
9
2403
2412
2679
均方
18.529
3548.722
2.34
15.573
15.868
F
Sig.
1516.417
0
4
工
程
数
学
学
报
第29卷
表 7: 第一组红葡萄酒的置信区间
类内相关性
单个测量
平均测量
0.409b
0.874c
95% 置信区间
使用真值 0 的 F 检验
下限
0.362
上限
0.46
0.85
0.895
值
7.918
7.918
df 1
267
267
df 2
Sig.
2403
2403
0
0
表 8: 第二组红葡萄酒
人员之间
人员内部项之间
残差
总计
平方和
1232.544
34017.04
2778.26
36795.3
总均值 = 7.05
38027.844
df
269
9
2421
2430
2699
均方
4.582
3779.671
1.148
15.142
14.09
F
Sig.
3293.639
0
表 9: 第二组红葡萄酒的置信区间
95 % 置信区间
使用真值 0 的 F 检验
类内相关性
下限
上限
值
单个测量
平均测量
0.23
0.75
0.191
0.703
0.276
0.792
3.993
3.993
Df 1
269
269
Df 2
2421
2421
Sig.
0
0
分 析 比 较 两 者 的 F 检 验 表 明 ,F1 = 516.417 < F2 = 3293.639, 组 2 的 显 著 性 更 强 ,
而 p1, p2 均小于 0.01,表示两组该量表的重复度量效果良好.综合分析结果表明,组一的评酒
员可信度更高.
2) 可靠性统计量对白葡萄酒的两组品酒员评分进行分析
同样利用 SPSS 可靠性分析,建立 Alpha 模型对白葡萄酒的品酒员评分数据进行检验,发现
不同种类的酒,因其酿造,成分的不同,品酒员对葡萄口感,质量的分析评价上有差异,得出
第一组品酒员白葡萄酒的 Cronbach α1 = 0.763 < Cronbach α2 = 0.838.
S1 = 7.43 < S2 = 7.63, F1 = 1270.361 < F2 = 4891.463,组 2 的显著性更强,p1, p2 均小
于 0.01,表示两组该量表的重复度量效果良好.综合分析结果表明,白葡萄酒组二的品酒员可
信度更高.
2 问问问题题题二二二的的的建建建模模模与与与求求求解解解
2.1 对红葡萄酒进行分类
将附件中的组一评酒员评价标准,算出各项所占权重并加和,最终求得十位品酒员对每个
葡萄酒样品的平均值,作为 27 种酒样品的综合评价指标,并用葡萄酒的综合指标以及酿酒葡
增刊 1
周诗灿,等:葡萄酒质量的评价研究
5
萄的理化指标形成一个 31 列 28 行的原始资料阵,将其数据标准化,通过 spss 进行聚类分析,
得到酒样品的八个类别,并列出每个酒样品所对应的综合指标,得出表 10.
表 10: 葡萄酒的分类与综合评价指标
酒样品
12
18
6
7
15
综合评价指标
6.984
7.623
8.985
8.897
7.309
酒样品
13
19
4
16
27
22
综合评价指标
9.395
9.753
8.45
9.348
9.135
9.529
17
24
5
20
26
9.901
9.706
9.071
9.817
9.139
酒样品
25
综合评价指标
8.571
酒样品
8
14
综合评价指标
9.003
9.204
酒样品
酒样品
1
7.79
3
21
2
9
23
综合评价指标 10.074
9.669
10.201
10.138
10.716
酒样品
10
综合评价指标
9.204
酒样品
11
综合评价指标
8.662
第一类
第二类
第三类
第四类
第五类
第六类
第七类
第八类
观察表中数据,不难发现红葡萄酒样品 1、10、11、25 单独化为一类,而不与综合指标相
近的酒品类为一组,根据这四种葡萄酒的理化指标以及酿酒葡萄的成分对综合指标相近的组类
进行分析比较,得出酒品 1 的花色苷含量高达 408.028 mg/100g 鲜重,单宁 22.019 mol/kg、总
酚 23.604、总黄酮 9.480 mmol/kg、顺式白藜芦醇 3.195mg/kg,均高于第一类酒样品理化指标
的数据.红葡萄酒样品 10、11,花色苷含量较低,白藜芦醇含量较高,样品 25 氨基酸含量较
低,果穗质量含量较高,均与指标相近的类别的理化指标数据有较大差异.据资料分析得,新
酒主要以花色苷为主色调,陈酒种单宁起主导作用.有单宁存在,花色苷将减少.氨基酸的含
量与人体血液中的氨基酸有着密切联系,与脯氨酸成负相关,但与缬氨酸成正相关.这些含量
的高低会影响葡萄酒口感、色泽、纯正度,从而评酒员对酒的分数存在差异.因此,聚类分析
结果在对各项理化指标进行数据处理时,达不到组间距离.
结合综合指标的高低以及聚类分析的结果,以及每一种酿酒葡萄所对应的红葡萄酒样品,
将酿酒葡萄分为 A、B、C、D.分别代表优质、良好、中等、差四个等级,如表 11.
6
工
程
数
学
学
报
第29卷
表 11: 葡萄酒样本的分级
A
B
C
D
葡萄样品
3
21
2
9
23
综合评价指标 10.074
9.669
10.201
10.138
10.716
葡萄样品
13
19
4
16
27
22
综合评价指标
9.395
9.753
8.45
9.348
9.135
9.529
17
24
5
20
26
9.901
9.706
9.071
9.817
9.139
葡萄样品
25
8
14
11
10
综合评价指标
8.571
9.003
9.204
8.662
9.204
葡萄样品
12
18
6
7
15
1
综合评价指标
6.984
7.623
8.985
8.897
7.309
7.79
2.2 对酿酒葡萄 (白) 进行分类
由问题一知,第二组评酒员对白葡萄酒评价可信度更高,用聚类分析的欧式距离可分出
不同组类,根据综合指标的高低划分出 A、B、C、D (分别代表优质、良好、中等、差) 四
个等级:其中葡萄样品 3∗ 氨基酸总量 5022.14 mg/100g、酒石酸 11.790g/L、不含柠檬酸、葡
萄 25∗ 花色苷含量较低、葡萄 27∗ 褐变度、黄酮醇含量均远远高于同组水平、因此这3种酿酒葡
萄的理化指标与其综合指标相近的组类有一定的差异而达不到组间距离,单独分为一组,见
表 12.
表 12: 酿酒葡萄 (白) 的等级划分
A
B
C
D
葡萄样品
17
22
综合指标 10.148
9.915
葡萄样品
综合指标
葡萄样品
6
18
7
15
9.492
9.682
9.237
9.802
5
20
9
28
27∗
9.554
4
1
13
9.785
9.331
14
21
综合指标 10.236
9.582
10.02
9.957
9.695
9.65
9.971
葡萄样品
综合指标
葡萄样品
综合指标
23
26
2
9.599
9.299
9.503
8
11
19
9.025
8.942
9.604
12
9.092
25∗
10.02
10
10.058
16
8.503
24
9.591
3∗
9.3
3 问问问题题题三三三的的的建建建模模模与与与求求求解解解
3.1 葡萄酒的花色苷与酿酒葡萄个别指标的相关性
由 相 关 系 数 表 可 知 , 以 上 各 个 变 量 与 葡 萄 酒 中 的 花 色 苷 的 p 都 小 于 0.01, 则 可 认 为
在 0.01 的显著性水平下,以上各个变量与葡萄酒中的花色苷都显著相关,可做回归分析观
增刊 1
周诗灿,等:葡萄酒质量的评价研究
7
察葡萄酒中的花色苷与酿酒葡萄中的果梗比、苹果酸、葡萄总黄酮、多酚氧化酶活力、黄酮
醇、单宁、褐变度、DPPH 自由基、花色苷、总酚,输出如表 13.表中 a 表示,Dependent
Variable: J1;b 表示,Predictors: (Constant),果梗比,苹果酸,葡萄总黄酮,多酚氧化酶活
力,黄酮醇,单宁,褐变度,DPPH 自由基,花色苷,总酚.
表 13: Model Summarya
Model
R
R Square Adjusted R Square Std. Error of the Estimate Durbin-Watson
1
0.956b
0.913
0.859
86.4245
2.063
又表 13 可知调整的判定系数为 0.859,可认为方程的拟合性比较高,即被解释变量被模型
解释的部分较多,为能解释的部分较少.
依据该表可进行回归方程的显著性检验,由表 14 我们可以知道 F 检验统计量和 P 值分
别为 16.820、0,在 0.01 的显著性水平下,由于概率 P 值小于显著性水平 0.01,则拒绝原假
设,认为被解释变量个解释变量间存在显著的线性关系,可建立线性回归模型.表中 a 表
示,Dependent Variable: J1;b 表示,Predictors: (Constant),果梗比,苹果酸,葡萄总黄
酮,多酚氧化酶活力,黄酮醇,单宁,褐变度,DPPH 自由基,花色苷,总酚.
表 14: ANOVAa
Model
Sum of Squares
Regression
1256309.167
1
Residual
119507.118
Total
1375816.285
df
10
16
26
Mean Square
F
125630.917
16.82
Sig.
0.000b
7469.195
3.2 多元线性回归模型的求解
根据相关性的分析,葡萄酒中的花色苷与酿酒葡萄中的果梗比、苹果酸、葡萄总黄酮、多
酚氧化酶活力、黄酮醇、单宁、褐变度、DPPH 自由基、花色苷、总酚中相关性较大的几项,
用 SPSS 分析多元线性回归,得出线性关系的拟合方程,见表 15.
由于当 P < 0.01 时,因变量与变量之间的相关性显著,结合向后推移法,剔除了多酚氧化
酶活力、褐变度、花色苷、黄酮醇、筛选出最吻合的变量,见表 16.
表 15: 葡萄酒花色苷与葡萄理化指标的多元线性回归变量筛选结果及系数
模 型
(常量)
果梗比
苹果酸
5
葡萄总黄酮
单宁
DPPH 自由基
总酚
非标准化系数
标准系数
B
6.234
-1
-1.67
3
0.89
0.72
0.13
标准误差
试用版
0
0.13
0.65
0.38
0.71
0.68
0.32
-0.005
-0.017
1.014
0.4
0.32
0.068
t
10.3
-4.70E+13
-1.08E+14
4.04E+15
22.7
-10.9
-6.6
Sig.
0
0
0
0
0
0
0
8
工
程
数
学
学
报
第29卷
表 16: 葡萄酒花色苷与葡萄理化指标的多元线性回归 R 方及标准估计的误差
模型
1
2
3
4
5
R
0.874
0.874
0.86
0.845
0.825
R 方
0.89
0.829
0.778
0.755
0.715
调整 R 方
标准估计的误差
0.579
0.513
0.491
0.467
0.449
0.358
0.3494
0.3203
0.3118
0.308
根据 R 方值的大小,可判断出多元线性回归方程的契合度,观察模型后退 5 次得到 R 方值
与标准估计的误差,R2 = 0.715,可知方程的吻合性较高.最后得到葡萄酒花色苷与葡萄理化
指标的线性回归方程为
y = −x1 − 1.670x2 + 3x3 + 0.890x4 + 0.720x5 + 0.130x6 + 6.234,
(4)
其中 x1, x2, x3, f1 (xi) 分别代表葡萄果梗比、苹果酸、葡萄总黄酮、单宁、DPPH 自由基、总
酚含量、葡萄酒花色苷.
以上方程可代表,每 1 单位的狦梗比、苹果酸、葡萄总黄酮、单宁、DPPH 自由基、总酚
含量的变化所引起葡萄酒花色苷的变化.从而反映了酿酒葡萄与葡萄酒理化指标的联系.
4 问问问题题题四四四的的的建建建模模模与与与求求求解解解
4.1 模型建立
首先,寻求如何应用葡萄酒的理化指标对葡萄酒质量进行综合评价,然后结合问题三中,
酿酒葡萄与葡萄酒之间的联系,我们便可以从酿酒葡萄的理化指标进行对葡萄酒质量的客观评
价.
使用 SPSS 19.0,对葡萄酒的理化指标之间相似或不相似测量,进行距离相关分析以考察相
互接近程度.
首先设 fk,其中 k = 1, 2, 3, 4,分别为外观、香气、口感和整体评价的评价指标综合得分函
数,令 xi, xj, xm 分别表示为葡萄酒的理化指标,通过 SPSS 19.0 作分析两者之间的相关性,
选取相关性较大的 n 个指标 (2 ≤ n ≤ 10) 作为 fk (xi) 的相关性指标
建立回归方程如下
xi, xj, xm,··· ,
f1 = f(xi, xj, xm,··· ),
f2 = f(xk, xp, xz,··· ),
f3 = f(xi, xp, xl,··· ),
f2 = f(xi, xj, xm,··· ).
建立葡萄酒理化指标与葡萄酒质量之间的关系.通过评价指标知道,外观、香气、口感和整体
评价在整个葡萄酒的评价中所占权重是不同的,各个权重定义为 ∂1, ∂2, ∂3, ∂4,我们定义葡萄
酒的总评分值 F 的函数为
F = ∂1f1 + ∂2f2 + ∂3f3 + ∂4f4.