2015 高教社杯全国大学生数学建模竞赛
承 诺 书
我们仔细阅读了《全国大学生数学建模竞赛章程》和《全国大学生数学建模竞赛参
赛规则》(以下简称为“竞赛章程和参赛规则”,可从全国大学生数学建模竞赛网站下载)。
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网
上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或
其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文
引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。如有
违反竞赛章程和参赛规则的行为,我们将受到严肃处理。 我们授权全国大学生数学建
模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、
期刊和其他媒体进行正式或非正式发表等)。
我们参赛选择的题号是(从 A/B/C/D 中选择一项填写):
A
我们的参赛报名号为(如果赛区设置报名号的话):
所属学校(请填写完整的全名): 青岛科技大学
参赛队员 (打印并签名) :1. 李钰琦
2. 李晓东
3. 黄启顺
指导教师或指导教师组负责人 (打印并签名):
(论文纸质版与电子版中的以上信息必须一致,只是电子版中无需签名。以上内容
请仔细核对,提交后将不再允许做任何修改。如填写错误,论文可能被取消评奖资格。)
日期:
年
月
日
赛区评阅编号(由赛区组委会评阅前进行编号):
2015 高教社杯全国大学生数学建模竞赛
编 号 专 用 页
赛区评阅编号(由赛区组委会评阅前进行编号):
赛区评阅记录(可供赛区评阅时使用):
评
阅
人
评
分
备
注
全国统一编号(由赛区组委会送交全国前编号):
全国评阅编号(由全国组委会评阅前进行编号):
葡萄酒的评价
摘 要
本文主要研究了葡萄酒和酿酒葡萄的理化指标与葡萄酒质量之间的的联系,在正确处
理各种数据并对其进行统计分析的基础上,综合运用了 t 检验、聚类分析、灰色系统关联
分析、多元线性回归等知识建立了相关问题的数学模型,并利用 Matlab 、 SPSS 等软件得
出了比较合理的结论。
在判断两组评酒员的评价结果有无显著性差异时,首先对附件1中数据进行修正补全,
然后建立了 t 检验模型,说明计算工具和方法分析两组评酒员对 n 个样本的评价结果有无
显著性差异。通过计算统计量 t 值并与理论T 值比较,推断差异不显著发生的概率,运用
Cronbach's Alpha 模型进行信度分析,所得到的结果为:两组评测结果均存在显著性差异,
第一组结果更可信
在根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级时,首先了建立
聚类分析法模型,将理化指标进行聚类降低其个数,然后采用基于欧式距离平方的样本聚
类,最后根据得分将葡萄划分优、良、一般三个等级(结果见表5 与表 6 )。
在分析酿酒葡萄与葡萄酒的理化指标之间的联系时,首先建立了关联分析模型,对葡
萄和葡萄酒的理化指标分别进行分类整理和筛选,选出与葡萄酒每个成分相关性较大的葡
萄成分,然后建立灰色预测关联分析模型进行分析之间的联系得到结果(见表7 、表8 )。
在分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响时,首先对所有变量进行了
相关性分析,筛选出通过显著性检验的变量,再建立了多元线性回归模型,代入筛选过后
的变量,分别得出多元线性方程(见公式(10 )、(11)),且与真实酒样品得分拟合程度较
好,故得出用葡萄和葡萄酒的理化指标来评价葡萄酒的质量的结论。
总结,比如:
最后,本文对所建模型的优点和缺点进行了客观的评价,认为本文研究的结果在----
中具有一定的参考价值(或者是应用价值)。
关键词:葡萄酒评价; t 检验;Cronbach's Alpha ;聚类分析;灰色系统关联分析;相关
性分析;多元回归分析
1
1. 问题重述
确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡
萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒
葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一
定程度上反映葡萄酒和葡萄的质量。附件1给出了某一年份一些葡萄酒的评价结果,附件 2
和附件 3 分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。请尝试建立数学模型讨
论下列问题:
1. 分析附件 1 中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?
2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。
4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒
的理化指标来评价葡萄酒的质量?
2. 模型假设
1) 假设原始数据基本正确(个别异常数据可进行处理);
2) 假设品酒员对葡萄酒评分时独立评判,且互不交流影响;
3) 假设葡萄样品为随机选取,质量水平近似符合正态分布;
4) 假设评酒员恶意打分情况可忽略,仅考虑评酒水平差别;
5) 假设葡萄酒由与之编号相同的酿酒葡萄酿造。
3. 通用符号说明
序号 符号
1
2
3
K
2
X
2
Yi
符号说明
样本数
总样本的方差
观测样本的方差
2
4
5
6
7
8
9
10
11
iw
Z
mx
y
n
P
第i 个理化指标
标准差
原始分数和母体平均值之间的距离
解释变量
响应变量
样本容量
总体平均数
显著性检验的概率
4. 问题一:模型的建立、求解及评价
4.1 问题分析
题目一要求分析附件1中两组品酒员的评价结果有无显著性差异,哪一组结果更可信。
附件1中10 位品酒员通过四个一级指标:外观、香气、口感、整体对葡萄酒进行评分
量化,要使分析科学合理,且符合实际情况,必须首先对附件1中的数据进行修正和补全。
由于附件1中红葡萄酒和白葡萄酒数据分别有 27 个样本和 28 个样本,样本含量较少(皆小
于30 ),欲分析附件1中的品酒员评价结果有无显著性差异,拟采用 t 检验解决。
我们拟采用 Cronbach's Alpha 可信度系数模型分析两组品酒员评判的一致性来判断哪
一组的结果更加可信,评价结果的一致性好则更可信。
4.2 数据预处理
附件1中,第一组红葡萄酒 20 号样本,评酒员 4 号中缺色调数据取其他评酒员的均值
进行填补为6 ;第一组白葡萄酒3 号样本, 7 号评酒员的持久性超上限,将77 修正为7 ;第
一组白葡萄酒8 样本, 9 号评酒员的持久性超上限,将16 改为6 ;酿酒白葡萄的百粒质量第
三组数据太大,与其他数据比较推测为输入错误,将2226.1改为226.1。
酒样品的评价总分作为葡萄酒的质量指标,利用 EXCEL 将每个品酒员对每种酒样品修
正后的评分进行加和。
4.3 模型建立
题目1判断两组评酒员的评价结果有无显著性差异采用 t -检验(成对双样本均值分析)
3
的方法解决。在试验检测数据处理过程中,时常会出现两种或者多种不同的试验结果。对
数据进行比较分析时,不能仅凭两个结果的不同就做出结论,而是要进行统计学分析,对
数据进行差异显著性检验。显著性检验就是实现对总体(随机变量)的参数或总体分布形
式做出一个假设,然后利用样本信息来判断这个假设(原假设)是否合理,即判断总体的
真实情况与原假设是否存在显著差异[1]。
t 检验基本理论:
单总体 t 检验是检验一个样本平均数与一个已知的总体平均数的差异是否显著。当总
体分布是正态分布,如总体标准差未知且样本容量小于30 ,那么样本平均数与总体平均数
的离差统计量呈 t 分布。
单总体 t 检验统计量为:
t
X
X
n
1
(1)
X 为样本平均数; t 为样本平均数与总体平均数的离差统计量;为总体平均数; X
为样本标准差; n 为样本容量。
双总体 t 检验是检验两个样本平均数与其各自所代表的总体的差异是否显著。双总体
t 检验又分为两种情况,一是独立样本 t 检验,一是配对样本 t 检验。
独立样本 t 检验统计量为:
(2)
(3)
t
2
1
n
1
1S 和 2S 为两样本方差; 1n 和 2n 为两样本容量。
X
X
1
2
1
n
S
1
2
2
n
n
1
2
n
df
1
1
n
2
2
n
2
配对样本 t 检验统计量为:
t
X
X
2
X
1
2
1
X
1
2
X
2
X
2
2
n
X ,
2
1
在这里 1X ,
的相关数。
2X 分别为两样本平均数;
2
X 分别为两样本的方差;为相关样本
2
要进行 t 检验要首先对数据利用 SPSS 进行正态分布检验(Q Q 图)和方差齐次检验
( F 检验),发现所有的数据符合上述条件,所以可以进行 t 检验。
配对 t 检验是采用配对设计方法观察以下几种情形:第一,两个同质受试对象分别接
4
受两种不同的处理;第二,同一受试对象接受两种不同的处理;第三,同一受试对象处理前
后。很明显这个试验属于第二种情况,同个样品是被来自两个组的品酒员评价。应用配对
设计可以减少实验的误差和控制非处理因素,提高统计处理的效率。
题目1中,判断哪一组结果更加可信采用Cronbach's Alpha 模型解决。
克朗巴哈系数(Cronbach's Alpha )是一个统计量,是指量表所有可能的项目划分方法
的得到的折半信度系数的平均值,是最常用的信度测量方法。
通常Cronbach's Alpha 系数值在0 和1之间。如果 X 系数不超过0.6 ,一般认为内部一
致信度不足;达到0.7 - 0.8 时表示量表具有相当的信度,达0.8 - 0.9 时说明量表信度非常好
[2]。
K
1
1
K
2
K
1
i
Yi
2
X
(4)
其中 K 为样本数, X2 为总样本的方差, Yi2 为目前观测样本的方差。
4.4 模型求解
采用t 检验来检验两组红葡萄酒和白葡萄酒的显著性差异。鉴于以上配对样本t 检验
的原理,在SPSS 统计软件的运行环境中分别用“Q - Q ”图检验方法对两组评酒员的红葡
萄酒和白葡萄酒平均得分分别做正态性检验,可以看出预期常态值与观察值大体成线性关
系,说明各组评价结果近似成正态分布。
图 1:红葡萄酒的Q - Q 图
5
图 2:白葡萄的Q - Q 图
对于方差齐次检验,在每次的 t 检验中均给出方差,可以看出满足方差齐次性。
这里以 EXCEL 下红葡萄酒样品1的检验过程作为模型的说明。
一组
二组
51
68
66
71
49
80
54
52
表 1
77
53
61
76
72
71
61
73
74
70
62
67
表一是两个组10 位品酒员对样品1评价的总分的列表。将一组的数据记为 1 ,二组的
数据记为 2 ,设虚无假设 0H : 1= 2 ,则备择假设 H : 1 不等于 2 。选定为0.05 。
利用 EXCEL 中的数据分析功能,对上述数据分为变量1变量 2 进行 t 检验。
表 2
t 检验: 成对双样本均值分析
变量 2
.68 1
.81 8
10
平均
方差
观测值
泊松相关系数
假设平均差
df
t Stat
P(T<=t) 单尾
T 单尾临界
P(T<=t) 双尾
t 双尾临界
变量 1
.62 7
.92 9
10
.0 3
0
9
.1 2
.0 1
.1 8
.0 3
.2 3
上表为运算的结果,我们只需选取 P 双尾这一数据, P 大于0.05 ,所以可以得出虚无
假设成立,这二者没有显著性差异。
6