logo资料库

2012全国大学生数学建模A题 优秀论文.doc

第1页 / 共26页
第2页 / 共26页
第3页 / 共26页
第4页 / 共26页
第5页 / 共26页
第6页 / 共26页
第7页 / 共26页
第8页 / 共26页
资料共26页,剩余部分请下载后查看
2012 高教社杯全国大学生数学建模竞赛 承 诺 书 我们仔细阅读了中国大学生数学建模竞赛的竞赛规则. 我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网 上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。 我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的 资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参 考文献中明确列出。 我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规 则的行为,我们将受到严肃处理。 我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展 示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。 我们参赛选择的题号是(从 A/B/C/D 中选择一项填写): A 我们的参赛报名号为(如果赛区设置报名号的话): 所属学校(请填写完整的全名): 参赛队员(打印并签名):1. 2. 3. 指导教师或指导教师组负责人(打印并签名): 教练组 日期: 2012 年 9 月 10 日 赛区评阅编号(由赛区组委会评阅前进行编号):
2012 高教社杯全国大学生数学建模竞赛 编 号 专 用 页 赛区评阅编号(由赛区组委会评阅前进行编号): 赛区评阅记录(可供赛区评阅时使用): 评 阅 人 评 分 备 注 全国统一编号(由赛区组委会送交全国前编号): 全国评阅编号(由全国组委会评阅前进行编号):
葡萄酒的评价 摘 要 本文针对葡萄酒的评价问题进行研究,主要解决了葡萄的分级、葡萄酒质量的评价 以及葡萄与葡萄酒理化指标的联系等一系列问题,对葡萄和葡萄酒的定量分析具有一定 的参考价值。 针对问题(1),基于两组评酒员对同一酒样评分得到的成对数据,利用逐对比较法 进行t 统计量的显著性检验。结果表明,在显著性水平 下,两组评酒员的评价结 果具有显著性差异。针对可信度问题,采用方差分析法和多系列相关分析法,量化评价 结果的可信度,分别得到两组评酒员的可靠性系数。结果表明,两种方法得出的结论一 致:对两类葡萄酒,第一组的结果均比第二组可信。 05.0 针对问题(2),利用主成分分析和聚类分析法,依据葡萄的理化指标和葡萄酒的质 量对葡萄进行分级。首先,筛选出可能对葡萄酒质量产生影响的葡萄理化指标,通过主 成分分析法,取累计贡献率大于 85%的主成分因子。然后,根据主成分特征值和系数矩 阵得到主成分综合得分,聚类分析得出葡萄的分级结果。 针对问题(3),利用相关性分析和多元线性回归分析的方法,给出葡萄和葡萄酒的 理化指标之间的联系。首先,对葡萄酒的理化指标和问题(2)中筛选出的葡萄理化指 标分别进行相关性分析,得到与葡萄酒理化指标极显著性相关的葡萄的理化指标。然后, 通过回归分析得到葡萄酒理化指标关于葡萄理化指标的函数关系,从而建立二者之间的 联系。 针对问题(4),采用 Fisher 线性判别分析法,分析葡萄和葡萄酒的理化指标对葡萄 酒质量的影响,并结合其芳香物质,能更加精确地评价葡萄酒的质量。首先,利用 Fisher 判别分析法,分别对葡萄酒理化指标和问题(3)中与其呈极显著性相关的葡萄理化指 标进行分析,得到对葡萄酒质量影响较大的葡萄酒和葡萄理化指标。通过建立线性判别 函数,获得葡萄酒质量等级识别模式。进一步结合芳香物质数据,给出新的葡萄酒质量 等级识别模式。利用这两种识别模式,对原始数据进行正确性检验,得到判别函数的正 确判别率。结果表明,葡萄和葡萄酒的理化指标仅在一定程度上影响葡萄酒质量的分级; 结合芳香物质后,葡萄酒质量分级的正确率更高。 关键词:葡萄酒分级 逐对比较法 主成分分析 多元线性回归 Fisher线性判别 1
一、 问题重述 确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对 葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。 葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和葡萄检测的理化指标会在一定 程度上反映葡萄酒和葡萄的质量。附件 1 给出了某一年份一些葡萄酒的评价结果,附件 2 和附件 3 分别给出了该年份这些葡萄酒的和葡萄的成分数据。请尝试建立数学模型讨 论下列问题: (1) 分析附件 1 中两组评酒员的评价结果有无显著性差异,哪一组结果更可信? (2) 根据葡萄的理化指标和葡萄酒的质量对这些葡萄进行分级。 (3) 分析葡萄与葡萄酒的理化指标之间的联系。 (4) 分析葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄 酒的理化指标来评价葡萄酒的质量? 2.1. 问题(1)分析 二、 问题分析 考虑在显著性水平 0.05 下进行假设检验,分析两组评酒员的评价结果是否具有显著 性差异。为了比较两组评价结果的差异,可以将两组评酒员对同一葡萄酒(以下简称为 酒)的评分看作在相同条件下作对比试验得到成对数据的过程。对两组评价结果的显著 性检验问题也就是基于成对数据的检验(t 检验)问题。根据双边假设检验和样本观察 值作出显著性差异的决策。 小组结果可信度与组内各评酒员的可信度相关。组内评酒员的可信度(可靠性)越 高,该组的评价结果越可信,而评酒员的可靠程度主要取决于主观评分导致的误差大小。 评酒员个体内部误差和评酒员间的一致性都会对整体误差产生影响,我们可以认为评酒 员个体差异的影响远远小于评酒员之间差异的影响。考虑分别通过方差分析法和多系列 相关分析法,对组内多位评酒员进行可靠性系数的计算,将结果的可信度量化后进行比 较。同时,两种方法相互验证也能反映结论的准确性。显然,哪一组评酒员的可靠性系 数更高,哪一组的结果更可信。 2.2. 问题(2)分析 由于酒的质量与酒的外观、香气和口感有关,而酿酒葡萄(以下简称为葡萄)的部 分理化指标会对酒的外观、香气和口感产生影响。选择可能对酒的质量产生影响的葡萄 理化指标。通过对这些理化指标进行主成分分析,取累计贡献率较高时对应的主成分。 根据主成分特征值和主成分系数矩阵,得到葡萄主成分综合得分。然后对综合得分进行 聚类分析,得出葡萄的分级情况。可以根据葡萄的理化指标和酒的质量,按照分级情况 对其进行归类。 2.3. 问题(3)分析 要分析葡萄与酒的理化指标之间的联系,选择几种与酒的理化指标极显著相关的葡 萄理化指标,分别对酒的每种理化指标和与取其极显著性相关的葡萄的指标进行多元线 性回归分析。 已知问题(2)得到对影响酒的质量的几项葡萄理化指标,现对葡萄的这几项指标 和酒的理化指标进行分别进行相关性分析。可以根据相关性分析结果筛选出与酒的各项 2
指标呈极显著性相关(0.01 水平)的葡萄指标,再根据这些筛选出的葡萄指标对酒的指 标进行多元线性回归分析。 2.4. 问题(4)分析 葡萄和酒的理化指标对酒的质量的影响主要体现于两者间的相关程度,可以通过相 关性分析筛选出与酒的质量显著相关的指标,对这些指标进行判别分析,得到判别函数。 再对酒自身进行聚类,利用判别函数的相关系数判断提取的指标对酒质量的影响,同时 能够论证葡萄和酒的理性指标能否评价酒的质量的问题。显然,判别正确率越高,提取 的理性指标对酒的质量的影响越明显,通过理性指标评价酒的质量的可行性越高。同时 考虑芳香物质对酒的质量是否有影响,加入芳香指标后得到的判别函数的正确率是否会 提高。 三、 模型假设 1、 酒的质量通过评酒员的评价结果体现。 2、 葡萄的好坏与所酿酒的质量有直接关系。 3、 酒和葡萄检测的理化指标会在一定程度上反映酒和葡萄的质量。 4、 题中所给数据除异常值外准确率较高。 5、 在一定程度上忽略二级指标的影响。 四、 符号说明 符号变量 x y g N 符号说明 葡萄酒理化指标 红葡萄酒理化指标 白葡萄酒理化指标 葡萄酒样品数 5.1. 问题(1):评价结果的显著性检验及可信度分析 五、 模型的建立与求解 酒的评分犹如一道可视“指标线”,评酒员的评价结果在一定程度上体现了酒的质量 的高低,但不是一瓶酒好坏的绝对指标。 本文使用了 100 分制评分系统,每位评酒员品尝酒后对其分类指标打分,然后求和 得到其总分,即为该评酒员给出的分数。参考常规比赛评分规则,将组内 10 位评酒员 对同一酒的评分汇总,去掉一个最高分和一个最低分后取平均分,小数点后保留两位小 数,得到该组对酒的评分结果。 将附件 1 中的评分数据进行处理,分别得到两组每位评酒员对酒的评分(个体评价 结果)和两组评酒员对酒的评分(小组评价结果)。 5.1.1. 两组评酒员评价结果的显著性检验(逐对比较法) 检验两组评酒员的评价结果是否具有显著性差异,即对小组间的评价结果进行比 较,则得到的数据是成对的,即对同一酒得到一对数据(即两组评酒员的评价结果)。 一对与另一对之间的差异一般是由各种因素,如外观、香气、口感等因素引起的。 由于各酒的特性有广泛的差别,就不能将第一组评酒员对各酒的评价结果看成是同 分布随机变量的观察值。因而第一组评酒员对各酒的评价结果不能看成是一个样本的样 3
本值。同样,第二组评酒员对各酒的评价结果也不能看作是一个样本的样本值。 再者,对于每一对数据而言,它们是同一酒被不同组评酒员评价的结果,因此,它 们不是两个独立的随机变量的观察值。综上所述,我们不能用关于两个正态总体均值的 检验法来检验。而同一对两个数据的差异则可看成是仅由这两组评酒员品评的差异所引 起的。这样,局限于各对中两个数据来比较就能排除种种其他因素,而只考虑单独由评 酒员的评价所产生的影响。从而能比较这两组评酒员的评价结果是否有显著的差异。 为了比较两种产品、两种仪器、两种方法等的差异,在相同的条件下作对比试验, 得到一批成对的观察值,然后分析数据作出推断,这种方法被称为逐对比较法[1]。在假 设检验中利用t 统计量进行检验,因而称为基于成对数据的t 检验或成对观测值t 检验。 ) ) ( , X Y  ,  , , n n D, D D , , 相互独立。由于 1 , , 是由同一因 2 n 2 ( 1 2 , i n     。这就是说, , , , , D D 2 ,D N   的一个样本。其中, D  未知。我们需要基于这 D 2 素所引起的,可认为它们服从同一分布。现假设 D D 1 2 一样本检验假设: 一般地,设有 n 对相互独立的观察结果: 1 X  , , 构成正态总体 D X Y 1 D, ,则 1 D D 2 D, ,令 1 D N ~ X Y , 2 2 X Y , 1 , , D  Y 2 D ) ) ( ,  Y 2 ( n  X , D  ( n n n ) 2 1 n i    (1) 0 H  : D (2) 0 H  : D (3) 0 H  : D D, 0 H , : 1 0 H , : 1 0 H , : 1  D  D  D    0 0 0 ; ; 。 D D 2 d s, 。根据文献[1]中关于单个正 分别记 1 态总体均值的t 检验,得到检验问题(1),(2),(3)的拒绝域分别为(显著性水平为): , , 的样本均值和样本方差的观察值为 2 D n d d t  s D t  t  s D d s D n n n  t  2( n -1)  ( t n  -1)   ( t n  -1) 对于两组评酒员评价结果的显著性检验问题(显著性水平 0.05 ),由于t 检验对 样本数的约束以及评酒员评价两种酒的水平差异,考虑分别检验两种酒在两组中的评价 结果是否具有显著性差异。 先检验红葡萄酒的评价结果,作出同一红葡萄酒分别由两组评酒员评价的结果之 差,按题意需检验假设 0 (两组评酒员对红葡萄酒的评价结果无显著性差异) 0 (两组评酒员对红葡萄酒的评价结果有显著性差异) D H   : 0 DH   : 1 (26) t  2 0.025 现在 n  27, t  (26)  2.0555 ,即知拒绝域为 t  d s D n  2.0555 根据数据得 d  2.3102 s , D  5.3060 t ,   2.2624  2.0555 。发现 t 的值落在 2.3102 5.3060 27 4
拒绝域内,故在显著性水平 0.05 果具有显著性差异。  下拒绝 0H ,即认为两组评酒员对红葡萄酒的评价结 t  同样处理白葡萄酒的评价结果, 2.3541 2.0518 综上可得,两组评酒员的评价结果在显著性水平 0.05 ,说明两组评酒员对白葡萄酒的评价结果也具有显著性差异。 下具有显著性差异。   2.0518 ,拒绝域 2.0518 t  (27)  2 n  28 t , ,得到 5.1.2. 两组评酒员评价结果可靠性分析 评价的可靠性(又称信度)是指在同等条件下,同一评分员内部或不同评分员之间, 在对评价结果计分上的一致性。理想的状态下,同一评分员在不同的情况下或者不同评 分员之间都能保持评分标准的稳定性。然而,在实际评分过程中,由于评分员因素导致 的分数误差是客观存在的。 反映可靠性高低的可靠性系数 r 的取值范围为 0 1r  , r 值越接近 1,则可靠性越 高。一般认为,可靠性系数达到 0.60 ~ 0.90 是可以接受的。总体而言,越是高风险测量 和评价,可靠性系数要求越高。 对组内每位评酒员的评分进行一致性分析,得到该组评价结果的可靠性系数。对比 两组结果的可靠性,显然可靠性高的一组更可信。采用以下两种方法进行可靠性分析。  方差分析法 方差分析法的基本原理是把几组数据的总变异(用 0M 表示)分解为每组内部的, 即由被评价的个体差异和随机误差所引起的,称为组内方差,用 1M 表示;出现在各组 之间,有受控制的实验因素或观察条件所引起的,称为组间方差,用 2M 表示。通过计 算组间方差与组内方差的比值,从而判断影响总变异的主要因素。 计算可靠性系数 r ,公式为: r = M M - 2 M 2 1 (5.1.1) 方差分析法是对多组数据之间的方差检验,即便在多次评分中出现随机误差,因其 可对误差来源进行分析鉴定,可以避免对可靠性做出错误估价,是一种较好的估价可靠 性的方法。 对第一组各评酒员对红葡萄酒的评价结果进行单因素方差分析,按 10 位评酒员对 同一种酒的评价进行分组,计算结果如下表 1: 表 1 第一组评酒员对红葡萄酒评分的方差分析表 组间 (组合) 对比 偏差 线性项 组内 总数 偏差平方和 14017.667 341.178 13676.489 14244.500 28262.167 样本自由度 26.000 1.000 25.000 243.000 269.000 偏差均方值 539.141 341.178 547.060 58.619 则第一组评酒员评价红葡萄酒的可靠性系数 r 11 = M M - 2 M 2 1  539.141 58.619  539.141  0.891 统计量 F 9.197 5.820 9.332 自由度的熵 0.000 0.017 0.000 同理可得,第一组评酒员评价白葡萄酒的可靠性系数是 12 r  0.486 ,第二组评酒员 5
r 评价红、白葡萄酒的可靠性系数分别是 21  0.786 r , 22  0.443 。  0.6 由于 r r  11 21 0 r  组可靠性更高; 22 但第一组较第二组更接近可靠范围。 0.9  ,说明两组评酒员对红葡萄酒的评价结果均可接受,但第一 r   ,说明两组评酒员对白葡萄酒的评价结果均不大可靠, 12 0.6 综上所述,通过方差分析法可知,第一组的结果更可信。  多系列相关分析法 多系列相关分析法[2]既使用了评分员之间的相关系数,又对这些相关系数进行了处 理。处理包括计算所有相关系数的平均数和对相关系数进行 Fisher- Z 转换。转换的原因 是相关系数本身不是等距数据。另外,还要使用斯皮尔曼—布朗矫正公式来调整相关系 数的平均值。这样处理的目的是使最后的可靠性估计能够反映参与评分人员的数量与全 部评分员整体可靠性的关系。 首先,计算所有评酒员评分分数的相关矩阵。根据附件 1 中评酒员的评分数据,在 得到评酒员打分的相关矩阵,见表 2。 SPSS 软件中,调用“分析” “相关” “两因素”   评酒员 01 02 03 04 05 06 07 08 09 10 01 1.000 0.591 0.603 0.647 0.480 0.419 0.470 0.697 0.499 0.513 表 2 第一组评酒员对红葡萄酒评分的相关矩阵 02 03 04 05 06 07 08 09 10 1.000 0.833 0.619 0.639 0.525 0.788 0.631 0.593 0.270 1.000 0.696 0.526 0.602 0.675 0.552 0.684 0.328 1.000 0.521 0.668 0.653 0.745 0.531 0.392 1.000 0.439 0.504 0.681 0.399 0.159 1.000 0.562 0.554 0.551 0.471 1.000 0.519 0.710 0.371 1.000 0.325 0.287 1.000 0.370 1.000 其次,通过转换公式 1 + 1 - 将相关矩阵中相关系数一一转换成对应的 Z 值,见表 3。 1 1513lg = . 1ln + 1 - 1 2 r r 或 Z Z = r r (5.1.2) 评酒员 01 表 3 第一组评酒员对红葡萄酒评分相关系数的 Z 值矩阵 08 04 05 06 07 02 03 09 10 01 02 03 04 05 06 07 08 09 10 0.679 0.698 0.770 0.523 0.446 0.510 0.861 0.548 0.567 1.199 0.724 0.757 0.584 1.067 0.743 0.682 0.277 0.860 0.585 0.697 0.820 0.622 0.837 0.340 0.578 0.807 0.780 0.962 0.592 0.414 0.637 0.624 0.619 0.511 0.575 0.887 0.389 0.337 0.295 0.388 0.471 0.554 0.832 0.422 0.160 6
分享到:
收藏