logo资料库

2012年国赛数学建模A题优秀模型.doc

第1页 / 共37页
第2页 / 共37页
第3页 / 共37页
第4页 / 共37页
第5页 / 共37页
第6页 / 共37页
第7页 / 共37页
第8页 / 共37页
资料共37页,剩余部分请下载后查看
基于统计分析的葡萄酒评价模型
2012 高教社杯全国大学生数学建模竞赛 承 诺 书 我们仔细阅读了中国大学生数学建模竞赛的竞赛规则. 我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮 件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问 题。 我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他 公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正 文引用处和参考文献中明确列出。 我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反 竞赛规则的行为,我们将受到严肃处理。 我们参赛选择的题号是(从 A/B/C/D 中选择一项填写): 我们的参赛报名号为(如果赛区设置报名号的话): 所属学校(请填写完整的全名): 参赛队员 (打印并签名) :1. 2. 指导教师或指导教师组负责人 (打印并签名): 3. 日期: 2012 年 9 月 7 日
赛区评阅编号(由赛区组委会评阅前进行编号):
2012 高教社杯全国大学生数学建模竞赛 编 号 专 用 页 赛区评阅编号(由赛区组委会评阅前进行编号): 赛区评阅记录(可供赛区评阅时使用): 评 阅 人 评 分 备 注 全国统一编号(由赛区组委会送交全国前编号): 全国评阅编号(由全国组委会评阅前进行编号):
基于统计分析的葡萄酒评价模型 摘要 为了解决葡萄酒分等级等问题,我们利用统计分析的知识建立模型求解。 针对问题一,首先对数据进行预处理,分别对两组中各葡萄酒样品所对应的 各评酒员的评分求均值。考虑到各评酒员的打分是相互独立的,采用双因素方差 分析的方法分析得出两组评酒员的评价结果无显著性差异,同时由于第一组评酒 员的评价结果的方差 组第S 1 , 红葡萄酒  0.356524 明显大于第二组的方差 2 S第 组 红葡萄酒 ,  0.102422 ,可知第二组评酒员的评价结果可信度更高。 针对问题二,首先采用 R 型聚类分析法对指标变量进行聚类,由于同一类指 标变量的相似性较强,可以在同一类中仅选择一个代表性的指标来表示,因此, 缩减了变量。接着,为避免消除量纲进行标准化处理时给变量和样品带来的不对 称问题,利用简化指标变量,对原始数据采用对应分析的方法进行处理,从而对 27 个样品进行分类。最后按照对红、白葡萄成分不同要求将它们各自分五等级 和四等级(结果见 13 页表四)。 针对问题三,首先,采用 R 型聚类分析法缩减变量,考虑到涉及的自变量 (酿酒葡萄的理化指标)和因变量(葡萄酒的理化指标)个数均较多,并且变量 间的相关性较强,所以采用偏最小二乘回归分析法得出聚类后的酿酒葡萄与葡萄 酒的理化指标间的回归方程(系数见 17、18 页表十五、十六),并画出样本预测 曲线,经比较发现模型的精度较高。 针对问题四,首先采用主成分分析的方法缩减指标数量,再根据主成分与酿 酒葡萄的质量的关系利用逐步回归的方法筛选变量,建立多元线性回归模型,得 关系式: g =0.405 -0.261 -0.657 +0.31 +0.204 +0.275 +0.22 9 s 11 s 1 s s s s 8 s 7 4 5 6 -0.378 +0.173 s 13 s 12 -0.159 s 14 -0.299 +0.257 s 15 s 16 -0.755 +0.291 s 17 s , 19 其中 g 为葡萄酒的质量, ,is 为葡萄酒及酿酒葡萄综合指标主成分, 1, i   。 ,23 回归的拟合优度复相关系数 2 R  0.934395 ,说明酿酒葡萄及葡萄酒的理化指标 可以从 93.4395%的程度上反应评酒员的打分情况,因而可以用酿酒葡萄及葡萄 酒的理化指标分析来代替评酒员的打分进行葡萄酒质量的评价。 关键词:ANOVA;R 型变量聚类法 ;对应分析 ;偏最小二乘回归分析; 主成分 分析;逐步回归 1
一、问题重述 一般通过聘请一批有资质的评酒员对葡萄酒的质量进行品评,每个评酒员在 品尝葡萄酒之后对其进行分类指标打分,通过求和得到其总分,然后确定葡萄酒 的质量。酿酒葡萄的好坏直接的关系到所酿葡萄酒的质量,葡萄酒和酿酒葡萄检 测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。题目中的附件 1 给出了 某一年份一些葡萄酒的评价结果,附件 2 和附件 3 分别给出了该年份这些葡萄酒 的和酿酒葡萄的成分数据。请尝试建立数学模型讨论下列问题: 1. 利用数学知识对两组评酒员的评价结果进行检验看是否出现显著性差 异,判断哪一组结果更可信。 2. 如何从酿酒葡萄的理化指标和葡萄酒的质量方面考虑给酿酒葡萄进行分 级。 3. 酿酒葡萄与葡萄酒的理化指标之间是否存在联系。 4.判断当酿酒葡萄和葡萄酒的理化指标改变时给葡萄酒质量的带来什么影 响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。 二、问题分析 问题一,要求判断两组评酒员的评价结果有无显著性差异,及哪一组结果更 可信。首先对所需的原始数据进行处理,即分别对两组中每葡萄酒样品所对应的 各评酒员的平衡评价求均值,得到每组对各葡萄酒样品的总体评价分数,从而可 利用概率统计中的知识将所研究的问题归结为一个统计问题,以组的编号和葡萄 酒的类别作为因素,然后用方差分析的方法进行分析。 问题二,要根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分 级。由于酿酒葡萄与葡萄酒的指标数量过多,变量间的相关度高,给系统分析与 建模带来很大的不便,为此考虑采用多元分析中的变量聚类法,根据变量的相似 关系把变量聚合成若干类,进而找出影响葡萄等级的代表性因素。再根据这几个 指标的原始矩阵采用对应分析对 27 个样品进行分类。 问题三,要求分析酿酒葡萄与葡萄酒的理化指标之间的联系。同问题二为了 避免理化指标的变量过多给系统分析与建模带来的不便,首先采用型变量聚类法 进行数据的处理,然后可利用偏最小二乘回归模型的简洁算法求得酿酒葡萄与葡 萄酒的理化指标之间的联系 问题四,判断当酿酒葡萄和葡萄酒的理化指标改变时给葡萄酒质量的带来什 么影响,采用主成分分析法给指标降维,使问题简化,建立回归模型使指标与质 量关系明确。 三、模型假设及符号说明 3.1 模型假设 (1) 用评酒得分的均值作为葡萄酒的质量的数据。 (2) 由网上资料可知含酒石酸高的葡萄的酿出的红葡萄酒等级高。 (3) 由网上资料可知酿酒葡萄中出汁率、可溶性固形物含量高的白葡萄酿出 的白葡萄酒等级高。 (4) 理化指标指的就是附件中全部指标。 3.2 符号说明 2
S :方差 g :葡萄质量 ( ), is i   :主成分 ,23 1, ( ), iw i   :红葡萄酒的聚合后的各理化指标 ,5 1, ( ), iv ( ), iv i   :酿酒红葡萄的聚合后的各理化指标 ,5 1, i   ;白葡萄的聚合后的各理化指标 ,11 1, i:水平 iA 对指标的效应, 1,   i , n ( ), iw i   :酿酒白葡萄的聚合后的各理化指标 ,11 1, j :水平 jB 对指标的效应, 1,   j , n ij :水平 iA 与 jB 对指标的交互效应 , i j 1,   , n 四、模型的建立与求解 4.1 问题一 在实际生产与生活中,我们常需找出有对某些指标显著影响的那些因素。除 了从机理方面进行研究外,我们常常要作许多试验,对结果作分析、比较,寻求 规律。用数理统计分析试验结果、鉴别各因素对结果影响程度的方法称为方差分 析(Analysis Of Variance),记作ANOVA。人们关心的试验结果称为指标,试验 中需要考察、可以控制的条件称为因素或因子,因素所处的状态称为水平。 如果要考虑两个因素A,B 对指标的影响, A,B 各划分几个水平,对每一个 水平组合作若干次试验,对所得数据进行方差分析,检验两因素是否分别对指标 有显著影响,或者还要进一步检验两因素是否对指标有显著的交互影响。 其数学模型为: 设 A 取 r 个水平 1 A A 2 , , ,r A B 取 s 个水平 1 B B 2 , , B ,在水平组合 ( s A B 下 i ) , j 总体 ijx 服从正态分布 ijN (    ), i , 2 1,  , r j , 1,  。又设在水平组合 ( s , A B 下 i ) , j 作了t 个试验,所得结果记作 , x ijk x 服从 ijk ijN (    ), i , 2 1,  , , r j  1,  , , s k  1,  , t 且相互独立。将这些数据列成表 1的形式。 表1 双因素试验数据表 2B  x  1 1 12t x s sB x 1 st 1B 1A x 111 x 11t x 121 3
2A  rA x 211 x r 11 21t x  x 1 r t s x 22t x  2 1  x  1rs  2 r t x x 221 x r 21 st x 2  x rst 将 ijkx 分解为 x ijk = +   ijk ij , =1, i  , , =1, r j  , , =1, s k  , t 其中 ijk N  (0, 2  ) ,且相互独立。记 =  1 rs s r  i =1 j =1   i  , ij = 1 s s  j =1     , = i - ij  i   j r 1=  ir =1        j - , = - - , = - ij ij ij  j j i 是总均值, i是水平 iA 对指标的效应, j 是水平 jB 对指标的效应, ij 是水平 iA 与 jB 对指标的交互效应。模型表示为  x ijk  r     =1 i    ijk s  ij =0  , , =1, s k  , t = + + + +      ijk r ij s i j  i =0,  N  j  =1 j 2 (0,  =0, =  ij   =1 , , =1, r j =1 i ), =1, i  j 原假设为 记 H H H 01 : =0( =1,  i i 02 : =0( =1,  i j  , ) r  , ) s 03 : =0( =1,  ij i  , , =1, r j  , ) s x = 1 rst s t r  i =1 j =1 =1 k x ijk , x ij  = 1 t t  k =1 x ijk 1 st 将全体数据对 x 的偏差平方和 x i =  t s  =1 =1 k j t r  i =1 k =1 x ijk x ijk x , j   = 1 rt 4
分享到:
收藏