(2019 届)
毕业论文(设计)
文献综述
题 目:共线性数据的主成分回归方法研究及其程序实现
学 院:
数理与信息工程学院
__
专 业:
信息与计算科学
班 级:
信计 152
学 号:
201559295217
姓 名:
指导教师:
郑义强
祝鹏
一、前言部分
多元线性回归模型有一个基本假设,就是要求设计矩阵X 的秩rankX =p+1,即要
求X 中的列向量之间线性无关。如果存在不全为零的p+1 个数0,1,2,…,,使得
则自变量1,2,…,之间存在完全多重共线性。在实际问题中,完全的多重共线性并不多
见常见的是上式近似成立的情况,即存在不全为零的p+1 个数0,1,2,…,,使得
当自变量1,2,…,存在上式的关系时,称自变量1,2,…,之间存在多重共线性,也
0+11+22+…+=0,=1,2,…,
0+11+22+…+≈0,=1,2,…,
称复共线性[1]。多重共线性会产生以下五种影响,(1)完全共线性下参数估计量不存在;(2)
近似共线性下 OLS 估计量非有效;(3)参数估计量经济含义不合理;(4)变量的显著性检验失
去意义,可能将重要的解释变量排除在模型之外;(5)模型的预测功能失效。变大的方差容
易使区间预测的"区间"变大,使预测失去意义[2]。而解决共线性问题的一个重要方法就是主
成分回归方法。
主成分分析由皮尔逊首先引入,后来被霍特林发展了。主成分分析是一种通过降维技术
把多个变量化为少数几个主成分(综合变量)的统计分析方法。这些主成分能够反映原始变
量的绝大部分信息,它们通常表示为原始变量的某种线性组合。为了实现最有效率的降维,
应使这些主成分所含的信息(在线性关系的意义上)互不重叠,也就是要求它们之间互不相
干。简言之,主成分分析就是一种用一组较少的不相关(综合)变量来代替大量相关变量的
统计降维方法[3]。这样在研究问题时就可以只考虑少数几个主成分且不至于损失太多信息,
从而更容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时使问题得到简化,提高分
析效率。由于在经典统计学中,要求自变量互相独立,此时,才可以构建多重线性回归模型。
当自变量之间存在多重共线性时,经典统计学理论认为:所建立的多重线性回归模型的质量
就不高,甚至可能是不能解决实际问题或违反专业知识的回归模型(指某些回归系数的正负
号不符合基本常识和专业知识要求),故这时就需要用到主成分回归分析。
目前,学术界对主成分回归分析方法进行了大量的研究和实践,取得了一批具有启发性、
建设性的成果,为解决社会经济、科学等问题,构建比较完善的统计方法体系提供了理论参
考。本文通过分析目前国内外部分专家对主成分回归分析方法的总体概况,梳理、总结了相
关文献,拟结合众多学者对社会各方面实际问题的应对情况,开展进一步的研究。
二、主题部分
主成分回归分析原理
主成分回归分析主要是使用降维的方法,使用较少的变量来代替原有的较多的变量。在
变量转换的过程中,采用了映射的原理[4]。也就是说,较少的变量是原有较多属性变量的线
性表示。主成分回归分析是在模型计算时首先利用最小二乘法原理,抛弃细小的、无序的差
异,保留最大的、有序的差异,最终得到只有少数几个主成分的数学模型,并使数据变得简
单并容易理解和展示[5]。从主成分的导出和计算上看,主成分是从原始数据的协方差矩阵或
者系数矩阵出发,主成分的协方差矩阵应该是一个对角矩阵,主成分表达式系数矩阵应该是
一个正交矩阵为条件,导出主成分的协方差矩阵的对角线元素是协方差矩阵或相关矩阵的特
征值,主成分的方差就是原始数据协方差矩阵或相关矩阵的特征值,主成分表达式系数就是
协方差矩阵或相关矩阵特征值对应的特征向量[6]。第一主成分能够最大限度地反映样本间的
差异,是概括指标差异信息的最佳线性函数价,可以用第一主成分对样本综合排序[7]。
主成分回归分析主要步骤
产生多重共线性问题的根源是信息的交迭,也即解释变量的一些或者全部之间存在近似
或完全共线性。通过对解释变量提取彼此无关的主成分,达到了消除共线性的目的,同时又
把多个指标化为少数几个综合指标,起到了降维的作用。其基本过程为:
1.为了使结果不受量纲的影响,先把原始数据进行标准化。
2.求出标准化数据的相关系数矩阵、协方差。
3.导出相关系数矩阵的特征值和特征向量。
4.最大的特征值对应的特征向量即为第一主成分的系数,第二大的特征值对应的特征向量
即为第二主成分的系数,以此类推,取几个主成分取决于主成分对因变量的解释程度。如果
前 i 个特征值之和与所有特征值之和的比达到一定的程度比如 80%时,就可以认为这些主成
分就能代替所有的自变量体系。
5.用得出的主成分系数分别与标准化了的数据进行向量相乘,就可得出相应的主成分。之
后,用主成分对因变量进行普通最小二乘法即可得出各个主成分对因变量的解释程度[8]。
主成分回归分析的应用
不断提升经济发展一直是我国的重要目标,而主成分回归分析方法在应对经济各方面问
题时都表现了良好的效果。刘冰等人利用 2008-2014 年 17 家商业银行面板数据,结合主成
分回归分析法,给出影响商业银行利息净收入 8 个因素的产出弹性,得出我国银行利息净收
入具有规模效应的结论[9]。黄劲草等人在研究商业银行人民币贷款规模分配及盈利问题时,
运用主成成分分析方法对相关数据进行系列分析,用 MATLAB 软件编程处理和 SPSS 进行验证,
确定了影响贷款、存款的四个主要因素,最后用主成成分回归分析模型得出结论[10]。商品流
通企业的物流成本预测是物流成本管理中极为重要的环节。田博等人通过将主成分分析与多
元回归分析相结合的思路,构建出商品流通企业的物流成本预测模型。该模型克服了商品流
通企业物流成本变量体系之间的多重共线问题,提升了多元回归模型预测的准确度[11]。刘昊
等人针对了房价进行了预测,利用所获得的数据,进行数据处理后,建立 3 种回归模型,逐
一进行比较,得出各个模型存在的差异[12]。李思峰等人为研究当代大学生消费结构,并探索
其消费与家庭经济状况之间的数量关系,采用随机抽样获得数据样本,并引入主成分分析法
消除各指标间共线性的问题,由此建立了回归模型,从而得出大学生消费与家庭状况之间存
在弱线性关系,学习、娱乐和衣着等在大学生消费结构中所占比例较高[13]。
主成分回归分析在医药化学领域同样有着重大作用。刘桂然等人在探讨高血压患者左
心房收缩功能的影响因素与数学模型中,应用多重共线性及主成分回归分析探讨高血压患者
左房射血力指数(LAEFI)的主要影响因素,利用所建数学模型可对患者的 LAEFI 进行预测,
为进一步诊断及治疗高血压病提供一定的理论依据[14]。苏齐鉴等人研究人类免疫缺陷病毒
(HIV)耐药性的问题时,运用主成分 logistic 回归分析方法,得到耐药性和机体的免疫功能、
抗病毒治疗时间、治疗依从性有关的结论[15]。同时主成分回归分析也能对一些特殊群体进行
统计。曾雁冰等人为分析养老机构内老年人生活满意度情况及其影响因素,采用整群随机抽
样方法抽取样本,并利用主成分 logistic 回归分析其影响因素。结果显示厦门市养老机构
内老年人生活满意度普遍较高[16]。莫隽颖等人选取了 31 款市售防晒乳霜产品,利用主成分
回归分析法探讨了其整体喜好度和感官特性间的关系,发现使用后一段时间的皮肤感受对整
体喜好度的影响最重要[17]。王宝玉等人研究烤烟叶片断裂的相关机制,建立了烤烟叶片主脉
抗断性模型,并根据该模型进行抗断指数与叶片性状及纤维素含量的主成分回归分析,为改
善烤烟生产、提高烤烟质量提供理论依据和参考[18]。王家宝等人利用主成分回归分析,通过
研究采后荔枝果皮褐变过程中的生理变化,寻找影响果皮褐变的主要因素,为阐释果皮褐变
机理提供基础[19]。
通过主成分回归分析还可以对网络信息方面的 Web 服务进行 QoE 评价,李璐等人针对用
户对 Web 服务的认可程度难以衡量这一问题,提出了一种基于主成分回归的用户体验质量
(QoE)评价方法。首先分析业务类型,确定与 QoE 对应的服务质量(QoS)参数,收集样本数据;
其次采用主成分分析法对样本数据进行降维,获得主成分,解决 QoS 参数之间的多重共线性
问题;然后选取合适的数学模型,基于多元回归分析理论将 QoE 与主成分关联,获取 QoE
关于主成分的回归方程;最后根据回归方程得到 QoE 与 QoS 参数之间的函数模型[20]。
对主成分回归分析的评价
由数理统计中的大数定律得知,随着被评价对象的增加,评价指标的平均水平和离散程
度趋于稳定,因而协方差矩阵也趋于稳定,增加评价结果的准确性,因此主成分回归分析适
宜大样本容量的综合评价。改进与提高主成分回归分析做综合评价的效果的方法有很多,但
在研究具体问题时应首先研究指标之间的特征,选择合适的数据处理方式,再进行主成分回
归分析,才能得到正确的评价结果。
量纲对主成分回归的影响是显著的,因此对量纲的选取要慎重。量纲标准化不是无关紧
要的,对样本数据一概标准化可能会影响主成分效果。完全共线性的情形不适用主成分回归。
尽管如此我们亦不能马上给出应用主成分回归解决多重共线性是错误的结论,主成分分析法
作为多元统计分析的一种常用方法,在处理多变量问题时具有其一定的优越性,其降维的优
势是明显的,主成分回归方法对于一般的多重共线性问题还是适用的,我们在进行量纲标准
化时要比较效果。作为统计方法, 每种方法都有其适用范围,我们应该比较其效果而选用
而不是断然否定一种方法[21-22]。
三、总结部分
主成分回归是将主成分分析与多元回归分析结合应用的一种新的尝试,该法可消除回归
分析中出现的不合理符号,使所建回归模型更符合实际情况。通常在建立多元回归方程时,
如自变量间存在多重共线性关系时,常需采用适当方法减少相关变量来克服多重共线性现象。
但是,如果模型是用于预测预报的,则未来的数据关系未必就满足这种多重共线性关系,这
样就不能保证有良好的预测效果,而当各自变量间的两两相关系数均很大时,上述方法显然
无能为力。此时,主成分回归就能起到独特的作用[23]。
四、参考文献
[1] 何晓群,刘文卿.应用回归分析[M].第四版.北京:中国人民大学出版社,2015:160-161.
[2] 下雨的糖果.多重共线性. https://baike.so.com/doc/5735603-5948348.html. 2017.
[3] 王学民.应用多元统计分析[M].第五版.上海:上海财经大学出版社,2017:201-202.
[4] 陶思羽.基于主成分分析和粗糙集的聚类分析在经济指标数据中的应用[M].吉林大学,
2012.
[5] 阿基业.代谢组学数据处理方法—主成分分析[M].中国临床药理学与治疗学,2010(5):
481-489.
[6] 傅德印.主成分分析中的统计检验问题[J].统计教育,2007(9):4-7.
[7] 贾万敬,何建敏.主成分分析和因子分析在评价区域经济发展水平中的应用[J].现代管
理科学,2007(9):19-21.
[8] 舒晓慧,刘建平.利用主成分回归法处理多重共线性的若干问题[J].理论新探,2004
(178):25-26.
[9] 刘冰,王书营.商业银行利息净收入影响因素的主成分回归分析[J].南京工业职业技术
学院学报,2016(3):30-32.
[10] 黄劲草,唐思琪,张倩. 基于主成分分析法的商业银行存贷款量预测研究[J]. 四川理
工学院自动化与信息工程学院,2018(19):130.
[11] 田博,欧光军,汪奎.基于主成分回归分析的商品流通企业物流成本预测研究——以 H
公司为例[J].商业经济研究,2018(5):123-126.
[12] 刘昊,钟润,杨蒙涛.基于多种回归模型的房价分析[J].现代营销,2018(12):18.
[13] 李思锋,赵国瑞,黄煜钊, 等.大学生消费与家庭经济状况的关系——基于主成分回归
模型[J].常州信息职业技术学院学报,2018,17(6):30-33.
[14] 刘桂然,吴长刚,王岳恒等.高血压病患者左心房收缩功能影响因素的主成分回归分析
[J].中国卫生统计,2011,28(5):580-581.
[15] 苏齐鉴,臧宁,肖信等.主成分 logistic 回归模型在消除数据多重共线性中的应用[J].
中国卫生统计,2009,26(2):206-208.
[16] 曾雁冰,王丽霞,张良文等.养老机构老年人生活满意度影响因素的主成分 logistic 回
归研究[J].中国卫生统计,2018,35(5):699-702,706.
[17] 莫隽颖,马骁,王飞飞等.主成分回归分析法在防晒产品喜好度分析中的应用研究[J].
日用化学品科学,2018,41(6):38-44.
[18] 王宝玉,孙婷婷,章国顺等. Construction of Anti-breaking Models of the Main Veins
of Flue-cured Tobacco Leaves and Principal Component Analysis [J].农业科学与技术
(英文版),2011,12(11):1615-1616,1656.
[19] 王家保,王向社,徐碧玉等. Physiological Changes during the Process of Pericarp
Browning in the Postharvest Litchi [J].农业科学与技术(英文版),2010(5):10-16.
[20] 李 璐 . 一 种 基 于 主 成 分 回 归 的 Web 服 务 QoE 评 价 方 法 [J]. 电 脑 知 识 与 技
术,2018,14(24):230-231.
[21]
Bollerslev
T,Engle
R
F,Nelson
D
B.ARCH
models[J].Handbook
of
econometrics,1994,4:2959-3038.
[22] Engle R F,Ng V K,Rothschild M.Asset pricing with a facor-ARCH covariance
structure:Empirical
estimates
for
treasury
bills[J].Journal
of
Econometrics,1990,45(1):213-237.
[23] 陈峰.主成分回归分析[J].中国卫生统计,1991,8(1):20-22.
五、指导教师评语
签字:
年 月 日