logo资料库

用Excel作逐步回归分析_王飞凤.pdf

第1页 / 共4页
第2页 / 共4页
第3页 / 共4页
第4页 / 共4页
资料共4页,全文预览结束
第 33 卷第 5 期 2011 年 10 月 广 东 气 象 Guangdong Meteorology Vol. 33 October No. 5 2011 : doi 10. 3969 / j. issn. 1007 - 6190. 2011. 05. 015 用 Excel 作逐步回归分析 王飞凤,刘铸飘 ( 始兴县气象局,广东韶关 512500 ) 摘 要:结合始兴站 1965 ~ 1994 年前汛期部分观测要素实况数据对雨量的回归拟合个例,通俗说 明在 Excel 软件中进行逐步回归分析的详细过程,为中长期预报中应用逐步回归分析作参考。 关键词:应用气象学; 逐步回归; 方法; 拟合; 文献标识码: B 中图分类号: P49 Excel 软件 文章编号: 1007 - 6190(2011)05 - 0048 - 04 在各科学试验或管理工作的领域中,常常遇到将科 学数据的逐步回归分析问题,由于其中的一些内容计算 复杂,在计算过程中需要查统计用表,比较后再做出结 论,用起来较麻烦,尤其当自变量个数较多时,计算量惊 人,因此,逐步回归分析方法的广泛应用受到一定的限 ],但此 制。当前较为常用的统计软件有 SPSS 和 SAS 等[ 类软件多为英文版,使用起来不太方便、易懂。常用办公 ],为数据处理提供了 软件 Excel 为逐步回归分析方法[ 非常有效的工具。本文就基于 Excel 逐步回归分析方法 加以讨论,并举例说明利用 Excel 软件进行逐步回归分析 的详细过程。 1 2 1 逐步回归原理与相关 Excel 函数 1. 1 逐步回归原理 实际问题中,如果考虑的回归方程有 10 个影响因素 的 话,全 部 可 能 得 到 的 回 归 方 程 则 有 ∑ 10 Ci 10 = ],但其中只可能有 i = 1 ! 10 10 - 1 ! ( ) ! = 210 - 1 = 1023 个之多[ 3 i 一个回归方程 是“最 优”回 归 方 程。怎 样 去 找 这 个“最 优”回归方程呢? 逐步回归分析方法就是要解决这个问 题。传统的方法和在一般的教科书中都是主张从第一个 自变量开始,按自变量对因变量的作用影响程度从大到 小依次引入回归方程,并且考虑到先引入的变量如果由 于后面变量的引入而变得不显著时,则随时将其剔除,以 保证每次在引入新的变量之前,回归方程中只含有显著 的变量,直到没有显著的变量为止,这种方法步骤繁多且 计算量大,比较繁琐。 而采用一种新的方法[ ],即先建立所有自变量参加 的回归方程,然后将对因变量影响不显著的自变量即将 没有通过统计量检验的自变量剔除,最后剩下具有高显 著水平的自变量及其回归系数组成的回归方程即为“最 优”回归方程,这种方法与传统的方法的结果在理论上是 一致的。按照这一思路,这种方法可在 Excel 软件中轻松 实现。 1. 2 有关多元线性回归的 Excel 函数 1. 2. 1 函数 LINEST 4 ( ) 功能。 1 使用最小二乘法计算对已知数据( m 个自变量) 进行 最佳线性拟合,并返回描述此线性方程的自变量回归系 数的数组。因为此函数返回数值数组,故必须以数组公 式的形式输入,所得线性的方程为: y = bm + bm - 1 xm - 1 + … + b1 x1 + b0 bj ) 1 是常数,函数 LINEST 相对应的系数, 值是与 xj b0 返回的数组是{ , , , } ,函数 LINEST 还可 bm - 1 bm b1 b0 返回附加回归统计值。 , … , b2 ( ( ) 语法。 2 ( 零) 如果 const 为 False , { b b1 , … bm , b0 , b0 ( , known_xs , const , stats ) known_ys LINEST const 为 一 逻 辑 值,指 明 是 否 强 制 使 常 数 b0 。如果 const 为 True 或省略,则 b0 为 0 将被正常计算; ( 零) ,并 同 时 调 整 将 被 设 为 0 } 值以使 y = bx。 , b2 , bm - 1 stats 为一逻辑值,指明是否返回附加回归统计值。 ,函数 LINEST 返回附加回归统计值; 如 如果 stats 为 True 果 stats 为 False 或省略,则函数 LINEST 只返回系数和常 数项。 ( 3 函数 LINEST 返回的附加回归统计值存放位置的格 ) 线性回归输出。 式如下: bm bm - 1 … b2 Sm Sm - 1 … S2 R2 SE b1 S1 b0 S0 F f U QL ( ) 统计值说明。 4 , S2 S1 , Sm , … 的标准误差值,这 是很有用的值,用它们可以算出每个自变量系数的 t 检 验值: 为系数 b1 , bm , … , b2 量 xj ( ) 2 可以判断变 ,由 tj ( , 2 , … , m ) j = 1 为常数项 b0 tj = bj / Sj t 检验值的自由度为 f = n - m - 1 的重要性。 S0 R2 为相关系数的平方, SE F 值为 F 统计值或观察值, U 为回归平方和, QL 的标准误差值。 为剩余平方和。 为剩余标准差。 f 为自由度。 收稿日期: 作者简介: 王飞凤( 2010 - 05 - 25 1978 年生) ,女,助理工程师,主要从事气象防雷工作。
第 5 期 王飞凤等: 用 Excel 作逐步回归分析 94 1. 2. 2 函数 TREND ) 功能。 ( 1 返回一条线性回归拟合线的一组纵坐标值 ( y 值) 。 即找到适合已知数组 known_y's 和 known_x's 的直线( 用 最小二乘法) ,并返回指定数组 new_x' s 在直线上对应的 y 值,即可以按原有的线性趋势预测在新 xm 数据序列上 对应的 y 值。 ) 语法。 known_y’s , new_x’s , known_x’s , TREND const const 为一逻辑值,指明是否强制常数项为 0 ) ( 零) 。 如果 const 为 TRUE 或省略,将按正常计算; 如果 const 为 ,将被设为 0 FALSE ( ) 说明。 3 对于返回结果为数组的公式,必须以数组公式的形 ( 零) ,值将被调整以使。 2 ( ( 明该自变量统计显著水平高。函数 FDIST 可用于返回获 得意外出现的较高 F 值的概率,若 FDIST 函数的返回值 低,则说明回归模型的可信度高。 2 逐步回归步骤与实施 2. 1 逐步回归步骤 ( ) 根据原始数据由 LINEST 函数得出多元线性回 1 归结果( 包括统计附加值) 。 ( 2 ) 计算各自变量的 t 检验 tj 值,在其中找到绝对值 最小的 tmin 。 tmin 3 ) ( 与临界值 tαf 对应 的变量,重新根据余下的自变量数据由 LINEST 函数再得 出多元线性回归结果,再返回( ) ,否则进入( 比较,如果 | tj | < tαf ,剔除 tmin ) 2 4 。 ( ) 如果 | tj | > tαf 4 ,则逐步回归结束,即剩下的自变量 式输入。 1. 2. 3 函数 TINV 和 FDIST 函数 TINV 用于返回检验 表中的临界值,测试自变量的统计显著水平,若是,则说 统计显著水平高。 根据上面步骤,可以简单绘出流程图如下: 2. 2 逐步回归的实施 ; ; ; ; ] 5 - 7 下面通过举例来说明逐步回归在 Excel 软件中是如 何实施的,本例为求取当年前汛期( 4 ~ 6 月) 总降雨量与 当年相关实况数据的拟合回归模型,求得模型后便可通 过相关统计方法为来年作趋势预测参考[ 。见图 1 逐 步回归表 1 中 B 列为始兴气象观测站 1965 ~ 1994 年前 汛期设为因变量 y C 列为历年 4 ~ 6 月平均温度之和设 为自变量 x1 D 列为历年 4 ~ 6 月水汽压之和设为自变量 E 列为历年 4 ~ 6 月雨量≥0. 1 的雨日之和设为自变 x2 , F 列为历年 4 ~ 6 月日照时数之和设为自变量 x4 量 x3 本例就是通过这 4 个因子、30 个样本数采用逐步回归方 法来求得历年前汛期总降雨量“最优”回归方程。 ,在 B2 F31 , const F31 区域中输入样本数值后,在 B32 , TRUE 单元 格 输 入 函 数 = LINEST TRUE 这 4 个 参 数 后 ( : known_x's = C2 B32 单元格中得到数值 0. 38 F36 : B31 B2 , ) 并按图 2 设定好 known_y' s , known_x' s stats : B31 即 为 y 值 区 域, known _ y' s = B2 F31 即为所有 x 值区域) ,点击确定将在 ( 见图 1 。 ,按 F2 键返回编辑状态,再 按 Ctrl + Shift + Enter 键,结 果 就 会 将 函 数 { = LINEST ( ) } 公式在 B32 F36 区域 B2 以数组公式输入,并在该区域返回多元线性回归附加回 归统计值( 见图 1 B32 ,保留 2 位小数) 然后选择区域 B32 F36 区域) , TRUE , TRUE 如图 1 , C2 B31 F31 , , C2 。 ( : : : : : : : 至此便可根据 LINEST 函数返回的附加回归统计值 初步建立所有自变量参加的多元线性回归方程了,即为: ,然而 y = 0. 38x4 + 13. 86x3 + 68. 78x2 - 83. 80x1 + 651. 91 此方程所有变量的统计显著水平均未经过检验,模型是 ,则 函 数 不可 信 的。本 例 取 统 计 显 著 性 水 平 α = 0. 05 ( ( , C35 ) 0. 05 = TINV TINV 0. 05 验表中的临界值 tαf = 2. 059 54 公式 2 可以求得 t 检验值 | tj 2. 98、3. 29 和 2. 66 先将日照时数因子 x4 剔除。 ( ) ( 见图 1 , ) 将返回 t 检 25 ( 该值亦可查表求得) ,由 | 分别为 0. 70、 ,故首 , 3 , 2 , 1 ) j = 4 ,由于 | t4 | = 0. 70 < tαf = 2. 05954 ) ) ( ) ( ) ) ( , 2 , 1 j = 3 0. 05 , v2 = TINV , C35 ( , 26 | 均大于 tαf = TINV 将剩下的 3 个因子按以上步骤再进行同样操作可以 得到剩下因子的新的多元线性回归结果。如图 3 所示, | 分别为 由公式 2 可以求得新的 t 检验值 | tj , 2. 93、3. 26 和 2. 61 j = 3 , 2 1 ,所有剩下的因子的 t 检验值 | tj 0. 05 = ,则说明所有剩下的因子自变量统计显著水平 , 2. 055 53 高,均可进入“最优”回归方程的回归模型。而 FDIST = FDIST v1 ( F 为图 3 中 B35 单元格中 16. 95 , 的数值,分子自由度 v1 = n – f – 1 n f 为自由度即图 3 中 C35 单元格中的数值) ,这 为样本数, 是一个极小的概率,说明意外出现的较高 F 值的概率很 低即回归模型是完全可信的,所以按本例中的方法求得 的“最优”回归方程为: 534. 39。 y = 13. 34x3 + 64. 55x2 - 75. 64x1 + ,分母自由度 v2 = f = FDIST , , 3 26 30 - C35 - 1 = 0. 000 002 6 B35 C35 , , F ( ( ) ) ( 利用函数 TREND 可返回一条线性回归拟合线的一 y 值) ,在 F2 单元格中输入公式 = TREND ( 见图 E31 ) 将得到 1965 年的模拟值 620. 4 组纵坐标值( , ( : C2 B31 : B2 ) 3 。 : F31 然后选择区域 F2 ,按 F2 键返回编辑状态,再按 Ctrl + Shift + Enter 键,即可在该区域中得到所有 1965 ~ 1994 年的模拟值。该值亦可通过“最优”回归方程计算 得出,比如1965 年逐步回归模拟值为 y = 13. 34 × 59 +
05 广东气象 第 33 卷 图 1 逐步回归表 1 图 2 LINEST 函数使用 ,结果是一 64. 55 × 70. 7 - 75. 64 × 69. 6 + 534. 39 = 620. 4 样的。最后不难求得模拟值和原始数据之间的距平百分 比( 见图 3 中的 G 列) ,最大的距平百分比仅为 1980 年的 ,说明模拟 22% 效果还可以,求得的逐步回归方程回归模拟效果还是比 较显著的。 ,距平百分比在 ± 15% 以内的占了 22 /30 图 4 为后 10 年模拟图,方程计算值为回归方程的计 ,但有 算结果,从图中看出,距平[ 2 年模拟效果不理想。因此如若要作中长期预报,则需 选取更具有物理意义的的因子,最好是选择能代表前期 气候特征的气象因子作外推才更具有意义。 20% 以内的为 8 /10 ] 8 - 9
第 5 期 王飞凤等: 用 Excel 作逐步回归分析 15 图 3 逐步回归表 2 图 4 后 10 年模拟图 3 结论 气象领域中在制作中长期天气预报时经常要用到逐 步回归分析,本文较为详细地介绍逐步回归在 Excel 软件 中是如何实现的。应用此方法,即使所选因子更多,样本 数更大,按此方法作逐步回归分析也能方便快捷地找出 “最优”回归方程,因此在不会编程的情况下,这不失为 一个较好的方法。 参考文献: [ ]李明华,崔少萍,罗凤明,等. 统计软件 SPSS 在气象中的应用 1 [ ] . 广东气象, J [ ]左利芳,仇财兴. Excel 中的常用分布函数及其在气候统计中 2 ] 的应用[ . 广西气象, J 50 - 52. 27 - 28. , 29 , 28 2002 2007 ) : ) : 1 2 ( ( 2004. 2002. , 27 ] . 2 版,北京: 气 ] . 3 版,北京: 气象出版 [ ]黄嘉佑. 气象统计分析与预报方法[ M 3 社, [ ]施能. 气象科研与预报中的多元分析方法[ M 4 象出版社, [ ]彭端,黄天文,郭媚媚,等. 用逐步回归模型预测肇庆市汛期 5 降水[ ] . 广东气象, J [ ]陈慧娴,黄露菁,陈创买. 用逐步回归方法预报番禺年降水量 6 [ ] . 广东气象, J [ ]黄彦彬,李天富,李春鸾,等. 2004 年春夏海南火箭人工增雨 7 效果检验[ ] . 广东气象, J [ ]莫荣耀. 用逐步回归预报方程作冬季最低气温及 ≤5℃ 低温 8 的二级判别预报[ ] . 广东气象, J [ ]李丽. 用深层地温资料建立多元非线性回归方程预报韶关站 9 ] 前汛期降水量[ . 广东气象, J 50 - 53. 17 - 18. 16 - 17. , 25 , 26 , 23 , 28 8 - 9. 7 - 9. ( ) : 1 2006 ( ) : 4 2001 ( ) : 2 2003 ( ) : 2 2004 2005 ( ) : 4
分享到:
收藏