logo资料库

数理统计spss大作业.pdf

第1页 / 共15页
第2页 / 共15页
第3页 / 共15页
第4页 / 共15页
第5页 / 共15页
第6页 / 共15页
第7页 / 共15页
第8页 / 共15页
资料共15页,剩余部分请下载后查看
1 《数理统计》论文 逐步回归法建立国家财政收入回归模型 院( 系 )名 称 自 动 化 科 学 与 电 气 工 程 学 院 学 生 姓 名 学 生 学 号 指 导 教 师 孙 海 燕 2015 年 12 月
摘要:本文采用逐步回归分析法,借助 spss 软件环境,分析近 20 年来国家能源、 农业(农林牧渔)、工业、旅游业、批发和零售业、居民消费水平、受灾情况给 国家财政收入带来的影响,并建立了回归模型,给国家财政收入的有效预测提供 了参考。 关键字:逐步回归,国家财政收入 1 引言 在实际问题中, 人们总是希望从对因变量有影响的诸多变量中选择一些变 量作为自变量, 应用多元回归分析的方法建立“最优”回归方程以便对因变量进 行预报或控制。所谓“最优”回归方程, 主要是指希望在回归方程中包含所有对 因变量影响显著的自变量而不包含对影响不显著的自变量的回归方程。逐步回归 分析正是根据这种原则提出来的一种回归分析方法。它的主要思路是在考虑的全 部自变量中按其对的作用大小, 显著程度大小或者说贡献大小, 由大到小地逐个 引入回归方程, 而对那些对作用不显著的变量可能始终不被引人回归方程。另外, 己被引人回归方程的变量在引入新变量后也可能失去重要性, 而需要从回归方 程中剔除出去。引人一个变量或者从回归方程中剔除一个变量都称为逐步回归的 一步, 每一步都要进行检验, 以保证在引人新变量前回归方程中只含有对影响显 著的变量, 而不显著的变量已被剔除[1]。 逐步回归分析的实施过程是每一步都要对已引入回归方程的变量计算其偏 回归平方和(即贡献), 然后选一个偏回归平方和最小的变量, 在预先给定的水平 下进行显著性检验, 如果显著则该变量不必从回归方程中剔除, 这时方程中其它 的几个变量也都不需要剔除(因为其它的几个变量的偏回归平方和都大于最小的 一个更不需要剔除)。相反, 如果不显著, 则该变量要剔除, 然后按偏回归平方和 由小到大地依次对方程中其它变量进行检验。将对影响不显著的变量全部剔除, 保留的都是显著的。接着再对未引人回归方程中的变量分别计算其偏回归平方和, 并选其中偏回归平方和最大的一个变量, 同样在给定水平下作显著性检验, 如果 显著则将该变量引入回归方程, 这一过程一直继续下去, 直到在回归方程中的变 量都不能剔除而又无新变量可以引入时为止, 这时逐步回归过程结束。 回归结束后,往往还要对得到的模型进行异方差检验、残差独立性检验和多 1
重共线性检验,已确保模型的正确性。 本文的研究数据均采自《中国统计年鉴》[2]。 2 数据处理与分析 2.1 数据汇总 本文以国家财政收入为因变量,各影响因素(农业、工业等)为自变量,利 用逐步回归法建立多元线性回归模型。各变量定义及各年各变量的数据如下: 农业总 工业总 旅游业 产值 产值 总花费 表 1 变量定义 社会消 费品零 售总额 能源消 费总量 居民消 费价格 指数 受灾面 国家财 积 政收入 X1 X2 X3 X4 X5 X6 X7 Y 表 2 1994-2013 年各变量具体数据(统计年鉴最新为 2013) 年份 Y(亿元) X1(亿元) X2(亿元) X3(亿元) X4(亿元) X5(万吨) X6 X7(万公顷) 1994 5218.10 15750.5 51353.03 1023.5 18622.9 122737 103.1 55043 1995 6242.20 20340.9 54946.86 1375.7 23613.8 131176 117.1 45821 1996 7407.99 22353.7 62740.16 1638.4 28360.2 135192 108.3 46989 1997 8651.14 23788.4 68352.68 2112.7 31252.9 135909 102.8 53429 1998 9875.95 24541.9 67737.14 2391.2 33378.1 136184 99.2 50145 1999 11444.08 24519.1 72707.04 2831.9 35647.9 140569 98.6 49981 2000 13395.23 24915.8 85673.66 3175.5 39105.7 145531 100.4 54688 2001 16386.04 26179.6 95448.98 3522.4 43055.4 150406 100.7 52215 2002 18903.64 27390.8 110776.5 3878.4 48135.9 159431 99.2 47119 2003 21715.25 29691.8 142271.2 3442.3 52516.3 183792 101.2 54506 2004 26396.47 36239.0 201722.2 4710.4 59501.0 213456 103.9 37106 2005 31649.29 39450.9 251619.5 5285.9 68352.6 235997 101.8 38818 2006 38760.20 40810.8 316589 6229.7 79145.2 258676 101.5 41091 2
2007 51321.78 48893.0 405177.1 7770.6 93571.6 280508 104.8 48992 2008 61330.35 58002.2 507284.9 8749.3 114830.1 291448 105.9 39990 2009 68518.30 60361.0 548311.4 10183.7 132678.4 306647 99.3 47214 2010 83101.51 69319.8 698590.5 12579.8 156998.4 324939 103.3 37426 2011 103874.43 81303.9 844268.8 19305.4 183918.6 348002 105.4 32470 2012 117253.52 89453.0 768421.2 22706.2 210307.0 361732 102.6 24960 2013 129209.64 9655.3 787213.0 26276.1 237809.9 375000 102.6 31350 2.2 验证线性关系 以上,我们选定了中国财政收入与各个影响因子之间的线性回归模型,假设 Y 与各 X 之间有线性关系且残差符合正态分布。下面作数据散点图,观察因变 量与自变量之间关系是否有线性特点。 图 1 3
图 2 图 3 4
图 4 图 5 5
图 6 图 7 由图 1 到图 7 可以看出,居民消费价格指数与国家财政收入不呈线性关系,所 6
以排除 X6 的影响。 2.2 逐步回归结果与分析 本文运用统计软件 SPSS 的有关功能模块根据上述原理精选出一些配合较好 和方差贡献大得自变量,组建回归方程。当 F 取值较大时,理论和实践都表明, 在相同的 F 水平上,用逐步回归筛选出的显著变量个数往往比先引入全部变量 后再剔除的办法要少一些。为了从挑选因子中筛选出尽可能多的因子建立模型, 本系统可以自己给出 F 临界值,计算机默认的 F 入 =0.05,F 出=0.1,如果入选的 自变量因子数目不多,可通过人为降低 F 临界值的水平而筛选出更多的因子。如 此时入选的因子太多,可人为提高 F 临界值的水平而筛选出有代表性因子来组 建模型。如最后建立的模型的复相关系数不大,回归模型的拟合精度不太高,可 根据这些入选因子来组建多元非线性模型。 在此,我们设定 F 入 =0.05,F 出=0.1 不变。如果引入的变量过多,可适当增 加前者降低后者,反之亦然。可得如下分析结果: 表 3 逐步分析的过程 自变量已輸入/已移除a 模型 自变量已輸入 自变量已移除 方法 1 X4社会消费品销 逐步(準則:F-to-enter 的機率 <= .050,F-to-remove 的機 售总额 X2工业总产值 X3旅游业总花费 X5能源消费总额 2 3 4 . . . . 率 >= .100)。 逐步(準則:F-to-enter 的機率 <= .050,F-to-remove 的機 率 >= .100)。 逐步(準則:F-to-enter 的機率 <= .050,F-to-remove 的機 率 >= .100)。 逐步(準則:F-to-enter 的機率 <= .050,F-to-remove 的機 率 >= .100)。 7
分享到:
收藏