logo资料库

ARIMA模型在气温预报中的应用--以延安地区为例.pdf

第1页 / 共8页
第2页 / 共8页
第3页 / 共8页
第4页 / 共8页
第5页 / 共8页
第6页 / 共8页
第7页 / 共8页
第8页 / 共8页
资料共8页,全文预览结束
中国科技论文在线 http://www.paper.edu.cn ARIMA 模型在气温预报中的应用——以延安 地区为例 李双,王君兰,郭小燕* (兰州大学西部环境教育部重点实验室,兰州 730000) 摘要:根据延安 1961—2000 年共 40 年的七月份月平均气温数据资料分别利用差分自回归移 动平均法(ARIMA)对延安 2001—2004 年七月份月平均气温值做预报。结果表明: ARIMA(1,1,1,)模型用于气温预报时,表现出较强的预报能力,预报值与观测值之间的误差 较小,误差绝对值最大仅为 2.317℃,相对误差在 10%的范围内,可以用于气温预测。但因 ARIMA 模型自身的不足,它对气温的预报有一定的局限性。为了提高预报的准确度,应当 引入或结合其他数学方法,使不同权重的诸多影响气温变化的相关变量参与分析、建模的过 程中。从而使 ARIMA 模型在实际的气温预报时更具实用性。 关键词: 最优气候值法;ARIMA 模型;气温预报;DPS The application of ARIMA model in the prediction of temperature——taking Yan’an Region for example (Key Laboratory of Western China’s Environmental System (Ministry of Education),Lanzhou Li shuang, Wang Junlan, Guo Xiaoyan University, Lanzhou 730000) Abstract: The paper applies ARIMA model to forecast the average temperature of July from 2001---2004 of YanAN according to the date of YanAn forty years (1961---2000) totally. The result shows that ARIMA(1,1,1) model performed well in temperature prediction. Errors between predicted and observed temperature values are minor, and they are in the acceptable range. The max absolute error is just only 2.317℃, furthermore, relative error is less than 10%. So, the ARIMA model can be used for temperature prediction. But because of ARIMA model’s own shortcomings, its temperature forecast has some limitations. In order to improve forecasting accuracy, other mathematical methods should be introduced or combined with, in addition, it is necessary to make all kinds of different weight-related variables which affect the temperature change involve in the process of analysis and modeling. so that the ARIMA model is more available in the prediction of temperature. Keywords: optimal climate normal method; ARIMA model; the prediction of temperature; DPS 1.引言 目前乃至未来气候变化将是全球变化问题研究的重点课题之一。20 世纪 80 年代以来, 全球许多地区的气温出现了 20 世纪以来最明显的上升趋势,我国气温整体上也呈明显增暖 趋势[1]。虽然全球许多地区变暖的事实已经公认无疑,但具体到不同区域尺度上,各地增暖 的程度或强度并不完全一致[2],时间尺度上亦是如此。关于 21 世纪气候预测,各国政府间 气候变化委员会(IPCC)得出的基本结论表明:21 世纪全球平均气温将继续上升,其可能上 升范围为 1.4---5.8℃[3]。毋庸置疑,气候变化将衍生出一系列的相关问题。在应对气候变化 带来的种种挑战之前,首先要处理的问题是弄清气候变化的趋势和后果,对气候变化做出科 学的、精确的预报,其中预报气温既是重点又是难点之一,倍受人们的关注。随着国民经济 作者简介:李双(1985-),女,研究生,主要研究方向:湖泊沉积于环境变化. E-mail: lishuang08@lzu.cn - 1 -
中国科技论文在线 http://www.paper.edu.cn 的发展,科学技术的进步,尤其是计算机、遥感等先进技术的进步,气象工作者可以利用的 气象要素的数据量更多,数据精度更高,实验手段更先进,用于预报气温的科学方法也将是 更多样化。目前,常用的预报方法从大尺度上讲有天气气候学、气候统计学和动力学方法[4], 从小尺度上讲有最优气候值法(OCN)、典型相关分析法(CCA)、最优气候相似法、ARIMA 模型法等等。因基于不同的理论依据,考虑不同的气候影响因子、条件,不同的方法所适用 的区域、空间范围、时间尺度不同,以及适于预报的气象要素也有所不同,这就有必要比较 研究不同方法在同种气象要素预报中的适用性,以便选择最优的气象预报方法,提高预报的 精度,更好地为人们的生活、工农业的生产提供气象信息,减少气象灾害的不利影响。一般 而言,大尺度的气温预报多用于大区域(如国家、大洲或全球)的气温预报。而小尺度的气 温预报方法则更多的用于小区域(如自然区、省市、地方)的气温预报。不同的地域地理条 件有明显的差异,小尺度的预报方法对于局部地区而言更具有针对性。本文以延安近 40 多 年七月份月平均气温的气象数据资料为基础侧重研究 ARIMA 模型在小空间尺度中预报气 温预报的适用性,并探求其可能存在的不足。 本文中 ARIMA 模型在气温预报时的时间序列检验、建模、应用的操作均是在 DPS v7.05 平台下完成的。DPS(Data Processing System)数据处理系统,是通用多功能数据统计和数 学模型处理软件系统,它将数值计算、统计分析、模型模拟以及画线制表作图等功能融为一 体,与国外同类专业统计分析软件系统(如 SAS、STAT 等)相比,DPS 系统操作简单,在 统计分析和模型模拟方面功能齐全,易于掌握[5]。 2. ARIMA 模型简介 ARIMA 模型的全称是自回归移动平均模型,英文表示为 Autoregressive Integrated Moving Average Model,缩写为 ARIMA,是由博克思(Box)和詹金斯(Jenkins)于 20 世 纪 70 年代在《Time Analysis Forecasting and Control》一书中提出的一种著名的时间序列预 报方法[6],所以又称之为 box---jenkins 模型、博克思---詹金斯法,其中 ARIMA(p,d,q)叫做 差分自回归移动平均模型,AR 为自回归模型,MA 为移动平均模型,p 为自回归阶次,q 为移动平均阶次,d 为时间序列转化为平稳序列的差分阶次。 2.1 ARIMA 模型的基本原理 ARIMA 模型的基本思路是:将预报对象的时间序列视为是由某个随机过程产生的,用一 定的数学模型区建立、估计该随机过程。这一模型一旦被识别后可从时间序列的过去值及现 在值来预报未来值。 由于影响气候要素变化的因素是复杂多样的,所以实际应用中所遇到的时间序列随时间 呈现非平稳性变化。在许多实际应用中,时间序列非平稳性的表现虽然多种多样,但是对于 齐次非平稳性的时间序列,只需进行一次差分或多次差分,就可以转化为平稳序列。ARIMA (p,d,q)模型正是将这样的非平稳性时间序列平稳化后建立预报模型的,具有更强的代表性。 其表达通式为: y y εθεθε t − εθ qt − pt − − − = + y y − q 2 2 t t t 1 − + + − t , φ 1 φ p 式中实参数 + φ 2 1 为自回归系数,非负整数 p 为自回归阶次;实参数 , pφφφ (2) 1 为 , , qθθθ 移动平均系数,非负整数 q 为移动平均阶次;{ tε }为白噪声序列,若以 d 表示差分阶次, 则常略记为 ARIMA(p,d,q)。 , 2 − 1 − , 2 1 2 t - 2 -
中国科技论文在线 2.2 ARIMA 模型操作的基本步骤 http://www.paper.edu.cn 用时间序列数据样本建立最佳的 ARIMA 预报模型的两大基本步骤如下: 2.2.1 分析时间序列的随机特性及定阶 ARIMA 模型的建立是假定数据样本来自平稳状态的随机过程,因此,对一组时间序列资 料一般不能立即动手建立预报模型,应先根据建模目的和理论分析,对数据进行一系列检验、 分析、预处理,达到建立时间序列模型的要求(正态、零均值、平稳)。检验数据序列是否 正态分布可采用“ 2x 拟合优度检验”法;检验数据是否潜在趋势则采用非参数 Daniel 检验 法,该方法是建立在 Spearman 秩相关系数基础之上的,如果数据序列具有上升或者下降趋 势,进行差分是必要的,以便确定模型的基本形式[5,7-8]。 在 DPS v7.05 平台上,在菜单方式下执行时间序列分析下的“数据序列检验”功能可检 验数据序列的随机特性,例如在该功能下可进行时间序列的均值和方差检验、正态性检验、 数据的独立性检验以及非平稳趋势检验等等,分析数据序列检验的结果以便对数据进行合适 的处理。根据当前时间序列(原始数据或者经差分转换后的数据)的数据曲线,供诊断数据 序列有无上升、下降趋势和周期,以确定是否进行数据转换和差分;数据序列分布直方图诊 断数据序列是否正态分布,以确定对数据序列是否进行数据转换;数据自相关和偏自相关函 数直方图,以确定 ARIMA 模型的阶次,非平稳的时间序列经过差分变换后,进行定阶是建 模的关键,阶次的选择主要依据自相关函数 ACF 和偏自相关函数 PACF 绝对值的大小,一 般采用从低阶 ARIMA(1,1,1)模型开始尝试,并结合 Akaike 提出的最小信息 AIC 准则和 具有相合性的 BIC 准则的方法[9]等进行参数估计,进而从拟合的众多 ARIMA 模型中选择一 个具体模型。 2.2.2 ARIMA 模型诊断 对于一个业已拟合的模型,在预测前必须对模型进行诊断检验。诊断检验的目的是证实 模型是适合的,或者推翻不合理的以寻求更合适的模型[5]。如果所建模型是合适的,那么该 模型应满足一下两个条件[5]: (1)残差应该近似地为正态,残差序列具有随机无趋势序列的 ACF 与 PACF。 (2)所有参数估计尽可能具有显著的 t 值。 如果在 DPS 报告表中给出的方差值、ACF 函数、PACF 函数、t 值等都比较理想,我们 就可以接受此模型,并根据该模型进行气温预测。 3 ARIMA 模型在气温预报中的应用 以延安 1961—2004 年共 44 年的七月份月平均气温数据资料为时间序列数据样本,分析 讨论 ARIMA 模型在气温预报中的应用。 3.1 数据的预处理 - 3 -
中国科技论文在线 http://www.paper.edu.cn 在 DPS v7.05 平台上,首先,以一行作为一个样本,一列作为一个变量对延安 1961— 2000 年共 40 年的七月份月平均气温原始数据资料按时间顺序在编辑器中输入编辑,其中 1961—2000 年的气温数据作为分析、建模数据序列,2001—2004 年的气温数据作为模型检 验及应用数据序列。 图 1 时间序列数据特性检验 Fig1 the test of time-series data 然后,将数据编辑好后,把待分析的数据定义成数据块。在菜单方式下执行时间序列分 析下的“数据序列检验”功能,得到如图 1 所示的时间序列数据统计特性,它提供了数据随 时间顺序的趋势变化。根据图 1 展现的信息,再结合 2.2.1 分析时间序列的方法进行数据随 机特性判读。通过读取图 1 中的数据分布直方图、时间序列数据图、相关函数图以及右下方 两个主要的统计特性:正态检验的卡方值和趋势 Daniel 检验,发现 Daniel 检验的秩相关系 数的显著水平 p 值为 p=0.0217,小于α=0.05,时间数据序列表现出上升趋势,表明对时间 序列数据进行一定阶次的差分处理是必要的,卡方值的显著水平 p=0.61、卡方值=4.44、自 由度=6,表明时间序列符合正态分布,故可以不对时间序列数据进行数据转换。总之,该时 间序列表 现为非平稳性,呈一定的上升趋势。 现对原始时间序列数据进行一阶差分(Zt=yt-yt-1)处理,以消除时间序列数据趋势性,使 之平稳化。处理后的时间序列数据统计特性如图 2 所示。经一次一阶差分处理后,卡方值的 显著水平 p=0.51>α=0.05、卡方值=5.20、自由度=6 且 Daniel 检验秩相关系数 的显著水平 p 值为 p=0.1915>α=0.05,可见经过一阶差分处理后时间序列数据已无明 显的上升趋势,并且数据呈正态分布。所以,原始时间序列数据经一阶差分处理后,时间序 列序列已基本达到建立时间序列模型的要求,可以利用 DPS V7.05 中“时间序列” - 4 -
中国科技论文在线 http://www.paper.edu.cn 图 2 时间序列数据经一次差分后的统计特性检验 Fig2 the statistical characteristics test of time-series data by one-time difference 菜单下的“ARIMA 模型”功能进行分析和建立预测模型。 3.2 ARIMA 模型的阶次辨识、参数估计以及诊断 选择 ARIMA 模型一般依据以下几条原则综合判断其优劣取舍:第一是信息量准则,AIC 越小越好;第二是模型的拟合度与相关系数应大,误差应小;第三是残差序列{ tε }应为白 噪声[5,9]。 经过对数据的预处理,结合图 2 中左下方相关函数图,选取显著不为零的自相关函数 ACF 和偏自相关函数 PACF,这样可以较快的确定模型的阶次(对于低阶 ARMA 模型,可 以从最低阶进行逐一尝试建模,但对于高阶 ARMA 模型,可以结合相关函数图实施跳阶建 模)。就本文而言,选取自相关函数值和偏自相关函数值均较大的 1、2、3、4 作为自回归 AR 和移动平均 MA 的阶次。由 3.1 知差分阶次 d=1,对 p、q 的取值从低阶到高阶进行多次 尝试,例如进行 ARIMA(1,1,1)拟合,DPS v7.05 系统将采用非线性最小二乘法进行参数估计, 得到表 1 和表 2 所示的结果。 表 1 中自相关函数和偏自相关函数的绝对值整体上由大变小,趋向于零,可用于判断经 1 阶差分处理后的数据是否平稳。由表 2 第一行和第三行数据可以判读出 ARIMA(1,1,1)是否 达到零均化,残差序列是否为白噪声;由第二、第五、第六行数据可以判读出模型的拟合效 果如何;第四行则可以得出模型的表达式。 - 5 -
中国科技论文在线 http://www.paper.edu.cn 表 1 经一阶差分处理后的相关函数 Tab.1 correlation function by one-order differential treatment 3 10 4 5 9 6 7 8 11 12 13 14 1 2 -0.38 -0.22 0.02 0.26 -0.06 -0.18 0.08 0.06 -0.12 0.10 0.02 -0.11 0.04 0.07 -0.38 -0.42 -0.37 0.00 0.09 -0.03 0.01 -0.05 -0.20 0.02 0.08 -0.04 0.05 0.05 自相 关函 数 偏自 相关 函数 表 2 ARIMA(1,1,1)模型在 DPS 平台上的判读 Tab.2 interpretation of ARIMA(1,1,1) on the DPS platform 数据序列进行了标准化 转换 平均值=0.00000 标准差=10.05880 VAR=3946.0000 AIC=144.402 白噪声=1.0000 Q=9.9949 C=64.741% (M-P-Q)=12 模型 标准误差 T 值 Z(T+L)=0.0241+0.3884266Z(T+L-1) +e(T+L) +1.4596485e(T+L-1) 0.1540 0.1567 0.3141 1.2365 0.4716 3.0947 注:VAR 表示剩余方差;AIC 表示最小信息量;C 表示拟合度;Q 表示统计量;M-P-Q 表示自由度;Z 表 示预测值。 Note: VAR means residual variance; AIC means Akaike information criterion; C means fitting degree; Q means statistical quantity; M-P-Q means freedom degree; Z means forecasting value. 经过多次尝试并用最小 AIC 信息准则、相关系数 R、拟合度 C 检验拟合各个 ARIMA 模型的效果,直到不拒绝拟合模型为止,得到表 3 所示拟合效果对比。 由表 3 对各模型拟合效果进行对比,知 ARIMA(1,1,1)的 AIC 值 144.402,拟合度 64.741 %,相关系数 0.80462,拟合效果相对最优,再结合表 2 中的其他参数,如白噪声和 T 值等, 得到时间序列{ tz }较理想的 ARIMA(1,1,1)模型,其表达式为: t z = .0 0241 + .0 3884266 z + e t + l + .1 4596485 e t l 1 −+ t l 1 −+ (3) 表 3 各 ARIMA 模型拟合效果对比 Tab.3 comparison of fitting results among ARIMA models 模型 ARIMA(1,1,1) ARIMA(1,1,2) ARIMA(2,1,1) ARIMA(2,1,2) ARIMA(1,1,3) ARIMA(3,1,1) AIC 值 144.402 163.816 161.372 182.981 173.894 166.659 拟合度 C(%) 相关系数 R 64.741 41.937 45.463 5.086 20.738 33.660 - 6 - 0.80462 0.64758 0.67426 0.22552 0.48749 0.58018
中国科技论文在线 http://www.paper.edu.cn ARIMA(3,1,3) ARIMA(4,1,4) ARIMA(4,1,1) ARIMA(1,1,4) 181.724 177.135 155.105 167.289 2.382 9.620 48.624 29.785 0.15434 0.31016 0.69731 0.54576 当时间序列的模型结构和阶次初步确定后,要进行参数估计,这里用麦夸特 图 3 延安 1961—2000 年七月月平均气温的拟合值与观测值比较 Fig3 the comparison of fitted and observed values of Yan'an 1961-2000 July average temperature (Marquardt)非线性最小二乘法进行精估计;最后,对所建模型进行诊断。若所建模 应纯粹由随机干扰产生,即 te 应当是白噪声序列。 型合适,根据定义,残差 经残差序列{ tε }检验,Q=9.9949,查自由度 df=12,Q< 2x 。故可以认为极显著水平下残差序 列{ tε }为白噪声。综上所述可判断 ARIMA(1,1,1)模型用于预报气温是可行的。 1−− t e t y = y t 3.3 ARIMA 模型在气温预报中的应用 根据 3.2 建立的 ARIMA(1,1,1)模型,得到延安 1962—2000 年的七月月平均气温的观测 值与拟合值的对比图 3,不能发现拟合值与观测值有较为一致的变化趋势。对延安 2001— 2004 年共四年的七月份月平均气温进行预报,并将预报值与实际值进行比较,见表 4。 表 4 利用 ARIMA(1,1,1)模型预报气温效果分析 Tab.4 the analysis of temperature prediction result by ARIMA(1,1,1) 年份 预报值(℃) 观测值(℃) 误差(℃) 2001 25.237 25.700 0.463 相对误差(%) 1.802% 2003 25.292 23.200 -2.092 9.017% 2004 25.317 23.200 -2.317 9.987% 2002 25.266 23.900 -1.366 5.715% - 7 -
中国科技论文在线 http://www.paper.edu.cn 由表 4 可以判读出:利用 ARIMA 模型预报气温,预报值与实况值误差较小,误差绝对 值最大不超过 2.500℃,相对误差在 10%的范围内,可见该方法用于气温预报具有很强的可 行性。但值得注意的是,从表 4 不难发现,相对误差逐年增大,暗示 ARIMA 模型预测的精 度随着预测年限的增加而降低,刘贤赵等[9]关于烟台地区降水量的 ARIMA 的随机模型研究 中也得到类似的结果,这揭示了 ARIMA 模型的一个不足:ARIMA 模型适合于外推时间不长 的预测,如果外推时间过长,且被预测对象又受到诸多相关因素的影响,则 ARIMA 模型的 预测效果被大大的制约。 4 ARIMA 模型在气温预报中的探讨 选择的城市不同、月份不同,影响气温的因子(如纬度、地形起伏、海陆分布、大气环 流等等)所起作用的大小不同;同时,使用不同的数学方法、考虑的不同因子、借助不同的 辅助工具以及不同数据来源均影响着误差大小。基于上述种种原因,不同的预报方法对不同 时空的气温预报效果也可能不同。本文是通过对延安 2001---2004 年七月份月平均气温的预 报,发现利用 ARIMA 模型预报气温,预报值与实况值误差较小,误差绝对值最大仅为 2.317 ℃,相对误差在 10%的范围内,结果表明: ARIMA 模型在短期气温预报中是可行性的。 这一点在王涛等[10]关于临安近 50 年气温变化特征分析中也得到证实。同时,许多学者在对 ARIMA 模型认可的同时也提到其可能的不知[11-12],并提了一些相应的改进方法。但各种改进 的方法都有它自身的使用范围,不能盲目的使用。像前面所述许多因素影响到气温的变化, 这些因素有时空差异,且对温度变化的作用力不同,而 ARIMA 模型虽然考虑到影响时间序 列数据的因素,可它只是考虑序列本身历史数据反映的部分信息。要想提高 ARIMA 模型的 预报精度,需要结合其他数学方法把影响气温的诸多相关变量按照不同的权重参与分析、建 模之中。 [参考文献] [1]魏凤英,曹鸿兴.中国、北半球和全球的气温突变分析及其趋势预测研究[J].大气科学,1995,19(2):140 [2]王绍武,叶谨琳.近百年全球气候变暖的分析[J].大气科学,1995,19(5):545-549 [3]赵芳芳,徐宗学.黄河源区未来地面气温变化的统计降尺度分析[J].高原气象,2008,27(1):153-161 [4] 严 小 冬 , 吴 战 平 , 马 振 锋 , 等 . Dounscaling 法 在 贵 州 冬 季 气 温 和 降 水 预 测 中 的 应 用[J]. 高 原 气 象,2008,27(1):169-175 [5]唐启义,冯明光.实用统计分析及其 DPS 数据处理系统[M].北京:科学出版社,2002 [6]BoxGPE, JenkisGM. Time Series Analysis: Forecasting and Control[M]. San- FrancisoPress,1978 [7]范金成,梅长林. 数据分析[M].北京:科学出版社,2002 [8]田铮.时间序列的理论与方法(第二版)[M].北京:高等教育出版社,2001 [9]刘贤赵,邵金花.烟台地区降水量的 ARIMA 随机模型研究[J].数学的实践与认识,2006,36(8): 8-11 [10]王涛,陈云蔚,孙小平,等.临安近 50 年气温变化特征分析[J],浙江气象,2008,30(1)31-34 [11] O.D.ANDERSON. IS BOX-JENKINS A WASTE OF TIME[J] DE ECONOMIST, 1977(2)254-263 [12] P.-F.Pai, C.-S.Lin,A hybrid ARIMA and support vector machines model in stock price forecasting[J], Omega 33(6)(2005)497-505 - 8 -
分享到:
收藏