logo资料库

基于相空间重构和ARIMA-SVM模型对我国进出口总额的预测研究.pdf

第1页 / 共7页
第2页 / 共7页
第3页 / 共7页
第4页 / 共7页
第5页 / 共7页
第6页 / 共7页
第7页 / 共7页
资料共7页,全文预览结束
中国科技论文在线 http://www.paper.edu.cn 基于相空间重构和 ARIMA-SVM 模型对我 国进出口总额的预测研究 李超,雷钦礼** (暨南大学经济学院,广州市 510631) 摘要:进出口数据作为广泛经济时序数据的一种,预测通常采用时序研究方法。如经典线性 模型,滑动自回归模型(ARIMA)。现实时序数据通常不仅包含线性成分还包含非线性成 分,我国进出口总额时序数据亦如此。预测采用基于空间重构技术的 ARIMA-SVM 线性与 非线性混合模型。ARIMA 模型用以剔除时序线性成分,相空间重构技术将非线性成分的残 差时序映射到高维度空间,非线性模型支持向量机(SVM)对空间重构残差进行回归分析。 对比实验结果表明: ARIMA-SVM 混合模型对我国进出口总额季度时序预测效果明显且稳 定的优于传统的 ARIMA 线性模型。 关键词:进出口总额;自回归移动平均模型;支持向量机;相空间重构 中图分类号:F222 5 10 15 Research on Forecast of Total Import and Export Based on ARIMA-SVM Model and Spatial Reconstruction LI Chao, LEI Qinli (College of Economics, Jinan University, Guangzhou 510631) 20 25 Abstract: Import and export data as a widely economic time series of data, the forecast is usually used in time series research methods, such as classical linear model sliding autoregressive model (ARIMA). The real time series data usually include not only linear components and non-linear components. The ARIMA model is used to eliminate the linear components of the data, and the space reconstruction technique maps the nonlinear component residuals to the high dimension space. Finally, the reconstructed data is regressed by the nonlinear model support vector machine (SVM). The experimental results show that the ARIMA-SVM hybrid model is superior to the traditional ARIMA linear model for the seasonal prediction of China's total import and export. Key words: Total Import and Export; ARIMA; SVM; Spatial Reconstruction 30 0 引言 学者们从上世纪二十年代便开始了时间序列有关 ARIMA 模型的研究。在 1927 年 Yule 提出了自回归(AR)模型,并利用该模型预测经济市场变化。在 1931 年他又提出了移动平 均(MA)模型。1976 年,C.P.Box 和 G.M.Jenkins 提出自回归求和移动平均模型(autoregressive integrated moving average models),使得 ARIMA 模型被广泛用于经济时序研究。 35 随着全球经济一体化发展,各国贸易关系越来越密切,进出口贸易在我国经济体系中扮 演着越来越重要的角色。自中国 2001 年加入 WTO 以来,我国进出口额度持续攀升,从 2001 年的 0.51 万亿美元到 2016 年的 3.69 万亿美元,约为入 WTO 前的 8 倍。其中,2014 年中国 出口总额达 4.3 万亿美元,为历史之最。与此同时,学术界对进出口相关的研究工作也随之 作者简介:李超(1992),男,硕士,主要研究方向:统计学习 通信联系人:雷钦礼(1956),男,博导,主要研究方向:经济增长与波动分析统计测量与计量分析. E-mail: tlqli@jnu.edu.cn - 1 -
中国科技论文在线 http://www.paper.edu.cn 40 愈加频繁。在进出口总额预测的研究领域,研究的模型主要集中使用经典 ARIMA 线性模型。 例如,程兰芳和陆敏的中国服务贸易进出口规模的 ARIMA 模型和预测[1]、聂娜的山西省进 出口贸易与经济增长:基于 ARMA 最优预测模型的实证分析[2]、刘莉的对我国进出口总额的 预测—基于 ARIMA 模型[3]。均侧重在线性 ARIMA 模型研究,而本文侧重研究线性和非线 性混合模型在该方面的预测应用。洛伦茨通过研究气象提出了非线性性的混沌动力系统理论。 我国进出口总额受到全球多方面因素综合影响,影响关系错综复杂,且对某些因素极为敏感; 45 例如,人民币汇率、中美关系等,符合非线性动力系统特征。因此初步可认为我国进出口总 额时序数据具有混沌性,文章后面也证实如此。同时,由于我国人民的生产经营活动和科技 持续进步等因素使得我国进出口总额有明显上升的趋势,数据显然具有一定线性成分。这两 点便是本文研究线性与非线性混合模型在我国进出口总额预测中应用的原由。在前面的相关 研究工作中,陈蔚的基于线性 ARIMA 与非线性 BP 神经网络组合模型的进出口贸易预测[4], 利用 BP 神经网络模型对 ARIMA 模型的误差进行修正,该文用到非线性模型。但是并没有 50 从非线性系统的理论进行解释,且也没有利用非线性系统技术混沌理论的空间重构技术对残 差进行特征信息提取,针对这两点本文提出构建一个基于混沌理论的线性与非线性混合模型。 1 模型理论 1.1 ARIMA 简介 55 滑动自回归模型(ARMA)利用平稳的时间序列数据的自相关性建立动态分析模型。对 于非平稳的序列,通过 d 阶差分使数据平稳,然后建立 ARMA 模型。 为自回归系数, 滑动回归系数,模型记为记为 ARIMA(p, d, q)。 1.2 相空间重构 60 65 进出口总额时序数据是低维度的,对于一般非线性模型如 SVM,是将高维特征向量作 为输入信号。因此需要利用特征信息提取方法,将低维度进出口时序映射到高维空间。例如, 邹进贵等人在 ARIMA-BP 神经网络混合模型相关研究中[5]采用了滑动窗口的办法将低维度 时序投射到高维。选取合适窗口大小,这种办法不仅仅操作简单而且具有一定的实用性,但 是不具有完备的理论基础。本文利用混沌理论的相空间重构技术将一维时序列映射到更高的 维度空间。该方法具有完备的理论基础。 Packard 和 Farmer 等人提出了用原始系统中某一单一变量的延迟坐标来重构相空间的方 法。Takens 严格证明,只要合理选取延迟时间 t 和嵌入维数 m,即延迟坐标的维数 , D 是动力系统的维数,那么在这个嵌入维的相空间里就可以把有规律的吸引子轨迹恢复出来。 对于进出口总额时间序列: 如果能够恰当的选取延迟时间 t 和嵌入维数 m,那么 就可以重构相空间。 [ ] [ ] [ ] 70 向量序列的长度 。本文采用自相关系数方法确定延迟时间 ,然后再 - 2 -
中国科技论文在线 http://www.paper.edu.cn 用饱和关联维数(G-P 算法)确定嵌入维度 m。通常情况下,当自相关函数随滞时衰减明 显时,延迟时间 t 选取自相关函数第一次通过零点时所对应的滞时。但当滞时很大自相关函 数才趋于零时,延迟时间 选取自相关函数第一次小于 时所对应的滞时。重构向量集合距 离小于 的两个向量被互称为关联向量,距离小于 的数目在所有点对中所占的比例 ,被 75 称为关联积分。通过点绘 ( ) 关系图,即可求出关联维数 ,关联维数随嵌入维 数 的变化而变化。关联积分定义: ∑ ‖ ‖ H 为 Heaviside 函数,它是一个单位阶跃函数,即: 时, ; 时, ; ‖ ‖ 为欧氏距离。它表示相空间中任意两点距离之间小于 的概率。 关联维数定义: ⁄ 80 85 当 足够大时, 不再随 发生变化,得到饱和关联维数 ,同时也证明研究对象具有混 纯性而非随机过程。实际情况是样本不存在无穷,另外计算机也无法计算 趋于 0,适当调 整 的值 ,用 ⁄ 的值代替 。在确定延迟算子 和嵌入维度 后,混沌时间序列 重构成 , [ ]。混沌系统有两个性 质:某个点的演化与其邻近点的演化行为类似, 进一步演化成 ,则 与 最后一个元 素有着密切复杂的函数关系[6]。从而可知: ( ) 1.3 2.3 ARIMA-SVM 线性与非线性混合模型 SVM 作为一种流行的非线性统计学习模型,不仅可用用于分类也可用于回归,这个主 要取决于损失函数的选取。主要是寻找一个超平面作为两类训练样本点的分割,以保证结构 损失函数最小。 ∑ ( ) 90 损失函数, 为输入向量, 输出。模型越复杂对训练集合拟合效果往往越好,但泛 化能力会很差。那么给经验函数加入一个惩罚机制是 一个常数表示模型复杂程度, 为 惩罚参数,通过结构风险最小化(正则化)获取最优学习函数。对于非线性情况一部分可以 通过软间隔最大化。另外使用核函数将输入空间的线性不可分的样本转化为更高维特征空间, 使其变为线性可分。 95 利用 ARIMA 拟合时序数据线性的成分,然后对非线性的残差进时序进行相空间重构, 前提是证明残差具有混沌性,而非随机过程。最后利用非线性支持向量回归(SVR)对重构 数据进行回归分析用以修正 ARIMA 模型。 2 实证分析 实证分析所采用的进出口总额数据来源 wind,截取我国 2000 年-2016 年进出口总额季 100 度数据。数据趋势图见下(图 1): - 3 -
中国科技论文在线 http://www.paper.edu.cn 图 12000 年-2016 年中国进出口额度季度数据 Fig.1 2000 - 2016 China's import and export quota quarterly data 图 1 中可以看出原始数据是是具有明显趋势性和季节性,属于非平稳的时间序列。对原 105 始数据取对数并一阶差分处理。处理后时序的趋势见图 2: 图 2 步长为 4 一阶差分后的数据 Fig.2 data after the step size is 4 first order difference 从图 2 可知数据任具有一定的季节性,然后采用步长为 4 的一阶差分剔除季节性。处理 110 后结果如下图 3: 图 3 取对数并一阶差分后的数据 Fig.3 data after taking the logarithm and first difference - 4 -
中国科技论文在线 http://www.paper.edu.cn 从图 3 可初步判断经过两次差分后的数据具有平稳性。进一步对两次差分后的数据做一 115 个 ADF 检验,检验的 t 值是-5.717,在 1%的置信度下 t 值是-3.561,p 值为 7.091e-7,因此 可以进一步确定差分后的数据是显著平稳的,可以进一步用于 ARMA 建模。 ARMA 是一种短期时序预测模型,为了更确切地评估模型的优劣,这里分别建立三次 ARMA 实证模型,分别对 2016 年第 2、3、4 季度进出口总额分别做出预测。为了保证每一 期做出预测时数据样本数量的一致性。当前一期预测加入上一期的真实数据同时删除最远一 120 期数据。根据 AIC 准则确定最优模型,2016 年的三个季度预测模型均为为 ARMA(0,5), 且拟合后残差均为截尾类型。模型拟合系数以及常数(C)如表 1 表 1 ARMA 模型参数 Tab.1 ARMA model parameters 季度 C MA1 MA2 MA3 MA4 MA5 2016Q2 -0.0049 0.3159 -0.0132 0.0658 0.0658 -0.4333 2016Q3 -0.0042 0.2704 -0.0316 0.0883 -0.9683 -0.3586 2016Q4 -0.0047 0.2499 -0.0237 0.0735 -0.9762 -0.3233 125 在前面 ARIMA 模型的基础上,通过分别计算 3 个季度 ARMA 模型的残差的自相关系 数。2016Q2 季度的残差系数自相关系数在 1 阶时小于 0,因此选取的延迟时间参数为 , 确定嵌入维度后利用 G-P 方法确定嵌入维度,嵌入维度与关联积分( 利用 近似逼近求得)关系图如下图 4: 图 4 饱和维度与嵌入维度的关系图(2016Q2) 130 Fig.4 The Relation between Saturation Dimension and Embedded Dimension(2016Q2) 可知关联积分在 时趋于平稳,同时也证实了残差具有混沌性。然后同样也计算 Q3、Q4 两个季度的关联积分,得出 、 ,即 Q3、Q4 季度对应的 ARMA 模型 残差关联积分均在在 2 阶出现小于 0。下面图五是 Q3 季度对应的 G-P 方法计算关联积分与 嵌入维度的关系结果: - 5 -
中国科技论文在线 http://www.paper.edu.cn 135 图 5 饱和维度与嵌入维度的关系图(2016Q3) Fig.5 The Relation between Saturation Dimension and Embedded Dimension(2016Q3) 从图中可知 ,当嵌入维度为 5 时关联积分趋于稳定。另外计算 Q4 季度的关联 积分与 m 的关系如下图 6: 140 图 6 饱和维度与嵌入维度的关系图(2016Q4) Fig.6 The Relation between Saturation Dimension and Embedded Dimension(2016Q4) 同样可知,当嵌入维度为 7 即 时,关联积分趋于稳定。因此 3 个模型延迟时间 与嵌入维度参数选取为(1,6)、(2,5)和(2、7)。 145 接下来用重构的残差空间向量集合训练 SVM 模型, 核函数选取最常用的 RBF(径向基 核函数)。训练样本数为 56,考虑到样本数比价少,因此模型测惩罚参数(C)不宜过大, 惩罚参数数组为[1,10, 20, 50], RBF 的带宽参数(gamma)选取 0.1-0.9 且步长为 0.1。另外 SVM 模型的最优参数选取则采用交叉验证(CV)和网格化寻参的方法(Grid Search)。3 个季度的模型最优参数(C,gamma)组合分别是(50, 0.7)、(50, 0.7)、(50, 0.6)。 150 先利用 ARIMA 模型对 2016 年二、三和四季度的进出口总额进行预测,然后利用 SVM 模型分别对三个季度的残差进行预测,利用预测的残差修正 ARIMA 模型预测结果。结果见 下表 2:(单位亿美元) 表 2 模型效果对比 Tab.2 Comparison of the effect of model 预测季度 2016Q2 真实值 9079.622 ARIMA 8249.935 ARIMA-SVR 8757.183 - 6 -
中国科技论文在线 http://www.paper.edu.cn 2016Q3 2016Q4 9669.859 10281.122 10115.419 9175.203 9607.162 9846.313 155 可知利用 ARIMA-SVM 混合模型对我国进出口总额预测,预测值与真实值之间的误差 明显且稳定小于传统的 ARIM 模型。因此,得出结论:线性与非线性的组合的误差补偿模 型 ARIMA-SVM,在对具有线性和非线性两种特质的我国进出口季度总额时序预测时,性 能优于 ARIMA 模型。 3 结论 160 我国进出口数据受到多面的因素综合影响,且对部分因素极为敏感,是一种同时具有线 性和非线性成分的时序数据。对于我国进出口总额时序数据预测问题,优先考虑利用先用线 性模型拟合以剔除一定的线性成分,另外利用空间重构技术对残差即非线性且非随机成分进 行高维空间映射,然后选取非线性模型对非线性成分做回归。在上面实证中,2016 年 3 个 季度的预测平均误差从-0.051% 降低到-0.028%,误差降低接近 50%;且误差越大修复越大, 165 修复过程稳定。因此表明使用线性和非线性组合混合模型(ARIMA-SVM)能有效的对我国 进出口总额时序拟合并进行可靠的短期预测,效果优于传统的 ARIMA 线性模型。 [参考文献] (References) 170 175 [1] 程兰,芳陆敏.中国服务贸易进出口规模的 ARIMA 模型和预测[J].黑龙江对外经贸,2010,12: 25-27. [2] 聂娜.山西省进出口贸易与经济增长:基于 ARMA 最优预测模型的实证分析[N].江苏经贸业技术学院学报, 2012,5. [3] 刘莉.对我国进出口总额的预测-基于 ARIMA 模型[J].商,2016,22:120. [4] 崔万照,朱长纯,保文星,刘君华.混沌时间序列的支持向量机预测[J].物理学报,2004,10: 32-36. [5] 邹进贵,肖扬宣,张士勇.马尔科夫链改进的 ARIMA-BP 神经网络模型研究[J].测绘地理信息,2016, 4: 32-36. [6] 陈蔚.基于线性 ARIMA 与非线性 BP 神经网络组合模型的进出口贸易预测[J].统计与决策,2015,22: 47-49. - 7 -
分享到:
收藏