logo资料库

基于粗糙集的粮食产量SVM非线性组合预测模型.pdf

第1页 / 共7页
第2页 / 共7页
第3页 / 共7页
第4页 / 共7页
第5页 / 共7页
第6页 / 共7页
第7页 / 共7页
资料共7页,全文预览结束
中国科技论文在线 http://www.paper.edu.cn 基于粗糙集的粮食产量 SVM 非线性组合预 测模型# 袁玉萍1,安增龙2** (1. 黑龙江八一农垦大学理学院 黑龙江 大庆 163319; 2. 黑龙江八一农垦大学经济管理学院黑龙江 大庆 163319) 摘要:针对粮食产量预测问题,引入支持向量机智能优化算法以及组合预测技术。利用基于 粗糙集理论的权系数确定方法,将权系数确定问题转化为标准粗糙集理论中属性重要性评价 问题,建立一种基于标准粗糙集理论的支持向量机组合预测方法;利用构建的组合预测模型 对黑龙江省粮食总产量的历史数据进行组合预测,分析表明所建立的组合预测模型对粮食产 量的预测精确度较高,与实际值具有很好的一致性,预测结果平均绝对误差比传统建模方法 明显降低。 关键词:农业系统工程;组合预测;粗糙集;支持向量机;权系数 中图分类号:S23 Study on SVM Nonlinear Combination Forecasting Method for Grain Yield Based on Rough Set Theory (1. Heilongjiang Bayi Agricultural University College of Sciences , Helongjiang Daqing, 163319; 2. Heilongjiang Bayi Agricultural University College of Economics&Management, Helongjiang YUAN Yuping1, AN Zenglong2 Daqing 163319) Abstract: In this paper,aiming at it’s own prediction of grain output,draw into support vector machine intelligent optimization algorithms and combination prediction technique. Employ the method of determining weight coefficient based on rough set theory. Establish a combination forecasting method on the basis of standard rough set theory. Use the SOM method of self-organizing neural network to discretizationize attribute property in order to establish information systems and decision table. Transform determining weight coefficient into the evaluation of attribute significance among standard rough set theory,work out weight coefficient of single model amid combination prediction model. Use constructed combination prediction model,predict the historical data of grain gross output in Heilongjiang reclamation areas. It shows the high accuracy of constructed combination prediction model in predicting the grain output. Be consistent with the true value. Mean absolute error of the prediction results get lower than traditional modeling method. Key words: agricultural system engineering;Combination forecasting;Rough set;Support vector machines(SVMs);Weight coefficient 5 10 15 20 25 30 35 0 引言 粮食产量预测呈复杂的非线性关系,具有随机性和突变性,难以用传统线性预测模型进 行描述且预测精度低。组合预测方法已经证明将多种模型的线性组合在一定条件下可以有效 40 改善模型的拟合能力和提高预测精度。目前,组合预测方法研究主要有两个方向:一是将学 习优化算法与传统的单一预测模型进行组合[1-3],二是将多个单一模型采用线性组合[4-5], 适当的加权平均形式构造组合预测模型,其中合理的权重系数会大大提高预测精度,所以权 基金项目:高等学校博士学科点专项科研基金博导类资助课题项目(20112305110002) 作者简介:袁玉萍(1970-),女,副教授,研究方向:运筹与优化 通信联系人:安增龙(1962-),男,博士,教授,研究方向:经济数学和企业管理. E-mail: anzenglong@126.com - 1 -
中国科技论文在线 系数的确定问题是组合预测模型的关键和难点。 http://www.paper.edu.cn 在文献[6-7]中虽然已经利用粗糙集理论研究了组合预测模型的权重方法,给出了基于 粗糙集理论对组合预测模型权系数的确定步骤,但是对于将属性数据离散化这一重要环节没 有详细阐述,致使该方法缺乏应用性。本文利用数据挖掘新方法——支持向量机,在解决小 样本、非线性及高维模式识别问题中表现出特有的优势,在很多规模较大的数据集上也表现 出好的解决问题的能力。为克服传统建模方法在模型选取方面的不足,提高粮食产量的预测 精度和稳定性,本文选用支持向量机预测模型、一元线性回归模型、指数模型、对数模型和 双曲线模型构成组合预测模型。运用自组织神经网络 SOM 方法将属性特征离散化建立了知 识表达系统和决策表,将权系数确定问题转化为标准粗糙集理论中属性重要性评价问题,并 给出将属性数据离散化的 matlab 应用程序,计算出预测方法对预测模型的依赖度和重要度 以及组合预测模型中各单一模型的权系数;利用构建的组合预测模型对黑龙江省粮食总产量 的历史数据进行组合预测,分析表明所建立的组合模型对粮食产量的预测精确度高,与实际 值具有很好的一致性,预测结果平均绝对误差比传统建模方法明显降低。 1 基于粗糙集的组合预测模型的权系数确定 45 50 55 1.1 组合预测方法及建立关系数据模型 假设有 m 种预测模型对同一预测对象进行预测,则由这 m 种单一预测模型构成的组合 预测模型为 ˆ y t = m ⋅∑ ( ) ˆ i k y i t i 1 = (1) 60 式中 ˆty 表示t 时刻组合预测模型的预测值; ty 表示t 时刻第i 个预测模型的预测值( ( ) ˆ i i , m 1,2, = L ; m ) , ) k m =∑ 1,2, = L , { = (1) i i C 1 = ˆ y , 论 域 ˆ ˆ y yL , , (2) , ( 65 70 75 ik 表示t 时刻第i 个预测模型的权系数( i 1 ,且 ik ≥ 。 0 t , , (1) , (2) (2) ( ˆ y ˆ y ˆ y ( = L ,m ) 将组合预测模型中的各单一模型的拟合值视为条件属性 { } y= ˆ y = L ,其中, (1) ˆ y = 测 对 象 的 观 测 值 视 为 决 策 属 性 , 和 ty 分别是t 时刻各 u 单一预测模型的拟合值和预测对象的历史数据。由观测期内各单一模型的拟合值和历史数据 一起构成的二维数据表就是关于组合预测模型的信息系统,表中的每一行描述一个对象,每一 列描述对象的一种属性。 1.2 基于粗糙集各单一模型权系数的确定 , , L { u u , 1 , 1,2, } ,将预 } u , L , U m ) ˆ y , D y t n ) ( m ) t , 2 n 利用粗糙集理论分析各单一模型的重要度,前提基础是将条件属性值离散化后才可以建 立知识表达系统。因此,将连续属性离散化是粗糙集理论实际应用的一个重要环节。目前有 关连续数据离散化的典型方法主要有分别基于分级聚类法、遗传算法、条件信息熵和自组织 神经网络(SOM)等离散方法,参阅文献[8]。本文采用自组织特征映射神经网络 SOM 对连续 属性值进行离散化处理。计算各单一模型的权系数步骤如下: Step 1. 计算决策属性 D 对条件属性C 的依赖度 - 2 -
中国科技论文在线 http://www.paper.edu.cn k = γ C ( D ) m = ∑ i 1 = POS C ( y i ) U (2) 其中: C = { ˆ y (1) (2) , ˆ y , ( m ) , ˆ y } L , D { } y= , POS C ( ) y 决策属性 D 关于条件属性 C 的正 i 域, U 集合U 的基数,对于有限集合表示集合中包含元素的个数。 Step 2. 删除第i 种预测模型,计算决策属性 D 对条件属性 { }i c− C 的依赖度 80 γ − C c i { } ( D ) = m ∑ i 1 = POS { } ( C c i − y i ) U i , = 1,2, , m L (3) Step 3. 计算第i 种预测模型在全部预测模型中的重要度 ), D i ) c i Step 4. 计算第i 种预测模型的权系数 { } ( ( σ CD m ∑ γ − C c i σ CD σ CD c i ( γ C D k i c i = − = ) ( ) ( ) , i 1 = 1,2, = L (4) m , i = 1,2, , m L (5) 2 黑龙江省粮食产量组合预测模型的建立 85 2.1 支持向量机预测模型 支持向量机(Support Vector Machine,SVM)是数据挖掘中的一项新技术,是基于统计学 习理论的结构风险最小化原理基础上提出来的一种学习算法, 参阅文献[9],是借助于最优 化方法解决机器学习问题的新工具。成为继模式识别和神经网络研究之后机器学习领域中新 的研究热点,并将推动机器学习理论和技术的发展。 90 95 回归问题的数学提法:根据给定的训练集: ) X Y } { ∈ × ( ) ( T x y x y , , { = L, , l l 1 1 x l R i , , , ,假定训练集是按 X Y× 上的某个概率分布 y 1 ∈ = L i i ) ∈ ⊂ n , } ,l X R (6) , ) R f ,使期望风险 [ c x y f ,寻找一个从输入空间 X c x y f dP x y ( , ( , ) ] ) , = ∫ 其中 P x y 选取的独立同分布的样本点,又设给定损失函数 ( , ( , 到输出空间Y 上的一个实值函数 ( x b f x + 达到最小值。SVM非线性回归模型建模步骤: x y , l l l x y ), , )} { ∈ 1 1 R i ∈ , =1, , ; (1)设已知训练集: ∈ ⊂ T = R n , 其中 )= ω⋅ L ,( X {( y i x i L X Y × }l (2) 构造适当的正数ν和C ;选择适当的核函数 ( , (3) 构造并求解最优化问题 K x x′ ) - 3 -
中国科技论文在线 ( ( ) ∗ α W max ( ) ∗ R α ∈ 2 l ) = http://www.paper.edu.cn l ∑ i 1 = ( α α i − ∗ i ) y i − 1 2 l ∑ i , j 1 = ( α α α α j )( − − ∗ i ∗ j i ) ( K x x , i j ) s t . . 100 ( α α i − ∗ i l ∑ i 1 = = 0 , ) ⎤ ⎥ ⎦ C l ) ( ) ∗ α i ∈ ⎡ ⎢ ⎣ 0, , , , i = 1 L ( α α i + ∗ i C ≤ ⋅ ν l ∑ i 1 = l , (7) 得最优解 ( ) ∗ ∗ α α α α α l = ∗ 1 1 l L , , , , ( T ) (4)构造决策函数 ( f x ) = ( α α∗ i − i ) l ∑ i 1 = K x x , ( i ) + b ∗ (8) 其中 ∗ b = 1 2 ⎡ ⎢ ⎣ y j + y k − ⎛ ⎜ ⎝ l ∑ i 1 = ( α α i − ∗ i ) ( K x x , i j ) + l ∑ i 1 = ( α α i − ∗ i ) K x x , k i ( ) ⎞ ⎟ ⎠ ⎤ ⎥ ⎦ (9) 2.2 基于粗糙集的粮食产量组合预测模型建立 105 根据黑龙江省 1987-2008 年粮食产量的变化趋势,把时间因素看作影响粮食产量的综合 因素,确定以支持向量机回归模型、一元线性回归模型、指数模型、对数模型和双曲线模型 作为组合预测模型中的 5 个单一预测模型: 模型 1 ( ) ˆ = 1 y t l ∑ i 1 = ( ) α α∗ i − i K x ( i − x ) + b ∗ 参数取值: 0.001, ε= C = 100, sigma = 8, nu = 0.01 110 模型 2 ( )2ˆ ty = t 1693 91.74 + 模型 3 ( )3ˆ ty = 1834 1.034t × 模型 4 ( )4ˆ ty = 1218 694.3ln + t 模型 5 ( ) 5ˆ ty = 3365 × e − 1.454 t 粮食产量历史数据及各个模型拟合值见表 1。 表 1 黑龙江省 1987-2008 年粮食总产量历史数据、单个模型和组合模型拟合值 Tab.1 Statistic of grain yield and forecast values of each model from 1987 to 2008 in Heilongjiang Province 年份 粮食总产量 单个模型拟合值 组合模型 (万 t) 模型 1 模型 2 模型 3 模型 4 模型 5 拟合值 - 4 -
中国科技论文在线 http://www.paper.edu.cn 1987 1737.60 1800.91 1784.7 1896.4 1218 786.178 1508.0 1988 1643.00 1803.24 1876.5 1960.8 1699.3 1626.5 1759.7 1989 1621.50 1843.57 1968.2 2027.5 1980.8 2072.5 1922.6 1990 2312.5 2081.22 2060.0 2096.4 2180.5 2339.5 2146.2 1991 2164.3 2162.43 2151.7 2167.7 2335.4 2515.9 2257.9 1992 2366.3 2298.67 2243.4 2241.4 2462 2640.8 2385.5 1993 2390.80 2398.12 2335.2 2317.6 2569 2733.9 2483.5 1994 2578.70 2503.46 2426.9 2396.4 2661.8 2805.8 2578.5 1995 2552.10 2557.31 2518.7 2477.9 2743.5 2863 2640.3 1996 3046.60 2989.99 2610.4 2562.2 2816.7 2909.6 2909.2 1997 3104.50 3045.76 2702.1 2649.3 2882.9 2948.4 2966.3 1998 3008.50 3052.53 2793.9 2739.3 2943.3 2981 2994.2 1999 3074.60 3061.79 2885.6 2832.5 2998.8 3008.9 3021.9 2000 2545.50 3072.11 2977.4 2928.8 3050.3 3033.1 3049.0 2001 2651.70 3077.49 3069.1 3028.4 3098.2 3054.1 3072.1 2002 2941.20 3079.62 3160.8 3131.3 3143 3072.7 3092.6 2003 2512.30 3098.41 3252.6 3237.8 3185.1 3089.2 3121.6 2004 3135.00 3168.56 3344.3 3347.9 3224.8 3103.9 3178.4 2005 3600.00 3613.83 3436.1 3461.7 3262.3 3117.1 3442.8 2006 3780.00 3722.46 3527.8 3579.4 3297.9 3129 3519.9 2007 3462.90 3754.11 3619.5 3701.1 3331.8 3139.9 3553.9 2008 4225.00 4314.54 3711.3 3826.9 3364.1 3149.8 3880.9 115 对每个属性的属性值按特征分割为若干特征值,然后将属性值用特征值代替。利用 SOM 网络将表 1 的数据离散为 4 个等级,便可建立关于组合预测的知识表达系统,见表 2。 表 2 单一模型与粮食产量预测指标的知识表达系统 Tab.2 A knowledge representation system between forecast values of each model and forecast object 论域U 模型 1 模型 2 模型 3 模型 4 模型 5 粮食总产量 y 1u 1 1 1 1 1 1 2u 1 1 1 1 1 1 3u 1 1 1 1 2 1 4u 1 1 1 1 2 1 5u 1 1 1 2 2 1 6u 1 1 1 2 3 2 7u 2 2 1 2 3 2 8u 2 2 2 2 3 2 9u 2 2 2 3 3 2 10u 3 2 2 3 3 3 11u 3 2 2 3 4 3 12u 3 3 2 3 4 3 13u 3 3 3 3 4 3 14u 3 3 3 3 4 2 15u 3 3 3 4 4 2 16u 3 3 3 4 4 3 17u 3 4 4 4 4 2 - 5 -
中国科技论文在线 http://www.paper.edu.cn 18u 3 4 4 4 4 3 19u 4 4 4 4 4 4 20u 4 4 4 4 4 4 21u 4 4 4 4 4 4 22u 4 4 4 4 4 4 根据式(2)计算粮食总产量 y 对5 种模型的依赖度 ( =16/22=0.7273 C Dγ ) 根据式(3)计算删除一种预测模型后,得粮食总产量 y 对余下 4 种模型的依赖度 { } ( C c D γ − i = L ,按式(4)计算各种预测模型的重要度 ,5 1,2, ,5 果见表 3。 ) , ik i = L ,结 和权系数 , ( icσ 1,2, CD ) i 表 3 各个预测模型的依赖度、重要度和权系数 Tab.3 The dependence、important and weights of various prediction model 各单一模型 模型 1 模型 2 模型 3 模型 4 模型 5 i 0.5 0.7273 0.6818 0.6818 0.6364 { } ( ) C c D γ − ( ) icσ 0.2273 0 0.0455 0.0455 0.0909 ik 0.5555 0 0.1112 0.1112 0.2221 CD 由表 3 中权系数即可建立基于支持向量机的粗糙集理论的黑龙江省粮食总产量组合预测模 120 125 型: ˆ y t = 0.555 ( ) ˆ 1 y t + 0.1112 ( ) ˆ 3 y t + 0.1112 ( ) ˆ 4 y t + 0.2221 ( ) ˆ 5 y t 利用建立的组合预测模型可求得黑龙江省 1998-2008 年粮食产量预测值,见表 1 中最后 一列。 130 Tab.4 The each model grain yield of relative error from 1987 to 2008 in Heilongjiang Province 表 4 黑龙江省 1987-2008 年粮食产量不同预测模型拟合相对误差 单个模型拟合值相对误差 组合模型 模型 模型 1 模型 2 模型 3 模型 4 模型 5 拟合值 平均相对误差 8.7903 9.5141 10.2532 10.4600 13.1214 7.1876 3 分析与讨论 本文给出了基于粗糙集的粮食产量 SVM 非线性组合预测模型,对黑龙江省粮食产量进行预 测,由于组合预测模型聚集了各单一预测模型包含的有用信息,并且选取了泛化能力较强的 支持向量机智能算法,因而在总体上对未来变化的适应能力、稳定性,以及反映发展趋势和 预测结果准确性等方面都要比各单一模型更好些,充分发挥了组合预测模型的优势,再应用 基于粗糙集理论的权系数确定方法来合理确定各单一预测方法的权重,以此构建的组合预测 模型进行预测,由表 4 可知,基于粗糙集的组合预测模型的平均绝对误差7.1876 %均比 5 个单一预测模型的平均绝对误差小;此外,由于各预测模型和样本数据离散化方法的多样性, 使得将数据离散化时很难做到完全合理,这也是利用粗糙集理论确定组合预测模型权系数研 究中有待进一步研究的问题。 135 140 - 6 -
中国科技论文在线 http://www.paper.edu.cn 145 [参考文献] (References) [1] Tamimi M,Egber R.Short term electric load forecasting via fuzzy neural collaboration[J].Electric Power Systems Research,2000,56(3):243_248 [2] 邰能灵,侯志俭,李涛.基于小波分析的电力系统短期负荷预测方法[J].中国电机工程学报,2003,23(1): 45-50 [3] Srinivasan D,Swee S T,Chang C S,et al.Parallel neural network-fuzzy expert system strategy for short-term load forecasting:system implem entation and performance evaluation[J].IEEE Transactions on Power Systems,1999,14(3):1100-1105 [4] 康重庆,夏清,沈渝,等.电力系统负荷预测的综合模型[J].清华大学学报,1999,39(1):8-11. [5] KANG C K ,XU C,QING X,et al.Novel approach considering load-relative factors in short-term load foracasting[J].Electric Power Systems Research,2004,70(2):99-107. [6] 钟波,肖志.组合预测中基于粗糙集理论的权值取定方法[J].重庆大学学报,2002,25(7):127-130. [7] 郑文钟,何勇.基于粗糙集的粮食产量组合预测模型[J].农业机械学报,2005,36(11):75-78. [8] 赵显桥,曹欣玉,兰泽全等.基于粗糙集理论的煤灰结渣模糊综合评判权系数确定方法研究[J].煤炭学报, 2004,29(2):222-225. [9] VAPNIL V.The nature of statistical learning theory[M].New York:Springer-Verlag,1995,10-26. 150 155 160 - 7 -
分享到:
收藏