2
2
2003 年 9 月
文章编号: 1000
6788 (2003) 09
系统工程理论与实践
第 9 期
0035
06
数据挖掘中一种新的预测模型
——基函数拟合预测及其在股市中的应用
(1. 南开大学数学科学学院, 天津 300071; 2. 南开大学组合数学研究中心, 天津 300071)
朱建平1, 李治国2, 陈彩云2
摘要: 探讨了数据挖掘的一种新模型——伯恩斯坦 (B ern stein) 基函数拟合预测模型, 借助该模型的凸
包性, 对上证指数这一稠密时序资料进行了分阶段移动预测模拟, 并分析了实际拟合模型和预测模拟的
误差, 取得了较好的结果
关键词: B ern stein 基函数; 参数化; 数据挖掘; 预测模拟
中图分类号: C81 文献标识码: A
实践表明该模型对稠密数据集的研究有较明显的效果
A N ew P redictive M odel on D ata M in ing
- P red icting A rithm etic of B ern stein B asic Function F itting
and Its A pp lication fo r Stock M arket
ZHU J ian
p ing1, L I Zh i
guo 2, CH EN Cai
yun 2
(1. Schoo l of M athem atical Science, N ankai U n iversity, T ian jin 300071, Ch ina; 2. Cen ter fo r Com b inato rics, N ankaiU
n iversity, T ian jin 300071, Ch ina)
Abstract: In th is article, a new p redictive m odel is con structed by B ern stein basic function fitting on
data m in ing. W e give a p redictive fitting fo r the Shang Zheng Index by the convex hu ll of th is m odel,
and analyze the erro r betw een actual fitting m odel and p redictive m odel. T he exp erim en tal resu lt p roves
that th is m odel is successfu l in analyzing the den se data set.
Key words: B ern stein basic function; p aram etrization; data m in ing; p rogno sticate sim u lation
随着社会经济的快速发展, 中国股票市场的发展越来越趋于规范化, 从 1991 年至今已有了十多年的
历史, 金融市场的快速发展使得股票交易记录数据量越来越大, 并且形成了一个稠密数据集, 面对如此庞
大的稠密数据, 我们能否有效的利用它来分析股市的发展趋势呢? 为了更好地分析和理解这些问题, 乃至
于从复杂的数据集中挖掘出人们事先未知的有用的信息, 可视化是解决这类问题的方法之一. 基函数拟合
建模是数据可视化较为理想的方法 1, 2 , 在实际中确实收到了良好的效果, 尤其在图形的处理 4 和图像的
恢复中 1, 2 . 但是将其用于预测, 特别是解决稠密时序数据却是一个需要研究的问题. 本文将探讨基函数
的拟合建模, 提出一种预测的新思路. 在此基础上, 对上证指数收盘价这一稠密时序资料进行了预测模拟.
1 基函数的确定
设时间序列资料为 X i ( i = 0, 1, 2, …, n) . 构造拟合曲线为
收稿日期: 2002
资助项目: 2002 年度全国统计科学研究重点项目 (L X2002- 2).
24
06
作者简介: 朱建平 (1962-
男, 硕士研究生, 研究方向: 组合数学与应用, Em ail: sb ick le@ eyou. com ; 陈彩云 (1975-
数学与数据分析, Em ail: chencaiyun@eyou. com
) , 男, 教授, 博士研究生, 研究方向: 数理统计学, Em ail: jp zhu@ eyou. com ; 李治国 (1977-
) ,
) , 女, 博士研究生, 研究方向: 组合
© 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
63
系统工程理论与实践
2003 年 9 月
X
( t) =
m
j= 0
b j
j ( t) , 0
t
1, m < n
j ( t) , ( j = 0, 1, 2, …, m ) 为一组基函数; b j ( j = 0, 1, 2, …, m ) 为待定的系数矢量. 这里所给定的时间
其中
t: t0 < t1 < … < tn . 这样我们就面临一个问题,
序列 X i ( i = 0, 1, 2, …, n) 已经参数化, 决定的参数分割为
应该选择怎样一类函数作为基函数呢?这由从复杂数据集中挖掘未知有用的信息的要求所决定. 人们首先
注意到在各类函数中, 多项式函数能较好地满足要求. 它能把复杂地现象简单地表达出来, 通过改变作为
基函数的多项式的次数, 而具有丰富的表达力, 又无穷次可微, 对构造的曲线具有足够的光顺性, 且容易计
算函数值与各阶导数值, 及实现可视化.
m 次多项式的全体构成m 次多项式空间. m 次多项式空间中任一组m + 1 个线性无关的多项式都可
以作为一组基, 因此就有无穷多组基. 不同组基之间仅仅相差一个线性变换. 同一条曲线可以采用不同的
多项式基函数表示, 由此决定了它们具有不同的性质, 而且有不同的优缺点.
多项式基为幂基时, 拟合的曲线方程应为
X
( t) =
m
j = 0
b j tj, 0
t
1
( j = 0, 1, 2, …, m ) 为系数矢量. 采用幂基拟合的曲线具有形式简单, 易于计算的优点. 但幂基的
其中 b j,
多项式曲线方程中的系数矢量的几何意义不明显. 用它拟合曲线时, 必须解一个线性方程组. 当 m 很大时
系数矩阵是病态的, 因而不可取.
用拉格朗日 (L ag range) 基函数拟合的曲线为
X
( t) =
m
j= 0
b jL j ( t) , 0
t
1
其中, L j ( t) =
m
j ≠i= 0
( t -
ti)
( tj -
ti) ( j = 0, 1, …, m ) 为L ag range 基函数, 它具有规范性. 但是求导复杂,
且每增加一个数据点时, 原来的结果不能利用, 必须全部重新计算, 这不适合数据挖掘的要求.
用伯恩斯坦 (B ern stein) 基函数拟合的曲线方程为 6
X
( t) =
m
j = 0
b jB j , m ( t) , 0
t
1
这里的 b j ( j = 0, 1, 2, …, m ) 为系数矢量. 在此称为拟合曲线的控制点. 基函数B j, m ( t) = C j
j
= 0, 1, 2, …, m , 称为 B ern stein 基函数. 它的最大优点是对计算机输入与交互修改拟合曲线带来很大的
方便, 体现出了数据挖掘的特点, 这是由B ern stein 基函数的性质所决定, 其性质与计算公式有:
m tj (1 -
t) m -
j ,
1) 规范性:
2) 对称性:
3) 函数的递推性:
4) 分割性:
B j, m ( t)
0,
m
j= 0
B j , m ( t) ≡ 1
B j , m ( t) = B m -
j, m (1 -
t)
B j, m ( t) = (1 -
t)B j, m - 1 ( t) + tB j- 1, m - 1 ( t)
B j, m (ct) =
m
i= j
B j, i (c)B i, m ( t)
图 1 给出了当 m = 25 时B ern stein 基函数的图形. 由于 B ern stein 基函数的性质, 决定了其拟合所产
生的曲线具有凸包性质. 一个点集的凸包被定义为由该点集的元素形成的所有的凸组合的集合, 在此用
B ern stein 基函数拟合曲线的凸包性质是指该曲线恒位于它的控制顶点的凸包内. 这一性质为我们预测奠
定了理论基础.
© 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
Ù
第 9 期
数据挖掘中一种新的预测模型——基函数拟合预测及其在股市中的应用
73
图 1 B ern stein 基函数的图形 ( m = 25)
2 Bern ste in 基函数拟合建模及预测问题
设时间序列数据为 X i ( i = 0, 1, …, n) 以m 次B ern stein 多项式
B j , m ( t) = C j
m (1 -
t) m -
j tj, j = 0, 1, …, m
为基函数, 构造曲线为
X
( t) =
m
j= 0
b jB j, m ( t) , 0
t
1; m < n
拟合这一时间序列数据点, 以B ern stein 基函数建立模型
X ( t) =
m
j= 0
b jB j , m ( t) +
( t)
(1)
(2)
其中 b j ( j = 0, 1, …, m ) 为待定的控制点; B j , m ( t) 是B ern stein 基函数, 然后利用所构造曲线的有关性质,
对未来的社会现象的发展进行预测, 这里需要说明的是:
1) X
( t) 是拟合数据点 X i ( i = 0, 1, …, n) , 在曲线 (1) 上的值; (2) 式中的 X ( t) 是经过干扰修正参数后
所得到的实际值. 建立模型最基本的要求是, 想用所拟合的曲线 (1) 来描述参数化以后时间序列数据点的
变化情况.
2)
( t) 是误差项, 也称为干扰项, 它是一个随机变量. 干扰项
( t) 包括有被忽略的影响因素、数据的
测量误差、随机误差以及模型的关系误差. 我们考虑误差项, 把它带到所研究的数学模型中, 目的在于通过
对它的研究, 更加确切地说明客观存在的社会现象.
在此, 采用最小二乘法估计出控制点 b j ( j = 0, 1, …, m ) , 假设
( t) ~ N (0,
2) ; 而且对 t1 ≠ t2 时,
cov [
( t1) ,
( t2) = 0. 下面具体介绍建立模型和预测问题.
第一, 对时间序列数据 X i ( i = 0, 1, …, n) 进行参数化. 由于我们所研究的是间隔相等的时间序列资
料, 对数据参数化时, 不能破坏这一性质. 因此, 采用等距参数化 (均匀参数化) 即要求
i = u i+ 1 -
u i = 常数
为处理方便取整数序列
i = 0, 1, …, n
将上式的参数化结果进行规范化, 即得到规范参数化结果
u i = i,
ti = u i
n,
i = 0, 1, …, n
以下采用规范参数化进行讨论.
第二, 采用最小二乘法来确定拟合的曲线 (1) , 并建立模型. 设所需拟合的曲线为:
© 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
δ
δ
δ
δ
δ
2003 年 9 月
83
模型为:
系统工程理论与实践
X
i =
m
j= 0
b jB j, m ( ti) ,
i = 0, 1, …, n
X i =
m
j = 0
b jB j, m ( ti) +
( ti) , i = 0, 1, …, n
(3)
(4)
我们求控制顶点 b j ( j = 0, 1, …, m ) 使得
达到最小. 为了明显地表示出 J 为 b j 的函数, 即有
J =
n
i= 0
(X i - X
i) 2
J (b0, b1, …, bm ) =
n
i= 0
X i -
m
j = 0
b jB j , m ( ti)
2
根据要求即得到:
其中
T 为
的转置.
b0
b1
bm
= (
T
) - 1
T =
0
X ′
X ′
1
X ′
n
B 0, m ( t0) B 1, m ( t0) … B m , m ( t0)
B 0, m ( t1) B 1, m ( t1) … B m , m ( t1)
=
B 0, m ( tn) B 1, m ( tn) … B m , m ( tn)
这样便估计出了关于模型 (4) 的m + 1 个控制点 b0, b1, …, bm . 从而得到拟合曲线为
X
=
m
j= 0
b jB j , m ( t)
第三, 利用所建立的模型确定未来某一现象的发展方向. 由于所构造的曲线具有凸包性质, 即所拟合
的曲线位于控制顶点的凸包内. 说明该曲线是由控制多边形严格地控制着. 为了比较精确地确定某现象未
来发展趋势, 我们借助控制多边形来确定.
将所得到的控制点 b j ( j = 0, 1, …, m ) 做向前差分得到
△b j = b j+ 1 -
b j, j = 0, 1, …, m - 1
矢量, 这就是控制多边形的边矢量, 记为 a j+ 1 如图 2 所示.
图 2 边矢量加权和
一般情况某现象发展的当期状况与滞后期状况有一定的关系, 而且越近关系越密切. 因此, 对当期和
滞后一期的边矢量求加权和 (如图 2 所示) , 即得
其中 r1, r2 为权数, 且 r1 + r2 = 1. 矢量 a
m 的方向为某一现象的未来发展方向.
a
m = r1am + r2am - 1
第四, 进行预测. 现预测第 n + 1 期的指标值 X
© 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
n+ 1 , 以 X
n 为始点, 由于是在规范参数化数据下, 以 a
m
第 9 期
数据挖掘中一种新的预测模型——基函数拟合预测及其在股市中的应用
93
n 个单位的矢量的终点
n+ 1 , 如图 3 所示. 这样便得到了第 n + 1
方向延长, 垂直投影为 1
即为 X
的预测值 X
n+ 1 .
3 上证指数收盘价预测模拟
在数据挖掘中, 对稠密数据的分析及预测是
一个重要的研究领域 7 . 我们利用所建立的模
型对上证指数 (1A 0001) 从 1996 年 1 月 2 日到
2001 年 9 月 21 日收盘价 (1362 天) 这一稠密时序资料拟合建模, 并利用分阶段资料进行移动预测模拟. 在
此, 我们选用上证指数来作为研究的对象其原因是: 上证指数是我国证券市场中最重要的指数, 最具有代
表性; 它的走势曲线有较强的连贯性, 体现出了稠密的特点, 用基函数建模能更好地反映其本质特征.
3. 1 上证指数收盘价的拟合模拟
图 3 预测
在图 4 中收盘价较大起伏的次数较多 (12 次) , 建模时取m = 25 , 得到控制点 b j ( j = 0, 1, …, 25) 见表
1 所示.
表 1 控制点 b j 的估计值
控制点 b j
估计值
控制点 b j
估计值
b0
b1
b2
b3
b4
b5
b6
b7
b8
b9
b10
b11
b12
5. 567e+ 002
2. 827e+ 002
1. 845e+ 003
1. 458e+ 003
- 6. 454e+ 004
5. 987e+ 005
- 3. 243e+ 006
1. 269e+ 007
- 3. 828e+ 007
9. 202e+ 007
- 1. 793e+ 008
2. 864e+ 008
- 3. 779e+ 008
b13
b14
b15
b16
b17
b18
b19
b20
b21
b22
b23
b24
b25
4. 135e+ 008
- 3. 757e+ 008
2. 827e+ 008
- 1. 753e+ 008
8. 905e+ 007
- 3. 673e+ 007
1. 219e+ 007
- 3. 222e+ 006
6. 81e+ 005
- 1. 13e+ 005
1. 688e+ 004
1. 573e+ 003
1. 860e+ 003
图 4 模型的似合图
© 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
04
系统工程理论与实践
2003 年 9 月
拟合的曲线见图 4 所示. 对模型进行误差分析, 计算 X
76. 8328% 使得拟合值与真实值的残差比区间为 (- 5% , 5% ).
( t) - X ( t)
X ( t)
100% , 其残差比见图 5. 并知以
3. 2 预测模拟
图 5 拟合值与真实值的残差比图
我们每次利用 200 天的收盘价 (m = 25) , 取权数 r1 = 95% , r2 = 5% 进行移动预测模拟 1162 次, 并
与实际值进行比较, 计算 X
n+ 1 ( t) - X n+ 1 ( t)
X n+ 1 ( t)
100% , 其结果如图 6 所示.
另 外, 由计算知有 75. 1291% 的比例使得预测误差范围为 (- 2% , 2% ) , 而且误差范围是 (- 5% ,
5% ) 的比例为 98. 6321%. 说明用 B ern stein 基函数对稠密数据拟合建模并用于预测, 具有较高的精度.
图 6 预测一天值与实际值比较
4 结束语
近来, 人们对稠密数据的分析与 研究产生了浓厚的兴趣, 例如, 股票市场的股价时时在变化, 每个公
司的营运和股价走向如何?特别是对大盘走势的研究, 将会提到议事日程上, 通过分析把握股票市场行情,
对于投资者来说是至关重要, 同时对股票市场的正确运营有着实际的指导意义. 从数据挖掘的角度看, 这
一方面的研究刚刚起步, 还有许多问题有待解决.
(下转第 60 页)
© 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
06
系统工程理论与实践
2003 年 9 月
多事件除了具有随机性外, 还具有模糊性, 因此在模糊环境下对上述问题进行进一步的研究是十分必要和
有意义的.
参考文献:
1 宋逢明. 金融工程原理——无套利均衡分析[M ]. 北京: 清华大学出版社, 1999.
2 吴冲锋, 王海成, 吴文锋. 金融工程研究[M ]. 上海: 上海交通大学出版社, 2000: 349- 350, 398.
3 林国春. 股票市场中机构投资者与个人投资者的投机博弈[J ]. 经济科学, 1997, (3) : 44- 48.
4 Rob in Go ldw yn B lum en thal. T he question is, can p rofits be con tagiou s? [J ]. B arron’s, 2001, 81 (24) : 13- 14.
5 郑维敏. 正反馈[M ]. 北京: 清华大学出版社, 1998. 49- 52.
6 秦学志, 吴冲锋. 信息非对称程度与经营者效用、资本结构、企业市场价值[J ]. 中国管理科学, 2001, 9 (4) : 1- 6.
7 张维迎. 博弈论与信息经济学[M ]. 上海: 上海三联书店上海人民出版社, 1997.
8 汪应洛, 黄长征. 有限理性与复杂经济系统研究方法论[J ]. 中国软科学, 1997, (2) : 20- 23.
9 Endre Pap , Zita Bo sn jak, Sasa Bo sn jak. A pp lication of fuzzy sets w ith differen t t
no rm s in the in terp retation of po rt
fo lio m atrices in strategic m anagem en t [J ]. Fuzzy Sets and System s, 2000, 114: 123- 131.
10 H ideo T anaka , Peijun Guo ,
I. B u rdan T u rk sen. Po rtfo lio selection based on fuzzy p robab ilities and po ssib ility dis
tribu tion s [J ]. Fuzzy Sets and System s, 2000, 111: 387- 397.
(上接第 40 页)
在这里我们提出数据挖掘的新思路——B ern stein 基函数拟合预测模型, 我们用该模型来分析上证大
盘数据, 从而对股票未来的发展趋势进行了模拟预测, 取得了较好的效果. 特别是对于稠密数据集的研
究, 意义更大. 针对稠密数据, 如何聚类分析、相应分析?这些问题的解决将打破离散化的局面, 向连续化过
渡, 有可能成为研究的方向和应用的领域.
参考文献:
1 施法中. 计算机辅助几何设计与非均匀有理 B 样条[M . 北京: 北京航空航天出版社, 1994. 76- 135.
2 关履泰, 等. 计算机辅助几何图形设计[M . 北京: 高等教育出版社和施普林格出版社, 1999. 20- 176.
3 A n J , Ow en A B. Q uasi
4 T huan L V , L uc D T. O n Sen sitivity in linear m u ltiob jective p rogramm ing[J .
Statistics D ep artm en t, Stanfo rd U n iversity, 1999.
regression [R .
Jou rnal of O p tim ization T heo ry and
A pp lication, 2000, 107 (3) : 615- 626
5 Jain A K, Do rai C. 3D ob ject recogn ition: R ep resen tation and m atch ing[J. Statistics and Com p u ting, 2000. 10: 167
- 182.
6 Farin G. Cu rves and Su rfaces fo r Com p u ter A ided Geom etric D esign [M .
P rin ted in the U n ited States of Am erica,
1990. 37- 109.
7 H an J W , Kam ber M. D ata M in ing: Concep ts and T echn iques[M . H igher Education P ress, 2001. 451- 483.
© 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.