2014 高教社杯全国大学生数学建模
承 诺 书
我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮
件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问
题。
我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他
公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正
文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反
竞赛规则的行为,我们将受到严肃处理。
我们参赛选择的题号是(从 A/B/C/D 中选择一项填写):
C
我们的参赛报名号为(如果赛区设置报名号的话):
19510003
所属学校(请填写完整的全名):
广东科学技术职业学院
参赛队员 (打印并签名) :1.
2.
3.
霍耀峰
江奕铭
陈锡鑫
指导教师或指导教师组负责人 (打印并签名):
桂改花
日期: 2014 年 9 月 5 日
赛区评阅编号(由赛区组委会评阅前进行编号):
2014 高教社杯全国大学生数学建模
编 号 专 用 页
赛区评阅编号(由赛区组委会评阅前进行编号):
赛区评阅记录(可供赛区评阅时使用):
评
阅
人
评
分
备
注
全国统一编号(由赛区组委会送交全国前编号):
全国评阅编号(由全国组委会评阅前进行编号):
股票上证指数分析模型
摘要
随着中国经济的迅速发展,市场的规范化程度不断提高,股票品种也有了向
多元多层次化发展的趋势,吸引了越来越多投资者的目光。为了减少投资风险,
获得丰富的利润回报,理智的股票投资者将会更加重视投资对象的选择。表达股
票数据的真是意义对投资者来说是关键,而股票交易数据包含了大量的信息,对
股票交易数据的分析就显得特别重要。本文主要针对股票的预测展开讨论:
针对问题一,本文通过查阅得知:现在对股市市场的分析与预测主要采用 K
线图,利用 MATLAB 程序计算其权重,再通过 Excel 对计算出来的数据作出
1997~2014 年和两会期间的 K 线图,然后对 K 线图进行分类,作出 K 线种类频度
直方图,通过对图表的综合分析,得出两会召开时期股市涨幅相对全年较稳定,
对股市大盘 K 线图走势无太大影响。
针对问题二,本文利用滚动式和多元非线性回归拟合建立回归模型,采用
MATLAB 编程求解,利用开盘指数,建立 3 日、5 日、15 日最大值、最小值区域
分布模型。
针对问题三,本文利用给出的 2014 年的数据中的每天开盘价,利用 MATLAB
程序,结合问题二得拟合出来的回归函数,进行数据代入,预测出 2014 年的 3
天、5 天、15 天的最大值、最小值区域分布模型,并利用残差平方和,得出以每
三天的滚动式预测相对其它两种方式较准确。
关键词:K 线图 、滚动式、多元非线性回归拟合、残差分析
1
1 问题重述
1.1 问题背景
上证指数即“上证综合指数”(上海证券综合指数),它是上海证券交易所
编制的,以上海证券交易所挂牌上市的全部股票为计算范围,以发行量为权数综
合。上证综指反映了上海证券交易市场的总体走势。
1.2 实际现状
上证指数是由证券交易所或金融服务机构编制的表明股票行市变动的一种
供参考的指示数字,让投资者更好把握、了解股票变化,预测股票走势。
1.3 需要解决的问题
1、请利用所给出的数据检验说明每年全国人民代表大会和全国政协会议的召开
等国家政策调整是否会对此段时间内指数的变化趋势有显著的影响?
2、数据中给出了上证指数每个交易日的各项交易指标,根据数据分布特征,试
分别给出 3 日、5 日、15 日最大值、最小值区域分布模型,并对模型进行数
据检验。
3、根据数据分布特征,试分别给出 3 日、5 日、15 日最大值、最小值区域分布
预测模型,并对模型进行数据检验。
2 模型假设
1. 假设给出的数据是真实可靠的。
2. 假设前 3 天、前 5 天和前 15 天的最值取同一最值。
3 符号说明
Y
X1
X2
SSE
n F(n)
i=1
目标函数
开盘最高指数(3 天、5 天、15 天)
开盘最低指数(3 天、5 天、15 天)
残差平方和
表示求 F(1)累加
到 F(n)总和
4 问题分析
4.1 数据预处理
由于给出的数据中,日期的格式并不统一,为了方便,我们把日期格式都统
一为:yyyy/mm/dd 的格式。
然后筛选星期列,发现有三处地方是空白的:
2005/2/2
1189.5
1253.2
1189.5
1252.5
20359136
2
2005/2/3
1253.8
1269.2
1236.2
1242.3
2005/2/4
1269.0
为了数据的完整性,利用查找日历,把空白的三处地方补全。
其他数据则均假设为真实数据。
1238.6
1274.1
1235.6
21344430
17888626
4.2 对于问题一的分析
通过查阅得知:现在对股市市场的分析与预测主要采用 K 线图。通过对给出
的数据作出 1997~2013 年的 K 线图,然后对 K 线图进行分类,作出 K 线种类频度
直方图,通过对图表的分析,得出结论。
4.3 对于问题二的分析
利用滚动式,即 abc、bcd、cdf 的方式,在 Excel 中统计出 1997~2013 年的
3 天、5 天、15 天的最大值、最小值(统计的数据见附录)。然后利用统计出来
的数据,利用 Matlab
进行拟合,分别得出其 3 天、5 天、15 天最大值、最小值的 6 条区域分布模型。
4.4 对于问题三的分析
利用给出的 2014 年的数据中的每天开盘价,用 Excel 通过滚动式来统计处
3 天、5 天、15 天开盘价的最高值、最低值。然后利用 Matlab,结合问题二得拟
合出来的公式,进行数据带入,预测出 2014 年的 3 天、5 天、15 天的最大值、
最小值区域分布模型。最后,把预测结果与真实数据进行对比验证。
5 模型建立与求解
5.1 对于问题一的求解
5.1.1 K 线图简介
K 线图有直观、立体感强、携带信息量大的特点,蕴涵着丰富的东方哲学思
想,能充分显示股价趋势的强弱、买卖双方力量平衡的变化,预测后市走向较准
确,是各类传播媒介、电脑实时分析系统应用较多的技术分析手段。
K 线图又称蜡烛图,阳烛表示收盘指数高于开盘指数,阴烛表示收盘指数低
于开盘指数,烛顶和烛底表示最大值和最小值,K 线图记录方法如下:
最高价
上影线
收盘价
开盘价
下影线
最低价
阳线
阴线
3
最高价
开盘价
收盘价
最低价
图 1 蜡烛图解
阳线:收盘指数在开盘指数之上,用红色绘出,上影线的最高点表示最高指
数,下影线的最低点表示最低指数。
阴线:收盘指数在开盘指数之下,用蓝色绘出,上影线的最高点表示最高指
数,下影线的最低点表示最低指数。
5.1.2 对 K 线分类
先作出 1997~2014 年的 K 线走势图:
图 2 1997~2014 年的 K 线走势图
根据开盘指数与收盘指数的波动范围,可将 K 线分为大阳线、中阳线、小阳
线、极小阳线、大阴线、中阴线、小阴线和极小阴线 8 中线型,其分类的指标为
涨跌幅度:
其中 K 表示开盘指数,S 表示收盘指数,Max(K,S)表示取 K 和 S 之间的最大值,
得出以下 8 种情况:
涨跌幅度F= S−KMax(K,S)
阳线 F1∈ 0%,0.5% 极小阳线
F2∈ 0.5%,1.5% 小阳线
F3∈ 1.5%,3.5% 中阳线
F4∈ 3,5%,+∞ 大阳线
F−1∈ −0.5%,0% 极小阴线
F−2∈ −1.5%,−0.5% 小阴线
F−3∈ −3.5%,−1.5% 中阴线
F−4∈ −∞,−3,5% 大阴线
表 1 各类 K 线波动范围表
阴线
极小阳、阴线 小阳、阴线
中阳、阴线
大阳、阴线
4
波动范围
5.1.3 对比分析求解
0.5%~1.5%
3.5%~+∞
0~0.5%
利用给出的数据(见附件[1]),通过 Matlab 计算出 1997~2014 年 K 线各种类
的频度:(代码见附录[1])
1.5%~3.5%
表 2 1997~2014 年 K 线各种类的频度表
大阳线 中阳线 小阳线 极阳线 大阴线 中阴线 小阴线 极阴线
K 线
种类
频度
根据对 K 线的分类,作出 1997~2014 年 K 线种类频度直方图:
453
894
809
383
70
85
842
737
图 3 1997~2014 年 K 线种类的频度直方图
利用给出的数据(见附件[2]),通过 Matlab 计算出两会期间 K 线各种类的频度:
(代码见附录[2])
表 3 两会期间 K 线各种类的频度表
大阳线 中阳线 小阳线 极阳线 大阴线 中阴线 小阴线 极阴线
K 线
种类
频度
根据对 K 线的分类,作出 1997~2014 年两会期间 K 线种类频度直方图:
18
41
32
15
1
3
34
24
5
图 4 1997~2014 年两会期间 K 线种类频度直方图
图示分析:
1.两会召开对股市大盘涨跌情况影响:
由图 3 可以看出 1997-2014 年阴、阳线基本各占一半,阳线为 2226,阴线为
2047,比例为 1.087445(以阴线为单位 1),而图 4 可以看出阳线略高于阴线,阳
线为 92,阴线为 76,比例为 1.210526(以阴线为单位 1),说明股市大盘在两会
期间较平时有稍微上涨的趋势。
2.两会召开对股市大盘 K 线频度直方图走势的影响:
由图 3 和图 4 可以看出,不管是在平时,还是在两会期间,都是阳线以小阳
线、极小阳线为主,阴线都是以小阴线,极小阴线为主,而且两图走势几乎一致,
所以两会的召开对大盘 K 线图走势无太大影响。
3.两会召开对股市涨跌幅度的影响:
由图 3 可以知道,平时的大阳线和大阴线的总和为 155,占所有 K 线的 3.6274%,
由图 4 可以知道,两会期间的大阳线和大阴线的总和为 4,占所有 K 线的 2.381%,
所以,相对平时的股市涨跌幅度,两会的涨跌幅度相对较小,股市涨跌相对较稳
定。
5.2 对于问题二的求解
5.2.1 多元非线性回归
在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。事实上,
一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估
计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。因此多元线
性回归比一元线性回归的实用意义更大,本文也是只要采用此方法对整个问题二
作出合理的解答。
利用 Matlab 建立多元非线性回归模型:
主 要 采 用 函 数 nlinfit ( 非 线 性 回 归 ) 进 行 求 解 , 它 的 原 理 是 采 用
Gauss-Newton 法进行非线性最小二乘数据拟合。
函数的主要表达式:
b = nlinfit(x,y,'model',beta0);
(1) b 表示各个要求的系数、指数和常数项等等;
6