中 国 人 口 预 测 模 型
摘要
本文对人口预测的数学模型进行了研究。首先,建立一次线性回归模型,
灰色序列预测模型和逻辑斯蒂模型。考虑到三种模型均具有各自的局限性,
又用加权法建立了熵权组合模型,并给出了使预测误差最小的三个预测模型
的加权系数,用该模型对人口数量进行预测,得到的结果如下:
单位:(万人)
2008
年份 2006
1377785.7
预测值 134840.9
其中加权系数为:0.24282,0.34055,0.41663。
2007
137027.35
2009
139360.4
2010
140857.4
其次,建立 Leslie 人口模型,充分反映了生育率、死亡率、年龄结构、
男女比例等影响人口增长的因素,并利用以 1 年为分组长度方式和以 5 年为
分组长度方式预测短期和长期人口增长,得如下数据:
年份 2006
人 数
(万)
130990
年份 2016-202
0
人 数
(万) 144000
2007
131230
2008
131430
2009
131620
2010
131800
2011
132000
2012
132220
2021-202
5
2026-20
30
2031-20
35
2036-20
40
2041-20
45
2046-20
50
148000
150000
150000
151000
150000
149000
然后对 Leslie 人口模型进行了改进,构建了反映生育率和死亡率变化率
负指数函数,并给出了反映城乡人口迁移的人口转移向量。
最后我们 BP 神经网络模型检验以上模型的正确性
关键字:一次线性回归 灰色序列预测 逻辑斯蒂模型 Leslie 人口模型
BP 神经网络
一、问题重述
1. 背景
人口增长预测是随着社会经济发展而提出来的。在过去的几千年里,由于人
类社会生产力水平低,生产发展缓慢,人口变动和增长也不明显,生产自给自足
或进行简单的以货易货,因而对未来人口发展变化的研究并不重要,根本不用进
行人口增长预测。而当今社会,经济发展迅速,生产力达到空前水平,这时的生
产不仅为了满足个人需求,还要面向社会的需求,所以必须了解供求关系的未来
趋势。而人口增长预测是对未来进行预测的各环节中的一个重要方面。准确地预
测未来人口的发展趋势,制定合理的人口规划和人口布局方案具有重大的理论意
义和实用意义。
2. 问题
人口增长预测有短期、中期、长期预测之分,而各个国家和地区要根据实际
情况进行短期、中期、长期的人口预测。例如,中国人口预期寿命约为 70 岁左
右,因此,长期人口预测最好预测到 70 年以后,中期 40—50 年,短期可以是 5
年、10 年或 20 年。根据 2007 年初发布的《国家人口发展战略研究报告》(附录
一)及《中国人口年鉴》收集的数据(附录二),再结合中国的国情特点,如老
龄化进程加速,人口性别比升高,乡村人口城镇化等因素,建立合理的关于中国
人口增长的数学模型,并利用此模型对中国人口增长的中短期和长期趋势做出预
测,同时指出此模型的合理性和局限性。
二、问题的基本假设及符号说明
问题假设
1.假设本问题所使用的数据均真实有效,具有统计分析价值。
2.假设本问题所研究的是一个封闭系统,也就是说不考虑我国与其它国家的
人口迁移问题。
3.不考虑战争 瘟疫等突发事件的影响
4.在对人口进行分段处理时,假设同一年龄段的人死亡率相同,同一年龄段
的育龄妇女生育率相同。
5.假设各年龄段的育龄妇女生育率呈正态分布
6.人类的生育观念不发生太大改变,如没有集体不愿生小孩的想法。
7.中国各地各民族的人口政策相同。
符号说明
ia t --------------------第 t 时间区间内第 i 个年龄段人口总数
( )
ic t --------------------第 t 时间区间内第 i 个年龄段人口总数占总人口的比例
( )
k
ic
t --------------------第 t 时间区间内第 i 个年龄段中第 k 年龄值人口总数占总人
( )
口的比例
( )A t --------------------第 t 时间区间内各年龄段人口总数的向量
( )P t --------------------第 t 时间区间各年龄段人口总数向量转移矩阵
ib t -------------------第 t 时间区间内第 i 个年龄段人的生育率
( )
id t -------------------第 t 时间区间内第 i 个年龄段人的死亡率
( )
k
id t -----------------第 t 时间区间内第 i 个年龄段中第 k 年龄值的死亡率
( )
is t -------------------第 t 时间区间内第 i 个年龄段人的存活率
( )
( )h t --------------------- 第 t 时间区间男性人数与女性人数的比值
ie t ---------------------第 t 时间区间内第 i 个年龄段育龄妇女的生育率
( )
m---------------------------每个年龄段上年龄值的数目
三 问题分析
本问题是一个关于人口预测的问题,与以往不同,本问题需要根据中国特殊
的国情去研究,我们根据对问题的分析并结合实际情况认为对人口产生主要影响
的因素有以下四个:生育率、死亡率、年龄结构、男女比例。在这里需要说明的
是对于人口产生影响的一些因素,如经济发展状况,生态环境情况、已婚夫妇对
生育所持的态度、医疗技术的发展等,我们认为它们对人口的增长是通过作用于
以上四个指标而间接发挥作用的。而对于诸如战争爆发、疾病流行等突发因素,
由于其不可预测性,我们不考虑
1.生育率
生育率代表育龄妇女生育人口的能力,从一定意义上讲生育率的高低控制着
人口增长率高低,通常来说生育率越高人口增长率越高,所以说生育率是人口增
长的源头。生育率的影响因素很多,首先是年龄因素,不同年龄段的育龄妇女的
生育率不同,通常 20 岁至 30 岁的育龄妇女的生育率最强;此外是地域因素,受
政策因素、观念认识、周边环境等影响乡村育龄妇女的生育率高于城市育龄妇女
的生育率;还有其它因素的影响,比如大规模疾病会降低育龄妇女的生育率。
2.死亡率
死亡率表示一定时期内一个人口群体中死亡的人数占该人口群体的比值,和
生育率一样死亡率的高低同样控制着人口增长率高低,如果说生育率是人口增长
的源头,则死亡率是人口增长的汇点。同样影响死亡率的因素很多,首先不同年
龄段的死亡率不同,通常老年人和刚出生的婴儿的死亡率较高;从长远来看,随
着医疗水平的提高,整个人口群体的死亡率将会成下降趋势;此外一些突发事件,
如战争、疾病等,将会使使那一段的人口死亡率大幅度提高。
3.年龄结构
年龄结构反映了总体人口在各年龄段分布情况,年龄结构蕴涵的信息量很
大,从其中我们可以实现对很多问题的分析,比如从年龄结构我们可以分析出社
会的老年化程度,此外从年龄结构我们可以判断出不同时间段人口出生的情况,
比如年龄结构不仅反映了总体人口在各年龄段分布情况,而且考虑到不同年龄段
人口生育率、死亡率不同等情况,我们可以在年龄结构中有效反映这些差异
4.男女比例
男女比例反映了总体人口中男性与女性人数的比较关系,男女比例值能反映
出体人口中男性与女性人数是否协调,男女比例主要受男女出生比和男女死亡率
的影 响,男女出生比正常范围在 103-107,也就是说出生 100 个女儿的同时会
有 103 —107 个男儿出生,但是在现实社会中,女性死亡率低于男性,所以男性
与女性人数大致相等,社会维持在一个稳定状态。但目前我国男女出生比超过
110,这不仅将导致男女比例失调,还会对人口的预测产生影响,所以在人口预
测时必须将男女比例问题考虑进去。
考虑到人口预测分为中短期预测和长期预测,两类预测因为涉及的时间长短
不同,所以考虑的因素不同,采用的方法不同。
对于中短期预测,我们假设生育率、死亡率、年龄结构、男女比例均维持在同一
稳定水平,这样我们采用方法有很多,。
对于长期预测,我们需要考虑生育率、死亡率、年龄结构、男女比例等因
素随时间变化,此外城乡人口迁移对城乡人口结构产生影响,尽管以上因素短期
内积累效应较小,但在长期中必须考虑。
在预测方法上我们选用了基于以往人口数据的一次线性回归,灰色、时间序
列预测,逻辑斯蒂模型和基于年龄结构并生育率、死亡率随时间 Leslie 人口模型
中国人口预测模型
中
短
期
长
期
按人口统计量建立模型
按影响增长因素建立模型
一
次
线
型
回
归
逻
辑
斯
蒂
灰
色
预
测
年
龄
结
构
男
女
比
例
死
亡
率
出
生
率
熵权法组合模型
Leslie 人口模型
BP 神经网络模型
四 数学模型
4.1.熵权组合模型
有关于人口增长预测的模型很多,比如灰色 GM(1,1),移动平均数法,
指数平滑法,一元线型回归,马尔萨斯人口模型,宋健人口模型等等,但是每种
预测方法的精度往往也不同。组合模型和单个模型比起来,具有较高的预测精度,
组合预测的关键就在于确定各个预测方法的权重。
本文将从一个新的角度进行研究,即从信息论的观点出发,根据各个体预测
方法误差指标的信息熵,确定组合预测模型的权重,进行人口组合预测模型。
本文选用了一元线性回归法,逻辑斯蒂模型法,灰色 GM(1,1)模型法对
中国人口增长进行预测。而 1978 至 2005 年的数据见本文表一。
.4..1.1 灰色预测模型
1.模型建立
灰色系统是指部分信息已知,部分信息未知的系统。灰色系统的理论实质
是将无规律的原始数据进行累加生成数列,再重新建模。由于生成的模型得到的
数据通过累加生成的逆运算――累减生成得到还原模型,再有还原模型作为预测
模型。
预测模型,是拟合参数模型,通过原始数据累加生成,得到规律性较强的
序列,用函数曲线去拟合得到预测值。
灰色预测模型建立过程如下:
1) 设原始数据序列 0X 有 n 个观察值,
0
X
0
,1
X
0
2
,...,
n
0
X
,通过
X
n
1
累加生成新序列
1
X
X
1
,1
X
1
2
,...,
X
,利用新生成的序列 1X 去拟
和函数曲线。
2) 利用拟合出来的函数,求出新生序列 1X 的预测值序列 (1)X
X
3) 利用 (0)
X
0
X
( )
k
X
( )
k
X
(1)
(1)
(
k
1)
累减还原:得到灰色预测值序列:
1 ,
X
0
2 ,...,
0
X n m
0
(共 n+m 个,m 个为未来的预测值)。
将序列 0X 分为 0Y 和 0Z ,其中 0Y 反映 0X 的确定性增长趋势, 0Z 反映 0X 的平
稳周期变化趋势。
利用灰色 GM(1,1)模型对 0X 序列的确定增长趋势进行预测
2 模型求解
根据 2006 全国统计年鉴数据整理得到全国历年年度人口统计表如表 1.
表 1:全国历年年底的人口统计
年份 1978 年 1980 年 1985 年 1989 年 1990 年 1991 年 1992 年
117171
总人口
/万人
105851
112704
114333
115823
96259
98705
年份
总人口
/万人
年份
总人口
/万人
1993 年 1994 年 1995 年 1996 年 1997 年 1998 年 1999 年
125743
11857
122389
123626
124761
121121
119850
2000 年 2001 年 2002 年 2003 年
129227
126743
127627
128453
2004
129988
2005 年
130756
根据上述数据,建立含有 20 个观察值原始数据序列 0X :
0
X
96259 98705 105851 112704
127627 128453 129988 130756
利用 Matlab 软件对原是数列 0X 进行一次累加,得到新数列为 1X ,如表 2:
X
1 2
1X
拟核值 108504
误 差 -9799.1
误差/﹪ -9.93
表 2:新数列 1X 误差和误差率
X
1 3
109773
-3921.8
-3.70
X
1 4
111056
1647.8
1.46
X
1 5
112354
1978.3
1.73
X
1 6
113668
2154.6
1.86
X
1 7
114997
2173.6
1.86
X
1 9
1X
拟核值 117702
误 差 2147.7
误差/﹪ 1.79
1 16
1X
拟核值 126204
-53.3
误 差
误差/﹪ -0.04
X
X
1 10
119079
2042.5
1.69
1 17
127680
-720.1
-0.56
X
X
1 11
120471
1918.2
1.57
1 18
129173
-1456.4
-1.13
X
X
1 12
121879
1746.6
1.41
1 19
130683
-2223.4
-1.71
X
1、利用表 2,拟合函数,如下:
t
1) 9280043
e
0.011624
(
x t
9183784
X
1 13
121879
1456.6
1.17
1 20
132211
-3001.3
-2.30
X
X
1 14
123304
1039.9
0.83
1 21
X
133757
-3010.4
-2.42
X
1 8
116343
2175.0
1.84
X
1 15
124746
538.3
0.42
2、精度检验值
c=0.3067 (很好)
P=0.9474
(好)
3、得到未来 20 年的预测值:
表 3:全国历年年底的人口统计未来 20 年预测值
年份 2006 年 2007 年 2007 年 2008 年 2009 年 2010 年 2011 年
135321.2 136903.4 138504.1 140123.5 141761.9 143419.4 145096.2
总人口
/万人
2012 年 2013 年 2014 年 2015 年 2016 年 2017 年 2018 年
146792.7 150245.5 152002.2 153779.4 155577.4 157369.5 159236.8
2019 年 2020 年 2021 年 2022 年
161098.7 162982.2 164887.8 166815.7 168766.2
2023
年份
总人口
/万人
年份
总人口
/万人
4.1.2 一元线性回归法
根据表一中的数据,本文建立一元线性回归模型Y
进行预测;
a bX
Y 为人口数 单位:万人
归拟合,得到拟核值及回归方程,如下:
X 为年份。利用 Matlab 软件,用麦夸特法进行回
表八
一元线性回归模型拟合值
109264 110836.4 112408.8 113981.2
拟合值 115553.5 117125.9 118698.3 120270.7 121843.1 123415.5 124987.8
104546.9 106119.3 107691.6
126560.2 128132.6
129705 131277.4 132849.7 134422.1
由此,建立如下的一元线性回归方程
Y
相关系数:R=0.9359
102974.5053 1572.3805
X
4.1.3 逻辑斯蒂模型(Logistic growth model)
考虑自然资源和环境对人口的影响,并以 mN 记自然资源和环境条件所能允
许的最大人口数。把人口增长的速率除以当时的人口数称为人口的净增长率。如
果人口的净增长率随着 )(tN 的增加而减小,且当
时,净增长率趋于
tN )(
mN
零。因此人口方程可写成
)(
t
dN
dt
r
1(
))(
tN
N
m
)(
tN
其中 r 为常数,此模型就叫逻辑斯蒂模型。
我们把 1978 年至 2005 年全国历年年底总人口的数值组成一个观察矩阵,其
中的每一个数值称之为观察值。本文利用 spss 软件,得出与观察值一一映射的
拟核值,残差值和 cook 距离,见下表:
表九 用 spss 软件得到各观察值所对应的拟核值,残差值和标准残差
拟合值 97077.7
残差 -818.74
-0.7505
标准残
差
拟合值 119206.2
残差 -689.28
标准残
-0.4707
差
101458.9
-2753.91
-2.0548
105412.6
438.35
0.3051
108940.84
3763.15
2.5699
112057.91
2275.08
1.5537
114787.4
1035.51
0.7098
117159.2
11.73
0.0080
120962.7
122462.4
123737.3
124817.2
125729.2
126497.3
-1112.76
-1341.41
-1348.34
-1191.28
-968.25
-0.7540
-0.9009
-0.8985
-0.7899
-0.6410
-711.37
-0.4720
拟合值 127142.9
残差 -399.93
标准残
-0.2670
差
127684.4
128138.0
128517.4
128834.5
129099.2
-57.47
-0.0387
314.93
0.2147
709.50
0.4906
1153.45
0.8101
1656.76
0.941
从新数据得到 F=372.3471
y
本文建立逻辑斯蒂模型:
p-值=0.001
0.884 0.185
e
130517.5 / (1
相关系数 R=0.9888
)x
4.1.4. 组合模型建立
1、熵权法的概念及基本步骤
熵权法是一种决定指标的方法,我们知道,综合指标取决于单个指标数的确
定,一般情况下的权重是根据经验来确定的,但是这种确定权重的方法缺少科学
根据,也不能保证确立的综合指标能反映原始指标的大部分信息,且权重的确立
因人而异,所以其应用受到了限制,而熵权法就能够避免这些问题,使权重的确
立具有科学的根据,具有说服力。熵权法的步骤确立如下:
1 计算第 j项指标下第 i个方案的指标比重
p
ij
y
ij
m
y
ij
i
1
2 计算指标 j的熵值
e
j
m
k
i
1
p
ij
ln
p
ij
(
k
1
ln
m
)
3 计算第 j项指标的差异系数
g
j
1
e
j
4 定义权重
w
ij
g
m
i
1
j
g
j
则 ijw 就为熵权法确定的权重。
2、误差指标的选举
为了能全面的各个预测方法以及组合预测的预测效果,必须制定一套切实可
行的误差指标。按照预测效果的评价惯例,本文选取如下指标作为参考:
(1)、平方和误差
(2)、平均绝对值误差
SSE
MAE
n
y
(
i
t
1
2
y
i
)
1 n
n
1
t
y
i
y
i