5
10
15
20
25
30
35
40
中国科技论文在线
http://www.paper.edu.cn
基于主成分分析与 BP 神经网络的雾天能见
度等级预报#
黄政,包云轩**
(南京信息工程大学应用气象学院,南京 210044)
摘要:本文利用江苏省昆山市 2012-2014 年逐时常规气象观测数据、空气质量监测数据和能
见度数据,分析了雾天能见度与各要素的相关性,并通过主成分分析提取影响主成分,建立
了基于主成分的三层 BP 神经网络模型。结果表明,雾天能见度不仅与气象要素呈现较好的
相关性,空气污染物(如 NO2、O3、PM10)对雾天能见度也有较大影响;主成分神经网络
模型能够较准确地预测雾天能见度等级(大雾、浓雾、(特)强浓雾),对提高雾天能见度精
细化预报效果具有良好的参考价值。
关键词:应用气象;雾;能见度等级;主成分分析;神经网络
中图分类号:P468.0+28
Forecasting Model for Visibility Levels in Foggy Weathers
Based on Principal Components Analysis and BP Neural
Network
HUANG Zheng, BAO Yunxuan
Nanjing 210044)
(Applied Meteorology School, Nanjing University of Information Science and Technology,
Abstract: Based on the hourly weather data, the environmental atmosphere quality monitoring data
and visibility data from 2012 to 2014 in the Kunshan city of Jiangsu Province, the correlation
coefficient between visibility and different variables was analyzed and a three-layer BP neural network
model was constructed based on the principal components. The results show that visibility in the foggy
weathers not only has a good correlation to meteorological factors but also is influenced by air
pollutants such as NO2, O3 and PM10; the model can accurately predict the visibility levels(heavy fog,
dense fog, extremely dense fog), and has a good reference value to improve the ability of fine fog
forecast.
Key words: Applied Meteorology; Fog; Visibility level; Principal component analysis; Neural
Network
0 引言
雾常常因其带来的低能见度天气导致交通安全事故的频繁发生,据估计,由雾造成的经
济损失和人身伤亡与雷暴、台风等剧烈天气过程相当[1]。因此,提高雾的预报能力尤其是雾
天低能见度的预报能力对国民经济发展和人民生活有重要意义。目前,对雾天的预报多以预
报员主观判断为主,少数依赖于数值预报产品释用和各种回归建模,这些方法对逐日雾的预
报已初显成效[2-4]。但是,由于雾的生消过程受复杂边界层条件、不同下垫面类型等综合作
用,数值方法尚不能全面地表达其物理演变过程,传统的统计方法也不能建立良好的非线性
映射关系,导致以上方法对雾天能见度的等级预报还不够准确,这正是交通气象精细化预报
的研究重点之一。因此,本文以江苏省昆山市为例,对该市雾天能见度与气象要素、空气污
基金项目:国家公益性行业(气象)科研专项(GYHY201306043,GYHY201406029)
作者简介:黄政(1989-),男,硕士,主要研究方向:交通气象、气象灾害监测预警与评估研究
通信联系人:包云轩(1963-),男,教授,主要研究方向:交通气象、大气环境、气象与农业防灾减灾、
遥感与资源环境研究. E-mail: baoyx@163.com
- 1 -
中国科技论文在线
http://www.paper.edu.cn
染物等进行了相关分析,并建立了基于主成分分析的神经网络预测模型,对昆山市的雾天能
见度等级模拟结果进行了检验,以期为交通气象的雾天精细化预报提供新方法和新思路。
1 资料与方法
45
1.1 数据资料
50
本文采用的气象资料为昆山能见度自动观测站提供的 2012-2014 年逐时观测资料,包括
1.5m 气温、1.5m 相对湿度、1.5m 露点温度、2min 平均风速、10min 平均风速、地表温度、
24h 降水量及能见度等要素;环境监测站提供的同期逐时空气污染物资料,包括 SO2、NO2、
CO、O3、PM2.5、PM10 数据。
本文首先筛选出三年中能见度小于 1000m 的数据,再根据相对湿度、降水量等资料,
对降水、烟雾、灰霾等非雾引起的低能见度资料进行了剔除[3],共选出 342 个时次的低能见
度过程作为研究对象。根据《高速公路能见度监测及浓雾的预警预报》[5]中对雾天能见度等
级的划分,统计得到出现 500-1000m 的大雾等级共计 301 个时次,200-500m 的浓雾等级共
计 34 个时次,小于 200m 的强(或特强)浓雾等级共计 7 个时次。
55
1.2 主成分分析原理
主成分分析是一种将多指标转化为少数几个不相关的综合指标的特征提取方法[6]。它采
用的主要原则是在不改变样本数据结构的情况下,使方差最大,尽可能多地保存原变量的信
息,同时用尽可能少的主成分代替原有变量,从而达到降维效果。主成分分析的主要计算过
程包括:数据标准化、计算标准化数据的协方差矩阵、根据特征根和累计贡献率确定主成分
并计算相应的主成分系数、计算所选主成分的得分等。
60
1.3 BP 神经网络原理
BP(Back Propagation)神经网络属于前馈神经网络,是一种反向传递并不断修正误差的多
层映射网络,通常采用输入层、隐含层及输出层三层结构,层与层之间的神经元通过网络权
重系数相连接,而各层之内神经元之间没有联系[7]。它主要通过采用优化算法中的梯度下降
法,应用误差反传原理不断调整网络权重,使网络输出结果与期望值之间的误差平方和达到
最小。通过对网络参数(传递函数、学习率、神经元个数等)的设置,可提高网络的收敛速
度及训练效果,从而达到对实际问题模拟的效果。
2 结果与分析
由于雾的发生发展对温度、水汽含量的变化非常敏感[8],因此本文利用现有的基本气象
要素计算了 1.5m 高度温度露点差、逐小时变温以代表近地层温度和湿度的变化情况,计算
地温气温差代表下垫面的辐射降温作用,计算逐小时变压代表当地的大气背景状况。同时,
还引入了前一时刻能见度、雾发生月份两个量作为输入要素。
2.1 能见度预测影响因素相关分析
理论上,进行能见度的逐时预报,所有的输入参数应该使用预测前一时刻的数据。但是
由于气象要素的微小变化对雾的发生发展影响很大,因此,本文假设未来可以获得准确的气
象要素预报(实际业务中可以用模式预报场资料代替),用该时刻的气象要素实际监测值来
代替预报值,此方法称为完全预报模式[9]。
65
70
75
- 2 -
80
85
90
中国科技论文在线
http://www.paper.edu.cn
根据筛选出的 324 个时次的低能见度数据,把各时刻能见度作为因变量,前一时刻空气
污染物和能见度、该时刻气象要素及其衍生量、雾发生月份作为自变量,计算了因变量与各
自变量的相关性(表 1)。从表 1 可以看出,能见度与气温、露点温度、地表温度等随季节
变化差异较大的要素相关性并不明显,而与前一时刻能见度、温度露点差、小时变压、2min
平均风速、10min 平均风速、24h 降雨量、O3 呈现较好的正相关性,与相对湿度、NO2、PM10
呈较好的负相关性,表明在雾天条件下,能见度的变化与季节性的气象要素相关性较小,与
温度、水汽含量的变化密切相关,侧面反映出雾天能见度的变化对热力条件和水汽条件变化
的敏感性很高,而且较小的风速和较大的相对湿度是能见度维持在较低状态的必要条件。此
外,如 NO2、O3、PM10 等空气污染物对能见度的作用也不容忽视。其中,O3 与 NO2、CO
等气体对能见度的作用相反,主要是由于 NO2、CO 是 O3 的前体物,它们在大气中与其他
物质发生化学反应而产生 O3。
表 1 能见度与各要素的相关性
Table 1 Correlation coefficient between visibility and different variables
前一时刻
能见度
0.445*
小时变温
0.048
月份
相对湿度 气温
0.007
2min 平
均风速
0.204*
-0.225*
10min 平
均风速
0.195*
0.082
24h 降
雨量
0.150*
露点温
地表温
度
0.064
度
0.093
温度露
点差
0.236*
地温气
温差
0.080
气压
-0.030
小时变
压
0.202*
SO2
NO2
CO
O3
PM2.5
PM10
-0.005
-0.151*
-0.067
0.187*
-0.105
-0.126*
注: *:通过 p<0.05 检验。
2.2 主成分提取
研究表明[10],主成分神经网络用主成分得分值代替众多的影响因子,不仅能够简化网
络的拓扑结构,还能通过改善过学习问题而取得比传统 BP 神经网络更高的预测精度。本文
把相关分析通过 p<0.05 的要素经过标准化处理后,进行主成分提取,得到了主成分特征根
及累计贡献率(表 2)。一般而言,主成分的选择方法是因子的特征根大于 1.0[11],且在实
际处理过程中,累计贡献率需达到 75%以上[12],因此本文选取了前 4 个主成分,并计算了
各影响因子在各主成分上对应的主成分系数(表 3)。
表 2、表 3 的结果表明,第一主成分主要由相对湿度和温度露点差决定,表征热力作用
和水汽条件对能见度的影响,解释了 26.8%的因变量变化;第二主成分主要由 2min 平均风
速和 10min 平均风速决定,表征雾天低能见度的动力条件,解释了 23.2%的因变量变化;第
三主成分主要由 NO2、O3 决定,表征气体污染物对能见度的影响程度,解释了 15.4%的因
变量变化;第四主成分主要由前一时刻能见度决定,解释了 10.1%的因变量变化。根据此主
成分系数矩阵,可以计算出所有样本的主成分得分,得到变量数为 4、样本量为 324 的矩阵
(4×324),代替原先 10×324 的样本作为神经网络模型的输入量。
95
100
105
表 2 特征根及累计贡献率
主成分
特征根
累计贡献率
PC1
2.678
26.8%
PC2
2.318
50.0%
PC3
1.544
65.4%
PC4
1.014
75.5%
Table 2 Latent root and accumulative contribution rate
PC7
0.482
PC5
0.909
84.6%
PC8
PC6
0.760
0.250
92.2% 97.1% 99.6%
PC9
0.035
99.9%
PC10
0.010
100%
注: PC 表示主成分(Principal Component),下同。
110
- 3 -
中国科技论文在线
http://www.paper.edu.cn
表 3 主成分系数矩阵
主成分
PC1
PC2
PC3
PC4
前一时刻
能见度
0.096
0.220
0.247
0.766
相对
湿度
0.520
-0.231
-0.218
-0.114
小时变压
2min
Table 3 The matrix of principal component coefficients
温度露
点差
-0.511
0.238
0.232
0.118
10min
平均风速
0.065
0.599
-0.142
-0.138
平均风速
0.073
0.600
-0.155
-0.116
0.076
0.244
-0.173
-0.299
24h
降雨量
0.241
0.212
-0.234
0.157
NO2
PM10
O3
-0.369
-0.082
-0.517
0.161
-0.495
-0.064
-0.127
-0.269
0.068
0.091
0.653
-0.375
115
120
125
130
135
140
145
2.3 神经网络建模与预测
根据主成分分析结果,确定网络模型输入层的神经元为 4 个。由于 BP 模型以 S 型函数
作为传递函数,为了避免训练过程中极值导致学习速度缓慢的现象,本文将输入数据规范到
[0.2,0.8]之间[13]。在实际预报中,一般是对能见度等级进行预报,本文把大雾等级用[0 0 1]
表示,浓雾等级用[0 1 0]表示,(特)强浓雾等级用[1 0 0]表示,因此,确定网络模型输出
层的神经元为 3 个。隐含层神经元个数的确定参照经验公式[14]设置初始神经元个数范围为
4-13:
=m
anl
+
+
式中,l、 m、n分别为输入层、隐含层、输出层神经元个数,a为 1-10 之间的常数。经
过反复试算验证,得到隐含层神经元个数为 12 时,效果最佳。因此,确定网络的拓扑结构
为 4-12-3。
由于 BP 神经网络算法不考虑样本资料的时间序列,因此,本文以 3:1:1 的比例将 324
个样本随机分配为训练集(208 个),验证集(67 个),预测集(67 个)三部分,其中训
练集用于模型训练,验证集用于检验模型每一步的训练效果,防止过学习现象的发生,预测
集用于检验模型的预测效果。传递函数在隐含层选用 Log-Sigmoid 函数,输出层选用 purelin
函数,训练函数采用 Levenberg-Marquard(LM)算法,主要网络模型参数设定为:性能函数采
用 MSE,允许误差为 0.01,最大迭代次数为 500,最大失败次数为 10。以此建立的网络模
型经过 41 次训练后,最大失败次数达到 10,训练停止。
表 4、表 5 分别是神经网络训练集和预测集的预报结果。从表 4 中可以看出,神经网络
模型具有较强的识别能力,对(特)强浓雾、浓雾、大雾的预报准确率分别是 33.3%、44.7%
和 99.4%,尤其对于出现频率较为频繁的大雾等级能够很好的拟合训练目标值,这主要与参
与神经网络模型的训练样本量有关,大雾等级的样本量相对于浓雾、(特)强浓雾等级更多,
因而在训练过程中强化了模型对大雾等级的识别能力,但不足之处是它会干扰对浓雾、(特)
强浓雾的识别效果,因而增加了浓雾、(特)强浓雾的漏报率。表 5 结果显示,通过训练后
的模型对训练样本以外的数据,其辨识能力仍然可靠,对(特)强浓雾、浓雾、大雾的预报
准确率分别是 50%、44.4%和 97.8%,模拟效果较为稳定。这主要是因为引入的验证集在每
一步训练过程中都会评估模型的训练效果,在训练不能进一步降低误差平方和时,即会终止
训练,从而避免了神经网络模型的过训练或过拟合问题,保证了不同数据集带入模型计算时
输出结果的稳定性。所以此模型对昆山市雾天的能见度等级预报具有一定的参考作用,如果
能够增加浓雾、(特)强浓雾等级的训练样本,进而降低浓雾、(特)强浓雾的漏报率,雾
的分级预报能力可能会进一步提高。
- 4 -
中国科技论文在线
http://www.paper.edu.cn
表 4 训练集的预报结果
Table 4 Forecasting results of training set
能见度等级 报准时次 漏报时次 空报时次 报准率
33.3%
(特)强浓雾
44.7%
99.4%
2
17
163
浓雾
大雾
4
21
1
1
2
23
表 5 预测集的预报结果
Table 5 Forecasting results of prediction set
能见度等级 报准时次 漏报时次 空报时次 报准率
50%
(特)强浓雾
44.4%
97.8%
浓雾
大雾
2
10
1
2
8
44
0
1
12
漏报率
66.7%
55.3%
0.6%
空报率
33.3%
10.5%
12.4%
漏报率
50%
55.6%
2.2%
空报率
0%
11.1%
21.4%
150
3 结论
(1)雾天能见度的变化除了与相对湿度、温度露点差、风速等气象要素有关,如 NO2、
O3、PM10 等空气污染物对能见度也有影响,在研究雾天能见度时需要加以考虑。
(2)主成分神经网络的预报结果表明,它对雾天能见度等级预报具有较好的预测效果,
并且所选的主成分因子也具有明确的动力学、热力学意义。
155
(3)本文仅利用单个站点的气象观测资料和环境检测资料建立了神经网络的训练和预测
数据集,通过主成分神经网络模型能够较准确地预测雾天能见度等级(大雾、浓雾、(特)强
浓雾),方法可行,效果较好,可进一步广泛地应用于高时空密度的观测站网,对建立适用
于一定区域范围内的精细化雾天能见度等级预测业务系统具有良好的参考价值。
160
[参考文献] (References)
[1] Gultepe I, Tardif R, Michaelides S C, et al. Fog research: A review of past achievements and future
perspectives[J]. Pure appl Geophys, 2007, 164: 1121-1159.
[2] 石春娥,吴照宪,邓学良,等. MM5 与 MM5-PAFOG 模式区域雾预报效果评估比较[J]. 高原气象,2013,
32(5):1349-1359.
[3] 周须文,时青格,贾俊妹,等. 低能见度雾的分级预报方法研究[J]. 热带气象学报,2014,30(1):
161-166.
[4] 倪江波,李文才,尚可政,等. 华北区域性低能见度天气的自动识别及预报[J]. 干旱气象,2015,33(1):
174-179.
[5] 江苏省气象科学研究所,QX/T 76-2007. 高速公路能见度监测及浓雾的预警预报[S]. 北京:中国标准出
版社,2007.
[6] 吴诚鸥,秦伟良. 近代实用多元统计分析[M]. 北京:气象出版社,2007.
[7] 刘冰,郭海霞. MATLAB 神经网络超级学习手册[M]. 北京:人民邮电出版社,2014.
[8] Steeneveld G J, Ronda R J, HoltslagA A M. The challenge of forecasting the onset and development of
radiation fog using mesoscale atmospheric models[J]. Boundary layer Meteorology, 2015, 154: 265-289.
[9] 彭士涛,胡焱弟,周然,等. 人工神经网络在城市能见度短期预报中的应用[A]. 彭士涛. 中国颗粒学会
第六届学术年会暨海峡两岸颗粒技术研讨会[C]. 上海:中国颗粒学会,2008. 606-609.
[10] 曹伟,魏光辉,邓丽娟. 基于主成分分析与 BP 神经网络的参考作物腾发量预测[J]. 节水灌溉,2009,
9:38-45.
[11] 安俊琳,王跃思,朱彬. 主成分和回归分析方法在大气臭氧预报的应用-以北京夏季为例[J]. 环境科学
学报,2010,30(6):1286-1294.
[12] Sandhya S. 神经网络在应用科学和工程中的应用-从基本原理到复杂的模式识别[M]. 史晓霞. 北京:机
械工业出版社,2009.
[13] 马学款,蔡芗宁,杨贵明,等. 重庆市区雾的天气特征分析及预报方法研究[J]. 气候与环境研究,2007,
12(6):795-803.
[14] Mirchandani G, Cao W. On hidden nodes for nueral nets[J]. Circuits and Systems, 1989, 36(5): 661-664.
165
170
175
180
185
- 5 -