5
10
15
20
25
30
35
40
中国科技论文在线
http://www.paper.edu.cn
基于深度学习的空气质量预测方法研究
郭豪,孙岩**
(北京邮电大学计算机学院,北京市 100876)
摘要:随着深度学习的进一步发展,该项技术也日益改善着人类的生活方式。在空气质量预
测方面,可观测的数据量呈现几何倍数的大幅增长,传统的时间预测方法已不堪众任,在本
文中,根据空气质量数据与气象数据来预测每个监测站未来 48 小时的空气质量,利用了深
度学习的方法对空气质量预测问题进行研究与实现,考虑到空气污染物的空间相关性,将空
间稀疏空气质量数据转换为一致输入,以模拟污染源,以此基于 LSTM 网络与 GRU 网络提
出了空域数据与时域数据相结合的预测方法,消弱了地域因素对空气质量预测带来的误差,
提升了预测的准确精度。
关键词:深度学习;空间相关性;时域数据
中图分类号:TP181
Research on Air Quality Prediction Method Based on Deep
Learning
GUO Hao, SUN Yan
(Computer Science School, Beijing University of Posts and Telecommunications, Beijing 100876)
Abstract: With the further development of deep learning, this technology is also improving the human
lifestyle. In terms of air quality prediction, the amount of observable data shows a large increase in
geometric multiples. The traditional time prediction method is unsuccessful. In this paper, based on air
quality data, meteorological data predicts the air quality of each monitoring station for the next 48
hours. Using the deep learning method to study and realize the air quality prediction problem,
considering the spatial correlation of air pollutants, the spatial sparse air quality data is converted into a
consistent input to simulate the pollution source, based on the LSTM network and the GRU network. A
prediction method combining spatial data with time domain data is proposed, which reduces the error
caused by regional factors on air quality prediction and improves the accuracy of prediction.
Keywords: Deep learning; Spatial correlation; Time domain data
0 引言
伴随着城市化的快速发展,许多发展中国家更加重视社会工业化和城市化建设过程,忽
略环境问题,导致雾霾污染问题频发,严重影响了人们的日常生活和生产过程。许多的发展
中国家正遭受严重的空气污染问题。空气污染由颗粒物质(PM2.5 和 PM10)和气态物质
(NO2,CO,O3 和 SO2)的混合物组成[1],这些物质对人类健康具有急性和慢性影响[2]。
所以,精确地监测和预测 PM2.5 和其他颗粒及污染物变得非常重要。衡量雾霾污染程度的
首要因子是 PM2.5 和 PM10 浓度以及 O3 浓度,浓度越高,雾霾污染越严重。
根据统计结果,2015 年北京记录了 46 天的重污染,占全年的 12.6%[3]。为了监测实时
空气污染,中国政府近年建立了许多空气质量监测站并公布空气质量数据。除了监测之外,
对预测未来空气质量的需求也在不断增加,这可以为政府的政策制定提供信息(例如在空气
污染严重时进行交通管制)和人们的决策(比如是否在户外锻炼)。如果可以准确预测污染
事件,市民和政府可以随之做出适当的决策,例如关闭学校或减少室外运动,从而减少污染
作者简介:郭豪(1994-),男,硕士研究生,主要研究方向:深度学习,机器学习
通信联系人:孙岩(1970-),女,教授,博士生导师,主要研究方向:物联网技术,大数据分析与管理,
区块链. E-mail: sunyan@bupt.edu.cn
- 1 -
45
50
55
60
65
70
中国科技论文在线
http://www.paper.edu.cn
带来的损害。因此,预测未来空气质量的需求对政府的决策和人们的决策变得越来越重要。
从进入 21 实际以来,自动监测站点数量急剧增加,可获取的数据也呈几何倍数増涨,
为我们提供了体量巨大,同时多种多样的气象数据。传统的监测站点只能监测到当前站点的
AQI 数据(PM2.5,PM10,NO2,CO,O3 和 SO2)以及气象数据(天气情况,风速,风向,湿
度,压力等),如图一所示。但是由于污染物分散在地理空间中,地理位置的空气质量不仅
取决于其当前地区的空气质量,还取决于其邻居的空气质量。
所以基于以上描述,本文致力于利用深度学习相关技术,并基于 TensorFlow 的架构[4],
根据北京地区的空气质量监测站和气象数据监测站得到的空气质量数据,气象数据等数据来
预测每个空气质量监测站未来 48 小时的 PM2.5 和 PM10 浓度。本文的主要内容包括:1)
基于传统时序数据的深度学习网络模型。2)空域数据与时序数据相结合的模型。
图 1 AQI 与气象数据
Fig. 1 AQI and meteorological data
1 深度学习网络模型
1.1 RNN 循环体网络
目前在深度学习模型当中,运用最广泛也较为简单的网络是前馈神经网络。该网络会将
神经网络进行分层,每一层作为一个单元组。在此基础上,通过神经网络的一次又一次的训
练和模拟,寻找到输入与输出之间的关系,生成训练模型,然后用于实际预测当中。当然,
在设计网络的时候,激活函数的选取对于输入的影响也十分密切,激活函数能够将线性的输
入去线性化,并且决定了网络的收敛速度和效率。常见的激活函数[4]则有: Sigmoid 函数、
Logistic 函数、Softmax 函数、tanH 函数、Arctan 函数、RELU 函数。除此之外,损失函数
的选择,Dropout[5]丢弃率和学习率的设置,正则化[6]的选择,都是神经网络构建中的重要部
分。神经网络中参数的取值和优化,一般都可以运用反向传播算法和梯度下降算法[6]进行调
整。
本文研究的是空气质量,输入当中有很大一部分都是经典的时序数据,因此循环神经网
络(RNN)[6]可以很精确的运用到本模型当中。而在循环神经网络模型中,相对于普通的多
层神经网络,隐藏层各个节点之间增加了互联关系,通过隐藏层神经单元之间的连接形成定
向循环,创建网络的内部状态,并呈现出动态时间序列行为。RNN 凭借其特殊的结构优势,
对空气质量等时序数据之间的相互关系表现出极强的建模能力,如图二所示。
- 2 -
中国科技论文在线
http://www.paper.edu.cn
图 2 RNN 循环体及其展开
Fig. 2 RNN loop body and its expansion
75
1.2 LSTM 循环体与 GRU 循环体
80
在实际应用中,RNN 可以通过处理时间数据序列来一步一步地对 RNN 进行序列生成的
训练,并预测未来的序列。但是当需要预测当前位置和相关信息之间的时间间隔比较大时,
RNN 的学习能力就会变的薄弱,网络的性能也会收到限制。因此,我们在 RNN 的基础上,
运用了 LSTM[7],如图三与图四所示,该方法更加优秀的解决了时序数据长时依赖性的问题。
LSTM 是一种特殊的循环体结构,与单一的 tanH 循环体结构不同,LSTM 是一种拥有三个
门结构的特殊网络结构,即输入门,遗忘门,输出门。其中遗忘门和输入门至关重要,遗忘
门会根据当前空气质量和上一时刻的空气质量决定哪一部分需要被遗忘,从而只获取系统模
型认为有用的那一部分信息。在神经网络遗弃部分信息后,它还会从当前的输入门补充最新
的记忆。
85
图 3 LSTM 循环体
Fig. 3 LSTM loop body
- 3 -
中国科技论文在线
http://www.paper.edu.cn
90
95
100
105
图 4 LSTM 单元细节
Fig. 4 LSTM unit details
除此之外,LSTM 还有一种优秀的变体,即 GRU[7],如图五所示,它只有两个门,分别
为更新门 zt 和重置门 rt,更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,
更新门的值越大说明前一时刻的状态信息带入越多。重置门用于控制忽略前一时刻的状态信
息的程度,重置门的值越小说明忽略得越多。GRU 保持了 LSTM 的所有效果同时又使得模
型变得更加简单。
图 5 GRU 循环体细节
Fig. 5 GRU loop body details
2 空间转换方法
考虑到空气污染物的分散,本文设计了一个空间转换方法[8],将空间稀疏的空气质量数
据转换为统一的一致输入。利用来自邻域的空气污染物的输入信号,可以使得预测系统在一
般情况和突然变化时获得更好的性能[9]。该网络采用新颖的模型结构,同时模拟这些因素之
间的相互作用,以学习个体和整体影响。
2.1 空间划分
空气质量监测站(标记为圆心点)随机散布在地理空间中,首先,我们以目标监测站(用
黑点表示)作为公共中心,通过四行和两个圆圈将地理空间划分为 16 个区域,例如半径 5
公里和 20 公里,如图一所示。内圈区域的区域较小,而外圈区域较大。此外,具有不同角
- 4 -
中国科技论文在线
http://www.paper.edu.cn
度的区域适合八个风向,而风向可以通过气象数据进一步捕获。此外,区域内监测站记录的
空气质量读数可以通过颜色来表示,白色表示当前区域没有监测站,无法获得空气质量。因
此,我们就可以得到大致的空气质量分布情况。一个小块区域内可能会有多个监测站,因此
我们需要为该区域内的每个监测站的记录数据分配权重进行回归操作。然而,从北京的分区
结果来看,我们发现不同的目标站有不同的缺失模式[10],大约 33%的区域没有监测站。因
此,我们需要填写这些区域中的缺失值,利用周边区域的监测站进行估计数据,然后,使用
经典的空间插值方法,反距离加权(IDW)[10],来作为该监测站记录数据的权重,最后得
到该区域的平均监测数据。最后,我们在一个时间戳中得到 17 个数据集,其中 1 个来自目
标站,16 个来自邻近区域。我们随着时间的推移对每个监测站进行相同的处理。
图 6 空域转换
Fig. 6 Airspace conversion
我们考虑以下三个方面来设计空间变换组件。 1)空气污染扩散。因为空气污染物分散
在不同地点,我们通过利用来自空间邻域的信号,进一步的预测更多信息。 2)空间相关性
[11]。空间划分将分散的空气质量数据合并到区域中,较近的区域具有更细的粒度,而更远
的区域具有更粗的粒度。此外,不同距离的区域因距离而变化显示出不同的影响,这遵循地
理第一定律,即“任何事物都是与其他事物相关的,只不过相近的事物关联更紧密”。3)可
扩展性[12]。它确定了输入的上限(区域数)。此外,空间插值通过填充缺失值并为所有监
控站生成一致的输入来克服空间稀疏性,这使我们能够使用不同站点的数据一起训练模型,
一定程度上增加了模型的精确度。
2.2 基本算法
首先我们选取一个空气监测站做为圆心,然后通过四行和两个圆圈将地理空间划分为
16 个区域,半径分别为 5 公里和 20 公里。因此,目标监测站周围的监测站都会随机的落入
这 16 个区域当中,如果一个区域当中有一个或多个监测站,则根据这几个监测站距离目标
监测站的距离,用加权平均法进行聚合,得到该区域的平均监测数据。如果该区域没有监测
站,我们将在这些地区中心生成一个假监测站,然后,使用经典的空间插值方法,反距离加
权 IDW(Inverse Distance Weighted)来插值假监测站的数据。
这样我们最终在一个时间戳当中就得到了 17 个数据集,一个来自目标监测站,16 个来
自邻近区域。其中,我们将来自目标检测站的数据定义为主要特征,来自邻近区域的数据定
义为辅助特征。其算法如图七所示。
110
115
120
125
130
135
140
- 5 -
中国科技论文在线
http://www.paper.edu.cn
图 7 空域转换算法
Fig. 7 Spatial domain conversion algorithm
145
150
155
2.3 空域数据与时域数据相结合
首先,我们根据监测站点的历史 AQI 数据,构建了一个基本的预测模型。该模型的建
立只依据了所有监测站点的历史 AQI 数据,没有气象数据,并且该模型的输入也只有 AQI
数据,这是第一个基本的模型,我们称之为 AQI 模型。在此之上,我们又额外加入了监测
站点的历史气象数据,如风速,风向,湿度,气压,温度,天气,在这两种数据的基础之上,
建立了一个新的模型,该模型的输入为 AQI 加上气象数据,我们称之为 AQI+MEO 模型。
然后,由于空气污染物分散在地理空间,考虑到空气污染物的空间相关性,空间转换模
块使用了空间分区,空间聚合和空间插值三个步骤将空间稀疏的空气质量数据和天气气象等
数据转换为一致的数据。这样我们就得到了目标检测站点的历史 AQI 数据和历史气象数据,
以及周边空间的历史 AQI 数据和历史气象数据。将 AQI 和其他数据集输入到上文所说的
GRU 网络当中,该网络为一个深层循环神经网络。该模型的关键在于我们将一个特征指定
为主要特征,将其他特征指定为辅助特征。主要特征和预测目标来自同一区域,而辅助特征
和预测目标来自不同的域,即周围的 16 个外围区域。我们将时序数据和空域数据相结合后,
重新构建一个 AQI+MEO 模型,如图八所示。
- 6 -
中国科技论文在线
http://www.paper.edu.cn
图 8 模型结合
Fig. 8 Model combination
160
3 实验
3.1 数据集
165
170
175
本次实验所有数据均来自 KDD 官网,研究区域为北京地区,所获取的数据类型一共有
17 类。数据的时间跨度为 2017 年 1 月 1 日-2018 年 1 月 1 日,共计 12 个月。数据类型主要
分为两大类,一类是空气质量的数据,另一类则是天气气象的数据。同时对北京的空气质量
监测站点、天气气象监测站进行编号,并建立一一对应的关系。对监测站点,天气类型等进
行编号,统一属性标签,以便后续作为特征值的处理。对数据进行排序和修补,当数据中存
在一些时刻的缺失值时,则直接沿用上一时刻的值作为替换。
我们在处理连续的数据时,用到了最小最大值标准化方法(MinMaxScaler)[9]将其归一
化,由于数据存在不同的评价指标,其量纲或量纲单位不同,处于不同的数量级。经过归一
化处理后,各指标处于同一数量级,便于综合对比。除此之外,归一化会使得求最优解的过
程会变得平缓,更容易正确收敛,并能提高计算精度。对于数据集当中离散的标签,比如天
气,经纬度等,我们用 one-hot 编码进行转换。
3.2 AQI+MEO 模型
该模型不但考虑了检测站点的历史 AQI,还融合了其他的气象因素,比如风速,风向,
湿度等。这些因素在预测未来的空气质量时都会产生一定的影响。如图九所示,是 AQI+MEO
模型预测的一个站点的 PM2.5 和 PM10 的浓度
- 7 -
中国科技论文在线
http://www.paper.edu.cn
180
185
190
195
图 9 AQI+MEO 模型预测结果
Fig. 9 AQI+MEOModel prediction result
3.3 时域空域结合模型
由于空气污染物分散在不同的地理空间,考虑到空气污染物的空间相关性,本文搭建了
空间转换模块,以目标检测站为圆心,5 公里和 20 公里分别作为半径,分别通过四行和两
个圆圈将地理空间划分为 16 个区域,内圈较小,外圈较大。本文将所有的监测站点通过空
间转换模块处理后,最终在同一个时间戳内得到了 17 个数据集,1 个来自目标站点,16 个
来自邻近区域。然后将新得到的数据集作为输入输入到 GRU 网络中,这样就得到了一个新
的融合了空域数据的模型。如图十所示,是融合了空域数据的 AQI+MEO 模型预测的一个站
点的 PM2.5 和 PM10 的浓度。
图 10 模型预测结果
Fig. 10 Model prediction result
其中,红色折线为实际的 PM2.5 和 PM10 的走向图,蓝色为我们的模型预测的结果。
从图中我们可以得到,预测值的整体走向和实际值大概相同,并且预测值和实际值相差也不
大。并且融合了空域数据的 AQI+MEO 模型比普通的 AQI+MEO 模型拟合程度更高,和实
际的数据走向更加贴合,预测值更加的准确,说明该模型更加的准确,体现出了空间转换方
法的作用。
模型的评分标准采用了 SMAPE 函数,图十一则是两种模型效果的对比图。
- 8 -