中国科技论文在线
http://www.paper.edu.cn
空气中 PM2.5 的评价预测模型#
王艳艳,段红梅*
(空军勤务学院基础部)
摘要:采用灰色关联分析和 MATLAB 软件对空气质量指数 AQI 中 6 个基本监测指标的相关
与独立性进行定量分析,使用逐步回归建立了 PM2.5 粒子浓度与其它 5 项分指标统计相关
拟合模型,并对影响大气污染的气象因子进行了综合分析,发现 PM2.5 粒子含量与气体污
染物浓度存在不同程度的相关性,且与气象条件亦存在显著的相关关系。通过确定气象要素
场和 PM2.5 粒子浓度的关系可进一步研究不同地区的污染物输送和污染源扩散影响的问题。
关键词:空气质量指数, 灰色关联分析, 逐步回归
中图分类号:X820.2
Prediction and evaluation model of PM2.5 in the air
WANG Yanyan, DUAN Hongmei
(Department of Basic Courses,Air Force Logistics College)
Abstract: Using Grey Relational Analysis and MATLAB software,we did the quantitative analysis
of six basic monitoring index about the correlation and independence in the AQI of air quality
index.Further,using stepwise regression we established the statistical correlation fitting model of
concentrations of PM2.5 particles and other five indicators, and made a comprehensive analysis of
the meteorological factors of atmospheric pollution. Finally, we found that PM2.5 particles
content and gas pollutant concentrations were different degree of correlation, and the relation with
meteorological condition was also significant. By determining the relationship between the
meteorological element field and the concentration of PM2.5 particles we can study pollutants
transmission and spread of pollution sources in different parts.
Key words: Air quality index ,Grey Relational Analysis ; Stepwise regression
0 引言
空气质量指数 AQI[1]的分项监测指标为二氧化硫 SO2、二氧化氮 NO2、可吸入颗粒物
PM10、细颗粒物 PM2.5、臭氧 O3 和一氧化碳 CO, 其中 PM2.5 的形成机理和过程比较复
杂。结合 2013 年 1 至 8 月份武汉市空气主要污染物的数据,使用灰色关联分析和 MATLAB
软件对 AQI 中 6 个基本监测指标的相关与独立性进行定量分析,并使用逐步回归建立了
PM2.5 粒子浓度与其它 5 项分指标统计相关拟合模型,目的在于发现 PM2.5 粒子含量与
气体污染物浓度之间的相关性,进而为研究不同地区的污染物输送和污染源扩散影响提
供理论依据。
1 .AQI 中 6 个基本监测指标的灰色关联分析
数理统计中的,因素分析主要采用回归分析、方差分析等。这些分析一般适用于因
素较小的线性系统。对于多因素、非线性系统,则难以处理。但这些方法存在以下问题:
(1)要求有大量数据,数据量少就很难找出统计规律。
(2)要求样本服从某个典型的概率分布,要求各因素数据与系统特征数据间呈线性关
系且各因素之间彼此无关。这种要求往往难以满足。
(3)可能出现量化结果与定性分析结果不符的现象,导致系统的关系和规律遭到歪曲
和颠倒,尤其是我国统计数据十分有限,而且现有数据灰度较大,再加上人为的原因,
基金项目:空军勤务学院青年科研基金项目(BS006)
作者简介:王艳艳(1980-),女,讲师,主要研究方向:随机过程. E-mail: wywith@163.com
- 1 -
5
10
15
20
25
30
35
40
45
50
55
60
65
70
75
中国科技论文在线
http://www.paper.edu.cn
许多数据都出现几次大起大落,没有什么典型的分布规律。因此,采用数理统计方法往
往难以奏效。
灰色关联分析方法[2]弥补了采用数理统计方法所导致的缺憾。它对样本量的多少和
样本有无规律都同样适用,而且计算量小,十分方便,更不会出现量化结果与定性分析
结果不符的情况。
灰色关联分析的基本思想是根据序列曲线几何形状的相似程度来判断其联系是否
紧密。曲线越接近,相应序列之间的关联度就越大,反之就越小。
1.1 数据的无量纲化处理
各因素组成的序列,一般来说取值单位不尽相同,而单位不同的数据是无法进行比
较的,因此必须把原始数据进行无量纲化处理。无量纲化的方法很多,一般采用数据均
值化。数据均值化是用这个数据列中每行数据的平均值去除此行所有数据,以得到新序
列。
1.2 确定评估矩阵
关联系数是考虑序列曲线间几何形状的差别,用曲线之间差值的大小作为衡量关联
系数的依据。6 项指标集既是参考数列又是比较数列,由以下公式计算第 i 行比较数列
与第 j 行参考数列在 k 点的灰色关联系数。
max max
k
x
( )
(1)
i
x
k
( )
(1)
i
k
x
( )
(1)
i
x
k
( )
(1)
i
max max
k
x
(1)
j
min min
k
x
(1)
j
x
(1)
j
k
( )
x
(1)
j
k
( )
k
( )
L k
( )
ij
k
( )
i
i
(1)
i
k
式中,——分辨系数,在[0,1]中取值,一般取 0.5;
k
min min
( )
k
—两级最小差;
max max
x
(1)
i
k
( )
k
( )
(1)
j
(1)
j
x
x
i
k
i
x
(1)
i
k
( )
—两级最大差。
1.3 计算关联度
因为关联系数列中的数据很多,信息过于分散,比较不便,所以有必要将各个时刻
的关联系数集中为一个值。求关联系数列的平均值就是将这种信息集中处理的一种方
法。这个平均值就是关联度。
r
ij
1
m
1.4 优势分析
m
k
1
(2)
kL
)(
ij
鉴于要分析 6 个指标相互之间关联度的大小,故灰色关联度分析的参考数列与比较
数列都是 6 个指标的数据组成的数列。则参考数列和比较数列的关联度可构成关联矩阵。
矩阵中的每一行表示同一母因素对不同子因素的影响;每一列表示不同母因素对同一子
因素的影响。因此就可以根据矩阵中的各个行与各个关联度的大小来判断子因素与母因
素的作用,分析哪些是主要影响因素,哪些是次要影响因素。起主要影响的因素称为优
势因素,因此相应的就有优势母因素与优势子因素。
1.5 模型的求解
依据武汉市一个监测点 2013 年 1 月 1 日至 1 月 31 日的数据,利用 MATLAB 求出 6
项分指标之间的相关度,如表 1 所示。
- 2 -
中国科技论文在线
http://www.paper.edu.cn
表 1 AQI 中 6 个基本监测指标的相关度
PM2.5
PM2.5
SO2
NO2
PM10
CO
O3
1.0000
0.8480
0.8783
0.9307
0.8877
0.6971
SO2
0.8396
1.0000
0.9106
0.8527
0.8506
0.6893
NO2
0.8799
0.9169
1.0000
0.8997
0.8465
0.7033
PM10
0.9311
0.8614
0.8989
1.0000
0.8652
0.7026
CO
0.8824
0.8521
0.8375
0.8581
1.0000
0.6920
O3
0.6837
0.6893
0.6864
0.6880
0.6896
1.0000
由表 1 可以看出 6 个基本监测指标的相关与独立性,从中可以看出 O3 独立性最高,与
其他因素的关联度较小。从第二列可以看出,与 PM2.5 关联度由强至弱依次为 PM10、NO2、
CO、SO2、O3。同理可以分析出其他因素之间的关联强度。
2 .PM2.5 浓度综合相关逐步回归模型
根据表 1 中 PM2.5 含量与 2SO 、 2NO 、PM10、PM2.5、 3O 和 CO 的相关特征,表明
气体污染物与 PM2.5 浓度密切相关[3],我们建立逐步回归模型试图通过其他污染物拟合
PM2.5 浓度。自变量 SO2( 1x )、NO2( 2x )、PM10( 3x )、CO( 4x )和 O3( 5x ),变
量长度为 2013 年 1 月 1 日至 1 月 31 日共 32 个样本,建立 PM2.5(y)的多元回归方程。
运用逐步回归方法,从包含全部变量的回归方程中逐步剔除不显著的因子 5x ,最优回归
方程为:
复相关系数 R 为 0.920086,剩余标准差 RMSE 为 22.1766,显著性检验 F 为 74.8371。
(3)
.0
95817
.1
13019
.1
4289
.39
3022
x
1
.1
44782
x
x
4
x
2
3
y
80
85
90
图 1 2013 年 1 月 1 日到 1 月 31 日逐步回归
为了检验回归方程,运用式(3)拟合了从 2013 年 1 月 1 日到 1 月 31 日的 PM2.5 浓
95
度,从图 2 中可见,拟合效果不错(实线为实测数据,星点表示拟合值)。
图 2 2013 年 1 月 1 日到 1 月 31 日的 PM2.5 观测及气体污染物相关模型拟合、实测曲线
从逐步回归结果来看,影响 PM2.5 的因子中权重较大的为 PM10、CO,其次为 2SO 、
2NO 。从图 2 可见,PM10,CO, 2SO , 2NO 建立的回归模型拟合 PM2.5 的效果较好,
- 3 -
中国科技论文在线
http://www.paper.edu.cn
100
模拟的趋势基本与 PM2.5 相似,但在有些地方。例如 1 月 10 日的值与实测偏差较大,
需要进一步增加统计样本和预测因子才能提高预报效果,而此时空气质量指数级别为六
级,为严重污染[4]。
采用独立样本估测检验,即用同样的逐步回归方法建立的回归方程拟 2013 年 7 月 1
日到 7 月 31 日的 PM2.5 的含量可见,逐步回归模型计算估测值和观测实况的变化趋势
105
差距较大。
图 3 运用 1 月份模型拟合 7 月 1 日到 7 月 31 日的数据
于是我们使用 2013 年 7 月 1 日到 7 月 31 日的 6 种实测数据指标,采用逐步回归,
剔除不显著的因子 1x 、 2x 、 5x ,得出最优回归方程为:
110
(4)
复相关系数 R 为 0.830825,剩余标准差 RMSE 为 4.86712,显著性检验 F 为 68.7544。
4
3
.2
68394
x
y
.29
6533
.0
642647
x
图 4 2013 年 7 月 1 日到 7 月 31 日逐步回归
为了检验回归方程,运用式(4)拟合了从 2013 年 7 月 1 日到 7 月 31 日的 PM2.5
115
浓度,从图 5 中可见,拟合效果不错(实线为实测数据,星点表示拟合值)。
图 5 2013 年 7 月 1 日到 7 月 31 日的 PM2.5 观测及气体污染物相关模型拟合、实测曲线
3.结论
120
基于对 2013 年 1 月 1 日到 1 月 31 日的 PM2.5 含量与 2013 年 7 月 1 日到 7 月 31 日
的 PM2.5 含量的分析,可以得出 PM2.5 粒子随着季节的变化,变化趋势差距较大,一月
- 4 -
中国科技论文在线
http://www.paper.edu.cn
份的空气质量指标几乎全为重度污染,而七月份空气质量指标大多为良好,此时 PM2.5
含量主要与 PM10 和 CO 相关,与 2SO , 2NO , 3O 相关性不强,两个逐步回归模型不同。
究其原因,由于风力、湿度等天气和季节因素的影响[5],PM2.5 的发生和演变规律是不
一样的。通过针对不同季节建立逐步回归模型,我们证明了用 PM10,CO, 2SO , 2NO
污染物拟合的 PM2.5 含量具有一定的可信度,基本能估算 PM2.5 粒子含量的变化趋势。
[参考文献] (References)
[1] 环境保护部,HJ 633-2012.环境空气质量指数(AQI)技术规定(试行)[S]: 北京:中华人民共和国国
家环境保护标准,2012.
[2] 徐卫国, 田伟利, 张清宇,丁淑英, 郭慧.灰色关联分析模型在环境空气质量评价中的修正及应用研究[J].
中国环境监测,2006.22(3):63-66.
[3] 周丽.徐祥德.丁国安.北京地区气溶胶 PM2.5 粒子浓度的相关因子及其估算模型[J].气象学报,
2003.12(6):761-767.
[4] 蒲 维 维. 赵 秀 娟. 张 小 玲. 北 京 地 区 夏 末 秋 初 气 象 要 素 对 PM2.5 污 染 的 影 响[J]. 应 用 气 象 学 报 ,
2011.12(6):716-722.
[5] 高健,柴发合.我国大气颗粒物污染研究及其对控制对策的支撑[J].环境保护,2014,11:32-34.
125
130
135
- 5 -