logo资料库

论文研究-基于随机森林和气象参数的PM2.5浓度等级预测.pdf

第1页 / 共8页
第2页 / 共8页
第3页 / 共8页
第4页 / 共8页
第5页 / 共8页
第6页 / 共8页
第7页 / 共8页
第8页 / 共8页
资料共8页,全文预览结束
Computer Engineering and Applications 计算机工程与应用 2019,55(2) 213 基于随机森林和气象参数的 PM2.5浓度等级预测 任才溶 1,谢 刚 1,2 1. 太原理工大学 信息工程学院,太原 030024 2. 太原科技大学 电子信息工程学院,太原 030024 摘 要:空气污染不仅危害人类的身心健康,而且还会制约城市的经济发展,其中 PM2.5带来的影响尤为突出。为了 方便准确地预测出空气中的 PM2.5浓度等级,提出了一种基于随机森林的 PM2.5浓度等级预测方法,特征因子采用太 原市 2013 年—2017 年的气象数据、预测站点的 PM2.5浓度变化的时间规律以及与周围站点的时空关联性。该方法首 先利用 K-Means 算法对原始气象数据聚类,降低不同分类器之间的相关性,然后利用欠采样方法对数据进行平衡采 样,减少类不平衡对分类器性能的影响,最后利用泛化能力好的随机森林构建预测模型。经过真实数据验证,该方 法对 PM2.5浓度等级预测具有较好的精确度、召回率与 F 值。 关键词:PM2.5;随机森林 ;气象因子 ;欠采样 ;预测 文献标志码:A 中图分类号:TP181 doi:10.3778/j.issn.1002-8331.1709-0378 任才溶,谢刚 . 基于随机森林和气象参数的 PM2.5浓度等级预测 . 计算机工程与应用,2019,55(2):213-220. REN Cairong, XIE Gang. Prediction of PM2.5 concentration level based on random forest and meteorological parameters. Computer Engineering and Applications, 2019, 55(2):213-220. Prediction of PM2.5 Concentration Level Based on Random Forest and Meteorological Parameters REN Cairong1, XIE Gang1,2 1.College of Information Engineering, Taiyuan University of Technology, Taiyuan 030024, China 2.School of Electronic Information Engineering, Taiyuan University of Science and Technology, Taiyuan 030024, China Abstract:Not only does air pollution, especially PM2.5, do harm to people’s physical and mental health, but it also restricts the economic development of cities. In order to forecast the concentration level of PM2.5 in a convenient and accurate way, a prediction model of concentration level of PM2.5 based on random forest is proposed, the feature factors adopt the meteo- rological data of Taiyuan city from 2013 to 2016, the rule of time sequence of PM2.5 concentration change of the prediction site, and its temporal and spatial correlation with the surrounding sites. Firstly, the K-Means algorithm is applied to cluster the raw meteorological data in order to reduce the correlation between different classifiers. Secondly, the undersampling method is used to balance the dataset so as to reduce the impact of class imbalance on the performance of classifiers. Finally, a predictive model is constructed by using random forest with good generalization ability. By the verification of the real data, the method boasts good recall, precision and F-score in the prediction of the concentration level of PM2.5. Key words:PM2.5; random forest; meteorological factors; undersampling; prediction 1 引言 随着世界范围内经济发展速度加快,环境问题在各 个国家也越来越受到重视,在不同区域造成环境问题的 原因也越来越复杂,而其中,空气污染是环境问题中尤 为突出的一项。太原市作为全国重要的能源生产基地 之一,经济增长严重依赖煤炭、焦煤、冶金与电力这四大 重污染行业,空气污染问题已持续很久。已有许多研究 表明,人类长期暴露在高浓度大气污染物的环境中,特 别是以大气颗粒物为主要污染物时,会对健康造成严重 的危害[1-2]。通常所说的 PM10和 PM2.5是指空气中空气动 力学当量直径分别为小于等于 10 μm 和小于等于 2.5 μm 的大气颗粒物,二者分别称为可吸入颗粒物和细颗粒 基金项目:山西省回国留学人员科研资助项目(No.2016-044);国家自然科学基金(No.61503271,No.61603267)。 作者简介:任才溶(1992—),男,硕士研究生,主要研究领域为数据挖掘与机器学习,E-mail:rencairong1992@163.com;谢刚(1972—), 男,博士,教授,主要研究领域为大数据、图像与视频处理、复杂系统。 收稿日期:2017-09-27 修回日期:2017-11-13 文章编号:1002-8331(2019)02-0213-08 计算机工程与应用www.ceaj.org
214 2019,55(2) Computer Engineering and Applications 计算机工程与应用 物。PM2.5 相比 PM10 而言,体积小、重量轻,更容易吸附 一些有害物质,如细菌、病毒和其他污染物,当它进入支 气管并到达支气管末端,会干扰肺部气体交换[3]。因此 PM2.5会对人类健康和环境安全造成严重的影响和危害, 所以对 PM2.5 浓度等级进行监测预报,不仅可以为政府 进一步采取措施提供决策依据,也可以为人类出行活动 提供有力帮助。 现有的 PM2.5 浓度预测方法可大致分为三种:基于 统计模型的预测方法、基于物理化学机理模型的预测方 法以及基于机器学习的预测方法。其中统计模型中广 泛使用的方法为线性或非线性回归模型。文献[4]使用 一元线性回归模型,得出 PM2.5 浓度与不同的气象参数 (风速、降雨量、温度)均存在明显负相关的结论;文献[5] 使用多元线性回归模型,以长沙市 PM10与 CO 的浓度作 为输入,预测了 PM2.5 的浓度;文献[6]考虑到 PM2.5 与预 测因子之间存在非线性关系,构建非线性回归模型并预 测了北京、南京和广州的 PM2.5 浓度,取得了较好的效 果。总之,对 PM2.5 浓度与预测因子使用统计模型建模 是很好的选择,但是该方法需要大量的数据来构建输入 与输出之间的映射,使得适用性不高。基于物理化学机 理的预测模型是一种数值预报的方法,最常用的模型为 WRF-Chem 与 CMAQ,该模型通过模拟污染源排放、大 气化学/物理过程以及区域交通量,来提升预测精度[7-8]。 但是模型的准确性严重依赖于需要不断更新的排放源 清单,且该清单获取难度较大。除此之外,预测地点的 地理特点的复杂性以及污染物大气过程的复杂性都使 得预测模型的实现复杂化。近年来,基于机器学习的预 测模型相比于上述两种预测模型则显示出了较大的优 越性 [9]。其中人工神经网络已经频繁使用在 PM2.5 的浓 度预测中,且正成为一种有效、流行的预测方法[10-12]。文 献[13]利用决策树与神经网络成功预测了墨西哥城的 空气质量,文献[14]利用支持向量机模型对 PM2.5浓度进 行了 3 天内的实时预测,此外,多种机器学习算法结合 使用可以改善存在的局限性,更好地模拟出 PM2.5 浓度 与预测因子之间的非线性关系及交互作用,获得更准确 的预测结果 [15-16]。然而基于机器学习算法的预测模型 的性能也会根据所选择的预测因子的不同而不同,文 献[17]使用气象参数作为特征构建预测模型,文献[18] 则使用元素浓度预测了大气中的 PM2.5浓度。 虽然上述研究对 PM2.5 浓度等级预测具有一定贡 献,但是在针对一些不平衡数据进行建模时,会损失一 些有价值的信息,导致模型性能变差。本文所使用的数 据集是太原市的实际气象数据和空气污染物数据,存在 有明显的类别不平衡,需要使用一些方法来消除或减少 类 别 不 平 衡 对 预 测 模 型 带 来 的 影 响 。 此 外 ,使 用 K- Means 算法对数据进行聚类,对不同的簇分别建立预测 模型,使得模型对同一簇内的数据更有针对性,从而提 高预测精度。 随机森林是由 Breiman 和 Cutler 于 2001 年提出的 一种取代神经网络等传统机器学习方法的分类回归算 法。随机森林可以处理非线性问题、具有很好的抗噪声 能力且不易陷入过拟合。与传统的多元线性回归模型 相比,随机森林算法不需要预先设定函数形式,且能克 服协变量之间复杂的交互作用,与神经网络相比,随机 森林算法不易陷入过拟合,与支持向量机相比,支持向 量机的核函数及内部参数比较依赖使用者技巧,而随机 森林避免了此类问题,因此随机森林算法在许多行业得 到应用且取得较好的效果[19-20]。本文以随机森林算法为 方法构建太原市 PM2.5浓度等级预测模型。该模型选择 气象参数为预测因子,因为研究表明,地区污染源排放 污染物保持不变时,该地区的气象条件会对污染物的稀 释与扩散有很大的影响[21-22];此外,气象数据也可以容易 地从城市气象部门获得。本文也对预测站点 PM2.5浓度 变化的时间规律以及与周围站点的时空关联性进行分 析并作为特征因子加入预测模型,结合 K-Means 方法与 平衡采样方法提升随机森林中各决策树的分类性能,建 立 PM2.5浓度等级预测模型。 2 数据 2.1 数据源 本文所使用的数据为 2013 年 1 月 1 日到 2017 年 7 月 31 日的空气质量监测站历史数据与历史气象数据。其 中空气质量监测站数据来自国家环保局及山西省环境 保护厅,包含太原市 9 个空气质量监测站点所有空气质 量数据,具体内容有 PM10、PM2.5、SO2、NO2、O3、CO 的浓 度,数据更新频率为 1 次/h,太原地理地图及空气质量监 测站位置如图 1 所示;历史气象数据来自山西气象局, 包含气压、气温、风向、风速、湿度、可见度等指标,数据 更新频率为 2 次/h。 S3 S1 S2 S6 S7 S9 S4 S5 图 1 太原市空气质量监测站位置 2.2 PM2.5浓度分级 将 PM2.5 浓度简化换算为单一无量纲指数,并采用 分级方式表征空气质量优劣。PM2.5浓度与各等级对应 关系如表 1 所示[3]。这样,PM2.5浓度等级预测就转化为 计算机工程与应用www.ceaj.org
任才溶,等:基于随机森林和气象参数的 PM2.5浓度等级预测 2019,55(2) 215 250 200 150 100 50 0 ) 3 - m ⋅ g μ ( / 度 浓 5 . 2 M P 1 2 4 8 10 12 6 月份 ) 3 - m ⋅ g μ ( / 度 浓 5 . 2 M P 250 200 150 100 50 0 00 :00 春 夏 秋 冬 04 :00 08 :00 12 :00 16 :00 20 :00 24 :00 时刻 100 80 60 50 ) 3 - m ⋅ g μ ( / 度 浓 5 . 2 M P 工作日 节假日 春 夏 秋 冬 季节 (a)PM2.5浓度月变化规律 (b)PM2.5浓度小时变化规律 (c)工作日与节假日 PM2.5浓度对比图 图 2 太原地区 PM2.5浓度时序规律 分类问题,只需把 PM2.5的浓度匹配到表 1 所对应的类别 中即可。 表 1 PM2.5浓度限值分级标准 PM2.5的浓度 /(μg ⋅ m-3) ≤ 35 35~75 75~115 115~150 150~250 ≥ 250 级别 一级 二级 三级 四级 五级 六级 类别 优 良 轻度污染 中度污染 重度污染 严重污染 3 预测因子分析 3.1 时间因子对 PM2.5浓度的影响:Ft 太原市地处大陆内部,属于温度大陆性气候,四季 分明,昼夜温差大。PM2.5浓度受气象条件影响明显,而 太原市不同季节,不同时间的天气状况不同,因此,研究 PM2.5浓度随时间变化的规律是十分重要的。 本文利用 2013 年—2016 年太原市空气质量监测站 桃园站 S6(1086A)的 PM2.5浓度数据进行时序变化规律 分析,结果如图 2 所示。图 2(a)展示了太原市 PM2.5浓度 的月变化规律,由图可知,PM2.5在 1、2、3、11、12 月份的 浓度与其他月份相比值比较高。这是因为太原地区在 这些月份气温比较低,容易出现不利于 PM2.5 扩散的逆 温层,且冬季又是太原市的采暖季,因此造成这些月份 与其他月份 PM2.5 浓度值的显著差异。图 2(b)展示了 PM2.5浓度在不同季节的日变化规律,四个季节均呈现了 PM2.5浓度夜间高白天低的特点,造成这种变化趋势的原 因可能是傍晚交通高峰期造成大量尾气排放以及夜间 辐射冷却极易造成不利于 PM2.5扩散的逆温层。图 2(c) 为工作日和节假日的 PM2.5浓度对比图,由图可知,PM2.5 在节假日要比工作日污染严重。 图 2 说明了 PM2.5浓度与时间因素有着显著的联系, 因此将预测时间点的时间信息作为特征因子加入预报 模型,可以提高预测精度。 3.2 气象因子对 PM2.5浓度的影响:Fm 自然界和人类的活动会产生一定的污染物排入大 气中,而在某一时间段内,排放的污染物总量是相对平 衡的,但有时会出现重雾霾天气,有时却又蓝天白云,发 生这种现象的决定性因素是气象条件。也就是说,在污 染源排放污染物相对平衡的情况下,气象条件的不同会 造成大气对污染物的稀释扩散能力不同。因此气象因 子对大气污染物的沉降、传输、凝聚和稀释有显著作用。 表 2 所示为 2013 年—2016 年太原市空气质量监测 站桃园站 S6(1086A) PM2.5 浓度与六种气象因子的相 关性分析。由表可得,PM2.5与六种气象因子都存在显著 相关性,与气压、湿度、天气情况均呈现显著正相关性, 而同气温、风速、可见度呈现负相关性。PM2.5与可见度 和天气情况的相关性最高,分别为-0.47 与 0.37。 表 2 PM2.5浓度与气象因子的相关系数 天气 湿度 可见度 -0.47 气温 -0.20 0.11 气象因子 相关系数 风速 -0.19 气压 0.08 0.37 PM2.5浓度除受上述六种气象因子影响之外,还与风 向有关。图 3 为太原市风向、风速与 PM2.5 浓度的关系 图,由图可知,当风向为偏东风,风速为 6 m/s 到 11 m/s 时,PM2.5 浓度与其他风向、风速下的浓度相比污染严 重。这是因为太原市东部存在大量高污染企业,当太原 市区风向为偏东风时,造成了大量污染物由东向西输 送,引起 PM2.5 浓度升高。而太原市风向为西到北之间 任意风向时,PM2.5浓度均比较低。 W N 6 4 2 0 12 10 风速/ (m ⋅ s-1) 8 E 风向 S 160 140 ) 3 - m 120 ⋅ g μ ( / 100 度 浓 5 . 2 M P 80 60 图 3 太原地区风向、风速与 PM2.5浓度关系图 由此可见,太原市 PM2.5 的浓度受气象因素的影响 较大,因此将预测时间点的气象信息作为特征因子加入 预报模型,可以提高预测精度。 计算机工程与应用www.ceaj.org春夏秋冬6080100PM2.5??/ (?g/m3)季节工作日节假日春夏秋冬6080100PM2.5??/ (?g/m3)季节工作日节假日春夏秋冬6080100PM2.5??/ (?g/m3)季节工作日节假日024681012141618202224050100150200250PM2.5??/ (?g/m3)??春夏秋冬024681012141618202224050100150200250PM2.5??/ (?g/m3)??春夏秋冬024681012141618202224050100150200250PM2.5??/ (?g/m3)??春夏秋冬024681012141618202224050100150200250PM2.5??/ (?g/m3)??春夏秋冬024681012141618202224050100150200250PM2.5??/ (?g/m3)??春夏秋冬24681012050100150200250月份PM2.5??/ (?g/m3)
216 2019,55(2) Computer Engineering and Applications 计算机工程与应用 ) 3 - m ⋅ g μ ( / 度 浓 5 . 2 M P 180 160 140 120 100 80 60 40 20 S1 S3 S4 S5 S6 S7 S8 S9 90 80 70 60 50 ) 3 - m ⋅ g μ ( / 度 浓 5 . 2 M P S1 S3 S4 S5 S6 S7 S8 S9 0 2 4 8 10 12 6 月份 40 00 :00 04 :00 08 :00 16 :00 20 :00 24 :00 12 :00 时刻 75 70 65 60 55 50 45 40 35 ) 3 - m ⋅ g μ ( / 度 浓 5 . 2 M P S1 S3 S4 S5 S6 S7 S8 S9 Sun Mon Tue Wed Thu Fri Sat 星期 (a)太原各站点 PM2.5浓度月变化规律 (b)太原各站点 PM2.5浓度小时变化规律 (c)太原各站点 PM2.5浓度周变化规律 图 4 太原市各站点 PM2.5浓度时间关联性 ) 3 - m ⋅ g μ ( / 度 浓 5 . 2 M P 站 1 S 600 500 400 300 200 100 0 y = 15.722 6 + 1.241 7x,R2 = 0.814 6 50 100 150 200 250 300 350 400 S6 站 PM2.5浓度 /(μg ⋅ m-3) (a)S6 站与 S1 站 PM2.5浓度值相关性 300 ) 3 - m ⋅ g μ ( / 度 浓 5 . 2 M P 站 7 S 250 200 150 100 50 0 y = 11.246 7 + 0.728 9x,R2 = 0.812 6 50 100 150 200 250 300 350 S6 站 PM2.5浓度 /(μg ⋅ m-3) y = 11.527 9 + 0.898 4x,R2 = 0.754 9 ) 300 3 - m 250 ⋅ g μ ( / 度 浓 5 . 2 M P 站 5 S ) 3 - m ⋅ g μ ( / 度 浓 5 . 2 M P 站 9 S 200 150 100 50 0 50 100 150 200 250 300 350 S6 站 PM2.5浓度 /(μg ⋅ m-3) y = 17.109 1 + 0.817 6x,R2 = 0.738 9 (b)S6 站与 S5 站 PM2.5浓度值相关性 350 300 250 200 150 100 50 0 50 100 150 200 250 300 350 S6 站 PM2.5浓度 /(μg ⋅ m-3) (c)S6 站与 S7 站 PM2.5浓度值相关性 (d)S6 站与 S9 站 PM2.5浓度值相关性 图 5 太原市各站点 PM2.5浓度空间相关性 3.3 预测站点与周围站点 PM2.5 浓度的时空关 联性:Fc 如果两个空气质量监测站点距离很近,则这两个站 点所处的大气环境大致类似,即两个站点相距十多公 里,它们所在地的温度、压力和湿度等气象参数基本相 同,且从一个小时到下个小时或从一天到下一天的变化 规律也经常一致。所以相邻站点的 PM2.5浓度具有较强 的相关性[23],原因如下:(1)相邻的空气质量监测站点在 共享的环境条件下工作,这些环境条件对污染物的扩散 与污染源的排放影响情况相似;(2)在一定范围内,人类 生产生活所产生污染物的规律在每年的某个季节或每 天的某个小时是高度重复的,如图 4 所示;(3)相邻站点 往往经常处在某一污染源的下风口。 图 5 所 示 为 太 原 市 空 气 质 量 监 测 站 桃 园 站 S6 (1086A)与周围站点尖草坪站 S1(1081A)、小店站 S5 (1085A)、坞城站 S7(1087A)及金胜站 S9(1089A)关 于 PM2.5浓度的线性关系图,由图可知,S6 站 PM2.5浓度 与周围站点的 PM2.5浓度存在较强的线性关系。因此将预 测站点的预测时间前一天与前两天的周边站点的 PM2.5浓 度值作为预测因子加入预报模型,可以提高预测精度。 4 预测模型 4.1 随机森林算法 随机森林(Random Forest,RF)算法是通过集成学 习(Ensemble Learning)的思想将多棵决策树(Decision Tree)集成的一种分类与回归算法。RF 首先采用决策树 作为基分类器,然后使用 Bagging(Bootstrap Aggregating) 方法生成互有差异的训练数据集,并使用一种随机子空 间划分(Random Subspace Method)的策略构建每棵决 策树,再从全部属性中随机选择部分属性,每次树进行 分裂时,从该部分属性中选择最优属性进行分裂。这种 “双随机”思想的引入使得 RF 不容易陷入过拟合且各子 分类器之间存在多样性,所以 RF 具有优越的分类性 能。随机森林算法框架图如图 6 所示。 计算机工程与应用www.ceaj.org0501001502002503003504000100200300400500600S1?PM2.5??/ (?g/m3)S6?PM2.5??/ (?g/m3) 050100150200250300350050100150200250300S5?PM2.5??/ (?g/m3)S6?PM2.5??/ (?g/m3) 050100150200250300350050100150200250300S7?PM2.5??/ (?g/m3)S6?PM2.5??/ (?g/m3) 050100150200250300350050100150200250300350S9?PM2.5??/ (?g/m3)S6?PM2.5??/ (?g/m3) 02468101220406080100120140160180S1S3S4S5S6S7S8S9 PM2.5??/ (?g/m3) 月份02468101220406080100120140160180S1S3S4S5S6S7S8S9 PM2.5??/ (?g/m3) 月份02468101220406080100120140160180S1S3S4S5S6S7S8S9 PM2.5??/ (?g/m3) 月份02468101220406080100120140160180S1S3S4S5S6S7S8S9 PM2.5??/ (?g/m3) 月份02468101220406080100120140160180S1S3S4S5S6S7S8S9 PM2.5??/ (?g/m3) 月份02468101220406080100120140160180S1S3S4S5S6S7S8S9 PM2.5??/ (?g/m3) 月份02468101220406080100120140160180S1S3S4S5S6S7S8S9 PM2.5??/ (?g/m3) 月份02468101220406080100120140160180S1S3S4S5S6S7S8S9 PM2.5??/ (?g/m3) 月份02468101220406080100120140160180S1S3S4S5S6S7S8S9 PM2.5??/ (?g/m3) 月份024681012141618202224405060708090PM2.5??/ (?g/m3)小时S1S3S4S5S6S7S8S902468101220406080100120140160180S1S3S4S5S6S7S8S9 PM2.5??/ (?g/m3) 月份02468101220406080100120140160180S1S3S4S5S6S7S8S9 PM2.5??/ (?g/m3) 月份02468101220406080100120140160180S1S3S4S5S6S7S8S9 PM2.5??/ (?g/m3) 月份02468101220406080100120140160180S1S3S4S5S6S7S8S9 PM2.5??/ (?g/m3) 月份02468101220406080100120140160180S1S3S4S5S6S7S8S9 PM2.5??/ (?g/m3) 月份02468101220406080100120140160180S1S3S4S5S6S7S8S9 PM2.5??/ (?g/m3) 月份02468101220406080100120140160180S1S3S4S5S6S7S8S9 PM2.5??/ (?g/m3) 月份02468101220406080100120140160180S1S3S4S5S6S7S8S9 PM2.5??/ (?g/m3) 月份SunMonTueWedThuFriSat354045505560657075S1S3S4S5S6S7S8S9PM2.5??/ (?g/m3)星期02468101220406080100120140160180S1S3S4S5S6S7S8S9 PM2.5??/ (?g/m3) 月份02468101220406080100120140160180S1S3S4S5S6S7S8S9 PM2.5??/ (?g/m3) 月份02468101220406080100120140160180S1S3S4S5S6S7S8S9 PM2.5??/ (?g/m3) 月份02468101220406080100120140160180S1S3S4S5S6S7S8S9 PM2.5??/ (?g/m3) 月份02468101220406080100120140160180S1S3S4S5S6S7S8S9 PM2.5??/ (?g/m3) 月份02468101220406080100120140160180S1S3S4S5S6S7S8S9 PM2.5??/ (?g/m3) 月份02468101220406080100120140160180S1S3S4S5S6S7S8S9 PM2.5??/ (?g/m3) 月份02468101220406080100120140160180S1S3S4S5S6S7S8S9 PM2.5??/ (?g/m3) 月份
任才溶,等:基于随机森林和气象参数的 PM2.5浓度等级预测 2019,55(2) 217 训练数据集 1 决策树 1 4.2 类不平衡问题 原始数据集 随机化 训练数据集 2 决策树 2 随机森林 投票分类 ︙ ︙ 训练数据集 I 决策树 I 图 6 随机森林算法框架图 随机森林的一般训练过程如下[24]: (1)从原始数据集 D 中有放回地随机抽取子集 D′ 作为训练数据集,且训练数据集的样本容量与原始数据 集一样。假设数据集 D 中样本个数为 n ,每次抽取每 个样本被抽到的概率为 1/n ,循环抽取 n 次,这样 D 中 每个样本未被抽取的概率为 (1 - 1/n)n ,当 n 足够大时, (1 - 1/n)n ≈ 0.368 ,即 D 中约 37%的样本不会出现,保证 了训练集的差异性。 (2)对 训 练 数 据 集 中 M 个 特 征 变 量 ,随 机 抽 取 m(M < M) 个特征,用来构建决策树,在每个节点上按 式(1)(2)选择信息增益最大的特征进行分裂,且不需要 剪枝,让这棵树完全生长。信息增益计算公式如下: Gain(A) = Entropy(D) - ∑ w j = 1 | Dj | D | | Entropy(D) = -∑ k pi lb pi i = 1 Entropy(Dj) (1) (2) 式中,i 为表 1 中 PM2.5浓度等级,pi 为 D 中每一浓度等 级发生的概率,w 为按属性 A 划分 D 的份数, | Dj | D 为 | | 第 j 个划分的权重。 (3)重复步骤(1)、(2),得到 N 棵决策树,组成随机 森林。 (4)输出结果。分类结果按对每棵决策树的结果投 票决定。 由上述训练过程可以知道随机森林在每棵决策树 的生成和学习中,采用随机抽取样本和随机选择特征这 两种方式,得到多个局部领域学习的弱分类器,从而组 成了一个全局的强分类器。因此,随机森林在避免过拟 合问题和降低泛化误差等方面表现优良。但是随机森 林的分类准确率严重依赖于单个分类器的准确率,保证 单棵决策树的分类能力可以提升随机森林的分类效 果。所以本文采用欠采样算法来减少类不平衡对决策 树性能的影响以及使用 K-Means 算法对训练样本聚类, 不同的聚类使用不同的预测模型,将每个模型的结果汇 总得出最终的预测结果。 不平衡数据分类问题,是指原始数据集中各个类别 的数据量分布不均衡的数据挖掘分类问题,即存在某一 个或一些类别的数据量远远少于其他类别的情况,如 表 3 所示:严重污染、重度污染以及中度污染的数据量 远远少于优、良和轻度污染的数据量。随机森林一般采 用 Bootstrap 方 法 生 成 训 练 数 据 集 ,而 对 于 2013 年 — 2016 年的空气质量数据集,Bootstrap 这种方法的缺陷就 是对中度污染、重度污染及严重污染考虑过少,从而决 策树对这三种类别学习到的规律和信息过少,使得随机 森林算法无法发挥原有的优越性,在对测试集分类时不 可避免地偏向优、良或轻度污染,影响不良天气的预测 准确率[25]。 表 3 2013 年—2016 年 PM2.5浓度各等级数据量 类别 个数 优 良 轻度污染 中度污染 重度污染 严重污染 10 099 8 909 4 979 3 371 783 471 解决不平衡数据分类最常用的简单有效的办法就 是从数据层面出发,调整原始数据集的分布来减少和消 除不平衡[26]。本文采用一种数据欠采样方法来改善类 不平衡对随机森林分类性能的影响,其基本思想如下: (1)从优、良和轻度污染这三个多数类中独立随机抽取 若干子集,且各子集的数据量与中度污染、重度污染以 及严重污染这三个少数类的数据量基本一致;(2)在中 度污染、重度污染及严重污染这三类中利用 Bootstrap 进 行采样,获得子集的数量与(1)中多数类得到子集数量 相同;(3)将少数类数据集与多数类数据集组合获得多 个平衡数据集。 4.3 K-Means 算法 K-Means 算法是一种无监督的基于划分的聚类算 法,其核心思想为:初始随机选择 k 个簇中心,按照最小 距离原则把待分类样本分到各个簇,并且在过程中不断 更新簇的中心点,直到获得满意的聚类结果。本文使用 K-Means 算法对 2013 年 1 月 1 日—2016 年 7 月 31 日的 气象数据进行聚类,得到每个模型训练集中的气象数据 集部分。 在使用 K-Means 算法进行聚类时,经过计算轮廓系 数,得到对气象数据聚为两类效果最佳,聚类中心由表 4 可得。同一类别中的数据相关性较高,而不同类别中的 数据相关性较小,簇 0 与簇 1 在气温、湿度及可见度等方 面差异性均较大。这样对不同的聚类使用不同的分类 模型,使得模型对同一聚类内的数据更有针对性,可以 减小误差,提高准确性。 表 4 气象数据聚类各类别中心 气象参数 气温/ ℃ 气压/ mmHg 湿度/% Cluster0 Cluster1 12.4 9.4 762.8 762.3 30.5 71.7 风向 东南 西南 风速/ (m ⋅ s-1) 天气情况 可见度/km 3.1 2.1 无、小雨或雪 霾 8.6 5.8 计算机工程与应用www.ceaj.org
218 2019,55(2) Computer Engineering and Applications 计算机工程与应用 数据预处理阶段 PM10浓度 等级 Cluster1 Cluster2 ClusterK … 平衡采样 Cluster1 随机森林 Bootstrap 采样 决策树构建 Cluster2 随机森林 Bootstrap 采样 决策树构建 … ClusterK 随机森林 Bootstrap 采样 决策树构建 预测 PM2.5 浓度等级 气象参数 K-Means 时间信息 周边站点 信息 4.4 PM2.5浓度等级预测模型 5.2 参数选择 图 7 基于随机森林和气象参数的 PM2.5浓度等级预测 根据第 3 章中的预测因子分析,将预测时间的气象 参数(气温、气压、温度、风向、风速、天气情况、可见度)、 预测时间点的时间信息以及所预测站点周边站点的前 一天与前两天 PM2.5 的浓度值作为输入,以预测该时间 点的 PM2.5浓度等级,模型结构如图 7 所示。训练数据使 用太原市 2013 年 1 月 1 日到 2016 年 7 月 31 日的空气质 量监测站桃园站 S6(1086A)数据及其气象数据,测试 数据使用该站点的 2016 年 8 月 1 日至 2017 年 7 月 31 日 的数据。 5 实验与分析 5.1 评价指标 根据具体应用场景不同,不同的分类器模型选择的 评价指标也不同。本文选用的评价指标是基于表 5 的 混淆矩阵。 表 5 混淆矩阵 预测为正类 预测为负类 实际为正类 实际为负类 TP FP FN TN 使用混淆矩阵,可以得到如下评价预测 PM2.5 浓度 等级性能的指标: TP + TN (1)精确度(Accuracy)= (2)召回率(Recall)= TP + FN + FP + TN TN TN + FP 或者 TP TP + FN TN TN + FN 或者 TP (3)准确率(Precision)= TP + FP (4)F 值(F-Score)= 2 × Precision × Recall Precision + Recall 精确度表示预测模型将所有样本正确预测的概率, 是最常用的指标之一。召回率反应了预测模型对某一 类的预测性能,值越大,代表这一类中越多的样本被预 测正确。准确率是指预测为某类样本的正确数量占所 有预测为该类样本数量的比例。 F 值是召回率和准确 率的调和值,两者相互作用,一个量增加会引起另一个 量减少。 由 4.3 节可知,本文利用 K-Means 算法将气象数据 进行聚类,对不同的类别建立不同的预测模型,使得模 型更有针对性,具体聚类个数的不同所建立的模型预测 结果如图 8 所示,由图可知,聚类个数为 2 时结果最佳。 当聚类个数增多时,每一类别的数据量在相对减少,每 一类别在建模时所学习的信息减少,使得模型的预测性 能变差。 标 指 价 评 0.80 0.75 0.70 0.65 0.60 0.55 2 召回率 准确率 精确度 3 4 聚类个数 5 6 图 8 K-Means 聚类个数与模型预测结果 影响随机森林算法性能的参数主要有两个,分别是 随机森林算法树的数量以及构建树时所用特征的数量, 图 9 展示了使用不同参数构建随机森林预测模型的结 果,考虑到时间消耗以及模型精确度,采用树数量为 800,特征个数为 5 来构建预测模型。 度 确 精 0.800 0.795 0.790 0.785 0.780 0.775 0.770 0 200 特征数量为 2 特征数量为 3 特征数量为 4 特征数量为 5 特征数量为 6 600 400 随机森林树的数量 800 1 000 1 200 图 9 随机森林算法参数选择与预测精度 5.3 实验结果 2016 年 8 月 1 日到 2017 年 7 月 31 日的数据共 4 426 计算机工程与应用www.ceaj.org234560.550.600.650.700.750.80评价指标聚类个数 召回率 准确率 精确度234560.550.600.650.700.750.80评价指标聚类个数 召回率 准确率 精确度234560.550.600.650.700.750.80评价指标聚类个数 召回率 准确率 精确度234560.550.600.650.700.750.80评价指标聚类个数 召回率 准确率 精确度0200400600800100012000.7700.7750.7800.7850.7900.7950.800精确度随机森林树的数量 ?????2 ?????3 ?????4 ?????5 ?????60200400600800100012000.7700.7750.7800.7850.7900.7950.800精确度随机森林树的数量 ?????2 ?????3 ?????4 ?????5 ?????60200400600800100012000.7700.7750.7800.7850.7900.7950.800精确度随机森林树的数量 ?????2 ?????3 ?????4 ?????5 ?????60200400600800100012000.7700.7750.7800.7850.7900.7950.800精确度随机森林树的数量 ?????2 ?????3 ?????4 ?????5 ?????60200400600800100012000.7700.7750.7800.7850.7900.7950.800精确度随机森林树的数量 ?????2 ?????3 ?????4 ?????5 ?????60200400600800100012000.7700.7750.7800.7850.7900.7950.800精确度随机森林树的数量 ?????2 ?????3 ?????4 ?????5 ?????6
任才溶,等:基于随机森林和气象参数的 PM2.5浓度等级预测 2019,55(2) 219 PM2.5各等级真实数量 优 良 轻度污染 中度污染 重度污染 严重污染 准确率 表 6 预测 PM2.5浓度等级混淆矩阵结果 PM2.5各等级预测数量 良 轻度污染 中度污染 重度污染 严重污染 205 1 253 90 27 11 1 28 61 320 27 7 3 4 3 43 185 17 11 2 3 14 26 267 26 0.789 0.717 0.703 0.792 0 0 4 12 20 158 0.815 优 1 357 181 44 11 4 1 0.849 召回率 0.850 0.835 0.621 0.642 0.819 0.795 条作为测试集,利用 4.4 节中的模型预测 PM2.5 浓度等 级,结果由表 6 的混淆矩阵展示。由表 6 可知,79.9%的 数据预测正确,且各个类别的预测准确率达到了 70%以 上,当 PM2.5浓度小于 75 μg/m3或者大于 150 μg/m3时,召 回率达到了 79%以上。 为了验证本文所选择特征和算法组合的有效性,分 别使用特征或算法的组合构建预测模型并使用上述测 试集进行测试,结果由表 7 所示。由表可得,每在模型 中加入一个特征或算法,PM2.5浓度等级预测结果的准确 率和召回率均会得到显著提升。 表 7 特征与算法选择结果 特征与算法选择 准确率 召回率 Fm Fm + Ft Fm + Ft + Fc 随机森林+平衡采样 随机森林+平衡采样+K-Means 0.599 0.622 0.697 0.724 0.777 0.542 0.574 0.646 0.712 0.759 本文也将 2016 年 8 月 1 日到 2017 年 7 月 31 日的数 据作为测试集利用其他统计模型及机器学习模型进行 测试,结果如表 8 所示。由表 8 可得,本文提出的模型在 精确度、召回率和 F 值上均比以前的模型有明显的提 升,表明本文所提出的模型与其他预测模型相比,具有 更高的预测精度。 表 8 算法效果对比 模型 精确度 召回率 多元线性回归 非线性回归 决策树 逻辑回归 支持向量机 神经网络 随机森林 本文方法 0.442 0.622 0.611 0.673 0.678 0.694 0.722 0.799 0.413 0.608 0.562 0.622 0.652 0.646 0.678 0.759 F 值 0.428 0.615 0.579 0.651 0.663 0.683 0.691 0.768 本文所提出的预测模型也使用太原市其他站点的 数据进行训练与测试,结果如图 10 所示,每个站点的预 测精度均超过了 70%,说明本文提出的方法具有普适性。 综合上述实验结果可以看出,本文所提出的 PM2.5 0.80 0.78 0.76 0.74 0.72 0.70 度 确 精 S1 S2 S3 S5 站点编号 S7 S9 图 10 其他站点预测精确度 浓度等级预测模型在真实数据集上得到了良好的运行 效果。 6 结束语 本文针对 PM2.5浓度等级预测问题提出了一种基于 随机森林和气象参数的方法。构建预测模型所选取的 气象参数、时间信息以及预测站点与周边站点 PM2.5 浓 度的关联性能较准确地描述 PM2.5 浓度变化的规律,用 于预测 PM2.5浓度等级有较高的准确率。引入欠采样方 法,降低了类不平衡对分类器性能的影响,提升了对不 良天气的预测准确率。使用 K-Means 算法,通过对不同 的聚类构建不同的预测模型,使得模型对同一聚类内的 数据更有针对性,更容易获得准确的预测值。以太原市 空气质量监测站桃园站 S6(1086A)2013 年 1 月 1 日— 2017 年 7 月 31 日的数据为实验数据,利用本文所提出的 模型进行训练与测试,验证了本文模型的有效性和优越 性。并且本文所提出的模型不仅适用于 S6 站,也适用 于其他站点 PM2.5浓度等级的预测,具有普适性。 参考文献: [1] Khaniabadi Y O,Goudarzi G,Daryanoosh S M,et al.Expo- sure to PM10,NO2,and O3 and impacts on human health[J]. Environ Sci Pollut Res Int,2016:1-9. [2] Megido L,Suárez-Peña B,Negral L,et al.Suburban air quality:human health hazard assessment of potentially toxic elements in PM10[J].Chemosphere,2017,177:284-291. [3] 杨鹏,刘杰 . 大气污染物时空变化规律及人工智能优化算 计算机工程与应用www.ceaj.orgS1S2S3S5S7S90.700.720.740.760.780.80精确度站点编号
220 2019,55(2) Computer Engineering and Applications 计算机工程与应用 法研究:以北京市为例[M]. 北京:科学出版社,2016. 度实时预报[J]. 测绘科学,2016,41(1):12-17. [4] Li Y,Chen Q,Zhao H,et al.Variations in PM10,PM2.5 in an urban area of the Sichuan basin and factors[J].Atmosphere, relation to meteorological and PM1.0 their 2015,6(1):150-163. [5] Huang R,Chun L.Seasonal variation characteristics and in Changsha,central city in forecasting model of PM2.5 China[J].J Environ Anal Toxicol,2017,7(1):429-435. [15] Jiang P,Dong Q,Li P.A novel hybrid strategy for PM2.5 concentration analysis and prediction[J].Journal of Envi- ronmental Management,2017,196:443-457. [16] Singh K P,Gupta S,Rai P.Identifying pollution sources and predicting urban air quality using ensemble learn- ing methods[J].Atmospheric Environment,2013,80(6): 426-437. [6] Lv B,Cobourn W G,Bai Y.Development of nonlinear empirical models to forecast daily PM2.5,and ozone levels in three large Chinese cities[J].Atmospheric Environment, 2016,147:209-223. [17] Deters J K,Zalakeviciute R,Gonzalez M,et al.Modeling PM2.5 urban pollution using machine learning and selected meteorological parameters[J].Journal of Electrical and Computer Engineering,2017(5):1-14. [7] Zhou G,Xu J,Xie Y,et al.Numerical air quality fore- casting over eastern China:an operational application of WRF-Chem[J].Atmospheric Environment,2017,153:94-108. [8] Li R,Zhang M,Chen L,et al.CMAQ simulation of atmo- spheric CO2,concentration in East Asia:comparison with GOSAT observations and ground measurements[J].Atmo- spheric Environment,2017,160:176-185. [9] Xia X,Zhao W,Rui X,et al.A comprehensive evaluation of air pollution prediction improvement by a machine learning method[C]//IEEE International Conference on Service Operations and Logistics,and Informatics,2016: 176-181. [10] Biancofiore F,Busilacchio M,Verdecchia M,et al.Recur- for analysis and forecast sive neural network model of PM10 and PM2.5[J].Atmospheric Pollution Research, 2017,8(4):652-659. [11] Oprea M,Mihalache S F,Popescu M.Computational intelligence-based PM2.5 air pollution forecasting[J].Interna- tional Journal of Computers Communications & Con- trol,2017,12(3):365-380. [12] Memarianfard M,Hatami A M.Artificial neural network forecast application for fine particulate matter concen- tration using meteorological data[J].Global Journal of Environmental Science and Management,2017,3(3): 333-340. [13] Loya N,Pinto D.Forecast of air quality based on ozone by decision trees and neural networks[C]//Mexican Inter- national Conference on Artificial Intelligence.Berlin,Hei- delberg:Springer,2012:97-106. [18] Brokamp C,Jandarov R,Rao M B,et al.Exposure assess- ment models for elemental components of particulate matter in an urban environment:a comparison of regres- sion and random forest approaches[J].Atmospheric Envi- ronment,2017,151:1-11. [19] Fang K N,Jian-Bina W U,Zhu J P,et al.A review of technologies on random forests[J].Statistics & Informa- tion Forum,2011. [20] Lahouar A,Slama J B H.Hour-ahead wind power fore- cast based on random forests[J].Renewable Energy,2017, 109:529-541. [21] Chen J,Lu J,Avise J C,et al.Seasonal modeling of PM2.5,in California’s San Joaquin Valley[J].Atmospheric Environment,2014,92:182-190. [22] Zhang C,Ni Z,Ni L.Multifractal detrended cross-correlation analysis between PM2.5 and meteorological factors[J]. Physica A Statistical Mechanics & Its Applications, 2015,438:114-123. [23] Larsen L C,Shah M.A context-intensive approach to imputation of missing values in datasets from networks of the Air & Waste Management Association,2016,66(1):38-52. environmental monitors[J].Journal of [24] Breiman L.Random forests[J].Machine Learning,2001, 45(1):5-32. [25] Khoshgoftaar T M,Golawala M,Hulse J V.An empirical study of learning from imbalanced data using random forest[C]//IEEE International Conference on TOOLS with Artificial Intelligence,2007:310-317. [26] 尹华,胡玉平 . 基于随机森林的不平衡特征选择算法[J]. [14] 朱亚杰,李琦,侯俊雄,等 . 基于支持向量回归的 PM2.5浓 中山大学学报(自然科学版),2014,53(5):59-65. 计算机工程与应用www.ceaj.org
分享到:
收藏