174
2015,51(15)
Computer Engineering and Applications 计算机工程与应用
AirVis:一个基于 Web 的空气质量数据可视分析系统
廖志芳 1,彭燕妮 1,李 永 1,赵 颖 2
LIAO Zhifang1, PENG Yanni1, LI Yong1, ZHAO Ying2
1.中南大学 软件学院,长沙 410075
2.中南大学 信息科学与工程学院,长沙 410083
1.School of Software, Central South University, Changsha 410075, China
2.School of Information Science & Engineering, Central South University, Changsha 410083, China
LIAO Zhifang, PENG Yanni, LI Yong, et al. AirVis:Web-based visualization analysis system for air quality data.
Computer Engineering and Applications, 2015, 51(15):174-178.
Abstract: With the increasingly serious air pollution, how to carry out effective methods to handle and analyze air quality
data has become an important issue. To analyze the air quality data, this paper uses information visualization techniques to
design a Web-based visualization system. It combines time series graphs, parallel coordinates, GIS maps and calendar and
provides users with a multi-view interactive vis-ual analysis tool for the air quality data. Experimental results show that
the system can complete the analysis of air quality data with high dimensionality and space-time characteristics better. It
also has the advantages of analyzing the major pollutants.
Key words: information visualization; visual analysis; parallel coordinates; Geographic Information System(GIS); calendar
chart; air quality data
摘 要:随着空气污染的日益严重,如何对空气质量数据进行有效的处理和分析已经成为一个重要的问题。使用信
息可视化技术对空气质量数据进行分析,设计了一个基于 Web 的空气质量数据可视分析系统,结合平行坐标、时间
序列图、日历图以及 GIS 地图四种可视化图形,为用户提供了多视图的空气质量数据交互可视分析工具。实验表明,
该系统可以较好地完成空气质量数据的高维性与时空性的特征分析,并且可以帮助分析主要污染物的关联特性。
关键词:信息可视化;可视分析;平行坐标;地理信息系统(GIS);日历图;空气质量数据
文献标志码:A 中图分类号:TP391
doi:10.3778/j.issn.1002-8331.1308-0203
1 引言
随着我国经济的不断发展,环境质量问题日益严
重,环境污染已经成为影响和制约我国经济可持续发展
的重要问题。为了对环境污染进行防治监控,环境监测
以及环保部门对各类重点污染源进行监控及管理。在
监控过程中,每天都会产生大量的、复杂的环境数据,日
益丰富的环境数据在一定程度上已经超过了传统数据
处理方法所能处理的程度。李升暾和许莅彦等[1]利用小
波变换、聚类分析以及自组织映射神经网络(SOM)等
数 据 挖 掘 方 法 对 台 湾 空 气 污 染 数 据 进 行 分 析 ;Karina
Gibert 等[2]提出将数据挖掘与智能决策支持系统结合起
来,帮助环保工作者分析环境数据。
信息可视化与可视分析是融合多个学科的综合性
的研究领域,旨在利用图形图像将大量复杂的高维数据
进行直观显示,提供有效的交互手段,帮助提高人们的
认知能力,从而发现隐藏的模式与规律。有很多研究者
将信息可视化和可视分析技术运用到空气质量数据分
析中。屈华民等[3]利用极坐标、平行坐标[4],将两种传统
技术进行改进,对香港空气污染问题进行分析;Chad A.
Steed 等 [5]对平行坐标、散点图 [6]以及 brushing[7]等可视化
基金项目:国家自然科学基金(No.61103108);湖南省自然科学基金(No.12JJ3062,No.12JJ3074)。
作者简介:廖志芳(1968—),女,博士,副教授,研究领域为数据挖掘,推荐系统;彭燕妮(1989—),女,硕士研究生,中国计算机学
会(CCF)学生会员,研究领域为信息可视化,可视分析;李永(1990—),男,硕士研究生,研究领域为信息网络,可视分
析;赵颖(1980—),男,博士,博士生讲师,研究领域为信息可视化,可视分析。E-mail:peng_yanni_csu@163.com
收稿日期:2013-08-15 修回日期:2013-11-26 文章编号:1002-8331(2015)15-0174-05
CNKI 网络优先出版:2014-01-15, http://www.cnki.net/kcms/doi/10.3778/j.issn.1002-8331.1308-0203.html
廖志芳,彭燕妮,李 永,等:AirVis:一个基于 Web 的空气质量数据可视分析系统
2015,51(15)
175
技术进行了研究,对数据的高维性以及相关性进行可视
分析,并且提供了良好的交互平台;张志远等[8]对 google
地球进行改进,直观、动态地展现数据的空间信息。
虽然有很多学者对空气质量数据可视分析进行研
究,但是已有的方案也存在一些问题:(1)空气质量数据
的研究很少采用《环境空气质量标准》(GB3095-2012),
下文中简称为新标;(2)空气污染研究中,对污染来源以
及时空性分析较多,但是利用可视分析方法分析主要污
染物并不多见;(3)分析视图较为单一,很少同时体现数
据的高维性、时空性以及复杂性。
针对上述问题,本文给出了一个基于 Web 的空气质
量数据可视分析系统——AirVis 系统,用户只需要通过
浏览器访问,就可以连接到该系统。
2 空气质量数据分析
本文研究的数据为空气质量数据,在进行空气质量
数据可视分析工作中的困难主要有:
(1)数据高维度。在新标中,空气污染监测项为 6 项
(表 1),在查看或分析原始数据时,分析者在手工处理这
些原始数据时会十分繁琐且容易出错,如果借助可视化
方法直观地表示分析这些属性,将会提高数据处理效率。
表 1 监测站点监测数据的数据属性
属性名称
简述
PM2.5
PM10
SO2
NO2
O3
CO
PM2.5 为 2012 年新增监测项目,指大气中
粒径小于或等于 2.5 μm 的颗粒物
大气中粒径小于或等于 10 μm 的颗粒物
空气中的 SO2含量
空气中的 NO2含量
空气中的 O3含量
空气中的 CO 含量
单位
μg·m-3
μg·m-3
μg·m-3
μg·m-3
μg·m-3
mg·m-3
(2)数据量大。海量的空气质量数据是进行分析的
基础,数据分析者在使用一些统计以及查询工具进行数
据分析时,很容易陷入一些数据细节问题,并且面对大
量的数据是非常枯燥的,所以利用合理的图形图表对数
据进行合理的表示,结合动态交互,必定可以提高数据
分析和处理的效率。
(3)数据时空性。数据空间性主要体现在各个不同
的监测站点监测空气污染状况;新标中规定数据每小时
更新一次,而要在原始的统计数据中发现数据的时间以
及空间规律是很困难的,如果将数据转化成可视图形,
就可以很好地帮助分析数据。
可视化方法不仅可以用于数据的理解和分析,也可
用于空间以及时间知识的呈现。空气质量数据可视分
析利用人的感知,并且提供好的可视分析方法,帮助人
们发现问题以及解决问题。
3 设计与实现
AirVis 系统根据数据的特性,提供合适的可视分析
方法,对空气质量数据进行直观深入的分析。系统结合
多种视图——平行坐标、GIS 地图、日历图以及时间序
列图,利用各个视图间的动态交互,对空气质量数据进
行直观深入的分析。系统主要界面如图 1 所示。
图 1 系统主要界面
3.1 系统着色标准
在 AirVis 系统中,利用人对于色彩的敏锐感知能力
来帮助人们理解和分析数据,采用了两种着色设计——
AQI 着色 [9]以及 PUL 着色,以便于更好地了解和分析空
气质量数据。
PUL 着色利用浅灰代表 CO,浅绿代表 O3,深蓝代表
NO2,棕色代表 SO2,黑色代表 PM10,深灰代表 PM2.5。
AQI 着色是按照所计算出的 AQI 取值大小着色,分为 6
个等级,数值越大,则其对应的等级越高。等级越高,表
明空气污染情况越严重,对人体危害越大,具体分级标
准以及对应着色见文献[9]。在系统中,平行坐标与日
历图采用 AQI 着色,GIS 地图饼状图与时间序列图采用
PUL 着色。
3.2 高维数据可视化
AirVis 系统利用交互式平行坐标进行高维数据可
视化,它是信息可视化的一种重要技术,是一种最为传
统的高维数据可视化方法(图 2(a))。
c
N - 1
c
N - 2
c
N
c
2
c
1
…
c
3
(a)原始平行坐标表示
(b)平滑曲线连接轴上的点
多维数据示意图
(c)将折线以 AQI 标准着色
图 2 平行坐标
原始的空气质量数据监测项有 6 项,为了让人们对
空气污染程度有更加直观的认知,在 AirVis 系统中,为
了对空气质量进行客观的评价以及分析,在利用平行坐
标进行高维原始数据可视化时增加了 AQI 维度以及 6
176
2015,51(15)
Computer Engineering and Applications 计算机工程与应用
个污染物分指数 IAQI[9]维度。
计算 AQI 首先要计算各个污染物的空气质量分指
数,其计算公式如下所示:
- IAQI
- BP
IAQI
BP
IAQI
=
Hi
P
Hi
Lo
Lo
(C
P
- BP
Lo
) + IAQI
Lo
(1)
P
其中:IAQI
表示污染物项目 P 的质量浓度值;BP
表 1 与 C
表示污染物项目 P 的空气质量分指数;C
P
表示文献[9]中
指文
相近的污染物浓度限值的高位值;BP
Hi
Lo
表示文献[9]中表 1 与 BP
相 近 的 污 染 物 浓 度 限 值 的 低 位 值 ;
对应的空气质量分指
对应的空气质量
Hi
表示文献[9]中表 1 与 BP
Lo
p
献 [9]中 表 1 与 C
P
Hi
IAQI
数;IAQI
分指数。
Lo
第二步是从各个污染物的 IAQI
中选择最大的值
P
作为 AQI,公式如下:
}
n
IAQI
2
IAQI
AQI = max{IAQI
(2)
1
AirVis 在采用平行坐标表示大量高维数据时,利用
的平滑曲线连接平行坐标上的点(图 2(b)),并且通过
AQI 的分级着色标准 [9]对连线进行着色(图 2(c)),减少
折线杂乱现象。同时用户还可以利用维度选择、维度重
排技术,根据自身需要来增加或减少平行坐标的维度,
并且调整坐标轴的位置,这样用户可以把属性关系比较
密切的坐标轴放在相邻位置,从而更好地呈现以及分析
这些属性之间的关系;此外,在未知各个属性之间的关
系时,用户可以试探性地调整坐标轴次序,有助于发现
属性间隐含的关系。
3.3 空间信息可视化
AirVis 系统利用 GIS 地图对空间信息进行可视化表
示,主要利用它来进行区域可视选择,它可以供用户手
动选择所关心的地区,了解该地区的空气污染情况。图 3
为 AirVis 系统中的 GIS 地图,地图部分主要由菜单栏,饼
状图以及地图组成,地图主要用于地域显示,用户可以
进行地域选择;饼状图体现监测站当前的最新监测值,
可以让用户对实时的空气污染情况有所了解;菜单栏部
分也可以进行地域选择,主要用于多个地域对比选择。
图 3 GIS 地图
图 3 中选择了奥体中心监测站点进行详细分析,并
且在菜单栏中选定了 6 个监测站:奥体中心、万柳、东四
环、前门、延庆以及怀柔,用于多地域空气污染情况对比。
3.4 时序信息可视化
在 AirVis 系统中,充分考虑到了空气污染数据的时
序特征,利用时间序列图(图 4(a))以及日历图(图 4(b))
来体现数据的时间特性,帮助分析数据。
图 4(a) 时间序列图
图 4(b) 日历图
时间序列图用于体现数据的整体时间分布,并且帮
助用户进行数据集的选择。时间序列图利用了 brushing
技术、维度选择等技术,用户可以自主选择感兴趣的数
据集,所选定的数据集在平行坐标轴上显示。图中的每
种颜色都代表着一种污染物质,通过时间序列图可以了
解到某地区近期污染状况。
日历图用于进一步细化时间段,可视显示小时数
据。图 4(b)中显示的为时间序列图中所选择的时间段
的数据集的细节部分,横轴为 24 h(0 到 23),纵轴为数据
所属日期,数据由左到右,自上向下排列,每一个矩形框
表示一条数据。日历图着色也以 AQI 着色为标准,它主
要用来体现时间点的空气污染情况,如图 4(b)所示,可
以大致知道在该地区的 2 月 22 日凌晨 4 点到上午 11 点,
该地区空气为重度污染,而在其余时间空气质量比较
好。同时通过日历图的选择可以很好地分析出主要污
染物以及超标污染物。
4 实验结果
4.1 实验数据
北京市环境保护监测中心属国家环境监测一级站,
主要为政府部门执行各项环境法规、标准以及全面开展
环境管理工作提供准确、可靠的监测数据和资料。监测
站点中数据每小时更新一次,实时发布空气质量信息以
及空气污染数据。在实验中,主要利用自主抓取北京市
环境保护监测网站的实时发布数据并且保存数据,用于
实验。
廖志芳,彭燕妮,李 永,等:AirVis:一个基于 Web 的空气质量数据可视分析系统
2015,51(15)
177
4.2 可视化关联分析
在进行空气质量数据可视分析工作中,对数据属性
之间的关联分析,可以了解各个污染物之间的关系,发
现一些隐藏的信息。
该系统借助平行坐标来对属性之间的相关性进行
探索,下面是在平行坐标视图中,属性之间的正相关以
及负相关的显示效果。图 5 体现了平行坐标维度重排
后,对污染物之间的属性关系探索。
日历图可以进一步对主要污染物进行分析与研究,
了解 PM2.5 是否为奥体中心 2 月 22 日到 2 月 28 日的首
要污染物。图 7 是根据奥体中心的每小时的 AQI 值来
着色的,从中可以看出奥体中心在 25 日、27 日以及 28 日
基本处于重度污染,空气质量并不乐观,从总体上看,将
近这一周的时间仅仅 23 日空气质量较好。
NO2和 O3之间有明显
PM10和 PM2.5之间有
明显的并行分布
注:选取数据为奥体中心 2 月 22 日到 2 月 28 日的数据
的“X”型分布
SO2和 O3之间有明显
的“X”型分布
图 5 平行坐标维度调整与相关性探索
属性间的正相关关系:PM2.5 与 PM10 同属一个大
类(悬浮颗粒,见表 1),所以 PM10 是包含 PM2.5 的,两
者呈强线性关系。如图 5 第 6 个轴(PM10)与第 7 个轴
(PM2.5)之间的折线所呈现的并行规律,之所以呈现出
这种现象是因为利用平行坐标探索相关性时,主要是通
过平行坐标图上的线的配置来可视化探索的。
属性间的负相关关系:负相关关系在平行坐标中会
呈现很明显的“X”型分布。图 5 中第 3 个轴(NO2)与第 4
个轴(O3)之间的折线呈很明显的“X”型关系,第 4 个轴
与 第 5 个 轴(SO2)之 间 的 折 线 也 呈 现 明 显 的“X”型 关
系。这说明 NO2与 O3以及 SO2与 O3是呈负相关的,这与
化学反应也是符合的,强的氧化剂 O3与 NO2和 SO2是成
反比的。
4.3 主要污染物与超标污染物分析
通过调整平行坐标轴的位置并且与 AQI 轴对应可
以有利于分析出该地区的主要污染物。
图 6 为经过坐标位置重排后的平行坐标,从中可以
看出 AQI 与 PM2.5 之间的折线分布基本是并行的,所以
初 步 可 以 确 定 AQI 大 多 数 情 况 下 由 PM2.5 的 IAQI 决
定,不过这还需要进行进一步的分析。
注:选取数据为奥体中心 2月 22日到 2月 28日的数据
图 6 平行坐标分析首要污染物
(a)AQI
(b)CO
(c)SO2
(d)PM10
(e)PM2.5
(f)O3
(g)NO2
注:2013 年奥体中心 2 月 22 日 18 点到 2 月 28 日 23 点数据
图 7 空气污染分布对比
图 7(b)~(g)分别为是以 CO,SO2,PM10,PM2.5,O3
以及 NO2分指数进行着色的日历图。图 7 中最为明显的
现象就是图 7(a)与图 7(e)的分布几乎一样,(e)是根据
PM2.5 分指数的取值着色,这就代表着,PM2.5 的 IAQI 取
值与该地区该段时间的 AQI 取值基本一致。所以在 2 月
22 日到 2 月 28 日,奥体中心的首要污染物确定为 PM2.5。
这也对应了在 2013 年 2 月,北京雾霾天气严重的事实,
而造成雾霾天气的主要元凶就是 PM2.5。
从图 7 中可以观察出,(d)图中的日历图的颜色分
布基本为黄色、橙色、红色以及紫色,对应于文献[9]中
的颜色标准来看,(d)图所代表的污染物 PM10 是奥体
中心的一种超标污染物。其余污染物的 IAQI 值基本处
于稳定状态,污染物含量稳定,对空气污染的贡献是很
小的。
4.4 多地域空气污染情况对比分析
在本案例中选取 3 类监测站点中的 6 个监测点,其
中城区环境评价点中的监测站点 2 个图 8(a)、(b);郊区
环境评价点监测站点 2 个图 8(e)、(f);交通污染监控点
监测站 2 个图 8(c)、(d)。
图 8 显示 2 月 22 日到 2 月 28 日 6 个地区总体的 AQI
值的分布,前 4 个地区的 AQI 总体分布为重度污染和严
重污染,空气质量并不乐观,(e)、(f)相对于其他 4 个地
区的空气质量来说是比较好的。
图 8 中(a)与(b)为城区监测点,它们的 AQI 分布基
本一致,两地总体呈现白天空气质量要比晚上空气质量
差,而呈现出这种环境状况主要是由于城区白天的空气
污染压力较晚上来说要大很多,白天因为人为活动以及
178
2015,51(15)
Computer Engineering and Applications 计算机工程与应用
(a)奥体中心
(b)万柳
(c)东四环
(d)前门
(e)延庆
(f)怀柔
注:数据为 2 月 22 日到 2 月 28 日奥体中心、万柳、东四环、
前门、延庆以及怀柔的数据
图 8 多地域空气质量对比
汽车尾气排放等等,造成空气质量变差,而夜晚各种活
动减弱,空气得到改善。(c)与(d)为交通污染监测点,其
空气污染主要是交通,东四环为北京四环路的东段,连
接机场高速路和京津塘高速,交通压力较大。(d)处于交
通干道,交通压力比较大。(e)与(f)属于北京郊区,环境
质量要好很多,两地空气质量多数处于中度污染及以下。
参考文献:
[1] Li S T,Shue L Y.Data mining to aid policy making in
air pollution management[J].Expert Systems with Appli-
cations,2004,27(3):331-340.
[2] Gibert K,Sànchez-Marrè M,Sevilla B.Tools for environ-
mental data mining and intelligent decision support[C]//
2012 International Congress on Environmental Modelling
and Software,2012.
[3] Qu H,Chan W Y,Xu A,et al.Visual analysis of the air
pollution problem in Hong Kong[J].IEEE Transactions
on Visualization and Computer Graphics,2007,13(6):
1408-1415.
[4] 胡俊,黄厚宽,高芳.一种基于平行坐标的度量模型及其应
用[J].计算机研究与发展,2011,48(2):177-185.
[5] Steed C A,Shipman G,Thornton P,et al.Practical applica-
tion of parallel coordinates for climate model analysis[C]//
Proceedings of the International Conference on Compu-
ö
tational Science,2012:877-886.
[6] Thomas N,Schumann H,B
hm U.Methods for the visu-
alization of clustered climate data[J].Computational Sta-
tistics,2004,19(1):75-94.
5 结束语
本文描述的 AirVis 系统是一个基于 Web 的空气质
量数据可视化系统,主要利用平行坐标、时间序列图、日
历图以及 GIS 地图等技术,实现对空气质量数据的多视
图协同分析,达到了从不同角度分析空气质量数据的
目的。
未来工作主要集中在以下 2 个方面:(1)引入空气
与气象的相关性分析;(2)加强时空关联分析,尝试分析
污染物来源地点以及始发时间。
[7] Hauser H,Florian L,Helmut D.Angular brushing of extended
parallel coordinates[C]//IEEE Symposium on Information
Visualization,INFOVIS 2002,2002.
[8] Zhang Zhiyuan,Tong Xiaonan,Kevin T,et al.An interac-
tive visual analytics framework for multi-field data in a
geo-spatial context[J].Tsinghua Science and Technology,
2013,18(2):2-15.
[9] 环境保护部.HJ633-2012 中华人民共和国国家标准-环境
空气质量指数(AQI)技术规定(试行)[S].北京:中国环境
科学出版社,2012-02-29.
(上接 147 页)
[7] 姚天昉,娄德成.汉语语句主题语义倾向分析方法的研究[J].
中文信息学报,2007,27(5):73-79.
[8] 刘鸿宇,赵妍妍,秦兵,等.评价对象抽取及其倾向性分析[J].
中文信息学报,2010,24(1):84-88.
[9] 章剑锋,张奇,吴立德,等.中文观点挖掘中的主观性关系
抽取[J].中文信息学报,2008,22(2):55-59.
[10] Wei Jin,Ho H H,Srihari R K.OpinionMiner:a novel
machine learning system for Web opinion mining and
extraction[C]//The 15th ACM SIGKDD International
Conference on Knowledge Discovery and Data Mining,
2009:1195-1204.
征分析研究[J].福州大学学报,2012,40(5):584-590.
[12] Abney S.Bootstrapping[C]//Proceedings of
the Annual
Metting of the Association for Computational Linguis-
tics,2002:360-367.
[13] Thelen M,Riloff E.A bootstrapping method for learning
semantic lexicons using extraction pattern contexts[C]//
Proceedings of
the ACL-02 Conference on Empirical
Methods in Natural Language Processing,2002:214-221.
[14] Zhang Shu,Xia Yingju,Meng Yao,et al.A bootstrapping
finer-grained opinion mining using graph
method for
model[C]//PACLIC,2009:589-595.
[15] 宋晓雷,王素格,李红霞.面向特定领域的产品评价对象
[11] 郑敏洁,雷志城,廖祥文,等.中文句子评价对象抽取的特
自动识别研究[J].中文信息学报,2010,24(1):89-93.