1基于双层组合神经网络的川芎道地产区土壤重金属污染评价与 GIS 可视化
王芬 1,2 彭国照 1* 蒋锦刚 2
(1 中国气象局成都高原气象研究所, 成都 610071 ;2 成都信息工程学院资源环境学
院, 成都 610225)
摘要:为了对土壤重金属污染进行评价,以四川省川芎道地产区为例,本文通过对道地川芎
主产区--都江堰、崇州、新都等 15 地土壤的重金属元素取样检测分析,采用双层组合神经
网络和 GIS 空间分析技术综合评价川芎道地产区土壤重金属污染。结果表明:研究区大部
分区域处于轻度重金属污染状态,处于中度污染状态的区域为崇州、都江堰和彭州区域。并
且基于双层组合神经网络和 GIS 的研究方法,可以在只具有少量数据的情况下对数据进行比
较精确的空间分析,能够在满足一定精度分析的原则下适当的降低采样分析成本。通过本研
究可以为川芎的生产布局和川芎 GAP 生产提供科学依据。
关键词:双层组合神经网络;污染评价;川芎;重金属;GIS;
中图分类号:X825 文献标识码:A
0 引言
川芎是道地的四川名贵中药材之一,川西平原的都江堰市、崇州等地是川芎的主产区。
近年来,四川省委、省政府将中药材产业作为四川的一项支柱产业着力发展,川芎被列入《中
药现代化科技产业基地》开发项目,都江堰、彭州、郫县列为川芎产业基地,促进了川芎生
产的发展。但是,川芎产品中所含的重金属元素对川芎品质形成产生重要作用,超过一定限
度则对人体有害。国际上不断提高了进口农产品中重金属元素含量的限制指标,因此重金属
含量的多少直接影响到川芎产品的出口。
文献[1]指出,中药材中重金属的含量主要来源于种植环境,特别是土壤和水中的重金属
含量直接与产品中的重金属金属含量密切相关。但是目前对川芎道地产区土壤中重金属污染
研究还很少,在一定程度上影响了优质川芎的生产布局,也影响了川芎产业的发展。
近几年国内外学者针对不同地区已进行了很多土壤环境调查及质量评价方面的研究工
作[2-8] 。主要研究方法为有针对性的从野外采集样品,实验室分析重金属含量的基础上,采用
污染指数等方法进行土壤环境评价,分析土壤环境污染状况和可能的污染源。本文在野外系
统采样和测试分析的基础上,通过 BP 神经网络对分析数据加密插值,采用双层组合神经网络
和 GIS 空间分析技术综合评价川芎道地产区土壤重金属污染,旨在为川芎道地产区的污染
防治提供依据。
1 资料来源
在成都平原川芎主产区的都江堰、崇州、新都、彭州等地选择不同土壤点,用 GPS 确定
各取样点的经纬度和海拔位置(如图 1),按照统一标准进行采样,采样土壤厚度 30cm,按
作者简介:王芬(1982-),女(汉族),福建浦城人,成都信息工程学院在读研究生,研究方向为气候与生
态环境。Email:wangfen909@chinaren.com
通讯作者:彭国照(1958-),男(汉族),四川遂宁人,中国气象局成都高原气象研究所研究员,正研级高
工,从事农业环境和农业气候资源开发研究。Email:pgzhao567@126.com
1
10cm 一层分为 3 层,每层采取土样 500g。样品取回在实验室荫干、碾碎再将同一采样点的
3 层土壤均匀混合,代表 0-30cm 土壤的平均土样,再将土样送四川省农业厅土肥站进行化
验分析。为了确保土样的金属元素含量不受采样工具的影响,我们首先采用铁锄挖出 50cm
深的剖面,然后用竹块将整个剖面削去 10cm 厚的 1 层,再取各层完全没有与金属工具接触
的土壤作为样品,检测了对川芎品质有重要影响的 Pb、As、Cr、Hg、Cu 和 Cd 等 6 个元素。
利用 GIS 系统[9-11]的空间分析技术分析 6 个元素的分布特征。
图 1 研究区域内的采样点与加密点分布
Fig.1 Sampling location in research area
2 处理方法
2.1 传统指数评价模型
对土壤环境质量进行评价时所采取的评价方法多种多样,主要有污染指数法、污染程度
法, T 值分级法、基准分级法、密切值法和模糊数学综合评判法、灰色聚类法等。文献[12]
给出了采用污染指数法和GIS 空间分析技术对德兴地区土壤的环境质量进行现状评价。由于
地域差异等各种因素的影响,污染指数法没有统一的评价标准。通常进行土壤环境质量评价
时,参照中国土壤环境质量标准(GB15618-1995)来确定研究的评价标准(表1)。具体的
单因子污染指数法如下[12]:
P
i
i
(1)
C
S
i
式中: iC 为土壤中污染中污染元素 i 的实测值; iS 为土壤中污染元素 i 的评价标准。采用
X
a
X
a
、、
X
c
、、
X
c
X
X
p
p
分别代表土壤污染积累起始值、中度污染起始值和重度污染起始值(如表1),
与 iP 的计算关系如公式(2)所示。
2
P
i
1
2
3
C
X
C
i
X
c
C
X
C
X
i
i
p
p
i
C
i
X
a
a
a
a
X
X
X
c
X
X
p
X
c
c
X
a
C
i
X
c
X
c
C
i
X
p
C
i
X
p
(2)
根据式(2)计算得到污染指数值来对重金属的污染程度进行评价,其中
1iP 为非污
染状态;
1
iP
2
为轻污染状态;
2
iP
3
为中度污染状态;
3iP
为重污染状态。
为了全面、综合地反映多种污染物的整体污染水平,因此,需要一种同时考虑多种污染
物综合污染水平的多因子评价方法,即将单因子污染指数按一定方法综合。常用的方法有内
梅罗指数法,它兼顾了单因子污染指数的平均值和最高值,能较全面地反映环境质量,而且可
以突出污染较重的污染物的作用,其计算公式如下:
1
n
i
P
C
S
i
i
2
2
C
S
i
i
2
max
(3)
式中: P 为土壤污染元素综合污染指数; iC 为土壤中污染元素i 的实测值; iS 为土壤中污
染元素i 的评价标准。同单因子污染评价程度一样, 1P 为非污染状态;
1
P
2
为轻污
染状态;
2
P 为中度污染状态;
3
3P 为重污染状态。
表1 土壤污染评价标准的建议范围与数值
Table 1 Assessment standard of heavy metals in soils
污染积累起始值
中度污染起始值
重度污染起始值
aX
610/
cX
610/
pX
610/
0.15
90
0.2
35
35
15
0.30
250
0.3
50
250
30
1.5
400
1.0
400
500
60
元素
Hg
Cr
Cd
Cu
Pb
As
2.2 双层组合神经网络模型原理
BP 网络是一种有教师指导训练方式的前馈神经网络。它一般由输入层、隐层和输出层
3层网络组成,相邻两层节点之间通过权值连接。其基本思想是:从网络输入节点输入的样本
信号向前传播,经隐层节点和输出层节点处作用函数作用后,在网络输出节点获得输出。若在
3
输出节点得不到样本的期望输出,则建立样本的网络输出值与其期望输出值的误差信号,并
将此误差信号反向传播,去逐层修改网络的连接权值和阈值。这种信号正向传播与误差信号
逆向传播修改权值和阈值的过程反复进行,直到整个训练样本集的网络输出误差满足一定的
精度要求或达到设定的训练次数为止[13]。BP神经网络的激励函数、学习速率、中间层的个数
和隐层神经元数的选择对模型的学习速度和训练精度有明显影响, 但目前中间层数和隐层
神经元数的选择主要仍是采用“试错”方法或凭经验选取。
在实际工作中,由于各种原因使得我们需要分析的土壤重金属样本十分有限,如何有效
利用这些样本,并实现空间可视化,就必需根据现有的空间相关知识进行必要的建模处理,
增加分析数据的信息量和可靠性。基于双层组合神经网络的土壤重金属污染评价与 GIS 可视
化过程的主要思想是首先利用实地采样分析的样本数据加上该样本的高程,进行神经网络学
习,而后利用学习好的网络对研究区加密的样本点进行重金属含量预测;在对土壤重金属污
染进行评价时,先根据土壤重金属污染相关标准进行学习,把加密样本点的预测值导入网络,
对加密点的土壤污染状况作出评价,最后利用 GIS 空间分析功能实现土壤污染状况连续空间
的可视化过程,基本过程如图 2 所示。
图 2 双层组合神经网络模型结构图
Fig.2 The structure of double-layer BP
2.2.1 建模样本归一化处理
为了方便BP网络模型的构建和增强训练效果及验证网络的泛化能力,原始数据通常需要
4
进行等价的归一化预处理,把训练样本数据归一化到-1和1之间。本文在利用MATLAB软件进
行双层BP神经网络模型构建时,采用MATLAB提供的premnmx函数进行归一化处理,然后利
用postmnmx 函数对模拟数据进行运算,使其重新返回原来的量纲和量级。postmnmx 函数归
一化的计算原理如下:
~
z
i
z
i
(2
(
z
max
z
z
)
)
min
min
1
(4)
式中: iz~ 为归一化的数值; iz 为样本值; minz 为样本中最小值; max
z 为样本中最大值。
2.2.2 样本的神经网络插值加密
为了有效提高分析数据的信息量,提高重金属综合评价及其空间分析精度,本文采用BP
神经网络的方法对数据进行加密插值,利用BP神经网络的方法可以有效的将研究区域内的海
拔高程融入网络,提高网络的稳定性和精度[14-17],尤其是在小样本进行插值的情况下精度提
高更为明显[18]。3层BP神经网络理论上能够逼近任何有理函数,网络层数的增加可逐步降低拟
合误差, 但同时也使网络复化。本文插值采用Matlab6.5工具箱构建BP神经网络, 对3层网络
进行训练。传递函数选择目前常用的共轭梯度反向传播算法进行训练。隐层单元、输出层单
元的激励函数分别采用双曲正切函数和线性函数。运用实际采样分析重金属Hg、Cr、Cd、Cu、
Pb、As数据作为训练样本,采用学习率
02.0lr
对网络进行训练,通过调整隐含层神经元
个数来确定网络结构, 最终确定隐含层神经元个数为11 时, 网络具有误差收敛速度快、拟
合误差小和泛化能力强的优点。因此, 本研究BP神经网络的拓扑结构定为3∶11∶6。
2.2.3 土壤污染的神经网络评价
为了正确和可靠地应用BP网络进行土壤重金属污染水平的综合评价,生成足够多的符合
土壤重金属评价标准的训练样本是神经网络具有良好评价精度和泛化性能的关键所在。根据
表1所给的土壤污染评价标准的建议范围与数值,如果
Cu
Hg
kg
时,各项指标都属于非污染状态,此样点土壤重金属的综合污染评价指数肯定为小于1。因
15.0
mg
35
mg
2.0
mg
mg
,
kg
Cr
,
kg
Cd
mg
/
mg
/
,
kg
Pb
/
,
kg
90
/
,
kg
As
/
/
此在训练样本的选择和生成上,根据表1的污染指标区间进行等差生成序列数值,评价目标
训练值也采用等差生成序列数值,其中重度污染以上的样本上限分别定为重度污染起始值的
3倍,具体训练样本的构成如表2所示。
表2 评价训练样本的等差序列数值
Table 2 Assessment standard of heavy metals in soils
污染积累起始值
中度污染起始值
重度污染起始值
pX
610/
0.9
325
1.2
362.5
重度污染值
pX
610/
1.5
400
1.0
400
500
2.25
600
1.5
600
750
3.0
800
2.0
800
1000
3.75
1000
2.5
1000
1250
4.5
1200
3.0
1200
1500
元素
Hg
Cr
Cd
Cu
Pb
22.5
0.05
8.75
8.75
aX
610/
cX
610/
0.0375
0.075
0.1125
0.15
0.1875
0.225
0.2625
0.30
0.6
45
0.10
67.5
0.15
90
130
0.20
0.225
170
0.25
210
250
287.5
0.275
0.30
0.475
0.65
0.825
17.50
26.25
17.50
26.25
35
35
38.75
42.25
46.25
50
137.5
88.75
142.50
196.25
250
312.5
225
375
312.5
437.5
5
As
3.75
目标值 0.25
7.50
0.50
11.25
0.75
15
1
18.75
1.25
22.5
1.5
26.25
1.75
30
2
37.5
2.25
45
2.5
52.5
2.75
60
3
90
4.5
120
6
150
7.5
180
9
3 结果分析
3.1 BP 网络值加密结果
对成都平原川芎主产区的都江堰、崇州、新都、彭州等地选择的 15 个土壤点测试值进
行分析,土壤样品测试值的统计特征如表 3 所示。
图 3 BP 网络加密训练误差曲线
Fig.3 Error curve of adding density train with BP
图3是BP网络加密训练误差曲线,表3是对原始的15个土壤样品测试值和加密后的54个值
进行统计分析,从图中以及表可以看出,对各训练样本设计的网络结构及相关参数的确定,
得到的网络都具有误差收敛速度快、泛化能力强的优点。
表 3 样品测试值和加密后插值预测值统计分析
Table 3 Statistical analysis of samples’ test values and predictive values
/mg·kg-1
元素
名称
Hg
Cr
Cd
Cu
Pb
As
样本
个数
15
15
15
15
15
15
最小
值
0.024
36.23
0.14
18.10
23.35
7.40
实测值
最大值 均值
0.39
117.50
0.73
38.54
37.12
13.34
0.12
60.73
0.32
30.84
31.09
10.6
标准
差
0.10
21.85
0.19
5.46
3.67
2.01
样本
个数
54
54
54
54
54
54
最小
值
0.024
36.29
0.14
18.10
21.21
7.41
加密值
最大值 均值
0.39
116.75
0.73
38.35
37.12
13.31
0.17
57.93
0.38
31.31
31.04
9.95
标准
差
0.14
21.90
0.23
5.69
4.04
2.19
从表 3 可以看出,样品测试值和加密后的神经网络插值预测值都相差不大,其中最小值
中相差最大的是 Pb 元素,相差为 2.24mg/kg,相对误差百分比为 9.59%;最大值中相差最大
的是 Cr 元素,相差为 0.75mg/kg,相对误差百分比为 0.64%;平均值中相差最大的也是 Cr
元素,相差为 2.8mg/kg,相对误差百分比为 4.61%;综上可以看出加密后的神经网络插值预
测值其统计特征与样品测试值误差并不是很大,其插值结果数据可靠。
3.2 BP 网络评价分析
首先利用表 2 中的归一化数值进行神经网络学习,而后对 BP 网络加密后预测值进行评
价,对单个因子进行评价时采用拓扑结构为 1∶m∶1,对多个因子进行综合评价时网络模型
6
的拓扑结构定为 6∶m∶1,m 为隐含层个数,根据实际建模时试验确定,表 4 是 BP 网络评价
模型相关试验参数。
表 4 BP 网络评价模型相关试验参数
元素
Hg
Cr
Cd
Cu
Pb
As
综合评价
轮回次数
8
7
18
14
9
11
6
Table 4 The relevant test parameters of BP Evaluation model
隐含层个数m
训练误差目标
学习率
6
8
8
7
9
7
12
0.02
0.02
0.02
0.02
0.02
0.02
0.05
0.01
0.01
0.01
0.01
0.01
0.01
0.01
图 4 BP 网络综合评价训练误差曲线
Fig.4 Error curve of comprehensive evaluation by BP
图 5 综合评价值与预测模拟值回归分析
Fig.5 Regression analysis of the values of comprehensive evaluation and prediction
图4是BP网络综合评价训练误差曲线,图5是对网络训练结果所做的综合评价值与模拟
7
预测值的回归分析,从图中可以看出,得到的网络具有误差收敛速度快、泛化能力强的优点。
3.3 GIS 可视化对比分析
为了从连续空间平面上了解和评价该区域的重金属污染分布情况,以及评价等级分布情
况,我们首先将BP网络加密的点数据导入ArcGIS 软件中,利用其空间分析和插值功能来分
析污染浓度的分布和污染等级。
图6是研究区域内Hg、Cr和Cd含量空间分布格局情况,从图中可以看出,土壤中Hg含量
较高的区域是新都、郫县和崇州区域,其大部分的区域含量都在0.22mg/kg以上;土壤中Cr
含量较高的区域是崇州西南区域,含量都在72mg/kg以上;土壤中Cd含量较高的区域是崇州、
都江堰和彭州区域,其含量都在0.47mg/kg以上。
图 6 研究区土壤中 Hg, Cr and Cd 含量空间分布格局
Fig.6 Distribution of Hg, Cr and Cd in soil of the investigative area
图 7、8 是通过计算分别得到的研究区域内 Hg、Cr 和 Cd 的 BP 网络单因子评价等级分
布图和单因子指数评价等级分布图,从两图对比分析可以发现两种评价方法的所绘制出来的
图的格局都很相似,并且图的分布格局与土壤重金属含量空间分布呈正相关。其中 BP 网络
单因子评价等级分布图的图斑更丰富,由此可见 BP 网络单因子评价较单因子指数评价而言
其准确度更高,在 ArcGIS 中表现更为丰富。
图 7 BP 网络单因子评价等级分布图
Fig.7 Distribution of single factor pollution index assessment with BP
图 9 是通过计算分别得到的研究区域内 6 种评价因子的综合评价结果,图中可以看出研
究区域内重金属综合污染的等级格局为:研究区大部分区域处于轻度重金属污染状态,处于
中度污染状态的区域为崇州、都江堰和彭州区域,其中内梅罗指数综合评价的等级分布图的
图斑较 BP 网络综合评价丰富,由于内梅罗指数综合评价在评价过程中突出了污染较重的污
染物的作用,而 BP 网络综合评价方法在训练样本选择时没有体现污染较重的污染物的作用,
因此在内梅罗指数综合评价的结果表现更好这一点需要在 BP 网络综合评价训练样本的选择
8