2011 高教社杯全国大学生数学建模竞赛
承 诺 书
我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、
网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公
开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引
用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞
赛规则的行为,我们将受到严肃处理。
我们参赛选择的题号是(从 A/B/C/D 中选择一项填写):
A
我们的参赛报名号为(如果赛区设置报名号的话):
ZJF092689
所属学校(请填写完整的全名):
浙江大学
参赛队员 (打印并签名) :1.
2.
3.
王耀
李欣
王子佳
指导教师或指导教师组负责人 (打印并签名):
日期:2011 年 _9 月 12 日
赛区评阅编号(由赛区组委会评阅前进行编号):
2011 高教社杯全国大学生数学建模竞赛
编 号 专 用 页
赛区评阅编号(由赛区组委会评阅前进行编号):
赛区评阅记录(可供赛区评阅时使用):
评
阅
人
评
分
备
注
全国统一编号(由赛区组委会送交全国前编号):
全国评阅编号(由全国组委会评阅前进行编号):
2
城市表层土壤重金属污染分析
摘 要
本文主要是由采样数据对该城市八种重金属元素污染的程度进行分析。首先
我们对采样数据进行预处理,主要是修改异常数据和利用 QQ 图做正态性检验。
然后对第一问我们对八种重金属含量分成五段分别来表示不同的浓度,再利
用 Matlab 软件根据取样点的坐标,做出各种重金属元素的空间分布图,并用不同
的颜色表示重金属元素的浓度(图中重金属浓度由高到低分别用黑、蓝、红、黄、
绿表示)。
第二问为确定污染原因,我们从两方面来坐分析,一方面利用 Excel 对五种
功能区作单因子方差分析,得出不同功能区的污染程度有非常显著性的差异,并
得到绝大数都是由于工业污染造成的;另一方面,求出它们的尼梅罗综合评价指
数也说明绝大数都是由于工业污染造成的。
第三问为找出传播特征和确定污染源,我们主要是利用地统计学的半方差函
数(或称变异函数)模型,先通过 GS+V9.0 软件拟合估计出半方差函数的三个参
数,并由此确定各重金属污染的传播特征,再进行克里格插值来推出它们的污染
源,另外我们还求出各种重金属元素以及海拔间的相关系数,从相关性的角度说
明它们的传播特征和污染源的确定。
最后说明该模型的缺点以及需要改进的地方。
关键词: 正态性检验;单因子方差分析;半方差函数;克里格插值;
3
一、 问题提出
随着城市经济的快速发展和城市人口的不断增加,人类活动对城市环境质量
的影响日显突出。对城市土壤地质环境异常的查证,以及如何应用查证获得的海
量数据资料开展城市环境质量评价,研究人类活动影响下城市地质环境的演变模
式,日益成为人们关注的焦点。
按照功能划分,城区一般可分为生活区、工业区、山区、交通区及公园绿地
区等,分别记为 1 类区、2 类区、……、5 类区,不同的区域环境受人类活动影响
的程度不同。
现对某城市城区土壤地质环境进行调查。为此,将所考察的城区划分为间距 1
公里左右的网格子区域,按照每平方公里 1 个采样点对表层土(0-10 厘米深度)
进行取样、编号,并用 GPS 记录采样点的位置。应用专门仪器测试分析,获得了
每个样本所含的多种化学元素的浓度数据。另一方面,按照 2 公里的间距在那些
远离人群及工业活动的自然区取样,将其作为该城区表层土壤中元素的背景值。
附件 1 列出了采样点的位置、海拔高度及其所属功能区等信息,附件 2 列出
了 8 种主要重金属元素在采样点处的浓度,附件 3 列出了 8 种主要重金属元素的
背景值。
现要求你们通过数学建模来完成以下任务:
(1) 给出 8 种主要重金属元素在该城区的空间分布,并分析该城区内不同区
域重金属的污染程度。
(2) 通过数据分析,说明重金属污染的主要原因。
(3) 分析重金属污染物的传播特征,由此建立模型,确定污染源的位置。
(4) 分析你所建立模型的优缺点,为更好地研究城市地质环境的演变模式,
还应收集什么信息?有了这些信息,如何建立模型解决问题?
二、 问题分析
本文对该城市八种金属元素污染程度的分析,首先是主要将异常的数据进行
处理,我们采用统计中常用的原则,即以采用数据超出 3A
S 范围的为异常数据,
其中 A 、S 分别为采用数据中各重金属的样本均值和样本标准差。当采用数据大
于 3A
S 代替。然后利用
SPSS 作 QQ 图做正态性分析。处理完数据之后,再利用 Matlab 软件根据取样点的
坐标,做出各种重金属元素的空间分布图,并用不同的颜色表示重金属元素的浓
度,从而解决第一问。
S 代替;当采用数据小于 3A
S 时,以 3A
S 时,以 3A
对于第二问为确定重金属污染的主要原因,我们对城市五种不同的功能区进
行八种重金属污染指数的单因子方差分析,分析这五种功能区的污染程度是否有
显著性差异,若差异很显著,则主要看是那个因子(即功能区)影响最大,从而
确定污染的原因,另一方面比较这八种元素在不同功能区的尼梅罗综合指数,找
出最低最高的尼梅罗综合指数,从而根据该数据也可以得到第二问的答案。
4
对于第三问,为分析出重金属污染物的传播特征,并由此确定污染源的位置,
我们主要根据地统计学半方差函数模型和克里格插值法来做的。其总的思想就是
根据已知采样点提供的信息拟合半方差函数,然后根据该函数对未知点进行估计
和模拟。因此,半方差函数是我们利用的主要工具,一方面,利用半方差函数对
重金属的空间分布进行结构分析和变异性分析,并由此得出重金属污染物的传播
特征;另一方面应用前面分析的结果,利用克里格法进行估值,并由此对其它未
知点污染程度进行预测得出图形,并由此确定污染源(污染最严重的区域)。当然
为了更好确定传播特征和污染源的位置,我们对各重金属元素和海拔的相关性分
析,通过数据不难看出他们的传播特征在一定程度上也相似,但是也有些相关性
相对较弱,如 As 和 Cd,说明他们的传播特征有一定的区别。但总体上,重金属
的含量之间都是正相关的,说明所有重金属的传播有一定的共同点。而所有重金
属的含量与海拔之间都是负相关的,说明,随着海拔越低,他们的重金属含量越
高,表明重金属的传播向下沉。
最后对所建模型进行评价和改进。
三、 模型的假设
1) 假设所有数据都是真实可靠的;
2) 假设污染源为重金属含量最高的地方;
3) 假设问题三中重金属含量是平稳的,即假设第三问中半方差函数的值只与距离
h 有关,而与其他无关。
四、 符号说明
:在图中表示工业区;
:在图中表示生活区;
:在图中表示交通区;
:在图中表示山区;
:在图中表示公园绿地区;
( )
r h :变异函数;
( )N h :是分隔距离为 h 时的所有观测样本对总数;
oC :为块金常数;
C :为拱高;
5
a :为变程。
(一)采样数据的预处理
(1)对异常数据的处理
五、 模型建立与求解
异常数据值在第三问中对重金属污染的空间变异特性有很重要的影响,会影
响变异函数理论模型的精度。我们采用统计中常用的3原则,即以采用数据超出
3A
S 范围的为异常数据,其中 A 、S 分别为采用数据中各重金属的样本均值和样
本标准差。当采用数据大于 3A
S 时,
以 3A
S 代替;当采用数据小于 3A
S 代替。
S 时,以 3A
(2)对采用数据的正态性检验
本文的第二问的各功能区重金属污染的单因子方差分析和第三问的重金属传
播的空间变异特征的研究模型都是基于正态分布的,因此有必要对八种重金属元
素污染的样本数据进行正态分布检验。本文采用的是利用 SPSS 软件的 QQ 图来检
验他们是否服从正态分布(若样本数据基本近似于在一条直线上就服从正态分
布),若不服从正态分布,则对试验数据进行对数转换,看是否服从正态分布。经
过反复比较,本文八种重金属中,As 直接符合正态分布,其它七种重金属 Cd、
Cr、Cu、Ni、Hg、Pb、Zn 经对数转化后服从正态分布。它们的 QQ-PLOT 图如
下:
As 的正态检验 QQ 图 1
Cd 的正态检验 QQ 图 2
6
Cr 的正态检验 QQ 图 3
Cu 的正态检验 QQ 图 4
Hg 的正态检验 QQ 图 5
Ni 的正态检验 QQ 图 6
Pb 的正态检验 QQ 图 7
Zn 的正态检验 QQ 图 8
(二)问题(1)模型的建立与求解
首先,根据附件一的样本,我们 Matlab 编程可以由此作出该城市城区的样本
取样点图,并标出这些样本点所属的不能功能区(如图 9)。为了标出重金属元素
在该城区的空间分布,并在不同区域重金属的污染程度,现对这八种重金属的样
本等分成 5 组,分别用不同的颜色标注它们的污染程度,具体如下。
7
等 高 线 图
生 活 区
工 业 区
山 区
交 通 区
公 园 绿 地 区
18000
16000
14000
12000
10000
8000
6000
4000
2000
0
0
0.5
1
1.5
2
2.5
x 104
样本点所属不能功能区 图 9
(1)As 的含量范围 1.61~14.75ug/g,由 As 的空间分布结构图可以看出(如图 10),
As 污染最严重的地方主要在地图的左下方的地区,特别是工业区。
x 104
2
含 重 金 属 量As(ug/g)
12.122 -- 14.75
9.494 -- 12.122
6.866 -- 9.494
4.238 -- 6.866
1.61 -- 4.238
1.8
1.6
1.4
1.2
1
0.8
0.6
0.4
0.2
0
0
0.5
1
1.5
2
2.5
3
x 104
土壤重金属元素 As 含量空间分布图 10
(2)Cd 的含量范围为 40~977.359ng/g,由 Cd 的空间分布结构图可以看出(如
图 11),Cd 污染最严重的地方主要分布在地图的左下图,特别是工业区和生活区,
说明 Cd 的含量高主要由人类活动造成的和工厂产生的废弃物。
8