logo资料库

地统计分析 ESDA MoransI.pdf

第1页 / 共61页
第2页 / 共61页
第3页 / 共61页
第4页 / 共61页
第5页 / 共61页
第6页 / 共61页
第7页 / 共61页
第8页 / 共61页
资料共61页,剩余部分请下载后查看
第十章 地统计分析
10.1 地统计基础
10.1.1 基本原理
10.1.2克里格插值
10.1.3 ArcGIS地统计分析
10.2 探索性数据分析
10.2.1 数据分析工具
10.2.2检验数据分布
10.2.3寻找数据离群值
10.2.4全局趋势分析
10.2.5空间自相关及方向变异
10.2.6多数据集协变分析
10.3空间确定性插值
10.3.1 反距离加权插值
10.3.2 全局多项式插值
10.3.3 局部多项式插值
10.3.4 径向基函数插值
10.4地统计插值
10.4.1克里格插值基础
10.4.2普通克里格插值
10.4.3简单克里格插值
10.4.4泛克里格插值
10.4.5指示克里格插值
10.4.6概率克里格插值
10.4.7析取克里格插值
10.4.8 协同克里格插值
第十章 地统计分析 地统计分析方法被广泛应用许多领域,已成为空间统计学的一个重要分支。很长时间 以来,地统计分析一直没能很好的和 GIS 分析模型紧密结合在一起,这成为 GIS 软件一大 遗憾。ArcGIS 地统计分析模块在地统计学与 GIS 之间架起了一座桥梁,使得复杂的地统计 方法可以在软件中轻易实现,体现了以人为本、可视化发展的趋势。这种结合具有重要的 开创性意义,通过测定预测表面的统计误差,GIS 应用人员首次能够对预测表面的模型质 量进行量化。本章主要通过对地统计分析的概念介绍,逐步引导读者在 ARCGIS 中如何应 用地统计分析解决实际问题。 10.1 地统计基础 10.1.1 基本原理 地统计(Geostatistics)又称地质统计,是在法国著名统计学家 G. Matheron 大量 理论研究的基础上逐渐形成的一门新的统计学分支。它是以区域化变量为基础,借助变异 函数,研究既具有随机性又具有结构性,或空间相关性和依赖性的自然现象的一门科学。 凡是与空间数据的结构性和随机性,或空间相关性和依赖性,或空间格局与变异有关的研 究,并对这些数据进行最优无偏内插估计,或模拟这些数据的离散性、波动性时,皆可应 用地统计学的理论与方法。 地统计学与经典统计学的共同之处在于:它们都是在大量采样的基础上,通过对样本 属性值的频率分布或均值、方差关系及其相应规则的分析,确定其空间分布格局与相关关 系。但地统计学区别于经典统计学的最大特点即是:地统计学既考虑到样本值的大小,又 重视样本空间位置及样本间的距离,弥补了经典统计学忽略空间方位的缺陷。 地统计分析理论基础包括前提假设、区域化变量、变异分析和空间估值。 1. 前提假设 (1) 随机过程 与经典统计学相同的是,地统计学也是在大量样本的基础上,通过分析样本间的规律, 探索其分布规律,并进行预测。地统计学认为研究区域中的所有样本值都是随机过程的结 果,即所有样本值都不是相互独立的,它们是遵循一定的内在规律的。因此地统计学就是 要揭示这种内在规律,并进行预测。 (2) 正态分布 在统计学分析中,假设大量样本是服从正态分布的,地统计学也不例外。在获得数据 后首先应对数据进行分析,若不符合正态分布的假设,应对数据进行变换,转为符合正态 1
分布的形式,并尽量选取可逆的变换形式。 (3) 平稳性 对于统计学而言,重复的观点是其理论基础。统计学认为,从大量重复的观察中可以 进行预测和估计,并可以了解估计的变化性和不确定性。对于大部分的空间数据而言,平 稳性的假设是合理的。这其中包括两种平稳性:一是均值平稳,即假设均值是不变的并且 与位置无关;另一类是与协方差函数有关的二阶平稳和与半变异函数有关的内蕴平稳。二 阶平稳是假设具有相同的距离和方向的任意两点的协方差是相同的,协方差只与这两点的 值相关而与它们的位置无关。内蕴平稳假设是指具有相同距离和方向的任意两点的方差 (即变异函数)是相同的。二阶平稳和内蕴平稳都是为了获得基本重复规律而作的基本假 设,通过协方差函数和变异函数可以进行预测和估计预测结果的不确定性。 2. 区域化变量 当一个变量呈现一定的空间分布时,称之为区域化变量,它反映了区域内的某种特征 或现象。区域化变量与一般的随机变量不同之处在于,一般的随机变量取值符合一定的概 率分布,而区域化变量根据区域内位置的不同而取不同的值。而当区域化变量在区域内确 定位置取值时,表现为一般的随机变量,也就是说,它是与位置有关的随机变量。在实际 分析中,常采用抽样的方式获得区域化变量在某个区域内的值,即此时区域化变量表现为 空间点函数: xZ )( = xxxZ , ( , u v ) w (10.1) 根据其定义,区域化变量具有两个显著特征:即随机性和结构性。首先,区域化变量 是一个随机变量,它具有局部的、随机的、异常的特征;其次,区域化变量具有一定的结 构特点,即变量在点 x 与偏离空间距离为 h 的点 x+h 处的值 Z(x)和 Z(x+h)具有某种程度 的相似性,即自相关性,这种自相关性的程度依赖于两点间的距离 h 及变量特征。除此之 外,区域化变量还具有空间局限性(即这种结构性表现为一定范围内)、不同程度的连续 性和不同程度的各向异性(即各个方向表现出的自相关性有所区别)等特征。 3. 变异分析 (1) 协方差函数 协方差又称半方差,表示两随机变量之间的差异。在概率论中,随机变量 X 与 Y 的协 方差定义为: Cov ( YX , ) = EXE [( − ))(X( EY − )]Y( (10.2) 借鉴上式,地统计学中的协方差函数可表示为: hC )( = 1 hN )( hN )( [ ∑ i 1 = xZ ( i ) − xZ ( )][ xZ ( i i + h ) − xZ ( i + h )] (10.3) 其中,Z(x)为区域化随机变量,并满足二阶平稳假设,即随机变量 Z(x)的空间分布规 律不因位移而改变;h 为两样本点空间分隔距离; ( ixZ ) 为 Z(x)在空间点 处的样本值; ix 2
xZ i + 是 Z(x)在 处距离偏离 h 的样本值[i=1,2,…,N(h)];N(h)是分隔距离为 h 时 ( ix h ) 的样本点对总数; ( ixZ ) 和 xZ i + 分别为 ( h ) ( ixZ 和) xZ i + 的样本平均数,即: ( h ) xZ ( i ) = 1 n n ∑ i 1 = xZ ( i ) (10.4) xZ ( i + h ) = 1 n n ∑ i 1 = xZ ( i + h ) (10.5) 上式中,n 为样本单元数。一般情况下, xZ ( i ) ≠ xZ ( i + h ) (特殊情况下可以认为近 似相等)。 (2) 半变异函数 半变异函数又称半变差函数、半变异矩,是地统计分析的特有函数。区域化变量 Z(x) 在点 x和 x+h处的值 Z(x)与 Z(x+h)差的方差的一半称为区域化变量 Z(x)的半变异函数, 记为 r(h),2r(h)称为变异函数。 根据定义有: hxr ),( = 1 2 Var [ xZ )( − hxZ + ( )] (10.6) 即 hxr ),( = 1 2 xZE [ )( − hxZ + ( 2 )] − 1 2 xZE ( [{ )] − hxZE [ + ( )]} 2 (10.7) 区域化变量 Z(x)满足二阶平稳假设,因此对于任意的 h 有: hxZE [ + ( )] = xZE [ ( )] (10.8) 因此,半变异函数可改写为: 1 2 hxr ),( = xZE )( [ − hxZ + ( 2)] (10.9) 由上式可知,半变异函数依赖于自变量 x 和 h,当半变异函数 r(x,h)仅仅依赖于距离 h 而与位置 x 无关时,r(x,h)可改写为 r(x),即: hr )( = 1 2 xZE [ )( − hxZ + ( 2)] (10.10) 具体表示为: hr )( = 1 hN )(2 hN )( [ ∑ i 1 = xZ ( i ) − xZ ( i + h 2)] (10.11) 3
各变量的含义同前。也有将 r(h)称为变异函数,两者使用上不引起本质上的差别。 (3) 变异分析 半变异函数和协方差函数把统计相关系数的大小作为一个距离的函数,是地理学相近 相似定理定量量化。图 10.1 和图 10.2 为一典型的半变异函数图和其对应的协方差函数图。 r(h) 偏基台值 (Partial Sill) 块金 (Nugget) c(h) 块金 (Nugget) 变程(Range) 变程(Range) 基台值 (Sill) 偏基台值 (Partial Sill) 基台值 (Partial Sill) 图 10.1 半变异函数图 距离(h) 图 10.2 协方差函数图 距离(h) 图 10.1 和图 10.2 显示,半变异值的变化随着距离的加大而增加,协方差随着距离的 加大而减小。这主要是由于半变异函数和协方差函数都是事物空间相关系数的表现,当两 事物彼此距离较小时,它们是相似的,因此协方差值较大,而半变异值较小;反之,协方 差值较小,而半变异值较大。此外,协方差函数和半变异函数随着距离的加大基本呈反向 变化特征,它们之间的近似关系表达式为: hr )( = sill − hC )( (10.12) 半变异函数曲线图和协方差函数曲线反映了一个采样点与其相邻采样点的空间关系。 ,它们对异常采样点具有很好的探测作用,在 ArcGIS 地统计分析模块中可以使用两 此外 者的任意一个,一般采用半变异函数。在半变异曲线图中有两个非常重要的点:间隔为 0 时的点和半变异函数趋近平稳时的拐点,由这两个点产生四个相应的参数:块金值 (Nugget)、变程(Range)、基台值(Sill)、偏基台值(Partial Sill)它们的含义表示 如下: 值(Nugget):理论上,当采样点间的距离为 0 时,半变异函数值应为 0,但由于 块金 测量误差和空间变异,使得两采样点非常接近时,它们的半变异函数值不为 0,即存 存在 在块金值。测量误差是仪器内在误差引起的,空间变异是自然现象在一定空间范围内的变 化。它们任意一方或两者共同作用产生了块金值。 变异函数 r(h)从初始的块金值达到 基台值(Sill):当采样点间的距离 h 增大时,半 相对稳定的常数时,该常数值称为基台值。当半变异函数值超过基台值时,即函数值 一个 不随采样点间隔距离而改变时,空间相关性不存在。 偏基台值(Partial Sill):基台值与块金值的差值 变程(Range):当半变异函数的取值由初始的块金值达到 基台值时,采样点的间隔距 为变程。变程表示了在某种观测尺度下,空间相关性的作用范围,其大小受观测尺度 。 离称 4
的限定。在变程范围内,样点间的距离越小,其相似性,即空间相关性越大。当 h>R 时, 区域化变量 Z(x)的空间相关性不存在,即当某点与已知点的距离大于变程时,该点数据不 能用于内插或外推。 当限定的样本点间隔过小时,可能出现曲线图上所有 r(h)≈ Nugget,即曲线为一近 行于横坐标的直线,此时半变异函数表现为纯块金效应。这是由于所限定的样本间隔 似平 内,点与点的变化很大,即各个样点是随机的,不具备空间相关性,区域内样点的平均值 即是最佳估计值。此时只有增大样本间隔,才能反映出样本间的空间相关性。 越强。相 空间相关性的强弱可由 Partial_Sill/Sill 来反映,该值越大,空间相关性 ,Nugget/Sill 称为基底效应,表示样本间的变异特征,该值越大,表示样本间的变 应地 异更多得是由随机因素引起的。 4. 空间估值 一个完整的 地统计分析过程,或者说空间估值过程,一般为:首先是获取原始数据, 、分析数据,找寻数据暗含的特点和规律,比如是否为正态分布、有没有趋势效应、 检查 各向异性等等;然后选择合适的模型进行表面预测,这其中包括半变异模型的选择和预测 模型的选择;最后检验模型是否合理或几种模型进行对比。尽管在 ArcGIS 中利用地统计 分析模块完成上述过程非常简单,但是遵循一个结构化处理过程仍很重要,如图 10.3 所示。 (1) 数据显示 在 ArcMap 的数据图层。 数据视图窗口中添加并显示待 数据显示 1 同参数或者选择多个可选模型创建表面,通过对比分析可以确定哪个模型 数据检查 2 模型拟合 3 模型诊断 4 模型比较 5 图 10.3 空间估值流程图 分析 (2) 数据检查 分析数据集 的统计属性,对数据进行深入了 数据检查内容包括检验数据分布、寻找数据 解。 离群值、全局趋势分析、探测空间自相关及方向 变异,以及多数据集协变分析。 (3) 模型拟合 基于对数据 的认识,初步选择一个认为合适 型创建表面。全面的数据检查有助于选择出 的模 合适的模型。 (4) 模型诊断 评估模型的 输出(表面),了解所选模型对 值的预测效果。诊断的主要内容包括:①预 未知 测的准确性。②模型的有效性。 (5) 模型比较 通过设置不 知值的预测更好。 对未 5
10.1.2 克里格插值 克里格插值(Kriging)又称空间局部插值法,是以变异函数理论和结构分析为基础, 在有限区域内对区域化变量进行无偏最优估计的一种方法,是地统计学的主要内容之一。 南非矿产工程师 D.R.Krige(1951 年)在寻找金矿时首次运用这种方法,法国著名统计学 家 G.Matheron 随后将该方法理论化、系统化,并命名为 Kriging,即克里格方法。 克里格方法的适用范围为区域化变量存在空间相关性,即如果变异函数和结构分析的 结果表明区域化变量存在空间相关性,则可以利用克里格方法进行内插或外推;否则反之。 其实质是利用区域化变量的原始数据和变异函数的结构特点,对未知样点进行线性无偏、 最优估计。无偏是指偏差的数学期望为 0,最优是指估计值与实际值之差的平方和最小。 也就是说,克里格方法是根据未知样点有限邻域内的若干已知样本点数据,在考虑了样本 点的形状、大小和空间方位,与未知样点的相互空间位置关系,以及变异函数提供的结构 信息之后,对未知样点进行的一种线性无偏最优估计。 地统计分析的核心就是通过对采样数据的分析、对采样区地理特征的认识选择合适的 空间内插方法创建表面。插值方法按其实现的数学原理可以分为两类:一是确定性插值方 法,另一类是地统计插值,也就是克里格插值,如图 10.4 所示。 全局性插值: 全局多项式插值 确定性插值 反距离权插值 局部性插值 径向基插值 局部多项式插值 空间插值 地统计插值 普通克里格插值 简单克里格插值 泛克里格插值 概率克里格插值 析取克里格插值 协同克里格插值 图 10.4 空间插值分类示意图一 确定性插值方法以研究区域内部的相似性(如反距离加权插值法)、或者以平滑度为 基础(如径向基函数插值法)由已知样点来创建表面。地统计插值方法(例如克里格法) 利用的则是已知样点的统计特性。地统计插值方法不但能够量化已知点之间的空间自相关 6
性,而且能够解释说明采样点在预测区域范围内的空间分布情况。 确定性插值方法有可以分为两种:即全局性插值方法和局部性插值方法,如图 10.4 所示。全局性插值方法以整个研究区的样点数据集为基础来计算预测值,局部性插值方法 则使用一个大研究区域内较小的空间区域内的已知样点来计算预测值。 克里格方法与反距离权插值方法有些类似,两者都通过对已知样本点赋权重来求得未 知样点的值,可统一表示为: xZ ( 0 ) = n ∑ i 1 = λ i xZ ( i ) (10.13) 式中,Z(x0)为未知样点的值,Z(xi)为未知样点周围的已知样本点的值, iλ为第i个已 知样本点对未知样点的权重,n为已知样本点的个数。 不同的是,在赋权重时,反距离权插值方法只考虑已知样本点与未知样点的距离远近, 而克里格方法不仅考虑距离,而且通过变异函数和结构分析,考虑了已知样本点的空间分 布及与未知样点的空间方位关系。 空间插值方法根据是否能保证创建的表面经过所有的采样点,又可以分为精确性插值 和非精确性插值(图 10.5)。精确性插值法预测值在样点处的值与实测值相等,非精确性 插值法预测值在样点处的值与实测值一般不会相等。使用非精确性插值法可以避免在输出 表面上出现明显的波峰或波谷。反距离权插值和径向基插值属于精确性插值方法,而全局 多项式插值、局部多项式插值,以及克里格插值都属于非精确性插值方法。 精确性插值 空间插值 反距离权插值 径向基插值 全局多项式插值 非精确性插值 局部多项式插值 克里格插值 图 10.5 空间插值分类示意图二 普通克里格插值 简单克里格插值 泛克里格插值 概率克里格插值 析取克里格插值 协同克里格插值 7
10.1.3 ArcGIS 地统计分析 1. 功能模块介绍 ArcGIS 地统计分析模块主要 由三个功能模块组成,探索性数据 分析(Explore Data)、地统计分析 向导(Geostatistical Wizard),以 及生成数据子集(Create Subsets)。 利用这些基本功能模块,可以方便 的完成多种地统计分析,创建完善 的专题地图(表面预测)。 (1) 探索性数据分析(Explore Data) 图 10.6 地统计模块菜单 数据分析工具可以让用户更全面地了 解所使用的数据,以便于选取合适的参数及方 如,数据是否服从正态分布,是否存在某种趋势等;在 ArcGIS 地统计分析模块中, 法。 内嵌了多种探索性空间数据分析工具,包括 Histogram(直方图)、Voronoi Map(Voronoi 地图)、 Normal QQPlot(正态 QQPlot 分布图)、General QQPlot(普通 QQPlot 分布图)、Trend Analysis(趋势分析)、Semivariogram/Covariance Cloud(半变异/协方差函数云)、 Crosscovariance Cloud(正交协方差函数云)。这些探索性空间数据分析工具对数据 视图,提供用户用多种方式检测空间数据。 (2) 地统计分析向导(Geostatistical Wizard) 从不同的 地统计分析模块提供了一系列利用已知样点 进行内插生成研究对象表面图的内插技 术。地统计分析向导通过完善的图形用户界面,引导用户逐步了解数据、选择内插模型、 评估内插精度,完成表面预测(模拟)和误差建模。地统计分析向导能提供用户的主要图 形界面包括: 1) 选择内 插方法与数据集界面(如图 10.7) 8 图 10.7 数据及方法选择界面
分享到:
收藏