logo资料库

论文研究-基于U-Net的高分辨率遥感图像语义分割方法.pdf

第1页 / 共7页
第2页 / 共7页
第3页 / 共7页
第4页 / 共7页
第5页 / 共7页
第6页 / 共7页
第7页 / 共7页
资料共7页,全文预览结束
Computer Engineering and Applications 计算机工程与应用 2019,55(7) 207 基于 U-Net 的高分辨率遥感图像语义分割方法 苏健民,杨岚心,景维鹏 东北林业大学 信息与计算机工程学院,哈尔滨 150040 摘 要:图像分割是遥感解译的重要基础环节,高分辨率遥感图像中包含复杂的地物目标信息,传统分割方法应用 受到极大限制,以深度卷积神经网络为代表的分割方法在诸多领域取得了突破进展。针对高分辨遥感图像分割问 题,提出一种基于 U-Net 改进的深度卷积神经网络,实现了端到端的像素级语义分割。对原始数据集做了扩充,对每 一类地物目标训练一个二分类模型,随后将各预测子图组合生成最终语义分割图像。采用了集成学习策略来提高 分割精度,在“CCF 卫星影像的 AI 分类与识别竞赛”数据集上取得了 94%的训练准确率和 90%的测试准确率。实验 结果表明,该网络在拥有较高分割准确率的同时还具有良好的泛化能力,能够用于实际工程。 关键词:遥感图像 ;语义分割 ;卷积神经网络 ;U-Net;集成学习 文献标志码:A 中图分类号:TP391.41 doi:10.3778/j.issn.1002-8331.1806-0024 苏健民,杨岚心,景维鹏 . 基于 U-Net 的高分辨率遥感图像语义分割方法 . 计算机工程与应用,2019,55(7):207-213. SU Jianmin, YANG Lanxin, JING Weipeng. U-Net based semantic segmentation method for high resolution remote sens- ing image. Computer Engineering and Applications, 2019, 55(7):207-213. U-Net Based Semantic Segmentation Method for High Resolution Remote Sensing Image SU Jianmin, YANG Lanxin, JING Weipeng College of Information and Computer Engineering, Northeast Forestry University, Harbin 150040, China Abstract:Image segmentation is an important base-part of remote sensing interpretation. High resolution remote sensing image contains complex object information, but the applications of traditional segmentation methods are greatly limited. The segmentation method, represented by the deep convolution neural network, has made a breakthrough in many fields. Aiming at the problem of high resolution remote sensing image segmentation, this paper proposes a deep convolution neural network based on U-Net, which achieves the end to end pixel level semantic segmentation. It expands the original dataset, trains a binary classification model for every class of objects, and then combines the prediction subgraphs to generate the final semantic segmentation image, which has helped us get 94% training accuracy and 90% test accuracy on the dataset of AI classification and recognition contest of CCF satellite images. The experimental results show that the network not only has good generalization ability but also can be used in practical engineering with high segmentation accuracy. Key words:remote sensing image; semantic segmentation; convolutional neural network; U-Net; ensemble learning 1 引言 遥感图像解译是数字图像分析的重要组成部分,广 泛应用于土地测绘、环境监测、城市建设等领域。其中, 语义分割在遥感图像解译中扮演重要角色,是低高层遥 感图像处理及分析的重要衔接。图像语义分割,又被称 作图像标注,是指为图像中的每一像素分配语义标签,基 于语义单元将图像分割为若干具有不同语义标识的区 域。图像语义分割是目标识别和分割两部分任务的综合, 黄凯奇等人从物体、类别和背景三个层次对其难点作了 总结[1]。高分辨率遥感图像通常包含道路、水源、建筑、树 木、农作物、车辆、行人等地物目标类别丰富的细节信息。 受目标类别分布不平衡,不同目标边缘易重叠,个别目 基金项目:黑龙江省自然科学基金(No.C200840,No.F201028)。 作者简介:苏健民(1961—),男,教授,硕士生导师,研究领域为模式识别与智能控制;杨岚心(1993—),男,硕士研究生,研究领域 为计算机视觉与机器学习;景维鹏(1979—),男,副教授,硕士生导师,研究领域为高性能并行计算。 收稿日期:2018-06-06 修回日期:2018-08-01 文章编号:1002-8331(2019)07-0207-07 CNKI 网络出版:2018-12-01, http://kns.cnki.net/kcms/detail/11.2127.TP.20181128.1647.040.html 计算机工程与应用www.ceaj.org
208 2019,55(7) Computer Engineering and Applications 计算机工程与应用 标尺度较小,纹理细节难以分辨等因素的影响,传统的 语义分割方法准确率较低,计算时效较差,难以在大规 模部署和实时环境下有效应用。遥感图像语义分割一 直是视觉和遥感领域最具有挑战和重要的问题之一。 围绕着遥感图像语义分割这一主题,遥感、视觉等 社区的研究人员做了大量工作。过去,遥感图像语义分 割通常采用场论和集合论结合,以及机器学习的方法。 王春艳等人为解决由光谱测度的空间复杂性、相同类型 地物目标异质性增大带来的类属不确定性以及分割决 策不确定性等引起的分割精度下降问题,提出一种融入 空间关系的区间二型模糊模型高分辨率遥感影像监督 分割方法[2]。赵雪梅等人使用隐马尔可夫随机场和高斯 模型分别建立标号场和特征场的邻域关系,提出了基于 隐马尔可夫高斯随机场模型的模糊聚类遥感图像分割 算法[3]。这类方法建立在精确的数学模型之上,具有严 密的数学论证,但通常分割准确率较低,且难以推广到 其他数据集。近年新的方法不断出现,Kampffmeyer 等 人对城市地区遥感图像进行语义分割,对不确定信息建 模,重点解决小物体目标优先级较低而导致的不精确分 割问题[4]。文献[5]提出一种不带下采样层的 FCN 版本, 其中的权值通过预训练的方式从 ImageNet 数据集学习 得到,显著缩短了训练时间 [6]。Kaiser 等人中探讨了在 大量人工标签难以获取的情况下,在大数据集上使用弱 标 签 进 行 训 练 的 可 能 性 ,强 调 了 训 练 集 规 模 的 重 要 性 [7]。Yuan 等人从地理信息系统(GIS)中生成标签,专 注建筑物提取任务[8]。以上方法均使用了一种称为深度 卷积神经网络(DCNNs)的深度学习技术。以 DCNNs 为框架,Long 等人提出的 FCN 将端对端的卷积网络推 广到语义分割中,使用反卷积层进行上采样,使用跳跃 连接来改善上采样的粗糙度[5]。此后又出现了一些基于 FCN 的改进版本,即先使用 FCN 做粗分割、然后再使用 CRF 进行精分割。其他出色的语义分割网络结构还包 括 U-Net[9]、SegNet[10]、RefineNet[11]、PSPNet[12]、GCN[13]。 基于深学习的语义分割方法往往需要大规模甚至 超大规模的数据集、数天的训练时间和精确的人工标 记。如 PASCAL VOC2012 数据集包含 20 类目标,大小 约 2 GB,CoCo2014 数 据 集 拥 有 超 过 20 GB 的 图 片 和 500 MB 的标签。精确的人工标记不仅需要耗费大量时 间精力,而且容易导致 DCNNs 的脆弱性问题,Su 等人研 究指出,修改一个像素,就能使神经网络识别图像出 错[14]。另一方面,以往的遥感图像语义分割多是基于多 频段(16 频段)分析,并需要大量人工操作。如何对传统 RGB 频段、小样本、不精确人工标注的遥感图像进行语 义分割一直是难题,在本文中,提出一种基于 U-Net 的 高分辨率遥感图像语义分割网络结构,工作可概括为: (1)使用端到端的全卷积神经网络对遥感图像进行语义 分割;(2)通过数据增强扩充数据集;(3)使用集成学习 方法提高分割精确度。 2 基本理论 2.1 深度卷积神经网络(DCNNs) 深度卷积神经网络通过组合低层特征形成更加抽 象的高层表示、属性类别或特征,给出数据的分层特征 表示,非线性操作的层级数多[15]。浅层学习依靠人工经 验抽取样本特征,网络模型学习后获得的是没有层次结 构的单层特征;而深度卷积神经网络通过对原始信号进 行逐层特征变换,将样本在原空间的特征表示变换到新 的特征空间,自动地学习得到层次化的特征表示,从而 更有利于分类或特征的可视化[16]。用于分类的深度卷 积神经网络通常包含卷积层、池化层、全连接层,其中卷 积层与下采样层组合成卷积组,逐层提取特征,最终通 过若干个全连接层完整分类识别。可以看出,这样的网 络结构尽管能够取得非常高的识别准确率,却抛弃了图 像的空间结构特征,能够知道图像中包含那些目标,却 不能知道目标的位置、大小、形态等信息,即丢掉了图像 语义。图像语义分割需要一种端到端的网络结构,以保 证输出图像应与输入图像有相同的尺度大小。以下简 述卷积神经网络设计的主要技巧。 2.2 网络设计技巧 批标准化(batch normalization)[17]的概念由 Google 于 2015 年提出,是一种通过减少内部协变量偏移来加 速网络训练的技巧。从统计意义上讲,训练即学习数据 分布的过程,在训练集上训练网络模型,在测试集上评 估网络模型表现,这基于一个强假设——训练集与测试 集具有一致的数据分布。深度神经网络包含了许多层, 每一层的输入即是一个独立的数据分布。通常采用随 机梯度下降算法训练网络,训练过程中模型参数不断改 变,每一层的输入数据分布也随之改变(内部协变量偏 移),导致了诸多训练难题:学习速度太慢、学习效果严 重依赖初始数据分布、反向传播过程出现梯度爆炸和梯 度消失问题。批标准化的提出很好地解决了以上难题, 训练时可选择较大初始学习率提高训练速度,少用或者 不用 Dropout 和正则来控制过拟合,降低模型对初始权 值的敏感度。具体地,批处理化分为归一化和转换重构 两个步骤。 (1)归一化(零均值、单位方差): μB = 1 B = 1 σ 2 -xi = m ∑ m xi m ∑ i = 1 xi - μB σ 2 B + ε i = 1 m (xi - μB)2 (1) (2) (3) 式中,m 表示 batch_size,μB 表示均值,σ 2 B 表示有偏方 差,ε 是为保持数值稳定设置的一个常量,-xi 即为归一 化后的值。事实上,上式转换一定程度上破坏了网络层 学到的特征分布,为此需要进行下一步的重构操作。 计算机工程与应用www.ceaj.org
苏健民,等:基于 U-Net 的高分辨率遥感图像语义分割方法 2019,55(7) 209 (2)转换重构: yi = γ-xi + β 式中,γ 、β 均为待学习参数。 (4) ELU 激活(ELU activation):神经元节点的激活函 数定义了神经元输入输出间的映射关系,为网络提供了 非 线 性 建 模 能 力 。 ELU 激 活 函 数 具 有 指 数 形 状 ,由 Clevert 等人[18]提出。其表达式如下: x, x > 0 f (x) = ì í α(exp(x) - 1), x ≤ 0 î 1, x > 0 f '(x) = ì í f (x) + α, x ≤ 0 î (5) ReLU 激活函数在输入为负时会导致神经元“死 亡”,ELU 对此做了改进,使得负输入的激活值均值为 0,这和 batch normalization 原理类似,但计算复杂度更 低。ELU 在输入取较小值是具有软饱和的特性,提升了 对噪声的鲁棒性。ELU 在对于正值输入的导数恒为 1, 该特性很好地解决了网络训练过程中出现的梯度弥散 问题。 解卷积(deconvolution)是卷积的逆过程,是一种 特殊的卷积。考虑二维单通道图像上的卷积操作,给 定图像 fij (x1 ≤ i ≤ M,1 ≤ j ≤ N) ,卷积核 kij(1 ≤ i ≤ m , 1 ≤ j ≤ n) ,噪声 b ,则卷积操作可表示为: hij = ∑ m ∑ n u = 1 v = 1 fi - u + 1,j - v + 1 ⋅ kuv + b (6) 用 ∗ 表示卷积操作,则上式简写为: h = f∗k + b (7) 解卷积即为已知 h ,寻求合适的 k ,重构 f 的过 程。通过以上定义可知,卷积是一种信息损失的操作, 解卷积属于典型的病态反问题。Zeiler 等人[19]中提出一 种新的思路,即设计网络结构和损失函数,学习卷积核 权重。具体地,文中设计了如下形式的损失函数: Loss( f ) = λ C  2∑   c = 1 N ∑ n = 1 zn∗kn,c - fc    N + ∑ | zn n = 1 p | (8) 2 2 式中,f 表示图像,C 表示图像通道数,N 表示特征图 个数,zn 表示第 n 个特征图,kn,c 表示第 c 个通道内的 卷积核,λ 和 p 均为超参数。上式第一项为重构误差, 第二项是对特征图的正则约束,使其尽可能稀疏。较浅 的卷积层(靠前的)的感受野较小,学习感知细节部分的 能力强,较深的隐藏层(靠后的)的感受野相对较大,适 合学习较为整体的、相对更宏观一些的特征。在较深的 卷积层上进行解卷积还原会丢失很多细节特征,为此在 解卷积步骤时,考虑采用一部分较浅的层的解卷积信息 辅助叠加,能更好地优化分割结果的精度。 跳跃连接(skip connection):在普通的卷积神经网 络中,一层的输出往往作为相邻下一层的输入,跳跃连 接建立起低层与高层之间的“捷径”,即一层的输出既可 以连接到相邻下一层,还可以连接到更高的一层或多 层。在端到端的图像语义分割中,使用跳跃连接可以向 网络高层提供图像的低层特征来辅助图像重构。除此 之外,跳跃连接还有减少网络参数数量、减轻梯度消失 问题的优点。 3 遥感图像语义分割 3.1 数据增强 实验使用的数据集源于“CCF 卫星影像的 AI 分类 与识别竞赛”,该数据集为 2015 年中国南方某地区的高 分辨率遥感图像,包括基于该遥感图像目视解译出来的 地表覆盖样本数据(图像形式)。图像的空间分辨率为 亚米级,光谱为可见光频段(R、G、B),已去除坐标信 息。数据集样本共 5 类:植被(标记 1)、道路(标记 2)、建 筑(标记 3)、水体(标记 4)以及其他(标记 0),其中,耕 地、林地、草地均归为植被类。数据集中包含人工标记 的遥感图像共 5 幅,尺寸从 4 000×2 000 到 8 000×8 000 不等。图 1 给出了数据集中不同类别样本占比,可以看 出,这里面对的是一个典型的小样本、类别不平衡语义 分割问题。 水体 5.39% 其他 5.39% 建筑 33.30% 23.10% 8.24% 道路 植被 图 1 各类样本占比 使用 4 幅原始图像作为训练集,剩下的 1 幅图像作 为测试集。由于原始数据集中图像数量少,尺寸各异, 并且单幅图像尺寸过大无法直接送入网络,对其做了数 据增强工作。具体地,把训练集中的每幅原始图像和标 签截取成 5 幅子图(原图的左上、右上、左下、右下和中 间区域,各区域允许重叠),把以上子图和标签切割成 128×128 的图像块,如图 2 所示。然后对图像块做了翻 转(水平、左右和沿对角线),色彩调整(亮度、对比度、饱 和度),以及加噪处理。重要地,还需要对训练集中的水 体等小样本进行过采样。通过以上操作,新的训练集包 含 10 万幅 128×128 的子图像。 3.2 网络结构及参数设置 本 文 所 使 用 的 网 络 结 构 是 受 到 U- Net 启 发 设 计 的。U-Net 因其清晰的结构和在小样本数据集上的优异 表现而广受好评。原始 U-Net 包含 18 个 3×3 的卷积层, 1 个 1×1 的卷积层,4 个 2×2 的下采样层,4 个 2×2 的上采 样层,使用 ReLU 作为激活函数。通常,池化操作会损 计算机工程与应用www.ceaj.org
210 2019,55(7) Computer Engineering and Applications 计算机工程与应用 图 2 子图切割实例 失图像中的高频成分,产生钝化模糊的图像块,并丢 失位置信息。为了恢复原始图像结构特征,U-Net 使用 了 4 次跳跃连接方式来连接低层与高层的特征图。U- Net 实际是一个全卷积神经网络,输入和输出均为图像, 省略了全连接层。较浅的层用来解决像素定位问题,较 深的层用来解决像素分类问题。高分辨率遥感图像语 义分割需要处理非常丰富的细节特征,改造了原始 U- Net,实现了精确的像素级标注效果。具体地,本文网络 结构如图 3 所示。 按照标准的卷积神经网络框架,逐层进行转换,结 构的最后一层是和原始图像同样大小的预测输出图,输 出图中的每一像素点是代表类别的整数值。与原始 U- Net 相比,本文网络结构拥有更多的卷积层,并在卷积层 和解卷积层前都做了批标准化操作,采用最大池化,激 活函数采用的是 ELU。把网络中“批标准化+卷积/解卷 积+ELU 激活”连续操作称为一次“超卷积”(SuCON)。 整个网络实际上是由一系列的超卷积、池化、连接和最 后的像素级分类操作组成的。卷积操作中,卷积过滤器 尺寸为 3×3×64,单位步长,零填充;解卷积操作中,过滤 器尺寸均为 2×2×64,输出尺寸是输入尺寸的 2 倍,步长 为 2,零填充;池化操作中,过滤器尺寸均为 2×2,步长也 为 2。所有过滤器的权值用服从截断高斯分布的随机值 来初始化,零均值,方差设成 0.1。所有偏置均用 0.1 m 初始化。值得注意的是,在原始 U-Net 中,过滤器深度 从 64 逐层增加至 1 024,而本文网络把过滤器的深度统 一设置为 64。这是因为实验采用的数据集仅包含 5 个 类别,其特征组合数远远少于 CIFAR-100、Pascal VOC 等数据集中样本的特征组合数,如果参照原始 U-Net 中 的过滤器深度,网络不易收敛,分割准确率较低。具体 而言,这样出于三个方面的考虑:(1)数据集中类别数和 待识别特征数均较少,网络池化操作中丢失掉的信息可 以通过“解卷积”和“跳跃连接”重新获取。另外在遥感 图像中,不需要去理解和识别高层次 3D 物体的概念,在 较高网络层中增加过滤器的数量,并不影响模型的实际 预测性能;(2)参照经典版本的网络结构设置对实验的 硬件设备,尤其是 GPU 要求极高,设计统一的过滤器数 loss = -∑ ∑ i c yci ⋅ lg(y_predci ) (9) 量(64)实质上是一种降低时间和空间复杂度的考虑; (3)统一的过滤器数量使得网络结构更加清晰,易于编 码实现。 在网络训练阶段,并未使用任何的预训练模型,但 在训练开始前对数据集做了一些适当地调整,如图片裁 剪、色彩调整等。本文网络的最后一层使用 softmax 作 为分类函数,使用交叉熵评估训练结果,损失函数定义 如下: 表示样本 i 的真实类别,y_predci 式中,yci 表示网格对 样本 i 的预测结果。设置批次大小为 32,优化器使用 AdamOptimizer,学习率设为 0.001。 3.3 结果优化 在 3.2 节中,实际为每一类地物目标训练了一个二 分类模型,共得到 4 幅分割子图。为每一类型训练模型 是容易对每一类网络进行微调,其关键是为了克服数据 量不平衡问题,如图 1 所示,样本数量最少的水体仅占 5.39%,而建筑则占到了 30.30%. 如果直接训练一个模 型,会使得模型存在选择偏好。需要指出,并未对“其他 类”训练模型,这是因为不同于其他具体类别,“其他类” 不具有明显的统计特征。在合并分割子图时,提出了一 种“多数表决”的策略,即对某一像素点,不同模型的预 测结果出现分歧时,该像素的类别为其 8 邻域中的出现 次数最多的类别。在网络后端处理部分,当下大多数语 义分割网络都使用了条件随机场及其变种对预测结果 进行优化,但实验发现效果并不明显,推测原因可能是 人工标记不准确。由此,使用了集成学习的方法来确定 最终的语义分割结果,即训练多个不同类型的模型,综 合考虑各模型的分割结果。仍旧采用“多数表决”的策 略,对每幅图相应位置的像素点,得票数最多的类别即 为该像素点的类别,采用 SegNet、原始 U-Net 和本文网 络的综合。使用集成学习对模型分割结果作后处理,避 免了由于分割结果不精细而出现的类白噪声现象。 3.4 评价指标 Kappa 系数(定义如式(10))在遥感分类图像的精 计算机工程与应用www.ceaj.org
苏健民,等:基于 U-Net 的高分辨率遥感图像语义分割方法 2019,55(7) 211 64 128×128×3 输入图像 8 2 1 × 8 2 1 64 96 64 1 8 2 1 × 8 2 1 128×128×3 输出图像 4 6 × 4 6 64 2 3 × 2 3 64 6 1 × 6 1 64 96 64 4 6 × 4 6 96 64 2 3 × 2 3 96 64 6 1 × 6 1 8 × 8 64 96 64 8 × 8 4 × 4 BatchNorm+Conv 3×3+ELU Maxpooling 2×2 Copy+Crop UpConv 2×2 Output 度评估有着重要应用,其取值范围为(−1,1),score>0.8 意味着好的分类,0 或更低意味着差的分类 J(A,B) = |A ⋂ B| |A ⋃ B| 图 3 网络结构示意图 (11) (10) 4 实验分析 k = p0 - pe 1 - pe ∑ r xii N ,pe = i = 1 r ∑ (xi + ⋅ xi +) N 2 i = 1 式中,p0 = ,p0 被称为观测精 确性比例,反映解释正确的单元格的比例;pe 被称为偶 然性一致性比例,表示偶然性因素导致的错误解释的比 例。更为通用的语义分割评价指标还包括 Jaccard 系 数,定义如式(11)。 实验以 Tensorflow r1.4 作为开发框架,计算机硬件 主 要 配 置 为 两 块 Quadro M4000 GPU(8 GB),16 GB RAM。 本 文 网 络 训 练 了 约 两 天 ,在 数 据 集 上 取 得 了 94%的训练准确率以及 90%的测试准确率。在对语义 分割结果作详细定量评价之前,首先定性展示其他著名 网络和本文方法对高分辨率遥感图像的语义分割结果, 如图 4 所示。 其他 植被 水体 建筑 道路 原始图像 人工标记 DeconvNet 图 4 遥感图像语义分割结果 SegNet U-Net 本文方法 计算机工程与应用www.ceaj.org
212 2019,55(7) Computer Engineering and Applications 计算机工程与应用 其他 0.874 0.012 0.019 0.091 0.004 植被 0.058 0.906 0.006 0.018 0.013 别 类 实 真 道路 0.216 0.020 0.738 0.025 0.000 建筑 0.115 0.004 0.002 0.878 0.001 其他 0.889 0.008 0.029 0.073 0.001 植被 0.043 0.911 0.030 0.008 0.007 道路 0.137 0.009 0.845 0.009 0.001 建筑 0.062 0.004 0.004 0.929 0.001 0.8 0.6 0.4 0.2 别 类 实 真 0.8 0.6 0.4 0.2 水体 0.065 0.047 0.001 0.009 0.878 水体 0.043 0.095 0.024 0.003 0.835 其他 植被 道路 建筑 水体 其他 植被 道路 建筑 水体 预测类别 预测类别 图 5 原始 U-Net 与本文方法处理混淆矩阵对比 表 1 不同类别语义分割质量评价 Precision Recall F1-Measure 类别 其他 植被 道路 建筑 水体 FCN-8s DeconvNet SegNet U-Net 0.72 0.94 0.78 0.81 0.89 0.74 0.79 0.74 0.90 0.93 0.78 0.79 0.75 0.90 0.96 0.78 0.93 0.90 0.91 0.91 本文 方法 0.86 0.93 0.83 0.94 0.95 FCN-8s 0.74 0.83 0.66 0.85 0.83 Decon vNet 0.84 0.84 0.70 0.83 0.53 可以看出,本文网络的分割结果最接近于人工标 记,且整体视觉感知最优。注意,以上各网络统一了过 滤器深度,均为 64,实验中尝试了原始深度及其他各种 深度,效果均难以令人满意。事实上,网络的收敛时间 也排在各网络收敛时间的前列,这主要得益于使用了批 标准化技巧。其不仅降低了网络对初始化权重的敏感 度,而且很好地解决了过拟合问题,本文网络也因此并 未设置 Dropout 层。发现,使用解卷积要优于上池化,主 要体现在收敛速度和最终的分割准确率上。同等条件 下,使用上池化收敛用时是解卷积的 2~3 倍,分割精度 低 2 个百分点。 再来关注使用集成学习投票策略给语义分割准确 率带来的提升。图 5 展示了使用原始 U-Net 和本文网 络+集成学习后处理的分割结果混淆矩阵对比。 可以看出,本文方案在除对水域的分割以外,对其 他各类的分割均优于原始 U-Net,对道路和建筑的分割 精度提升尤其显。在表 1、2 中详细展示了各网络在测 试集上的定量评价,表 1 是各网络对每一类别的分割质 量评价。U-Net 及提出方法优于其他网络,在 Kappa 系 数评价指标中,本文方法是唯一超过 0.8 的网络,实际达 到了 0.86。在评价指标 Jaccard 系数这一指标中,此方法 同样处于领先地位。 表 2 测试集语义分割质量评价 网络 Precision FCN-8s DeconvNet SegNet U-Net 本文方法 0.83 0.82 0.84 0.89 0.90 Recall 0.78 0.75 0.78 0.85 0.88 F1-Measure Kappa 系数 Jaccard 系数 0.79 0.81 0.83 0.88 0.90 0.70 0.73 0.76 0.80 0.86 0.73 0.74 0.77 0.82 0.86 本文 方法 0.89 0.91 0.84 0.93 0.83 FCN-8s 0.73 0.88 0.72 0.83 0.86 Deconv Net 0.79 0.81 0.72 0.87 0.68 SegNet U-Net 0.81 0.83 0.76 0.88 0.71 0.83 0.92 0.81 0.90 0.90 本文 方法 0.88 0.92 0.84 0.93 0.89 SegNet U-Net 0.87 0.84 0.91 0.86 0.74 0.76 0.88 0.86 0.88 0.56 5 结束语 本文提出了一种改进的 U-Net 全卷积神经网络,用 于端到端的高分辨率遥感图像语义分割。提出网路在 卷积操作前作批标准化处理,统一过滤器深度,使用 ELU 替换原始 ReLU 激活函数。按照通用框架,在前端 使用改进 U-Net 做图像粗分割,后端使用集成学习投票 优化前端输出。在“CCF 卫星影像的 AI 分类与识别竞 赛”数据集上的实验显示了提出方法的有效性和先进 性,其训练集准确率为 94%,测试集准确率为 90%,实现 了对遥感图像中建筑、道路、水体、植被等复杂目标的准 确分割。与其他先进语义分割网络相比,提出网络取得 了最佳的分割准确率,并且收敛时间最短。通过实验得 出的结论主要包括:(1)在小类别语义分割任务上,较浅 的网络深度同样可以取得非常好的效果;(2)解卷积的 作用优于上池化;(3)对小样本进行过采样有利于解决 类别不平衡问题;(4)以全连接条件随机场为代表的条 件随机场优化在复杂遥感图像语义分割任务上作用不 大。后续的研究,将尝试根据不同类别设计不同尺度 图图像块和滑动窗口,以实现更加精确的遥感图像语 义分割。 参考文献: [1] 黄凯奇,任伟强,谭铁牛 . 图像物体分类与检测算法综述[J]. 计算机学报,2014,37(6):1225-1240. [2] 王春艳,徐爱功,李玉,等 . 融入空间关系的二型模糊模型 高分辨率遥感影像分割[J]. 遥感学报,2016(1):103-113. [3] 赵雪梅,李玉,赵泉华 . 基于隐马尔可夫高斯随机场模型的 模糊聚类高分辨率遥感影像分割算法[J]. 电子学报,2016, 计算机工程与应用www.ceaj.org
苏健民,等:基于 U-Net 的高分辨率遥感图像语义分割方法 2019,55(7) 213 44(3):679-686. [4] Kampffmeyer M,Salberg A B,Jenssen R.Semantic seg- mentation of small objects and modeling of uncertainty in urban remote sensing images using deep convolutional neural networks[C]//Proceedings of Computer Vision and Pattern Recognition Workshops,2016:680-688. [5] Long J,Shelhamer E,Darrell T.Fully convolutional net- works for semantic segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(4): 640-651. [6] Sherrah J.Fully convolutional networks for dense seman- imagery[J].arXiv: tic labelling of high- resolution aerial 1606.02585v1,2016. [7] Kaiser P,Wegner J D,Lucchi A,et al.Learning aerial image segmentation from online maps[J].IEEE Transac- tions on Geoscience & Remote Sensing,2017,55(11):1-15. [8] Yuan J.Learning building extraction in aerial scenes with convolutional networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2018,40(11):2793- 2798. [9] Ronneberger O,Fischer P,Brox T.U- Net:Convolutional networks for biomedical image segmentation[J].Medical Image Computing and Computer-Assisted Intervention (MICCAI),2015,9351:234-241. [10] Badrinarayanan V,Kendall A,Cipolla R.SegNet:A deep convolutional encoder- decoder architecture for scene segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(12):2481-2495 [11] Lin G,Milan A,Shen C,et al.RefineNet:Multi-Path Re- finement Networks for High- Resolution Semantic Seg- mentation[C]//Proceedings on Computer Vision and Pattern Recognition,2017. IEEE Conference of [12] Zhao H,Shi J,Qi X,et al.Pyramid Scene Parsing Net- work[J].arXiv:1612.01105v1,2016. [13] Peng C,Zhang X Y,Yu G,et al.Large Kernel Matters— Improve Semantic Segmentation by Global Convolu- tional Network[C]///Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,2017: 1743-1751. [14] Su J,Vargas D V,Kouichi S.One pixel attack for fooling deep neural networks[J].arXiv:1710.08864v5,2017. ® tions & Trends [15] Bengio Y.Learning deep architectures for AI[J].Founda- in Machine Learning,2009,2(1):1-55. [16] Liu W,Wang Z,Liu X,et al.A survey of deep neural [J].Neuro- network architectures and their applications computing,2016,234:11-26. ☆ [17] Ioffe S,Szegedy C.Batch normalization:Accelerating deep network training by reducing internal covariate shift[J].arXiv:1502.03167v3,2015:448-456. [18] Clevert D A,Unterthiner T,Hochreiter S.Fast and accurate deep network learning by Exponential Linear Units (ELUs)[C]//Proceedings of ICLR 2016,2016. [19] Zeiler M D,Krishnan D,Taylor G W,et al.Deconvolu- tional networks[C]//Proceedings of Conference on Com- puter Vision and Pattern Recognition,2010:2528-2535. (上接第 57 页) [6] 张其文,谢艳钊 . 基于属性权重的时序模糊软集的群决策 方法研究[J]. 计算机科学,2016,43(12):88-96. [7] Feng F.An adjustable approach to fuzzy soft set based on decision making[J].Journal of Computational and Applied Mathematics,2010,234(1):10-20. [8] Feng F,Cagman N.Generalized uniint decision making schemes based on choice value soft sets[J].European Journal of Operational Research,2012,220(1):162-170. [9] Majumdar P,Samanta S K.Generalised fuzzy soft sets[J]. Computers and Mathematics with Applications,2010,59: 1425-1432. [10] 徐达宇,杨善林,罗贺 . 基于广义模糊软集理论的云计算 资源需求组合预测研究[J]. 中国管理科学,2015,23(5): 56-64. [11] Agarwal M,Biswas K K,Hanmandlu M.Generalized intuitionistic fuzzy soft sets with applications in decision- making[J].Applied Soft Computing,2013,13:3552-3566. [12] Zhu B,Xu Z,Xia M.Hesitant fuzzy geometric bonferroni means[J].Information Science,2012,205:72-85. [13] 彭守镇,林显宁,吴桂明,等 . 犹豫语言信息集成算法及其 数据库选择应用[J]. 计算机工程与应用,2017,53(21): 85-90. [14] Liang D,Xu Z,Darko A P.Projection model for fusing the information of pythagorean fuzzy multicriteria group decision making based on geometric bonferroni mean[J]. International Journal of Intelligent Systems,2017,32: 1-21. [15] 王应明 . 运用离差最大化方法进行多指标决策与排序[J]. 中国软科学,1998(3):36-38. [16] 毛军军,姚登宝,王翠翠 . 基于时序模糊软集的群决策方 法[J]. 系统工程理论与实践,2014,34(1):182-189. [17] 马庆功,王峰 . 广义直觉模糊几何 Bonferroni 平均及其多 属性决策[J]. 计算机应用,2015,35(12):3465-3471. 计算机工程与应用www.ceaj.org
分享到:
收藏