基于区域合并的纹理图像分割算法的研究
一、概述
图像分割是图像处理技术的经典难题之一, 也是图像分析和模式识别等高级图像处理
操作的流程中的关键步骤, 图像的分割结果直接决定了后期图像处理的效果和质量。所谓
图像分割是指将图像中具有特殊含义的区域分割开,且这些区域互相不重叠, 同时每个区
域都满足特定的区域一致性条件。 从工程实现的角度,图像分割又可以定义为将图像划分
成互不相交(不重叠)区域的过程。从集合论的角度出发,给出了一种较通用的图像分割描
述性定义。
定义 1 令 R 表示整个待分割图像区域,从而可以将图像分割看作将 R 划分为n个满足
以下条件的子区域 1R , 2R ,…, nR 的过程:
(1)
n
R
i
1
i
R
,且 R i 是连通的;
(2) 对所有的 i 和 j ,且i
,
P R
i
(4) 对于 i
(3) 对于 1,2,...,
n
j ,有
其中,
P R R
i
j ,有 R Ri
j
;
i
j
TRUE
;
FALSE
。
P R i 是定义在区域 R i 内所有点上的逻辑谓词, 表示空集。
条件(1)说明分割必须是完全的(即每个像素必须属于一个子区域),且子区域自身必
须是连通的;条件(2)说明各个分割区域之间相互不重叠;条件(3)说明同一个分割区域中的
像素具有相同的属性(如具有相同的灰度值) ;条件(4)说明不同分割区域 R i 和 R j 对于
谓词 P 是不同的。
由于图像分割技术应用广泛且与其他学科(如光学、统计学、生物学等)联系紧密,所
以图像分割的解决方案和思路呈现出多样化的趋势,并激发了越来越多学者的研究兴趣,使
得对图像分割技术的研究在图像处理领域始终保持着热点地位。在大量关于图像分割技术的
科技文献中,己经提出了相当丰富的分割方法和系统的解决方案,尤其是近20年来出现的图
像分割方法,不仅包括对原有方法的继承和改进,还涌现出一些新思路、新方法,如基于马
尔科夫随机场模型的图像分割、小波分形的图像分割、模糊聚类、基于人工神经网络的图像
分割方法等。图像分割方法一般是基于局部像素点的两个基本特性:不连续性和相似性。按
照该特性可以将这些已有的图像分割方法归为三类:基于阈值的分割方法、基于间断检测的
分割方法、基于区域的分割方法。
此外,还有一些比较特殊的图像分割方法,比如混合几种基本分割方法的复合图像分割
1
方案,引入待分割图像先验知识的智能图像分割方案,用于视频特征提取的时域图像分割方
案等等。
基于区域的图像分割方法,将图像按内容划分成许多区域。虽然存在过分割,但是可以
通过研究改进算法减少过分割或选择有效的后处理算法得到有用的结果。例如,在 Mean
Shift[1]和 Watershed[2]这两种图像分割算法中,一方面可以研究各种减少过分割的改进算
法。另一方面,也可以采用有效的预处理,去除噪音,使图像适宜于 Watershed 或 Mean Shift
算法分割。
虽然有很多图像分割方法致力于解决图像分割问题,它们在一些特定的对象中能取得较
好的结果。但是,总的来说,图像,特别是彩色图像包含着复杂的纹理和颜色特征,使得全
自动图像分割几乎成为不可能的任务。
因此,一些结合用户输入或先验信息的半自动图像分割方法,即交互式图像处理[3],
成为近年来研究的热点。如经典的 ACM 方法,实际上也是一种半自动图像分割算法,适当
地选择初始曲线,是得到好的分割结果的必要条件;基于标记驱动的 Watershed 图像分割方
法[4],它结合用户的输入信息,提高分割结果;在 Graph Cut 方法中,用户的交互式信息也
是影响算法的分割结果至关重要的因素。这些交互式图像分割算法通常是以像素为处理单
位,但是,它们的一些基本思想显然也适用于基于区域的处理,从而能够改进分割结果。
虽然,Mean Shift 和 Watershed 等算法通常存在着过分割,但是它们得到了一个较好的
初始分割结果,即每个区域都包含着目标或背景的一些特征,为后续区域合并处理提供了一
个基础。但是,因为目标和背景通常呈现复杂的特征,传统的基于固定阈值的合并方法很难
得到有效的结果,因此需要研究新的算法解决复杂条件下的区域合并。
本章的研究对象是彩色(自然)图像的分割问题。将以 Mean Shilt 算法的分割结果作为基
础,提出一种新的交互式区域台并算法,来提取自然图像中的目标。本文所使用 Mean Shift
分割软件是 EDISON System[5]它是个开放的 Mean Shift 分割软件,界面友好,功能完善,
是研究 Mean Shift 算法很好的平台。
图 1.1 展示了分割软件的一个实例。
(a)为原始图像。
(b)为 EDISON System 分割后得到的包含很多小区域的结果。
2
图 1.1 EDISON System 分割的例子
二、区域的表示和相似性度量
Mean Shift 算法一般将图像分割成一些区域,每个区域具有一定的特征。本文采用 RGB
颜色空间表示每个区域,当然,其它颜色空间,如 HsI 和 Lab 等,也可用于对区域建模。将
RGB 颜色空间量化为 16x16x16=4096 箱格,然后计算每个区域的规范化直方图。为了度量
区域之间的相似性.选择 Bhatlacha 系数测量区域 R 和 Q 的相似度:
R,Q =
4096
u=1
Hist Hist
u
R
u
Q
1.1
式中,
u
RHist 和
u
QHist 分别表示区域 R 和 Q 的直方图。上标 u 表示直方图的第 u 个箱格。
三、目标和背景的标记
在交互式图像分割,用户需要指定目标和背景的概念。用户可以在图像上通过绘制标记,
如直线,曲线和笔划等来输入上互动信息。含有目标标记像素的区域因此被称为目标标记区
域,而含有背景标记像素的区域被称为背景标记区域。图 1.2(b)显示了用简单的线条标记
目标和背景的例子。我们用绿色标记来标示目标而使用红色标记来表示对象的背景。请注意,
通常只有一小部分的目标区域和背景区域会被用户标记。实际上,用户的必要输入越少,交
互式算法就越方便越强大。
如下图:
3
(a)初始分割。
(b)由用户交互式的信息输入。绿线是目标标记和红线是背景标记。
(c)区域分割的结果。
图 1.2 图像分割
目标标记完后,每个区域将被标记为三种类型的地区之一:目标标记区域,背景标记区
域和未标记的区域。要完全提取物体轮廓,我们需要将每个未标记的区域自动正确的标记为
目标区域或背景区域。为了方便的后续讨论,我们分别用 OM 和 BM 表示目标标记区域集和
背景标记区域集,用 N 表示未标记区域集。
四、基于最大相似度的区域合并机制
经过目标/背景的标记后,准确地从背景中提的目标轮廓仍然是一个具有挑战性的问题,
因为用户只指示了一小部分目标背景的特征。传统的方法中,只有邻近区域的相似性超过预
设的阈值[6]才将两个区域合并。这些方法在自适应阈值选取上存在困难。一个过大的阈值
将导致目标的区域的不完全合并,而过小的阈值可以很容易造成过合并,即一些目标区域被
合并为背景区域。此外,也很难判断何时该停止区域合并进程。
目标和背景的标记分别提供了对象和背景一些关键特征。在于基于标记控制的分水岭分
割算法中,标记是算法的种子和出发点。类似的,提出的区域合并方法也将从初始标记区域
开始,然后所有未标记区域将逐渐标识为目标区域或背景区域。这个懒惰的方法提出了对齐
抠出方法[7] ,它结合了基于分水岭初始分割的图形切割,这实际上是一个采用最大流算法
的区域合并方法。在本论文中,我们提出了一种自适应地基于极大的相似性的合并机制,以
4
辨别在目标和背景标记指导下所有未标记区域。
设Q 表示 R 的一个相邻区域,
Q
与它所有邻域相似性表示为
Q
中
iQ,S
Q
S = S
Q
i
i=1,2,...,q
表示 Q 的所有相邻区域的集合。所以 Q
iQ,S i = 1,2,...,q
,显然
R S 。如果 R 和 Q 的相似性为
Q
最大的,我们就将 R 和 Q 合并。合并规则定义如下:
R,Q
max
1,2,...,
q
i
Q,S
Q
i
若
,则合并 R 与 Q 。
1.2
合并规则(2)非常简单,但它确立了该区域合并进程的基础。(2)一个重要的优点是
它避免了合并控制中相似性阈值的预置。虽然最值运算操作对异常值敏感 ,但我们经验发
现算法工作良好。 这主要是因为,直方图是对本地区全局描述,它具有很强的噪音和很小
的变化。
但是,标记区域仅覆盖一部分的目标和背景,那些目标和背景中的非标记区域也应当被
自动识别并正确标记。总的来说,标记区域包含了相应的主要特征,因此,未标记的目标区
域与目标标记区域,以及未标记的背景区域与背景标记区域有着更高的自相似度。所以通常
情况下,非标记的目标区域不会与背景区域相合并。类似地,未标记的背景区域同样不会与
目标区域相合并。
区域合并算法:
基 于 最 大 相 似 度 的 区 域 合 并 算 法 (Maximal Similarity based Region Merging , 简 称
MSRM),分为两个迭代地执行的阶段,直到没有新的区域合并发生。合并策略是尽可能合
并背景区域,而保持前景区域不被合并。一旦合并完所有的背景区域,等价于提取了目标。
对每一个区域
B M ,确定其邻域集合
B
S = A
B
i
i=1,2,...,
r 。对每一个 iA ,如果 i
A M ,
B
S = A
A
i
i
A
j
j=1,2,...,k
,显然
B S 。然后计算 iA 和 iAS 中的每一个区域
iA
求其相应的邻域集合
的相似度。
如果 B 和 iA ,满足下式:
A ,B
i
max
j=1,2,...,k
A ,S
i
iA
j
那么 B 和 iA ,合并成一个区域,新的区域将和 B 有相同的标记,即:
B = B A
i
否则, B 和 iA 将不台并。
以上的过程迭代进行。在每一次迭代中,集合 BM 和 N 将被更新.其中, BM 膨胀、N
收缩。当所有背景标记 BM 找不到新的合并对象时,迭代结束。经过第一阶段,部分属于背
5
景的区域互相合并。但是,仍有一些背景区域因为彼此间具有更大的相似度.因此它们不能
和背景标记区域合并。第一阶段的合并结果如图 1.3(a)所示。可以看出,经过第一阶段后,
大多数属于背景的区域己被合并,但仍有一些未标记的背景区域未和背景标记区域合并。
为了完成目标提取,第二阶段将以第一阶段剩下的未标记区域 N 为处理对象,其中包
含部分目标特征,同时也包含部分背景特征。未标记区域在最大相似度规则的指导下互相融
合,即目标部分互相融合,背景部分互相融合。
经过第一阶段台并之后,对每一个未标记区域(属于目标或背景) P N ,构成它的邻
S = H
P
i
i=1,2,...,p
域集合
S = A
H
i
H
j
的 邻 域 集 台
iH
jH ,S
i
。
,-接着,对每一个 iH ,如果其满足 i
i
P S 。 计 算 iH 和
。 那 么
j=1,2,...,k
iH
H M 和 i
H M ,构成它
O
B
iH
jS 中 每 一 个 区 域 的 相 似 度
如果 P 和 iH ,满足下式:
H ,P
i
max
j=1,2,...,k
H ,S
i
iH
j
那么将 P 与 H,合并成一个区域
P = P H
i
否则,它们不能合并。
以上过程迭代至未标记区域 N 中不再发生合并为止。图 1.3(b)表明,经过第二阶段
的合并之后,一些未标记目标区域和未标记背景区域分别互相融合。接着,重复地执行第一
阶段和第二阶段,直到没有新的合并发生。最后,每个区域被标记成两类:目标或背景,图
1.3(d)显示了最终提取的目标。在绝大部分实验中,算法将在 2-3 个回合结束。
如下图:
(a)第一回合第一阶段。
(b)第一回合第二阶段。
(c)第二回合第一阶段。
(d)第二回合第二阶段。
6
图 1.3 区域合并过程
MSRM 算法
输入:初始均值漂移分割结果。
输出:最后的分割图。
当处于最后循环的区域合并中,那么:
第 1 阶段:将未标记区域 N 与背景标记区域 BM 合并。
输入:初始分割结果或第二个阶段的合并结果。
(1-1)对于每个区域
B M ,构成其邻域集合
B
i=1,2,...,
r 。
i
S = A
B
S = A
A
iA
A ,S
i
j
i
i
A
j
i
i
B
。
j=1,2,...,k
,如果
A ,B
(1-2)对于每个 iA 且 i
A M ,构成其邻域集合
(1-3)计算
iA
jA ,S
iA 不合并。
(1-4)更新 BM 和 N。
(1-5)如果 BM 的地区无法找到新的合并对象,第一阶段合并结束。否则,返回到(1-1)。
B = B A 。否则 B 和
max
j=1,2,...,k
,那么
i
第 2 阶段。自适应地合并未标记区域 N 。
输入:第一阶段合并的结果。
(2-1)对于每个区域 P N ,构成其邻域集
S = H
P
i
i=1,2,...,p
。
(2-2)对于每个 iH , i
H M 且 i
H M ,构成其邻域集合
O
B
S = A
H
i
i
H
j
j=1,2,...,k
,显然
7
iH
i
P = P H ,否则,P
i
i
iH
jH ,S
P S 。
(2-3)计算
与 iH 不再合并。
(2-4)更新 N。
(2-5)如果在区域 N 无法找到新的区域合并,第二阶段停止。否则返回到(2-1)。
max
j=1,2,...,k
H ,P
H ,S
,那么
。如果
i
iH
j
结束
五、收敛性分析
该 MSRM 算法是一个迭代的方法。它逐步将未标记背景区域 N 分配到 BM ,然后把所
有剩下的区域分配到 OM 。可以很容易地看出该方法收敛。
我们有以下定理。
定理 1 MSRM 算法收敛,即所有的 N 区域经过若干迭代会被标记为目标或着背景。
证明如下:
B M
如果在第一个阶段,一个未标记区域 P N 在其邻域中有最大相似度区域 B(
),
那么 P 与 B 合并,即 B = P B 。如果和 P 有最大相似度的区域 B 在目标标记区域中,那
么 P 将保留。如果 P 和另一个未标记区域 P’( P’∈N)有最大相似度,那么 P 与 P’将在第
二阶段合并。即 P= P’ P。根据以上分析,在迭代的下一个回合,P 将与 BM 或其与另
一个未标记区域 P’合并,或仍保持不变。如果在某次选代后,任一个未标记区域 P 在 BM
或 N 中找不到相应的合并对象,算法将停止。
B
从上面过程可以看出,随着合并的进行,来标记区域中的一部分与目标标记区域合并,
一部分将与背景标记区域台并,因此未标记区域 N 的个数将会逐渐减少。一旦 N 停止减少,
整个算法将停止,N 中所有剩下的区域将被标记为 OM 。因此,N 中所有的区域全部被标记,
算法收敛。
8