尺度不变特征变换匹配算法详解
Feature
Invariant
Scale
Transform(SIFT)
Scale
Invariant
Feature
Transform(SIFT)
Feature Transform(SIFT)
Invariant Feature
Scale Invariant
Scale
Transform(SIFT)
JustJustJustJust ForForForFor FunFunFunFun
zddmail@gmail.com
zddmail@gmail.com
张东东 zddmail@gmail.com
zddmail@gmail.com
对于初学者,从 David G.Lowe 的论文到实现,有许多鸿沟,本文帮你跨越。
1111、SIFTSIFTSIFTSIFT 综述
尺度不变特征转换(Scale-invariant feature transform 或 SIFT)是一种电脑视觉的算法用来
侦测与描述影像中的局部性特征,它在空间尺度中寻找极值点,并提取出其位置、尺度、旋
转不变量,此算法由 David Lowe 在 1999 年所发表,2004 年完善总结。
其应用范围包含物体辨识、机器人地图感知与导航、影像缝合、3D 模型建立、手势辨
识、影像追踪和动作比对。
此算法有其专利,专利拥有者为英属哥伦比亚大学。
局部影像特征的描述与侦测可以帮助辨识物体,SIFT 特征是基于物体上的一些局部外
观的兴趣点而与影像的大小和旋转无关。对于光线、噪声、些微视角改变的容忍度也相当高。
基于这些特性,它们是高度显著而且相对容易撷取,在母数庞大的特征数据库中,很容易辨
识物体而且鲜有误认。使用 SIFT 特征描述对于部分物体遮蔽的侦测率也相当高,甚至只需
要 3 个以上的 SIFT 物体特征就足以计算出位置与方位。在现今的电脑硬件速度下和小型的
特征数据库条件下,辨识速度可接近即时运算。SIFT 特征的信息量大,适合在海量数据库
中快速准确匹配。
SIFT 算法的特点有:
1. SIFT 特征是图像的局部特征,其对旋转、尺度缩放、亮度变化保持不变性,对视角
变化、仿射变换、噪声也保持一定程度的稳定性;
2. 独特性(Distinctiveness)好,信息量丰富,适用于在海量特征数据库中进行快速、
准确的匹配;
3. 多量性,即使少数的几个物体也可以产生大量的 SIFT 特征向量;
4. 高速性,经优化的 SIFT 匹配算法甚至可以达到实时的要求;
5. 可扩展性,可以很方便的与其他形式的特征向量进行联合。
SIFT 算法可以解决的问题:
目标的自身状态、场景所处的环境和成像器材的成像特性等因素影响图像配准/目标识
别跟踪的性能。而 SIFT 算法在一定程度上可解决:
1. 目标的旋转、缩放、平移(RST)
2. 图像仿射/投影变换(视点 viewpoint)
3. 光照影响(illumination)
4. 目标遮挡(occlusion)
5. 杂物场景(clutter)
6. 噪声
SIFT 算法的实质是在不同的尺度空间上查找关键点(特征点),并计算出关键点的方向。
SIFT 所查找到的关键点是一些十分突出,不会因光照,仿射变换和噪音等因素而变化的点,
如角点、边缘点、暗区的亮点及亮区的暗点等。
Lowe 将 SIFT 算法分解为如下四步:
1. 尺度空间极值检测:搜索所有尺度上的图像位置。通过高斯微分函数来识别潜在的
对于尺度和旋转不变的兴趣点。
2. 关键点定位:在每个候选的位置上,通过一个拟合精细的模型来确定位置和尺度。
关键点的选择依据于它们的稳定程度。
3. 方向确定:基于图像局部的梯度方向,分配给每个关键点位置一个或多个方向。所
有后面的对图像数据的操作都相对于关键点的方向、尺度和位置进行变换,从而提供对于这
些变换的不变性。
4. 关键点描述:在每个关键点周围的邻域内,在选定的尺度上测量图像局部的梯度。
这些梯度被变换成一种表示,这种表示允许比较大的局部形状的变形和光照变化。
本文沿着 Lowe 的步骤,参考 Rob Hess 及 Andrea Vedaldi 源码,详解 SIFT 算法的实现
过程。
2222、高斯模糊
SIFT 算法是在不同的尺度空间上查找关键点,而尺度空间的获取需要使用高斯模糊来
实现,Lindeberg 等人已证明高斯卷积核是实现尺度变换的唯一变换核,并且是唯一的线性
核。本节先介绍高斯模糊算法。
2.12.12.12.1 二维高斯函数
高斯模糊是一种图像滤波器,它使用正态分布(高斯函数)计算模糊模板,并使用该模板
与原图像做卷积运算,达到模糊图像的目的。
N 维空间正态分布方程为:
rG
)(
=
1
2
2
πσ
r
2
2
)σ/(2
e
−
N
(1-1)
其中,σ 是正态分布的标准差,σ 值越大,图像越模糊(平滑)。r 为模糊半径,模糊半
径是指模板元素到模板中心的距离。如二维模板大小为 m*n,则模板上的元素(x,y)对应的高
斯计算公式为:
yxG
)
,(
=
1
2
2
πσ
(
−
e
mx
−
2
ny
(
)2/
−+
2
2
σ
)2/
2
(1-2)
在二维空间中,这个公式生成的曲面的等高线是从中心开始呈正态分布的同心圆,如图
2.1 所示。分布不为零的像素组成的卷积矩阵与原始图像做变换。每个像素的值都是周围相
邻像素值的加权平均。原始像素的值有最大的高斯分布值,所以有最大的权重,相邻像素随
着距离原始像素越来越远,其权重也越来越小。这样进行模糊处理比其它的均衡模糊滤波器
更高地保留了边缘效果。
图 2.1 二维高斯曲面
理论上来讲,图像中每点的分布都不为零,这也就是说每个像素的计算都需要包含整幅
图像。在实际应用中,在计算高斯函数的离散近似时,在大概 3σ距离之外的像素都可以看
作不起作用,这些像素的计算也就可以忽略。通常,图像处理程序只需要计算
6(
σ
)1
×+
6(
σ
+
)1
的矩阵就可以保证相关像素影响。
2.22.22.22.2 图像的二维高斯模糊
根据σ的值,计算出高斯模板矩阵的大小(
6(
σ
)1
×+
6(
σ
+
)1
),使用公式(1-2)计算高
斯模板矩阵的值,与原图像做卷积,即可获得原图像的平滑(高斯模糊)图像。为了确保模板
矩阵中的元素在[0,1]之间,需将模板矩阵归一化。5*5 的高斯模板如表 2.1 所示。
表 2.1 5*5 的高斯模板(σ=0.6)
6.58573e-006
0.000424781
0.00170354
0.000424781
6.58573e-006
0.000424781
0.0273984
0.109878
0.0273984
0.000424781
0.00170354
0.109878
0.440655
0.109878
0.00170354
0.000424781
0.0273984
0.109878
0.0273984
0.000424781
6.58573e-006
0.000424781
0.00170354
0.000424781
6.58573e-006
高斯模板是中心对称的。
下图是 5*5(
0.6=σ
)的高斯模板卷积计算示意图。
图 2.2 二维高斯卷积
a) 原图
b)
0.6=σ
c)
=σ
10.0
d)
=σ
10.0
(边缘处理)
图 2.3 二维高斯模糊效果图
2.32.32.32.3 分离高斯模糊
如图 2.3 所示,使用二维的高斯模板达到了模糊图像的目的,但是会因模板矩阵的关系
而造成边缘图像缺失(2.3 b,c),σ 越大,缺失像素越多,丢弃模板会造成黑边(2.3 d)。更重要
的是当变大时,高斯模板(高斯核)和卷积运算量将大幅度提高。根据高斯函数的可分离性,
可对二维高斯模糊函数进行改进。
高斯函数的可分离性是指使用二维矩阵变换得到的效果也可以通过在水平方向进行一
维高斯矩阵变换加上竖直方向的一维高斯矩阵变换得到。从计算的角度来看,这是一项有用
的特性,因为这样只需要
(
×
NMmONMnO
)
×
×
×
)
+
(
次计算,而二维不可分的矩阵则需
要
NMnmO
)
××
×
(
次计算,其中,m,n 为高斯矩阵的维数,M,N 为二维图像的维数。
另外,两次一维的高斯卷积将消除二维高斯矩阵所产生的边缘。
图 2.4 分离高斯卷积
a)原图
b)
2.0=σ
图 2.5 分离高斯模糊效果图
附录 1 是用 opencv2.2 实现的二维高斯模糊和分离高斯模糊。表 2.2 为上述两种方法和
opencv2.3 开源库实现的高斯模糊程序的比较。
表 2.2 高斯模糊实现结果比较(lena512*512 灰度图)
方法
σ ms
版
本
Debug
σ
1.6
2.6
3.6
二维高斯模糊
分离高斯模糊
Opencv2.2实现的
高斯模糊
3906
9031
16062
781
1125
1547
16
16
31
Release
16.0
1.6
2.6
3.6
16.0
210203
109
218
390
6531
5953
47
63
94
375
125
0
0
0
32
3333、尺度空间极值检测
尺度空间使用高斯金字塔表示。Tony Lindeberg 指出尺度规范化的 LoG(Laplacion of
Gaussian)算子具有真正的尺度不变性,Lowe 使用高斯差分金字塔近似 LoG 算子,在尺度空
间检测稳定的关键点。
3.13.13.13.1 尺度空间理论
尺度空间(scale space)思想最早是由 Iijima 于 1962 年提出的,后经 witkin 和 Koenderink
等人的推广逐渐得到关注,在计算机视觉领域使用广泛。
尺度空间理论的基本思想是:在图像信息处理模型中引入一个被视为尺度的参数,通过
连续变化尺度参数获得多尺度下的尺度空间表示序列,对这些序列进行尺度空间主轮廓的提
取,并以该主轮廓作为一种特征向量,实现边缘、角点检测和不同分辨率上的特征提取等。
尺度空间方法将传统的单尺度图像信息处理技术纳入尺度不断变化的动态分析框架中,
更容易获取图像的本质特征。尺度空间中各尺度图像的模糊程度逐渐变大,能够模拟人在距
离目标由近到远时目标在视网膜上的形成过程。
尺度空间满足视觉不变性。该不变性的视觉解释如下:当我们用眼睛观察物体时,一方
面当物体所处背景的光照条件变化时,视网膜感知图像的亮度水平和对比度是不同的,因此
要求尺度空间算子对图像的分析不受图像的灰度水平和对比度变化的影响,即满足灰度不变
性和对比度不变性。另一方面,相对于某一固定坐标系,当观察者和物体之间的相对位置变
化时,视网膜所感知的图像的位置、大小、角度和形状是不同的,因此要求尺度空间算子对
图像的分析和图像的位置、大小、角度以及仿射变换无关,即满足平移不变性、尺度不变性、
欧几里德不变性以及仿射不变性。
3.23.23.23.2 尺度空间的表示
一个图像的尺度空间
,( σyxL
)
,
,定义为一个变化尺度的高斯函数
,( σyxG
)
,
与原图像
,( yxI
)
的卷积。
yxL
)
,(
,
σ
其中,∗ 表示卷积运算,
=
yxG
,
,(
)
σ
∗
yxI
,(
)
(3-1)
yxG
,
,(
)
σ
=
1
2
2
πσ
(
−
e
mx
−
2
ny
(
)2/
−+
2
2
σ
)2/
2
(3-2)
与公式(1-2)相同,m,n 表示高斯模板的维度(由
6(
σ
)1
×+
6(
σ
+
)1
确定)。(x, y)代表图
像的像素位置。σ 是尺度空间因子,值越小表示图像被平滑的越少,相应的尺度也就越小。
大尺度对应于图像的概貌特征,小尺度对应于图像的细节特征。
3.33.33.33.3 高斯金字塔的构建
尺度空间在实现时使用高斯金字塔表示,高斯金字塔的构建分为两部分:
1. 对图像做不同尺度的高斯模糊;
2. 对图像做降采样(隔点采样)。
图 3.1 高斯金字塔
图像的金字塔模型是指,将原始图像不断降阶采样,得到一系列大小不一的图像,由大
到小,从下到上构成的塔状模型。原图像为金子塔的第一层,每次降采样所得到的新图像为