SURF:快速鲁棒特征
Herbert Bay1, Tinne Tuytelaars2, and Luc Van Gool12
1 ETH Zurich
{bay, vangool}@vision.ee.ethz.ch
2 Katholieke Universiteit Leuven
{Tinne.Tuytelaars, Luc.Vangool}@esat.kuleuven.be
摘要:在本篇论文中,我们提出一个新的尺度和旋转不变的兴趣点检测子和描述
符,即SURF。它接近甚至优于先前提出的关于重复性、独特性和鲁棒性的建议,
而且可以更快的计算和比较。
它的实现是依靠积分图像进行图像卷积;通过建立在领先且现存的探测器和
描述符的优势上(即,使用一个基于Hessian矩阵测量的检测子和基于分布的描
述符);并且简化这些方法至最基本的方法。这将促使新的检测子、描述符和匹
配步骤的结合。本文提出的实验结果是基于标准评估集,以及在现实目标识别的
应用程序背景下的图像获得。以上均显示出SURF强大的性能。
1、简介
在两个有相同场景或目标物的图像中找到相对应的点是许多计算机视觉应
用程序中的一部分任务。相机校正、三维重建、图像配准和目标物识别仅仅是一
部分。这项工作的目标--搜索离散图像的对应,可分为三个主要步骤。首先,“兴
趣点”的选择是在图像中的特殊区域,如角落、斑点和T型路口。一个兴趣点检
测子最有价值的性能是它的重复性,即是否可靠地发现在不同的观测条件下相同
的兴趣点。下一步,每一个兴趣点的附近都被一个特征向量描述。这个描述符必
须是特殊的,同时有强大的噪音、检测错误、几何光度变形特性。最后,这个描
述向量在不同的图像中匹配。这种匹配通常是基于向量之间的距离,比如,马氏
或欧几里得距离。这种描述符的尺寸对它所需时间有直接影响,所以较低数目的
尺寸是理想的。一直以来,我们的目标是开发一种检测子和描述符,能比最先进
的技术更快计算,同时不牺牲其性能。为了取得成功,需破坏上述要求之间的平
衡,如减少描述符的尺寸和复杂性,同时保持足够的鲜明。
各种各样的检测子和描述符已经在文献中被提及(例如[1-6])。标准数据集
中的详细比较和评估也在文献[7-9]中阐述。在构造我们快速的检测子和描述符
时,我们建立在先前工作已取得的深刻见解,来感觉哪些方面对性能有贡献。我
们的实验是基于基准图像集和一个真实目标识别应用程序,由此产生的检测子和
描述符不仅更快速,而且更鲜明且有同等的重复性。
当处理地方特色的工作时,第一个需要解决的问题是所需的不变性。显然,
这取决于预期的几何光度变形,这反过来可能被观测条件中的变化决定。在这里,
我们侧重于尺度和图像旋转不变性的检测子和描述符。这些似乎提供了一个在特
征复杂性和通常发生变形的鲁棒性之间的折中。歪斜的、各项异性的尺寸缩放和
透视效果被假定为二阶效应,一定程度上涵盖描述符的整体鲁棒性。Lowe[2]还
声称,完整的仿射不变性的额外复杂性通常对其鲁棒性有负面影响而且不能清
除,除非真正的大角度变化可以预测。在某些情况下,甚至旋转不变性也要排除
在外,从而导致尺度不变的只有我们描述符版本,我们称之为“直立SURF”
(U-SURF)。事实上,在不少应用程序中,如移动机器人导航或旅游导航,相机通
常只关于垂直轴旋转。在这种情况下,避免过度的旋转不变性的好处是不仅提高
了速度,还增加了辨别力。关于光度变形,我们假设一个有比例因子和偏移的简
单线性模型。请注意,我们的检测子和描述符不适用颜色。
本文组织如下:章节2描述相关工作,其中我们的实验结果是成立的。章节3
介绍兴趣点检测计划。章节4中提出新的描述符。最后,章节5显示了实验结果,
章节6总结了本论文。
2、相关工作
兴趣点检测子 最广泛使用的检测子可能是Harris角检测子[10],早在1988年被
提出,基于二阶矩阵的特征值上。不过,Harris角检测子不是尺度不变的。
Lindeberg提出自动尺度选择的概念[1]。它能够检测图像中的兴趣点,每个都有
各自的特有的尺度。他尝试用Hessian矩阵的行列式以及拉普拉斯(相对应
Hessian矩阵的轨迹)去检测类似斑点结构。Mikolajczyk和Schmid精练了该方法,
创造了具有高重复性、鲁棒性和尺度不变性特征的检测子,他们创造了Harris-
拉普拉斯和Hessian-拉普拉斯[11]。他们用一种(尺度适应的)Harris措施或者
Hessian矩阵的行列式和拉普拉斯去选择尺度。着眼于速度,Lowe通过高斯差分
滤波器(DoG)接近于高斯拉普拉斯(LoG)[12]。
其他几个尺度不变兴趣点检测子已经被提出。突出区域检测子的例子是由卡
迪尔和布雷迪[13]提出的,最大限度提高区域里的熵,和有Jurie[14]提出的基
于边缘地区检测子。虽然他们似乎更难加速,再者,几个能够应对长远观点变化
的仿射不变特征检测子已被提出。然而,这些都是本文谈论范围之外。
通过研究现存的检测子,并与已公布的比较[15,8],我们得到这样的结论:
(1)基于Hessian的检测子相对基于Harris的检测子更稳定且可重复。使用
Hessian矩阵行列式比它的迹(拉普拉斯)似乎更有优势,因为它更少需要拉长
的、局部化结构。此外,(2)接近像高斯差分滤波器,使得速度的获得在损失精
度的代价下低成本。
特征描述符 一种更多各式的特征描述符已经被提出,像高斯衍生物[16],瞬间不
变性[17],复杂特征[18,19],可操纵的过滤器[20],基于相位的地方特征[21],
和描述符代表在兴趣点附近小范围特征的分布。后者,被Lowe提出[2],已显示
出优于其他[7],这可以被他们捕捉到大量的空间强度模式信息这个事实解释,
同时小变形或定位错误具有鲁棒性。在文献[2]中的描述符,被简称为SIFT,这
种描述符计算出一个兴趣点和128维向量(8方向素材由每个4×4位置素材)的储
存素材周围的局部方向梯度直方图。
在基本计划上已经提出各种改进计划。Ke和Sukthankar[4]在梯度图上应用
PCA(主成分分析)。这个SIFT-PCA生产一个更快匹配的36尺寸的描述符,但被证
实不比Mikolajczyk等人在第二个对比试验中更明显[8]并且慢功能计算减弱了
快速匹配的效果。在同一份文献[8]中,作者提出SIFT的一个变种,叫做GLOH,
这被证实比相同数量的尺寸更明显。然而,GLOH的计算更昂贵。
SIFT对于现实使用来说似乎仍是最受欢迎的描述符,因此它也是当下最广泛
使用的。它很独特且比较快,这对于在线应用程序来说很重要。最近,Se等人[22]
在现场可编程门阵列(FPGA)上应用了SIFT并且将其速度提高一个数量级。然而,
描述符的高维是SIFT特征匹配的一个缺点。对于普通个人电脑的在线应用程序,
三 个 步 骤 ( 检 测 、 描 述 、 匹 配 ) 的 每 一 步 都 应 该 更 快 。 Lowe 提 出 了 一 个
best-bin-first替代物来提高匹配速度[2],但这导致了低精度。
我们的方法 在本文中,我们提出了一种新的检测子-描述符方案,称为SURF(快
速鲁棒特征)。该检测子是基于Hessian矩阵[11,1],但使用一个非常基本的接
近值,就如DoG是一个非常基本的基于拉普拉斯[2]的检测子。它依靠积分图像来
减少计算时间,因此我们称它为“快速-Hessian”检测子。另一方面,描述符记
录了在兴趣点周围的Haar-小波反应的分布。同时,我们利用积分图像来提速。
此外,只有64尺寸被使用,去减少特征计算和匹配的时间,同时增加鲁棒性。我
们也提出了一个新的在拉普拉斯签署的基础上的索引步骤,不仅提高了匹配速
度,还增加了描述符的鲁棒性。
为了使论文更加全面,我们简洁的讨论下积分图像的概念,如文献[23]所定
义。 考虑到方框卷积滤波器的快速安装启用。在积分图像
I 某个位置入口,
)(x
X
,(
yx
)
代 表 由 原 点 和 点 x 构 成 的 矩 形 输 入 图 像 I 的 所 有 像 素 的 和 ,
I
)(
x
xi
0
i
yj
0
j
),(
iI
j
。计算
I ,只需四个附加量来求任何直立、矩形区域
)(x
且与大小无关的强度的和。
3、FAST-Hessian 检测子
我们将检测子立足于Hessian矩阵是由于它在计算时间和精度时的良好性
能。然而,我们没有选择一个不同的措施来选择位置和尺度(正如我们在
Hessian-Laplace检测子[11]中所做的),对于两者我们依赖于Hessian行列式。
在图 I 中给出一个点
X
,(
yx
)
,Hessian矩阵
,( xH
)
尺度中 x 和定义如下:
,(
xH
)
,(
xL
xx
,(
xL
xy
)
)
,(
xL
xy
,(
xL
yy
)
)
(1)
当
)
,( xLxx
是高斯二阶导数
,( xLyy
)
也一样。
2
x
2
)
(
g
在图像 I 在点 x 的卷积,对于
,( xLxy
)
和
高斯是尺度空间的最佳选择,正如文献[24]中所讲。在实践中,然而,高斯
需要被离散化和裁剪(图1左半边),并且产生的图像若是子图像高斯滤波器就失
真。此外,在一维情况下被证实低分辨率没有新的结构出现这种性能,在相关的
二维情况下不适用[25]。因此,高斯的重要性就这一方面来说有些被高估了,在
这里我们并测试了一个简单的替代物。由于高斯滤波器在任何情况下的不理想,
以及所给的Lowe成功的LoG近似值,我们甚至进一步逼近方框滤波器的近似值(图
1右半边)。这些近似的二阶高斯导数,使用积分图像可以被评估的非常快,并与
大小无关。正如结果部分所示,该性能相当于一个使用离散化和裁剪的高斯。
图1中的9×9方框滤波器是高斯二阶导数在
2.1
时的近似值并且是最小
尺度(即,最高的空间分辨率)。我们用
xx DD , 和 yyD 表示近似值。为了计算效
xy
率 , 矩 形 区 域 的 权 值 保 持 简 单 , 但 我 们 仍 需 进 一 步 平 衡 Hessian 行 列 式
|
|
L
xy
L
xx
|)2.1(
|)2.1(
DF
LF
|
|
xx
xy
|)9(
|)9(
F
F
.0
912
...
9.0
的相对权值,当 FX | 是Frobenius规范。范
围为
det(
H
)
DD
xx
yy
9.0(
D
2)
xy
approx
(2)
图1.自左向右:(离散的和裁切的)高斯二阶偏导数使用方框滤波器,近似值在 y
方向和 xy 方向。
此外,至于尺度大小,滤波器恢复了正常响应。这保证了任何大小的滤波器
有一个恒定的Frobenius规范。
尺度空间通常被应用为影像金字塔。图像顺利使用高斯函数并使子图像实现
更高层次的金字塔。由于使用方框滤波器和积分图像,我们不需要反复使用相同
的滤波器去输出先前的滤波层,而是在相同的速度下,完全将此类任何大小的滤
波器应用到原始图像中,甚至是平行的图像(虽然后者在这里没有被开发)。因
此,这个尺度空间是在增加滤波器的大小而不是减小图像的大小的情况下被分
析。9×9滤波器的输出被认为是初识尺度层,我们指的是
2.1s (相对于在
2.1
的高斯导数)。考虑到我们滤波器的积分图像和具体结构的离散性质,以下层是
在不断变大的图片过滤下得到。具体来说,是在9×9、15×15、21×21、27×27
等尺度滤波器下的结果。对于更大尺度,连续的滤波器尺寸之间的步骤也应与尺
度相应。因此,对于每个新倍频,滤波器尺寸的增长被加倍(从6到12到24)。同
时,抽取的兴趣点采样间隔也被加倍。
在缩放相应尺度估计的高斯导数之后,我们的滤波器布局比例保持不变。因
此,例如,我们的27×27尺度的滤波器对应的
6.32.13
s
。此外,我们的
滤波器的Frobenius规范保持恒定,他们使尺度正常化[26]。
为了在图像及尺度中定位兴趣点,一个非最大值在尺度3×3×3中应用。
Hessian矩阵的行列式的最大值在尺度中被替代并且布朗等人提出了像空间方法
论[27]。在我们的例子中,尺度空间的插补尤其重要,因为每个倍频第一层之间
的差距相当大。图2(左)显示了一个用我们“快速-Hessian”检测子而检测到
兴趣点的例子。
图2.左:在一个向日葵区域检测到兴趣点。这种场景明确地显示了基于Hessian检测子的本
质性能。中:用于SURF的Haar小波。右:涂鸦场景的细节显示了不同尺度窗口的描述符大小。
4、SURF 描述符
相比其他描述符,SIFT的良好性能是优越的[8]。就尺度和空间而言当阻挡定位
错误的影响时,其将天然定位信息和相关的梯度分部的混合物似乎取得了良好的
独特能力。利用相对优势和方向梯度降低光度变化的影响。
所提议的SURF描述符是基于相似的性能,进一步降低复杂性。第一步,在兴
趣点周围的圆形区域信息基础上固定一个可重写的方向。然后,我们构建一个与
选定方向一致的方形区域,并从中提取SURF描述符。这两个步骤依次执行。此外,
我们提出一个SURF描述符的升级版本(U-SURF),它是变图像旋转的,因此它计
算得更快并且更适用于相机或多或少的水平情况下应用。
4.1 定位任务
为了使旋转不变,我们为兴趣点确定了一个可重复的方向。为此,我们先计算了
Haar-小波在x、y方向的响应,如图2所示,并且它在以兴趣点为中心的半径为6s
的圆形区域里,在兴趣点的检测中s代表尺度。而且采样步长是依靠并选择为s。
与剩下的放在一起考虑,小波响应在最近的尺度s中计算。于是,在高精度水平
下,小波尺寸是大的。因此,我们再次使用积分图像快速过滤。在任何尺度下只
有6个操作需要计算x、y方向的响应。小波的边长为4s。
一旦计算小波响应并与位于兴趣点中心的高斯(
s5.2
)加权,结果在空
间中被表示为向量,横坐标表示水平响应强度,纵坐标表示垂直响应强度。最优
的定位是通过计算一个覆盖
3
角度的滑动窗口内的所有响应之和。窗口内水平和
垂直方向的响应被总和。被总和的两个响应产生一个新的矢量。最长的矢量把它
的方向给兴趣点。滑动窗口的大小是个参数,已经用实验的方法选出。小尺寸针
对单个小波响应,大尺寸产生矢量长度的极大值。这两个结果都是在兴趣点区域
的不稳定的方向。请注意U-SURF跳过此步。
4.2 描述符组件
为了取出描述符,第一步是以兴趣点为中心构建一个方形区域,并调整其方向为
上一节所选的方向。对于升级版本,这种转变是没有必要的。窗口大小是20s。
这种方形区域的例子如图2所示。
这个区域被有规律地划分为更小的4×4方形子区域。它保持着空间的重要信
息。对于每个子区域,我们在5×5均匀隔开的样本点中计算几个简单的特征。为
了简单起见,我们称水平方向的Haar小波响应为 xd ,垂直方向的Haar小波响应
为 yd (滤波器尺寸为2s)。“横向”和“纵向”这里定义是与选定的兴趣点方向
有关。为了增加几何变形和定位错误的鲁棒性, xd 、 yd 是在以兴趣点为中心的
第一个高斯(
s3.3
)的权值。
然后,小波响应 xd 、 yd 是每个子区域的总结,并形成了第一个特征向量集
合。为了引入极性强度变化的信息,我们也提取响应绝对值的总结, |
|
xd 和 |
yd 。
|
因 此 , 每 个 子 区 域 的 基 本 强 度 结 构 有 一 个 四 维 描 述 符 向 量 v ,
v
(
d
,
d
x
y
,
|
d
x
|,
|
d
y
|)
。这导致所有4×4子区域的描述符长度为64。小波响
应在偏斜的照明(偏移量)中是不变的。对比的不变性(一个比例因子)是通过
将描述符转为一个单位向量。
图3显示了描述符在一个子区域中区别三个不同亮度模式的性能。一个可以
猜想将局部亮度模式结合,产生一个独特的描述符。
图3.一个表示优先强度模式性质的子区域的描述符条目。左:在同种区域情况下,所有值都
相对较低。中:出现在 x 方向的频率,
xd
|
|
的值是高的,但其他值是低的。如果强度在 x
方向逐渐增加, xd 和
xd
|
|
的值都很高。
为了实现这些SURF描述符,我们实验少数和更多的小波特征,使用 2
xd 和 2
yd 、
高阶小波、PCA、中值、平均值等。从一个周密的评估来说,所提议的集合是运
转最好的。然后我们使样本点和子区域的数目多样化。4×4子区域分割方案提供
了最好的结果。考虑到更精细的小分类似乎不太可靠并且增加太多的匹配时间。
另一方面,3×3子区域的短描述符(SURF-36)执行更糟,但考虑到快速匹配,
故其在文献中与其他描述符相比仍然是完全可以被接受的。图4显示了少部分对
比结果(SURF-128下面将解释)。
图4.这次需将(精度为1)图表的不同分级方法和在“涂鸦”序列(图1和3)上测试的两种
不同的匹配策略,通过30度的观测变化,与目前的描述符相比。兴趣点用“快速-Hessian”
检测子计算得到。请注意兴趣点不是仿射不变的。因此,结果与文献[8]中的没有可比性。
SURF-128对应扩展描述符。左:基于相似临界值的匹配策略。右:近邻比例匹配策略。(见