【1 引言】
通用目标跟踪 是 在视频序列各帧中估计任意目标状态的任务。在最一般的设置中,目
标仅由在序列中它的初始状态来定义。当前大多数解决跟踪问题的方法是通过构建一个能够
区分目标和背景外观的目标模型,由于特定于目标的信息仅可在测试时获得,目标模型无法
在离线训练阶段被学习(目标模型),例如对象检测。取而代之的是,目标模型必须在推理阶
段本身通过利用测试时的目标信息来构建。
Figue1:目标对象(红色框)的置信度图是 通过使用 i)Siamese 方法(中间)以及 ii)我们的方法(右)
获得的目标模型 所提供的。以 Siamese 方式进行预测的模型仅使用目标外观,很难将目标与背景中的干扰
对象区分开。相比之下,我们的模型预测架构还集成了背景外观,从而提供了卓越的识别能力。
追求端到端的学习解决方案时,视觉跟踪问题的这种非常规特性 带来了重大挑战。
Siamese 学习模板[2,23]已最成功地解决了上述问题。这些方法首先学习一个嵌入特征,
其中通过简单的互相关来计算两个图像区域之间的相似度。然后通过找到与目标模板最相似
的图像区域来执行跟踪。在这种设置下,目标模型仅仅匹配于从目标区域提取的模板特征。
因此,可以使用多对带有标注的图像轻松地对跟踪器进行端到端训练。
尽管最近取得了成功,但 Siamese 学习框架仍受到严重限制。首先,Siamese 追踪器在
推断目标模型时仅仅利用目标外观。这完全忽略了背景外观信息,这对于将目标与场景中的
相似对象区分开来至关重要(请参见图 1)。其次,学习的相似性度量对于未包含在离线训
练集中的对象不一定是可靠的,从而导致泛化不佳。第三,Siamese 没有提供强大的模型更
新策略。相反,最先进的方法采取的却是简单的模板平均[46]。与其他最新的跟踪方法相比,
这些限制导致鲁棒性较差[20].
在这项工作中,我们引入了另一种以端到端的方式进行培训的替代跟踪体系结构,该体
系结构直接解决了所有上述限制。在我们的设计中,我们从具有识别能力的在线学习程序中
获得启发,这些程序已成功应用于最新的跟踪器中[6,9,30]。我们的方法基于目标模型预
测网络,它源自一个 识别能力的学习损失,通过应用迭代优化步骤来实现。该体系结构经
过精心设计,可以进行有效的端到端训练,同时最大限度地提高预测模型的识别能力。这是
通过确保通过两个关键设计选择最少的优化步骤来实现的。首先,我们采用基于最速下降法
的方法来计算每次迭代的最佳步长。其次,我们集成了一个有效的初始化目标模型的模块。
此外,我们通过学习区分(分类)损失本身,将极大的灵活性引入了最终的体系结构。
我们的整个跟踪架构以及主干特征提取器均通过使用带注释的跟踪序列来进行训练,以
最大程度地减少未知帧的预测误差。我们对 7 个跟踪数据集进行了全面的实验:VOT2018
[20],LaSOT [10],TrackingNet [27],GOT10k [16],NFS [12],OTB-100 [43]和 UAV123 [26]。
我们的方法在所有 7 个数据集上都获得最先进的结果,同时可以运行处理的效率达到 40FPS。
我们还对提议的体系结构进行了广泛的实验分析,显示了每个组件的影响。
【2 相关的工作】
近年来,随着各种方法的发展,通用对象跟踪取得了惊人的进步。近年来,基于 Siamese
网络[2,23,39]的方法因其端到端的训练能力和高效率而备受关注。该名称源自 Siamese
网络体系结构的部署,以便离线学习相似性指标。Bertinetto 等人[2]利用全卷积架构进行相
似性预测,从而获得了超过 100 FPS 的高跟踪速度。Wang 等[42]学习了一种残差注意力机
制,以使跟踪模型适应当前目标。Li 等人[23]采用区域提议网络[34]来获得准确的边界框。
Siamese 方法的主要局限性是它们无法将背景区域信息或先前跟踪的帧中的信息合并
到模型预测中。近来的一些尝试旨在解决这些问题。 郭等人[13]学习了一种特征变换来处
理目标外观变化并抑制背景。Zhu 等[46]通过在在线跟踪过程中从目标模板中减去相应的图
像特征来处理背景干扰物。尽管进行了这些尝试,但 Siamese 跟踪器仍未达到像采用在线学
习的最新跟踪器所能达到的高鲁棒性[20]。
与 Siamese 方法相反,另一系列的跟踪器[6、7、30]在线学习识别分类器,以将目标对
象与背景区分开。这些方法可以有效地利用背景信息,从而在多个跟踪基准上获得令人印象
深刻的鲁棒性[20、43]。但是,此类方法依赖于更复杂的在线学习过程,而这些过程无法在
端到端学习框架中轻松呈现。因此,这些方法通常受限于从深度网络中提取的特征,这些网
络经过预先训练以进行图像分类[9,25] 或 手工制作的方法来代替预训练[8]。
最近的一些工作旨在将现有的基于识别在线学习的跟踪器构造为神经网络组件,以便从
端到端培训中受益。Valmadre 等人[41]将相关滤波器(CF)[15]的单样本封闭形式解决方案
集成到一个深层网络中。Yao 等[45]在 BACF [18]跟踪器中展开 ADMM 迭代,以在复杂的多
阶段训练过程中学习特征提取器和一些跟踪超参数。但是,BACF 模型学习仅限于傅立叶域
CF 公式的单样本变体,后者无法利用多个样本,因此需要特定的滤波器的线性组合以进行
模型调整。
仅使用少量图像来学习以预测目标模型的问题与元学习[11,28,29,33,35,36,40]
密切相关。少有一些的工作已经在这个追踪方向上进行这努力。Bertinetto 等人[1]对网络进
行元训练,以预测跟踪模型的参数。Choi 等[5]利用元学习器来预测目标明确的特征空间,
以补充通用的目标独立的特征空间 该控件被在 Siamese 跟踪器中用于估计相似性。Park 等
人[32]开发了一种使用初始目标独立的模型 的元学习框架,然后使用具有学习步长的梯度
下降法对其进行完善调整。但是,恒定步长仅适用于模型的快速初始调整,并且在应用迭代
时不能提供最佳收敛
【3 DiMP 方法】
在这项工作中,我们开发了用于跟踪的判别(识别)模型预测架构。与 Siamese 跟踪器一
样,我们的方法得益于端到端训练。但是,与 Siamese 不同,我们的体系结构可以充分利用
背景信息,并提供自然而强大的手段来用新数据更新目标模型。我们的模型预测网络来自两
个主要原则:(i)识别损失,旨在提高那个被学习目标模型的鲁棒性;(ii)确保快速收敛的
强大优化策略。通过如此精心的设计,我们的架构仅需几次迭代即可预测目标模型,而不会
影响其判别能力。
在我们的框架中,目标模型由 卷积层的权重 和 提供目标分类得分 作为输出来构成的。
我们的模型预测体系结构通过将一组带边界框标注的图像样本作为输入来计算这些权重。模
型预测器包括一个初始化器网络,该网络初始化器仅使用目标外观即可有效提供模型权重的
初始估计。然后由优化器模块处理这些权重,同时考虑目标和背景外观。通过设计,我们的
优化器模块具有少量可学习的参数,以避免在离线训练期间过拟合到确定的类别和背景。因
此,我们的模型预测器可以泛化到看不见的对象,这对于通用对象的跟踪至关重要。
我们的最终跟踪架构包括两个分支:一个目标分类分支(请参见图 2),用于将目标与
背景区分开;一个边界框估计分支,用于预测准确的目标框。两个分支都从公共的 backbone
网络输入深层特征。目标分类分支包含一个卷积块,该卷积块在分类操作中进行特征提取。
给定一组训练样本和相应的目标框,模型预测器将生成目标分类器的权重。然后将这些权重
应用于从测试帧中提取的特征,以计算目标置信度分数。对于边界框估计分支,我们利用[6]
中介绍的基于 IOU 最大化的体系结构。整个跟踪网络,包括目标分类,边界框估计和骨干
模块,都在跟踪数据集中进行了离线训练。
图 2.我们的跟踪体系结构中目标分类分支(目标框的回归预测未体现)的概览。给定带注释的
训练集(左上),我们使用骨干网络和附加的卷积块(Cls Feat)提取深度特征图。然后将特
征图输入到由初始化器和循环优化器组成的模型预测器 D 中。模型预测器输出卷积层的权
重,这些权重被用在从测试帧中提取到的特征图的目标分类操作中。
【3.1 判别/识别损失函数】
模型预测变量 D 的输入由特征提取器网络 F 生成的深度特征图∈的训练集=
(,)=1 组成。每个样本与相应的目标中心坐标∈2配对。有了这些数据,我们的目
标是预测目标模型=()。模型 f(如上图中黄色先所画出的部分)被定义为卷积层的过
滤器权重,用于区分特征空间 X 中的目标外观和背景外观。我们从基于最小二乘回归的跟
踪问题中汲取灵感,它在最近几年取得了巨大的成功[6,7,15]。 但是,在这项工作中,
我们推广了应用于多个方向跟踪的常规最小二乘损失,使最终的跟踪网络可以从数据中学习
最佳损失。
总之,我们想到了一个如下所示的损失函数的形式,
位置的依赖性,如第 3.4 节所详细描述的。为了解决第一个问题,我们按照“支持向量机”的
这里,*表示卷积,并且λ是正则化因子。基于目标置信度得分 s = x ∗ f 和 ground truth 目
标中心坐标 c,函数 r(s; c)用来计算每个空间位置的残差。最常见的选择是 r(s; c) = s-yc,其
中 yc 是每个位置的期望目标分数,通常设置为以 c 为中心的高斯函数[4]。然而,简单地求
差将迫使模型对所有负样本回归校准的置信度得分,通常为零。这需要大量的模型能力,从
而迫使学习重点关注负面数据样本,而不是获得最佳的判别能力。此外,采取简单的减法差
异不能解决目标和背景之间的数据不平衡问题。
为了减轻后一种数据不平衡的问题,我们使用空间权重函数。下标 c 表示对目标中心
原理修改了损失函数。我们在参数 r 中采用了像铰链结构一样的损失,同时按公式max (0;)
发现添加一个类似铰链的损失函数max (0;1−)是不利的。尽管乍一看是矛盾的,但这种
计算的结果值在背景区域中的剪裁结果(得分)为零的区域。因此,该模型可以在背景中针对
简单样本可以自由的预测出大量的负值,而不会增加损失。另一方面,对于目标区域,我们
行为可以归因于目标类和背景类之间的基本不对称,部分原因是数值上的不平衡。而且,精
确地校准的目标置信度在跟踪清净下确实是有利的,例如 用于检测目标损失。因此,我们
期望在目标邻域中得到 标准最小二乘回归的属性。
为了适应最小二乘回归和类似铰链损失的优势,我们定义了残差函数,如下所示
下标 c 表示对目标中心坐标的依赖。(2)式能够根据相对于目标中心 c 的图像位置连续地将
背景之间的过渡区域。虽然经典策略是使用试错法手动设置 mask 参数,但我们的端到端公
式允许我们以数据驱动的方式学习 mask 参数。实际上,如第 3.4 节所述,我们的方法学习
目标区域由 mask定义,在每个2的空间位置取值的范围为 [0,1]。同样,
损失的行为从标准最小二乘回归变为类似铰链的损失。在目标位置设置≈1,在背景区域
设置≈0,可以产生上述所需的行为。但是,如何最佳设置尚不清楚,尤其是在目标和
了损失函数中的所有自由参数:目标 mask,空间权重,正则化因子λ,甚至是回归目
标本身。
()。通过公式计算出一个优化程序来设计网络。从等式(1)和(2)我们可以很容易
地导出(计算出)一个关于滤波器2的损失∇梯度的封闭形式。然后,直截了当的选择是使用
在这里,我们得出网络架构 D,它通过隐式最小化(1)式的 error 来预测滤波器 f = D
【3.2 基于优化的结构】
步长为α的梯度下降,如下式所示
但是,我们发现这种简单的方法是不够的,即使学习速率α(标量或系数特定的)是由网络
本身学习的(请参阅第 4.1 节)。它经历了滤波器参数 f 的缓慢调整,需要大量增加迭代次
数。 这会损害效率,并使离线学习复杂化。
梯度下降的缓慢收敛很大程度上是由于恒定的步长α来确定,它不依赖于数据或当前模
型估计。我们通过推导更复杂(精心制作的)的优化方法来解决此问题,该方法仅需要进行几
次迭代即可预测出强大的判别滤波器 f。核心思想是基于最速下降法计算步长α,这是一种
常见的优化技术[31,37]。我们首先在当前估计值()处用二次函数来近似估算损失函数,
在这里,滤波器变量 f 和()被视为向量,而()是正定方阵。 然后,通过找到使梯度方向
(3)上的近似损失(4)最小的步长α来进行最速的下降。这是通过求解 ()−
α∇
=0 找到的,如
二次模型(4)以及因此得到的步长(5)取决于 的选择。例如,通过使用缩放的单
位矩阵 =1,我们重新得到了固定步长α=β的标准梯度下降算法。另一方面,我们现在
可以将二阶信息集成到优化过程(步骤)中。最显而易见的选择是把 =22(())设置到
仅涉及一阶导数。因此,我们设置 =(())(),其中()是()处残差的雅可比行列式。
实际上,矩阵 或 Jacobian()都不需要显式构造,而是以一系列神经网络操作来实现的。
的用新样本扩展训练集来实现的。然后,使用当前目标模型作为初始化(0),将优化器
模块来预测一个初始模型估计(0)。我们的初始化器网络是由一个卷积层和其之后的一个精
的大小。然后将那些被池化后得到的特征图对训练集中的所有样本求平均值,以获得
初始模型(0)。与 Siamese 跟踪器一样,此方法仅使用目标外观。但是,我们的初始化程序
有关详细信息,请参见补充材料(S2 节)。算法 1 描述了我们的目标模型预测器 D。请注意,
我们的优化器模块也可以轻松地用于在线模型调整。这是通过从先前跟踪的帧当中连续不断
Hessian 损失函数(1)中,这对应于二阶泰勒逼近(4)。但是,对于我们的最小二乘公式
(1),Gauss-Newton 方法[31]提供了一个强大的替代方法,具有显着的计算优势,因为它
网络仅负责提供合理的初始估计值,而不是预测最终模型,然后由优化器模块进行处理得到
最终的模型。
在最速下降时,公式(5)被用于每次迭代计算 filter(3)更新时的标量步长α。
模块应用在这个被扩展了的训练集上。
【3.3 初始化过滤器预测】
为了进一步减少目标模型预测器 D 中所需的优化递归次数,我们引入了一个小型网络
确的 ROIpooling 层[17]组成的。后者从目标区域中提取特征并将其池化成与目标模型 f 相同
【3.4 学习识别损失函数】
在这里,我们描述残差函数(2)(被定义损失函数(1)中)中的自由参数是如何被学习的。
于识别的在线学习跟踪器中是手动构造这些变量的,但实际上我们的方法是从数据中训练
(训练)这些函数的。我们根据与目标中心的距离对它们进行参数设置。这是由问题的径向对
称性激发(引起)的,其中相对于目标的样本位置的方向意义不大。相反,到样本位置的距离
我们的残差函数包括标签置信度分数,空间权重函数和目标 mask。尽管在当前的基
起着至关重要的作用,尤其是在从目标到背景的过渡中。因此,我们使用径向基函数ρk 对,
和进行参数化,并学习它们的系数φ。 例如,在位置∈2处的标签由下式给出:
我们使用三角基函数ρk,定义为
上述公式对应于一个拥有节点位移为∆的连续分段线性函数。注意,最终情况 k = N -1 表示
远离目标中心的所有位置,因此可以相同地对待。我们使用一个小的节点位移∆来实现目标
背景过渡时回归标签的准确表示。使用(6)式中的系数和来类似地参数化这些函数的
和。对于目标 mask,我们通过 Sigmoid 函数传递给(6)式的输出来将值约束在[0; 1]之
间。
我们使用 N = 100 个基函数,并在深度特征空间 X 的分辨率中将节点位移设置为∆ = 0.1。
图 3.学习的被训练的回归标签(),目标 mask 的图()和空间权重()。 标记显示节点的位置。 每个数量的初始化以虚线显示。
对于离线训练,与如 3.6 节所述被用在离线分类损失函数中相同的 Gaussian用回归标签
来初始化。权重函数初始化为常数()=1。最后,我们使用缩放的 tanh 函数初始化目标
mask。系数φk 和λ一起作为模型预测网络 D 的一部分学习(请参阅第 3.6 节)。,
和的初始值和学习值在图 3 中可视化。值得注意的是,我们的网络学会在目标中心增加权
重 vc,并在歧义过渡区域中降低权重 vc。
【3.5 bounding box 估计】
我们利用[6]中介绍的重叠最大化策略来进行精确的边界框估计。给定参考目标外观,
训练边界框估计分支以预测目标与测试图像上的一组候选框之间的 IoU 重叠。通过根据目标
的参考外观计算调制矢量,将目标信息集成到 IoU 预测中。计算出的矢量用于调制测试图像
中的特征,然后将其用于 IoU 预测。IoU 预测网络对输入框坐标 w.r.t.是可微的,通过最大化
预测的 IoU 允许在跟踪过程中调整候选对象。我们使用与[6]中相同的网络架构。
【3.6 离线训练】
型。独特的是,我们的训练允许模型预测器 D 学习如何更好地利用多个样本。通过在序列
在这里,我们描述了我们的离线培训程序。在 Siamese 方法中,使用一对图像训练网络
结构,使用一张图像预测目标模板,然后另一个用于评估跟踪器。相反,我们的模型预测网
络 D 从序列中输入一组包含多个数据样本的。为了更好地利用这一优势,我们在多对
集合(;)上训练了完整的跟踪架构。每组= (,)=1帧由与相应的目标
边界框配对的图像组成。使用预测目标模型,然后在测试帧集上评估目标模
中采样一个长度为的随机段来构建集合。然后,我们通过分别从分段的前半部分和后半
部分分别采样帧来构造和。
给定这对(;),对于我们的目标模型 我们首先将图像传递到骨干特征提取
器,以构建训练集和测试集。获得训练集的形式为={,
:(,)∈
},其中是 box bj 的中心坐标。这是输入到目标预测器=()中的。目的是预
在测试样本上评估预测模型 f,类似的使用也可以得到。按照第 3.1 节的讨论,我
测一个具有识别能力的的模型 f,并将其很好地推广到未来没见过的图片帧。因此,我们仅
们使用 hing 为背景样本计算回归误差,
在此,基于标签置信度值 z,阈值 T 定义了目标区域和背景区域。对于目标区域 z> T,我们
采用预测的置信度得分 s 与标签 z 之间的差,而仅对背景 z≤T 惩罚正置信度值。
将目标分类总损失计算为所有测试样本的均方误差(8)。但是,我们不仅对最终目标模
1)。这里引入中间监督到目标预测模块中,有利于训练收敛。此外,我们的目标不是针对特
定数量的递归进行训练,而是自由地在线设置所需的优化递归数量。因此可以很自然地平均
型 f 进行评估,还对优化器在每次迭代 i 中获得的估计值()上的损失求平均值(请参见方法
评估每个迭代()。用于离线训练的目标分类损失函数由下式给出:
此处,回归标签设置为以目标 c 为中心的高斯函数。注意,来自滤波器 filter 初始化器(第
3.3 节)的输出(0)也包括在上述损失中。尽管未明确表示来避免混乱,但(9)中的 x 和()
都取决于特征提取网络 F 的参数。模型迭代()取决于模型预测器网络 D 中的参数。
对于边界框估计,我们通过在的第一帧上计算出调制矢量并从的所有图像中
采样候选框,将[6]中的训练过程扩展到图像集。边界框估计损失计算为中预测的 IoU
与 ground truth 之间的均方误差。我们通过将其与目标分类损失(9)组合为=+
来训练完整的跟踪体系结构。
们使用了 每 15 个 epoch 学习率衰减 0.2 的 ADAM [19]。目标分类损失权重设置为β=102,
在训练期间,我们在(9)中使用= 5 优化器模块递归。(;)中的图像块是
训练细节:我们使用 TrackingNet [27],LaSOT [10],GOT10k [16]和 COCO [24]数据集
进行训练拆分。用 ImageNet 权重初始化骨干网络。我们通过每个 epoch 采样 20,000 个视
频来一共训练 50 个 epoch,在单个 Nvidia TITAN X GPU 上的总训练时间不到 24 小时。我
通过采样随机平移和相对于目标标注的比例来提取的。我们将基本比例设置为目标尺寸的 5
倍,以包含重要的背景信息。对于每个序列,我们使用= 60 的片段长度对= 3 测
试帧和训练帧进行采样。标签得分是使用相对于基本目标大小的 1/4 的标准偏差构建的,
对于回归误差(8)构建我们使用 T = 0.05。我们将 ResNet 体系结构用作骨干网。对于模型预
测器 D,我们使用的特征图是由第三个 block 提取的,其过滤器 filter 步长 stride 为 16。将
目标模型 f 的内核(卷积核)大小设置为 4×4。
【3.7 在线追踪】
模块之后采用 10 个最陡峭的下降递归。只要被预测目标的有足够的置信度,我们的方法就
给定带有标注的第一帧,我们采用数据增强策略[3]来构建包含 15 个样本的初始集。
然后使用我们的识别模型预测架构 f = D()获得目标模型。对于第一帧,我们在初始化
可以通过向添加新的训练样本来轻松更新目标模型。通过丢弃最早的样本,我们确保
最大内存大小为 50。在跟踪过程中,无论干扰波峰是否被检测到,我们通过每 20 帧执行两
次优化器递归(或执行一次递归) 来优化调整目标模型 f。边界框估计是使用与[6]中相同的设
置执行的。
【4 实验】
我们的方法是使用 PyTorch 在 Python 中实现的,并在单个 Nvidia GTX 1080 GPU 上以
ResNet-18 骨干网以 57 FPS 运行,在 ResNet-50 上以 43 FPS 运行。 补充材料中提供了详
细的结果(第 S3–S6 节)。
[1]L.Bertinetto,J.F.Henriques,J.Valmadre,P.H.S.Torr,
andA.Vedaldi.Learningfeed-forwardone-shotlearners.
In NIPS,2016.2
[2]L.Bertinetto,J.Valmadre,J.F.Henriques,A.Vedaldi,and
P.H.Torr.Fully-convolutionalsiamesenetworksforobject
tracking.In ECCV workshop,2016.1,2,8
[3]G.Bhat,J.Johnander,M.Danelljan,F.S.Khan,andM.Felsberg.Unveilingthepowerofdeeptracking.In
ECCV,2018.6,7,8
[4]D.S.Bolme,J.R.Beveridge,B.A.Draper,andY.M.Lui.
Visualobjecttrackingusingadaptivecorrelationfilters.In
CVPR,2010.3
[5]J.Choi,J.Kwon,andK.M.Lee.Deepmetalearning
forreal-timevisualtrackingbasedontarget-specificfeature
space. CoRR,abs/1712.09153,2017.2
[6]M.Danelljan,G.Bhat,F.S.Khan,andM.Felsberg.ATOM:
Accuratetrackingbyoverlapmaximization.In CVPR,2019.2,3,5,6,7,8,12
[7]M.Danelljan,G.Bhat,F.ShahbazKhan,andM.Felsberg.
ECO:efficientconvolutionoperatorsfortracking.In CVPR,2017.2,3,8
[8]M.Danelljan,G.Hager,F.ShahbazKhan,andM.Felsberg.¨
Learningspatiallyregularizedcorrelationfiltersforvisualtracking.In ICCV,2015.2
[9]M.Danelljan,A.Robinson,F.ShahbazKhan,andM.Felsberg.Beyondcorrelationfilters:Learning
continuousconvolutionoperatorsforvisualtracking.In ECCV,2016.2,8