logo资料库

讲稿_Robust Multi-Modality Multi-Object Tracking.docx

第1页 / 共3页
第2页 / 共3页
第3页 / 共3页
资料共3页,全文预览结束
鲁棒多模态多目标跟踪
鲁棒多模态多目标跟踪 1 今天我分享的是这篇论文是 xxxxxx 2 当前,用于多传感器多对象跟踪的大多数方法要么是由于紧密依赖 单个输入源(例如,中心摄像机)而缺乏可靠性,要么是由于在后处 理中融合了多个传感器的结果而没有充分利用其固有的特性而不够 准确。 3 所以就提出了一种具有强大融合模块的多模态 MOT 框架,该模块 利用多模态信息来提高可靠性和准确性; 提出了一种新的端到端训练方法,该方法可以联合优化跨模态推理; 首次尝试将点云的深层功能用于跟踪并获得竞争性结果。 4 这就是多模态 MOT 的工作过程,有四部分,分别是目标检测、特 征提取、邻接估计和最优化,对应的四个模块:目标检测器、特征提 取器、邻接估计器和最低成本流程优化器 首先,使用任意的一个目标检测器来定位感兴趣的对象 其次,特征提取器针对每个检测独立地从每个传感器提取特征,之后, 将融合模块应用于融合并将单模态特征传递给邻接估计器 邻接估计量是模态不可知的,它推断出最小成本流程图计算所需的分 数。 最低成本流程优化器是一个线性规划求解器,可根据预测分数找到最 佳解决方案 下面分别介绍后面三个部分
5 这是融合模型,就是用在这个地方的融合模块,鲁棒融合模型可以 使用任意的融合模块,与常规融合模块不同,鲁棒融合模块同时生成 单一模态和融合模态作为输出。这里主要研究了三个融合模块 A B C, 融合模块 A 单纯地将多个模态的特征串联起来;模块 B 将这些特征 相加;模块 C 引入注意机制,自适应地衡量每个特征的权重。 6 一种常见的方法是连接这些特征,并使用权重为 W 的逐点卷积来 调整输出矢量的长度,使其与单个传感器的特征相同,这就是它的表 示式,其中⊗表示卷积运算,而 CONCA T(·)表示串联运算 7 另一个直观的方法是将这两个特征合并起来,我们重新整理每个模 态的特征,并将它们合并在一起,如下所示:;Ws 代表与第 s 个传感 器特征对应的卷积核,此外,该模块从各个传感器采集信息,融合后的 模态的相关特性也更接近于单个传感器。并且相关运算是乘法或减法运 算,这有利于邻接估计器处理不同的模态。 8 模块 C 引入了一种用于指导来自不同传感器的混合信息的注意机制, 因为传感器信息的重要性在不同的情况下可能不同,例如,当照明条件 不好时,点云特征可能更重要,而当雨天时点云受影响。每个传感器的 注意图(attention map)Gis 计算公式如下:; 是卷积参数,σ是 Sigmoid 函数, 我们希望 学习根据特征本身来预测重要性,而 sigmoid 函数将注意图规范化为 0 到 1 之间的范围。融合后的信息如下 所示: ⊙是元素乘法,分母里的 Gsi用于结果归一化 9 在给定提取的多模态特征的基础上,邻接估计器根据每个模态推断出 最小成本流图中的置信度、亲和力、起始和结束得分,他比较了三个运
算,第一个是乘法运算,元素相乘等价于大小为 1 x 1 的深度相关滤波 器,第二个式子是减法,用来测量两个向量间的距离,最后的绝对值减 法使该运算变得与检测时间序列可交换且不可知,这使得网络更加鲁棒。 10 这就是其中三个估计器的结构,亲和力估计器使用逐点卷积估计 邻接关系;开始和结束估计器收集每个检测的相关特征,以检查是否 链接了检测以使预测更可靠。 11 整个框架可以在多任务学习框架中以端到端的方式学习。我们对分 类分支采用交叉熵损失,对另外两个分支采用 L2 损失,因此总体损失 函数可以写成如下: 其中α,γ和β表示每个任务的损失权重。在本文的 所有实验中,我们根据经验设置α=γ= 0.4 和β= 1.5。 12 对于当前帧中的一个检测结果和其前一帧中的所有检测结果,线性 约束可以定义为以下形式,对于前一帧中的一个检测和当前帧中的所有 检测,线性约束可以定义如下; 13 这两个约束可以以矩阵形式折叠以产生 CY = 0,该 CY 已经编码了 所有有效轨迹。然后将数据关联问题表述为整数线性规划,如下所示: 其中 Θ (X) 是由邻接估计器的所有预测分数组成的扁平化向量。 14 我们的方法在具有挑战性的 KITTI 跟踪基准上进行了评估。该数据 集包含 21 个训练序列和 29 个测试序列。我们从训练分区中选择 10 个 序列作为训练集,其余 11 个序列作为验证集。 15 验证之后发现确实效果提升了
分享到:
收藏