logo资料库

论文研究-单目视觉里程计研究综述.pdf

第1页 / 共9页
第2页 / 共9页
第3页 / 共9页
第4页 / 共9页
第5页 / 共9页
第6页 / 共9页
第7页 / 共9页
第8页 / 共9页
资料共9页,剩余部分请下载后查看
20 2018,54(7) Computer Engineering and Applications 计算机工程与应用 单目视觉里程计研究综述 祝朝政 1,何 明 1,杨 晟 2,吴春晓 1,刘 斌 1 ZHU Chaozheng1, HE Ming1, YANG Sheng2, WU Chunxiao1, LIU Bin1 1. 中国人民解放军陆军工程大学 指挥控制工程学院,南京 211117 2. 河海大学 计算机与信息学院,南京 211100 1.College of Command Control Engineer, Army Engineering University, Nanjing 211117, China 2.College of Information and Computer, HoHai University, Nanjing 211110, China ZHU Chaozheng, HE Ming, YANG Sheng, et al.Survey of monocular Visual Odometry. Computer Engineering and Applications, 2018, 54(7):20-28. Abstract:Monocular Visual Odometry can not only provide functions such as navigation and obstacle avoidance for mobile robots, but also can be applied to the current hot autopilot and other fields. This paper analyzes the basic principle of Visual Odometry, and studies the research status of monocular Visual Odometry technology at home and abroad. At the same time, the classical monocular Visual Odometries are analyzed and compared in detail, such as ORB-SLAM2, DSO and so on. Aiming at the issues of robustness and real-time which are generally concerned in the current visual odometry research, the development directions and trend of the next research work are discussed. Key words:monocular Visual Odometry; feature method; direct method; visual SLAM 摘 要:单目视觉里程计不仅能为移动机器人提供导航避障等功能,在无人驾驶等领域中也有更广阔的应用价值。 剖析了视觉里程计的基础原理,研究了单目视觉里程计技术的国内外现状 ;同时,对 ORB-SLAM2、DSO 等典型单目 视觉里程计进行深入分析和比较。针对当前视觉里程计研究中普遍关注的鲁棒性和实时性等问题,探讨了下一步 研究工作的发展方向和趋势。 关键词:视觉里程计 ;特征点法 ;直接法 ;视觉 SLAM 文献标志码:A 中图分类号:TP391.4 doi:10.3778/j.issn.1002-8331.1712-0279 1 引言 移动机器人进入未知环境进行定位和导航是自主 化的重要的一步,因为未知环境的复杂性,所以研究仅 依靠机器人自身的传感器构建实时地图并进行定位具 有重要意义[1-2]。视觉传感器是机器人上常见的一类传 感器,具有精确度高,成本低,且数据信息丰富等特点, 因此利用视觉传感器来定位成为研究热点。视觉里程 计(Visual Odometry,VO)这一概念 [3]由 Nister 提出,指 通过机器视觉技术,分析相关图像序列来实时估计移动 机器人的位姿(位置和姿态)过程,能克服传统里程计的 不足,更加精准进行定位,并且可以运行在全球定位系 统(Global Position System,GPS)无法覆盖或失效的环 境中,例如室内环境、星际探索[3-4]等。 鉴于视觉里程计的特点和优势,VO 在火星探测器 上得到了成功应用 [4],也在公共安全、虚拟现实(Virtual Reality,VR)[5]、增强现实(Augmented Reality,AR)[6]等 领域凸显出其重要的应用价值。 1.1 视觉 SLAM 和 VO 的区别与联系 基于视觉的即时定位与地图构建(visual Simulta- neous Location and Mapping,vSLAM)[7]有两种主流方 法:滤波的方法,使用基于概率分布进行视觉信息融 合[8];非滤波的方法,选取关键帧进行全局优化[9-10]。具 基金项目:江苏省自然科学基金(No.BK20150721,No.BK20161469);中国博士后基金(No.2015M582786,No.2016T91017);江苏 省重点研发计划(No.BE2015728,No.BE2016904);江苏省科技基础设施建设计划(No.BM2014391);国家重点研发计 划(No.2016YFC0800606);中国工程院重点咨询课题(No.2017-XZ-05)。 作者简介:祝朝政(1995—),男,硕士研究生,CCF 学生会员,研究领域为机器视觉、嵌入式系统,E-mail:370045744@qq.com;何明 (1978—),男,博士,教授,主要研究领域为大数据、人工智能。 收稿日期:2017-12-19 修回日期:2018-01-30 文章编号:1002-8331(2018)07-0020-09 计算机工程与应用www.ceaj.org
祝朝政,何 明,杨 晟,等:单目视觉里程计研究综述 2018,54(7) 21 表 1 经典的 VO 研究成果 方案名称 MonoSLAM[18] PTAM[19] SVO[20] DSO[21] LSD-SLAM[22] ORB-SLAM2[16, 23] RTAB-MAP[24] DTAM[25] DVO[26] RGB-D-SLAM-V2[7] Elastic Fusion[27-28] OKVIS[9] ROVIO[8, 29] VINS-Mono[10] Kinect Fusion [30] 发布时间 2007 年 2007 年 2014 年 2016 年 2014 年 2017 年 2013 年 2011 年 2013 年 2014 年 2015 年 2015 年 2015 年 2017 年 2011 年 传感器类型 单目 单目 单目 单目 单目 单目为主 双目/RGB-D 单目 RGB-D RGB-D RGB-D 单目/多目+IMU 单目+IMU 单目+IMU RGB-D 处理方法 特征点 特征点 半直接法 直接法 直接法 特征点法 特征点法 直接法 直接法 特征点法 直接法 特征点法 直接法 特征点法 直接法 后端优化方法 EKF 滤波法 优化 优化 优化 优化 优化 优化 优化 优化 优化 优化 优化 特点 首个实时视觉 SLAM,EKF+稀疏角点 关键帧+BA,首次以优化为后端 稀疏直接法,仅 VO 单目直接法,目前效果最好的直接法 直接法+半稠密地图 ORB 特征点+三线程结构 支持较大场景的实用 RGB-D 直接法,单目稠密地图,需要 GPU RGB-D 直接法,稠密地图 完整的 RGB-D 稠密建图 RGB-D 在线重建,显示效果较好 以优化为主的关键帧 VIO EKF 滤波法 以 EKF 为主的 VIO 优化 优化 基于优化的紧耦合 VIO 框架 首次实现 RGB-D 实时稠密重建 两个相机位姿在临近时刻 k ,k-1 形成一个刚性 体关于这两种方法的评估详见[11-12]。 vSLAM 和 VO 两者的区别在于,后者仅关注局部轨 迹的一致性,而前者关注的是全局机器人轨迹的一致 性。理解什么时候产生回环和有效集成新的约束到当 前地图是视觉 SLAM 主要研究问题。VO 目标是增量式 重建轨迹,可能只优化前 n 个路径的位姿,即基于窗口 的捆绑调整。这个滑动窗口优化在 SLAM 中只能是建 立一个局部地图。 vSLAM 和 VO 两者的联系在于,后者可以视为前者 中的一个模块,能增量式重建相机的运动轨迹,所以有 些学者在研究中,将 vSLAM 视为 VO 展开研究。 如表1所示,自2007年并行跟踪与建图(Parallel Track- ing and Mapping,PTAM)之后,由于发现了稀疏矩阵结 构 特 殊 性 ,后 端 研 究 都 已 经 从 EKF 转 换 到 优 化 的 方 式。同时,最近几年里,单目和双目相机都取得显著的 进展[13-17],大部分已经具备了大范围、室外环境的能力。 2 VO 形式化描述 在 k 时刻,刚性机器人上的相机采集环境中运动图 像。如果是单目 VO,在 k 时刻采集到的图像集表示为 I0:n = { I0,I1,…,In 。如果是双目 VO,每个时刻都会有 左右图像产生,表示为 Il,0:n = { Il,0,Il,1,…,Il,n 和 Ir,0:n = { Ir,0,Ir,1,…,Ir,n ,如图 1 所示。 } } } P Pa Pb Fa Fb Tb,a 图 1 VO 问题的图例 假设相机坐标就是机器人的坐标。在立体视觉系 统中,一般左相机为原点。 变换 Tk,k - 1 ∈ R4 × 4 ,记为: ù tk,k - 1 ú û Tk,k - 1 = é Rk,k - 1 ê ë 0 1 (1) } 其 中 ,Rk,k - 1 是 旋 转 矩 阵 ,tk,k - 1 是 平 移 矩 阵 。 集 合 T1:n ={ T1,0,T2,1,…,Tn,n - 1 包含所有运动序列。最后, 相机位姿集 C0:n = { C0,C1,…,Cn 在 k 时刻初始坐标。 当前位姿 Cn 能通过计算所有变换 Tk(k = 1,2,…,n) 之 间的联系得到,因此,Cn = Cn - 1Tn ,C0 是 k = 0 时刻的 相机位姿。 } VO 的主要工作就是计算从图像 Ik 到图像 Ik - 1 相 关变换 Tk ,然后集成所有的变换恢复出相机的全部轨 迹 C0:n 。这意味着 VO 是一个位姿接着一个位姿,增量 式重建轨迹。一个迭代优化基于前 m 位姿可以执行, 之后可得到一个更准确的局部轨迹估计。 迭代优化通过基于前 m 帧最小化三维点在局部地 图中的重投影误差(基于窗口的捆绑调整,因为它在 m 帧窗口上执行)。局部地图空间中 3D 点的深度值通过 三角测量法进行估计,所以可构造一个最优化问题,调 整 R、t 使得对于所有的特征点 z j ,误差二范数累计最 小,得到: ∑ CX j -[ = + ] N min X,R,t j = 1    1 λ1    1 λ2  1,1 T 2  Z j  C(RX j + t) -[ ]  2,1 T 2  Z j  (2) 这就是最小化重投影误差问题。实际操作中,在调 整每个 X j ,使得更符合每一次观测 Z j ,也就是每个误 差项都尽量小。由于此原因,也称为捆绑调整(Bundle Adjustment)。捆绑调整优化原理如图 2 所示。 计算机工程与应用www.ceaj.org
22 2018,54(7) Computer Engineering and Applications 计算机工程与应用 Cn - m 1 … Cn - m + 1 2 T1 T3,1 Cn - m + 2Cn - m + 3 T2 T3 3 4 空间中 3D 点 Cn - 1 Cn … n+1 像素点 n Tn T4,1 Tn - 1,3 m 图 2 捆绑调整优化原理(C 表示相机当前帧位姿,T 表示两 个相机之间位姿的变换,m 表示相机总帧数) 3 VO 方法研究进展 在过去十多年里,大范围场景的 VO[22,31]取得了巨大 的成功。从 VO 实现方法上来分,主要分为基于特征点 法和基于直接法,也有人提出基于混合的半直接跟踪的 方法,即两种方法混合使用。 3.1 基于特征点的方法 对于特征点法 [3,6,16,18,23,32-33],Nister 是最早开展实时 单目大场景 VO 相关工作[3]。稀疏特征点法的 VO 是当 前的主流方法[32,34],它的基本思路是对于每帧新的图像 Ik(在立体相机中是一对图像),前两步是检测和匹配 2D 特征点,通过与之前帧进行对比匹配。二维特征点 的重投影从不同图像帧提取共同的 3D 特征点,这就是 图像对应关系(大部分 VO 实现的时候都假设相机已经 校准)。第三步是计算时刻 k - 1 和 k 之间的相对运动 Tk 。根据对应关系是三维或二维,有三种不同的方法, 包括 2D-2D,对极约束、P3P、ICP[35- 38]等解决这个问题。 相机位姿 Ck 是根据之前位姿变换 Tk 得到。除此之外, 为了实现迭代优化(捆绑调整)获得更精确的局部轨迹 估计,必须基于前 m 帧的深度估计构建局部地图。如 图 3 是基于特征点法的 VO 系统的流程图。 视频帧 特征检测 特征匹配(RANSAC) 运动估计 2D-to-2D 3D-to-2D 3D-to-3D 局部优化(捆绑调整) 深度估计 图 3 基于特征点法的 VO 系统主要流程图 VO 研究的主要问题是如何根据图像来估计相机运 动。通常情况下由于灰度值极易受到光照、形变等影 响,不同图像间变化可能非常大,因此仅凭灰度值是不 够的,所以需要对图像提取特征点。根据维基百科关于 特征(计算机视觉)的定义,在计算机视觉和图像处理 中,特征是一组与计算任务有关的信息,计算任务取决 于具体的应用。特征也可能是一般邻域操作或者特征 检测应用到图像的结果。特征在图像中可能拥有特殊 结构,例如角点、边缘,或者区块物体[39]。不过,一般更 容易找出两幅图像中出现同一个角点,同一边缘则稍微 困难些,同一区块则是最为困难的。所以,一种直观的 特征提取方式就是辨认寻找不同图像角点,确定它们的 对应关系。在这种情况下,角点就是所谓的特征。 然而在实际情况中,单纯的角点依然不能满足需 求。因此研究人员设计了许多更加稳定的局部图像特 征,如 SIFT[40]、SUFT[41]等。虽然 SIFT 和 SUFT 充分考虑 了图像变换过程中的各种问题,但是也带来了较大的计 算量,一般来说很难实时在 CPU 上计算。不过近几年 来,诸如 ORB[42]、BRISK[43]等一些易于计算的特征提取/ 描 述 算 法 的 流 行 ,逐 渐 替 代 了 之 前 追 踪 效 果 不 好 的 Harris 角点或计算复杂的 SIFT/SUFT,成为 VO 的首选。 ORB 由于融合了 FAST 和 BRIEF 各自的优势,使得 其在尺度、旋转、亮度等方面具有良好的特性。同时,该 组合也非常高效,使得 ORB 特征是目前实时性最好的 方案 [16]。一般来说特征都是由关键点和描述子组成。 其中,FAST 角点提取:ORB 为了在描述子中增加旋转 不变性,在原版的 FAST[44]基础上,增加了特征点的主方 向。新 BRIEF 描述子:对前一步提取的关键点周围像素 区域进行描述,由于在角点提取的时候增加了主方向, 所以相对于原始的 BRIEF[45]描述子,ORB 的描述子具有 较好的旋转不变性。 本文主要针对特征点提取三种主要方法进行比较, 分别是 SIFT、SURF 以及 ORB,这三种方法在 OpenCV 里面都已实现。如表 2 所示。 表 2 不同特征之间性能比较 特征类型 SURF√√√ √√√ √√√ √√√ SIFT√ √ √ √ ORB√√√√√ √ √ × 计算速度 旋转鲁棒性 模糊鲁棒性 尺度变换鲁棒性 同时,注意由于存在噪声,错误的测量方法,以及对 数据的错误假设等原因导致在特征匹配过程中会有一 些匹配的局外点。即使在异常值的情况下,进行鲁棒估 计是确保精确的运动估计的任务。由于局外点的比较 分散性质,会使用随机采样一致性(RANSAC)来挑选最 优匹配,而非最小二乘匹配算法。 基于特征点的实时 VO 早期较为成功的就是 Klein 等人提出的单目 VO 框架——PTAM[19]。虽然它的性能 不是十分完善,但它提供了一个完整通用的框架,将整 个里程计的实现分为前端、后端,分别包括跟踪和建图 过程的并行化。目前多数的 VO 框架都是基于它实现 的,包括目前最稳定的第二代基于 ORB 的即时定位与 计算机工程与应用www.ceaj.org
祝朝政,何 明,杨 晟,等:单目视觉里程计研究综述 2018,54(7) 23 地 图 构 建(Simultaneous Location and Mapping based on ORB,ORB-SLAM2)[16]。同时它也是第一个使用非 线性优化的系统,在此之前的传统 VO 都是基于滤波 器[18]实现。不过,它也存在场景小,缺乏全局重定位功 能,导致实用性较差。 由于光流法也具备跟踪特征点的特性,并且相对其 他特征点匹配的方法可以节省部分计算量,所以也有人 提出基于光流的特征点法 [46- 47],虽然可以大幅提高 VO 的速度,但是要求相机运动较缓或者帧率较高。 现有研究中实用性最好的基于特征的 VO 方法是 ORB-SLAM2[16],它提出了一个更为完整的 VO 框架,如 图 4 所示。包括跟踪、建图和回环检测三个线程。其中, 跟踪线程主要负责对新一帧图像提取 ORB[42]特征点, 并粗略估计相机位姿。建图线程主要是基于 Bundle Adjustment 对局部空间中的特征点与相机位姿的优化, 求解误差更小的位姿与特征点的空间位姿。而回环检测 线程负责实现基于关键帧的回环检测,可以有效消除累 计误差,同时还可以进行全局重定位。同时它还兼容单 目、双目和RGB-D相机等模式,这使它具有良好的泛用性。 对于初始化方面,作者提出了一种自动的初始化地 图策略,同时计算单应矩阵(假设一个平面场景)[31]和本 质矩阵(假设非平面的场景)[32],根据启发式的准则判断 属于对应情况来初始化位姿。这也是文献[16]最大的 贡献。ORB-SLAM 与 PTAM 计算优势除了选取的 ORB 特征更加高效之外,还取了上一帧能观测的地图点进行 匹配,而不是直接使用所有地图点来匹配新的帧。 3.2 基于直接跟踪的方法 特征点法一直是长期以来比较经典的方法,不过其 鲁棒性主要建立于特征点的描述上。一方面越是增强 鲁棒性,增加特征点描述的复杂性,越会导致算法复杂 度的大幅提高;另一方面,特征点没法应用在特征点较 弱的场景,例如墙面、天空等。所以基于像素灰度不变 性假设估计相机运动的直接法在近年发展迅猛[20-21]。直 接法从光流[48]发展而来,能够在不提特征(或不计算特 征描述)的情况下,通过最小化光度误差(特征点法中最 小化特征点的重投影误差),来估计相机运动和像素的 空间位置。可以有效地解决特征点法所面临的问题。 总的来说,根据空间点 P 多少情况,直接法又分为三 类:稀疏直接法、半稠密的直接法和稠密直接法。 早期直接的 VO 方法很少基于跟踪和建图框架,多 数都是人工选择关键点[49-51]。直到 RGB-D 相机的出现, 研究人员发现直接法对 RGB-D 相机 [26],进而对单目相 机[21-22]都是非常有效的手段。近期出现的一些直接法都 是直接使用图像像素点的灰度信息和几何信息来构造 误差函数,通过图优化求解最小化代价函数,从而得到 最 优 相 机 位 姿 ,且 处 理 大 规 模 地 图 问 题 用 位 姿 图 表 示[21,52]。为了构建半稠密的三维环境地图,Engel 等人[22] 提出了大尺度的直接单目即时定位与地图构建(Large- Scale Direct monocular Simultaneous Location and Mapping,LSD-SLAM)算法,相比之前的直接的 VO 方 法,该方法在估计高精度相机位姿的同时能够创建大规 模的三维环境地图。由于单目 VO 存在尺度不确定性 和尺度漂移问题,地图直接由关键帧直接的 Sim(3)变 换组成,能够准确地检测尺度漂移,并且整个系统可在 CPU 上实时运行。与 ORB-SLAM2 类似,LSD-SLAM 也采用位姿图优化,因此能形成闭环回路和处理大尺度 场景。系统为每个新加入的关键帧在已有关键帧集合 (地图)中选取距离最近的关键帧位置。LSD-SLAM 主 要流程图如图 5 所示。 DSO[21](Direct Sparse Odometry,直接稀疏里程计) 也是由 LSD-SLAM 的作者 Engel 提出的,该方法不仅从 鲁棒性、精准度还是计算速度都远远超过之前的 ORB- SLAM 和 LSD-SLAM 等方法的效果。因为采用新的深 度估计机制滑动窗口优化代替原来的卡尔曼滤波方法, 所以在精度上有了十足的提高。另外,与 LSD-SLAM 相 比,DTAM[25]引入直接法计算基于单目相机的实时稠密 地图。相机的位姿使用深度图直接匹配整个图像得到。 然而,从单目视觉中计算稠密深度需要大量的计算力, 通常是使用 GPU 并行运算,例如开源的 REMODE[53]。 因此,也有不少研究人员在这方面做了一些平衡诞生了 ① 跟踪 双目/RGB- D 帧 预处理 输入 位姿预测(运动模 型)或者重定位 场景识别 地图 视觉库 地图点 关键帧 识别数据库 可视化点云 生成树 循环修正 循环检测 更新地图 全 BA 优化本质图 循环融合 计算SE(3) 查询数据库 全 BA ③ 闭环检测 图 4 ORB-SLAM2 框架结构图 跟踪局部 决定新关 地图 键帧 关键帧 插入关键帧 选择最近 地图点 创建新的点 图 地 部 局 ② 局部 BA 选择局部 关键帧 计算机工程与应用www.ceaj.org
24 2018,54(7) Computer Engineering and Applications 计算机工程与应用 跟踪 视频帧 跟踪关键帧 估计变换矩阵 SE(3) 深度估计 关键帧 是 否 地图优化 当前地图 创建新的关键帧 优化当前关键帧 添加关键 帧到地图 调整地图 更新当前帧 三角测量 集成到关键帧 调整地图 优化当前帧 当前关键帧 图 5 LSD-SLAM 的模块流程图 添加关键帧到地图 寻找最近关键帧 估计尺度 sim(3)边缘 能达到更快计算速度的方法,例如文献[54]和文献[20]。 3.3 基于混合的半直接跟踪的方法 虽然基于直接跟踪的方法已经非常流行,但是低 速以及没法保证最优性和一致性也是限制直接法的 问题所在。因此有人在基于特征的方法和基于直接跟 踪的方法两者各自优点的基础上,提出了一种混合的 半直接方法即半直接视觉 里程计(Semi-direct Visual Odometry,SVO)[20],虽然 SVO 依旧是依赖于特征一致 性,但是它的思路主要是还是通过直接法来获取位姿, 因此避免了特征匹配和外围点处理,极大地缩短了计算 时间,算法速度非常快。在嵌入式无人机平台(ARM Cortex A9 1.6 GHz CPU)上可以做到 55 f/s,而在普通 笔记本上(Intel i7 2.8 GHz CPU)上可以高达 300 f/s。 深度估计是构建局部点云地图的核心,SVO 也是采 用概率模型建图。不过跟 LSD-SLAM 等方法不同的 是,SVO 的深度滤波是采用高斯分布和均匀分布的混合 模型[55],而 LSD-SLAM 是基于高斯分布模型。首先使用 直接法求解位姿进行匹配,其次使用了经典的 Lucas- Kanade 光流法[48]匹配得到子像素精度,然后结合点云地 图计算最小化重投影误差进行优化。如图 6 所示。 运动估计线程 稀疏模型图像匹配 新一帧 上一帧 特征匹配 地图 位姿结构优化 地图线程 帧队列 关键帧 是 否 特征提取 更新深度 滤波器 初始化深 度滤波器 合并 图 6 SVO 的模块流程图 是: 插入新点 整个过程相较于传统的特征点法,只有选择关键帧 时需要依靠特征,并且去掉了匹配描述子的计算,以及 使用 RANSAC 去除局外点的步骤,所以更加高效。同 时它相比于直接法不是对整幅图像进行直接匹配从而 获得相机位姿,而是通过在整幅图像中提取的图像块来 进行位姿的获取,这样能够增强算法的鲁棒性。SVO 最 大贡献就是在巧妙设计了三次优化的方法(优化灰度误 差,优化特征点预测位置,优化重投影误差)来满足精度 问题的同时,也保持较为优秀的计算速度。另外,其代 码结构较为简洁,非常适合深入研究学习。后来 Forster 又证明了该方法可以拓展到多目相机系统 [56],跟踪边 缘,包括运动的先验知识,同时也支持多种相机,例如鱼 眼相机和透视相机。不过在半直接法方面的研究,除了 Forster 最新的研究[56]之外,目前还未出现其他有大影响 力的论文。 3.4 优缺点分析 特征点法一直是长期以来比较经典的方法,不过其 鲁棒性主要建立于特征点的描述上,一方面越是增强鲁 棒性,增加特征点描述的复杂性,也会导致算法复杂度 的大幅提高;另一方面,特征点没法应用在特征点较弱 的场景,例如墙面上。直接法是近几年比较新颖的方 法,它可以适应于特征不够明显的场景下,例如走廊或 者光滑的墙面上[57],具有较强鲁棒性。由于跳过了特征 描述和匹配的步骤,直接法,尤其是稀疏直接法,往往能 够在极快的速度下运行。它也适用于那些需要构建半 稠密或者稠密的地图的需求场景,这是特征点法是无法 实现的。但是直接法也存在非凸性、单个像素没有区分 度和灰度不变性假设性太牵强等问题,因此其研究和应 用仍然没有特征点法成熟,目前只适合于运动较小,图 像整体亮度变化不大的情形。 虽然基于特征点的 VO[16,23]更为主流,但是从慕尼黑 大学 TUM 组公布的实验结果来看,直接法的 VO[20-22]在 近几年也取得很大的突破,其中基于稀疏的直接法[21]已 经比稀疏的特征点法[16]具有更快更好的效果。直接方 法使用了图像上的所有信息,甚至是像素梯度很小的区 域,因此即使在场景纹理很差,失焦,运动模糊的情况下 计算机工程与应用www.ceaj.org
祝朝政,何 明,杨 晟,等:单目视觉里程计研究综述 2018,54(7) 25 的性能也优于基于特征的方法。根据文献[21]对基于 直接跟踪的方法和基于特征的方法进行的噪声实验对 比,基于直接跟踪的方法对几何噪声较为敏感,例如卷 帘快门相机等;而基于特征的方法对光学噪声更为敏 感,例如模糊等。因此,在普通手机设备上(一般为卷帘 快门相机),基于特征的方法效果可能更好;而在基于全 局快门相机的机器人中,基于直接跟踪的方法可能越来 越流行。 基于混合的半直接跟踪的方法[20],由 Forster 最早提 出,具有速度快,适合于地图不确定性的模型,同时不受 运动模型假设的影响的优点;然而由于跟踪的特征比较 少,有些情况下可能会丢失。作者不仅发布了惊艳的实 验测试视频,并开源了其代码框架。虽然其开源的代码 效果鲁棒性不是很好,不过由于代码规范性较好,依旧很 适合初学者进行阅读。为了更好地对比了解当前各个方 法的进展情况,本文分别选取了当前基于特征的方法、基 于直接跟踪的方法、基于混合的半直接跟踪的方法法中 最具代表性的方法进行实验测试,结果分别如图 7 所示。 SVO 算法 DSO 算法 ORB-SLAM2 算法 图 7 三类 VO 方法实现效果对比 4 VO 主要发展趋势及研究热点 目前下表中所列的国内外学术科研机构,对 VO 展 开了不同侧重的研究,如表 3 所示。 虽然 VO 问题研究本质上是增量地计算相机位姿 问题,为上层应用提供自身的一个位姿估计[3],但是如何 进一步提高精度、效率、鲁棒性等问题一直是研究人员 不懈的追求。围绕着上述三个问题,目前已经形成探索 新型传感器、多传感器数据融合、应用机器学习、探究新 的缓解特征依赖和降低计算复杂度等几个方面入手的 研究热点。 表 3 国内外前沿机构的研究方向 侧重方向 基于平面的特征匹配、基于深度学习 的语义地图 直接法、基于新型视觉传感器的 VO 直接法 视觉惯导融合 RGB-D 相机与惯导融合 视觉惯导融合 视觉惯导融合 双目立体视觉 双目立体视觉 研究机构 清华大学 苏黎世大学 慕尼黑大学 香港科技大学 谷歌 苹果 苏黎世联邦理工学院 浙江大学 美国国家航空航天局 4.1 探索新型传感器 随着 2010 年微软推出 RGB-D 相机 Kinect 的兴起, 它具有能够实时获取深度图的特性,能够简化大量的计 算 ,也 逐 渐 成 为 一 种 稠 密 三 维 重 建 系 统 的 实 现 方 式[7,24,26-28,30],但是一方面由于其有效距离较短,另一方面 容易受到外界光源的干扰无法在室外场景中使用,限制 了它没法真正解决 VO 问题。文献[58]提出基于事件相 机的 VO 算法,并且基于扩展卡尔曼滤波器与无结构的 测量模型,集成了 IMU 作为数据融合的补充,以精确得 到 6 自由度相机的位姿。未来随着新型传感器的出现, 势必会引发一阵新的热点。 4.2 多传感器数据融合 对于很多移动机器人来说,IMU 和视觉都是必备的 传感器,它们可以数据融合互补,满足移动机器人系统 的鲁棒性和定位精度的需求。单目摄像头和惯导融 合[8-10,31,59]也是一个近几年比较流行的一个趋势,苹果公 司在 WWDC 2017 大会上推出的 ARKit,主要就是基于 EKF 对单目相机和惯导数据融合的思路实现,为开发者 做室内定位提供良好的基础平台支撑。后来又有人提 出了用优化关键帧[60]方式对多目相机和惯导数据进行 融合的思路 [9]。数据融合分为紧耦合和松耦合。一方 面,有时候为了限制计算复杂度,许多工作遵循松耦合 的原则。文献[31]集成 IMU 作为独立姿态和相关偏航 测量加入到视觉的非线性优化问题。相反,文献[61]使 用视觉位姿估计维护一个间接 IMU 的 EKF。类似的松 耦合算法还有文献[62]和[63],相机的位姿估计使用非 线性优化集到了因子图,包括惯导和 GPS 数据。另一方 面,由于松耦合方法本质上是忽略了不同传感器内部之 间的相关性,所以紧耦合方法是将相机和 IMU 数据合 并,将所有状态都联合估计成一个共同问题,因此需要 考虑它们之间的相关性。文献[9]将两类方法进行对 比,实验表明这些传感器内部的相关性对于高精度的视 觉惯导系统(VINS)是非常关键的,所以高精度视觉惯 导系统都是采用紧耦合来实现。 有学者尝试多传感器的融合,首先是杨绍武提出的 多相机传感器的融合[64],还有双目立体视觉与惯导、速 计算机工程与应用www.ceaj.org
26 2018,54(7) Computer Engineering and Applications 计算机工程与应用 度等数据融合[65],其次是 Akshay 提出的基于点云特征的 GPS-Lidar 融合算法,在 3D 城市建模过程中能有效地降 低的位置测量误差[66]。 4.3 应用机器学习 神经网络等机器学习方法近年来在众多领域中引 起了广泛的学术轰动,VO 领域也不例外,在匹配跟踪部 分,文献[67]提出了一种数据驱动模型(即 3DMatch),通 过自监督的特征学习从现有的 RGB-D 重建结果中获得 局部空间块的描述子,进而建立局部 3D 数据之间的对 应关系。对于优化匹配误差,传统的 RANSAC 可能被一 种新的 Highway Network 架构替代,它基于多级加权残 差的跳层连接(Multilevel Weighted Residual Shortcuts) 的方式,计算每个可能视差值的匹配误差,并利用复合 损失函数进行训练,支持图像块的多级比较。在精细化 步骤中可用于更好地检测异常点。文献[68]针对这种 新架构应用立体匹配基准数据集进行实验,结果也表明 匹配置信度远远优于现有算法。 单目 VO 缺乏尺度信息一直是研究人员最为关注 的问题,近期有德国研究人员 Keisuke 等人针对低纹理 区域等单目 VO 恢复尺度容易失败的情况,提出一种将 CNN 预测的深度信息与单目直接计算的深度信息进行 融合的方法,实验表明,它解决了单目 VO 的一个尺度 信息丢失问题[69]。 2016 年 Muller 提出了基于光流(直接法)和深度学 习的 VO[70],光流的帧作为 CNN 的输入,计算旋转和平 移,顺序增量式的旋转和平移构建相机运动轨迹地图。 实验证明该方法比现有的 VO 系统具有更高的实时性。 4.4 探究新的缓解特征依赖 VO 对场景特征的依赖,本质上是由于使用了过于 底层的局部特征(点特征),因此目前出现了不少研究提 出了利用边、平面[71]等更为高层的图像信息来缓解特征 依赖。理论上由于边可以携带方向、长短、灰度值等信 息,所以具备更为鲁棒的特性,基于边的特征在室内场 景(规则物品较多)应具有更好的鲁棒性。文献[72]提 出了一种结合点与边缘优点的单目 VO 算法。该算法 不仅在 TUM 提供的单目公开数据集 [21]中表现优异,而 且在低纹理的环境中,可以大幅降低运动估计误差。文 献[6]主要应用了图模型和图匹配机制对平面物体进行 跟踪,并且设计一种解决最优解寻找问题的新策略,该 策略能预测物体姿态和关键点匹配。 4.5 降低计算复杂度 目前基于 RGB-D 相机的实时恢复稠密场景已经较 为完善[7,24,26-28,30],近年来,由于 AR 应用研究的爆发,较早 的开始研究为 AR 提供基础技术支撑的是谷歌的 Schöps 等 人 ,他 们 提 出 基 于 TSDF 来 融 合 深 度 图 在 Project Tango 上实现的三维重建方法[74],其主要计算复杂度在 于半稠密或稠密重建所需计算的深度估计点太多。所 以目前多数的优化手段大多集中在优化深度估计步骤, 例如 DTAM[25]引入正则项对深度图进行全局优化,降低 错误匹配概率。REMODE[53]则采用了深度滤波模型,不 断优化每帧的深度测量更新概率模型的参数。上述方 法虽然都能实时重建出稠密的三维点云地图,但大多 还都依赖于 GPU 的并行加速运算。因此,如何提高计 算效率,降低计算复杂度,只用 CPU 即可恢复出基于单 目的半稠密或稠密三维点云地图,仍是未来一个热门 课题。 5 结论 本文从 VO 与视觉 SLAM 的对比分析入手,对 VO 问题进行形式化。随后重点探究实现 VO 的各类方法 的研究进展,实验对比分析各自优劣。最后结合国内外 一流的科研机构在研方向,总结今后发展研究热点。目 前多数研究人员只关注白天等视野较好的理想场景,但 是场景变化(白天黑夜、四季变化等)问题在实际室内外 场景中很常见,如何让 VO 系统在这样的环境下依旧实 现高鲁棒性应是科研人员一个重要研究内容。此外,为 了达到实时效果,VO 的计算复杂度也不能太高。 未来也可以在以下领域展开新的应用研究:在消防 领域,消防人员可以对大型室内火灾救援现场进行定 位,并实时绘制出运动轨迹帮助救灾人员标记已经搜救 完成的地方,将搜救工作效率最大化;在反恐领域中,针 对突发事件中对警犬的行为特征进行检测分析,以便实 现在复杂人群中通过警犬对突发事件实现前方预警。 将 VO 应用到该场景中,对警犬的位姿进行准确的定 位,进而以一种低成本的方式提供预警功能。 参考文献: [1] Durrantwhyte H,Bailey T.Simultaneous localization and I[J].IEEE Robotics & Automation Maga- mapping:Part zine,2006,13(3):108-117. [2] Durrantwhyte H,Bailey T.Simultaneous localization and mapping:Part II[J].IEEE Robotics & Automation Maga- zine,2006,13(3):108-117. [3] Nister D,Naroditsky O,Bergen J.Visual odometry[C]// Proceedings of the 2004 IEEE Computer Society Con- ference on Computer Vision and Pattern Recognition, 2004:652-659. [4] Matthies L,Maimone M,Johnson A,et al.Computer vision on mars[J].International Journal of Computer Vision, 2007,75(1):67-92. [5] Malleson C,Gilbert A,Trumble M,et al.Real- time full- body motion capture from video and IMUs[C]//Proceedings of International Conference on 3D Vision,2017. [6] Wang T,Ling H.Gracker:A graph- based planar object tracker[J].IEEE Transactions on Pattern Analysis & Machine 计算机工程与应用www.ceaj.org
祝朝政,何 明,杨 晟,等:单目视觉里程计研究综述 2018,54(7) 27 Intelligence,2017,99. mation,2014:15-22. [7] Endres F,Hess J,Sturm J,et al.3- D mapping with an RGB-D camera[J].IEEE Transactions on Robotics,2017, 30(1):177-187. [21] Engel J,Koltun V,Cremers D.Direct sparse odometry[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2017,40(3):611-625. [8] Bloesch M,Omari S,Hutter M,et al.Robust visual inertial odometry using a direct EKF- based approach[C]// Proceedings of International Conference on Intelligent Robots and Systems,2015:298-304. [9] Leutenegger S,Lynen S,Bosse M,et al.Keyframe- based visual-inertial odometry using nonlinear optimization[J]. International Journal of Robotics Research,2015,34(3): 314-334. [10] Qin T,Li P,Shen S.VINS-Mono:A robust and versatile monocular visual- inertial state estimator[J].arXiv:1708. 03852v1,2017. [11] Strasdat H,Montiel J M M,Davison A J.Visual SLAM: Why filter?[J].Image & Vision Computing,2012,30(2): 65-77. [22] Engel J,Schöps T,Cremers D.LSD- SLAM:Large- scale direct monocular SLAM[C]//Proceedings of European Conference on Computer Vision,2014:834-849. [23] Mur-Artal R,Montiel J M M,Tardós J D.ORB-SLAM: A versatile and accurate monocular SLAM system[J]. IEEE Transactions on Robotics,2015,31(5):1147-1163. loop closure detec- tion for large-scale multi-session graph-based SLAM[C]// Proceedings of International Conference on Intelligent Robots and Systems,2014:2661-2666. [24] Labbé M,Michaud F.Online global [25] Newcombe R A,Lovegrove S J,Davison A J.DTAM: Dense tracking and mapping in real-time[C]//Proceedings of IEEE International Conference on Computer Vision, 2011:2320-2327. [12] Strasdat H,Montiel J M M,Davison A J.Real- time monocular SLAM:Why filter?[C]//Proceedings of IEEE International Conference on Robotics and Automation, 2010:2657-2664. [26] Kerl C,Sturm J,Cremers D.Dense visual SLAM for RGB-D cameras[C]//Proceedings of International Con- ference on Intelligent Robots and Systems,2014:2100- 2106. [13] Handa A,Chli M,Strasdat H,et al.Scalable active matching[C]//Proceedings of IEEE International Confer- ence on Computer Vision and Pattern Recognition,2010: 1546-1553. [27] Whelan T,Salas-Moreno R F,Glocker B,et al.Elastic- Fusion:Real- time dense SLAM and light source esti- mation[J].International Journal of Robotics Research, 2016,35(14):1697-1716. [14] Civera J,Grasa O G,Davison A J,et al.1- Point RANSAC for extended Kalman filtering:Application to real-time structure from motion and visual odometry[J]. Journal of Field Robotics,2010,27(5):609-631. [15] Mei C,Sibley G,Cummins M,et al.RSLAM:A system for large-scale mapping in constant-time using stereo[J]. International Journal of Computer Vision,2011,94(2): 198-214. [16] Mur-Artal R,Tardós J D.ORB-SLAM2:An open-source SLAM system for monocular,stereo,and RGB-D cam- eras[J].IEEE Transactions on Robotics,2016,33(5): 1255-1262. [17] 高翔 . 视觉 SLAM 十四讲[M]. 北京:电子工业出版社, 2017. [18] Davison A J,Reid I D,Molton N D,et al.MonoSLAM: Real-time single camera SLAM[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2007,29(6): 1052. [19] Klein G,Murray D.Parallel small AR workspaces[C]//Proc of Sympo on Mixed & Augmented Reality,2007:1-10. tracking and mapping for IEEE & ACM Int [20] Forster C,Pizzoli M,Scaramuzza D.SVO:Fast semi- direct monocular visual odometry[C]//Proceedings of IEEE International Conference on Robotics and Auto- [28] Whelan T,Leutenegger S,Moreno R S,et al.Elastic- Fusion:Dense SLAM without a pose graph[J].Interna- tional Journal of Robotics Research,2016,35(14):1-9. [29] Bloesch M,Burri M,Omari S,et al.Iterated extended Kalman filter based visual- inertial odometry using direct photometric feedback[J].International Journal of Robotics Research,2017,36(10):1053-1072. [30] Izadi S,Kim D,Hilliges O,et al.KinectFusion:Real-time 3D reconstruction and interaction using a moving depth camera[C]//Proceedings of ACM Symposium on User Interface Software and Technology,Santa Barbara,CA, USA,2011:559-568. [31] Konolige K,Agrawal M,Solà J.Large- scale visual odometry for rough terrain[C]//Proceedings of International Symposium on Robotics Research,November 26-29, 2011:201-212. [32] Quijada S D,Zalama E,García-Bermejo J G,et al.Fast 6D odometry based on visual features and depth[M]// Intelligent Autonomous Systems 12.Berlin Heidelberg: Springer,2013:5-16. [33] Tang C,Wang O,Tan P.GlobalSLAM:Initialization- robust Monocular Visual SLAM[J].arXiv:1708.04814v1, 2017. [34] Scaramuzza D,Fraundorfer F.Visual Odometry[Tutorial][J]. 计算机工程与应用www.ceaj.org
分享到:
收藏