论文研究-单目视觉里程计研究综述.pdf

发布时间：2022-05-29 发布人：admin 分类：说明书资料大小：0.77M 资料格式：pdf 举报版权申诉

weixin_38743968-11697033-4744302542873985188.pdf-第1页.png

第1页 / 共9页

weixin_38743968-11697033-4744302542873985188.pdf-第2页.png

第2页 / 共9页

weixin_38743968-11697033-4744302542873985188.pdf-第3页.png

第3页 / 共9页

weixin_38743968-11697033-4744302542873985188.pdf-第4页.png

第4页 / 共9页

weixin_38743968-11697033-4744302542873985188.pdf-第5页.png

第5页 / 共9页

weixin_38743968-11697033-4744302542873985188.pdf-第6页.png

第6页 / 共9页

weixin_38743968-11697033-4744302542873985188.pdf-第7页.png

第7页 / 共9页

weixin_38743968-11697033-4744302542873985188.pdf-第8页.png

第8页 / 共9页

文本预览

20 2018，54（7） Computer Engineering and Applications 计算机工程与应用单目视觉里程计研究综述祝朝政 1，何明 1，杨晟 2，吴春晓 1，刘斌 1 ZHU Chaozheng1, HE Ming1, YANG Sheng2, WU Chunxiao1, LIU Bin1 1. 中国人民解放军陆军工程大学指挥控制工程学院，南京 211117 2. 河海大学计算机与信息学院，南京 211100 1.College of Command Control Engineer, Army Engineering University, Nanjing 211117, China 2.College of Information and Computer, HoHai University, Nanjing 211110, China ZHU Chaozheng, HE Ming, YANG Sheng, et al.Survey of monocular Visual Odometry. Computer Engineering and Applications, 2018, 54（7）：20-28. Abstract：Monocular Visual Odometry can not only provide functions such as navigation and obstacle avoidance for mobile robots, but also can be applied to the current hot autopilot and other fields. This paper analyzes the basic principle of Visual Odometry, and studies the research status of monocular Visual Odometry technology at home and abroad. At the same time, the classical monocular Visual Odometries are analyzed and compared in detail, such as ORB-SLAM2, DSO and so on. Aiming at the issues of robustness and real-time which are generally concerned in the current visual odometry research, the development directions and trend of the next research work are discussed. Key words：monocular Visual Odometry; feature method; direct method; visual SLAM 摘要：单目视觉里程计不仅能为移动机器人提供导航避障等功能，在无人驾驶等领域中也有更广阔的应用价值。剖析了视觉里程计的基础原理，研究了单目视觉里程计技术的国内外现状；同时，对 ORB-SLAM2、DSO 等典型单目视觉里程计进行深入分析和比较。针对当前视觉里程计研究中普遍关注的鲁棒性和实时性等问题，探讨了下一步研究工作的发展方向和趋势。关键词：视觉里程计；特征点法；直接法；视觉 SLAM 文献标志码：A 中图分类号：TP391.4 doi：10.3778/j.issn.1002-8331.1712-0279 1 引言移动机器人进入未知环境进行定位和导航是自主化的重要的一步，因为未知环境的复杂性，所以研究仅依靠机器人自身的传感器构建实时地图并进行定位具有重要意义[1-2]。视觉传感器是机器人上常见的一类传感器，具有精确度高，成本低，且数据信息丰富等特点，因此利用视觉传感器来定位成为研究热点。视觉里程计（Visual Odometry，VO）这一概念 [3]由 Nister 提出，指通过机器视觉技术，分析相关图像序列来实时估计移动机器人的位姿（位置和姿态）过程，能克服传统里程计的不足，更加精准进行定位，并且可以运行在全球定位系统（Global Position System，GPS）无法覆盖或失效的环境中，例如室内环境、星际探索[3-4]等。鉴于视觉里程计的特点和优势，VO 在火星探测器上得到了成功应用 [4]，也在公共安全、虚拟现实（Virtual Reality，VR）[5]、增强现实（Augmented Reality，AR）[6]等领域凸显出其重要的应用价值。 1.1 视觉 SLAM 和 VO 的区别与联系基于视觉的即时定位与地图构建（visual Simulta- neous Location and Mapping，vSLAM）[7]有两种主流方法：滤波的方法，使用基于概率分布进行视觉信息融合[8]；非滤波的方法，选取关键帧进行全局优化[9-10]。具基金项目：江苏省自然科学基金（No.BK20150721，No.BK20161469）；中国博士后基金（No.2015M582786，No.2016T91017）；江苏省重点研发计划（No.BE2015728，No.BE2016904）；江苏省科技基础设施建设计划（No.BM2014391）；国家重点研发计划（No.2016YFC0800606）；中国工程院重点咨询课题（No.2017-XZ-05）。作者简介：祝朝政（1995—），男，硕士研究生，CCF 学生会员，研究领域为机器视觉、嵌入式系统，E-mail：370045744@qq.com；何明（1978—），男，博士，教授，主要研究领域为大数据、人工智能。收稿日期：2017-12-19 修回日期：2018-01-30 文章编号：1002-8331（2018）07-0020-09 计算机工程与应用www.ceaj.org

祝朝政，何明，杨晟，等：单目视觉里程计研究综述 2018，54（7） 21 表 1 经典的 VO 研究成果方案名称 MonoSLAM[18] PTAM[19] SVO[20] DSO[21] LSD-SLAM[22] ORB-SLAM2[16, 23] RTAB-MAP[24] DTAM[25] DVO[26] RGB-D-SLAM-V2[7] Elastic Fusion[27-28] OKVIS[9] ROVIO[8, 29] VINS-Mono[10] Kinect Fusion [30] 发布时间 2007 年 2007 年 2014 年 2016 年 2014 年 2017 年 2013 年 2011 年 2013 年 2014 年 2015 年 2015 年 2015 年 2017 年 2011 年传感器类型单目单目单目单目单目单目为主双目/RGB-D 单目 RGB-D RGB-D RGB-D 单目/多目+IMU 单目+IMU 单目+IMU RGB-D 处理方法特征点特征点半直接法直接法直接法特征点法特征点法直接法直接法特征点法直接法特征点法直接法特征点法直接法后端优化方法 EKF 滤波法优化优化优化优化优化优化优化优化优化优化优化特点首个实时视觉 SLAM，EKF+稀疏角点关键帧+BA，首次以优化为后端稀疏直接法，仅 VO 单目直接法，目前效果最好的直接法直接法+半稠密地图 ORB 特征点+三线程结构支持较大场景的实用 RGB-D 直接法，单目稠密地图，需要 GPU RGB-D 直接法，稠密地图完整的 RGB-D 稠密建图 RGB-D 在线重建，显示效果较好以优化为主的关键帧 VIO EKF 滤波法以 EKF 为主的 VIO 优化优化基于优化的紧耦合 VIO 框架首次实现 RGB-D 实时稠密重建两个相机位姿在临近时刻 k ，k－1 形成一个刚性体关于这两种方法的评估详见[11-12]。 vSLAM 和 VO 两者的区别在于，后者仅关注局部轨迹的一致性，而前者关注的是全局机器人轨迹的一致性。理解什么时候产生回环和有效集成新的约束到当前地图是视觉 SLAM 主要研究问题。VO 目标是增量式重建轨迹，可能只优化前 n 个路径的位姿，即基于窗口的捆绑调整。这个滑动窗口优化在 SLAM 中只能是建立一个局部地图。 vSLAM 和 VO 两者的联系在于，后者可以视为前者中的一个模块，能增量式重建相机的运动轨迹，所以有些学者在研究中，将 vSLAM 视为 VO 展开研究。如表1所示，自2007年并行跟踪与建图（Parallel Track- ing and Mapping，PTAM）之后，由于发现了稀疏矩阵结构特殊性，后端研究都已经从 EKF 转换到优化的方式。同时，最近几年里，单目和双目相机都取得显著的进展[13-17]，大部分已经具备了大范围、室外环境的能力。 2 VO 形式化描述在 k 时刻，刚性机器人上的相机采集环境中运动图像。如果是单目 VO，在 k 时刻采集到的图像集表示为 I0:n = { I0,I1,…,In 。如果是双目 VO，每个时刻都会有左右图像产生，表示为 Il,0:n = { Il,0,Il,1,…,Il,n 和 Ir,0:n = { Ir,0,Ir,1,…,Ir,n ，如图 1 所示。 } } } P Pa Pb Fa Fb Tb,a 图 1 VO 问题的图例假设相机坐标就是机器人的坐标。在立体视觉系统中，一般左相机为原点。变换 Tk,k - 1 ∈ R4 × 4 ，记为： ù tk,k - 1 ú û Tk,k - 1 = é Rk,k - 1 ê ë 0 1 （1） } 其中，Rk,k - 1 是旋转矩阵，tk,k - 1 是平移矩阵。集合 T1:n ={ T1,0,T2,1,…,Tn,n - 1 包含所有运动序列。最后，相机位姿集 C0:n = { C0,C1,…,Cn 在 k 时刻初始坐标。当前位姿 Cn 能通过计算所有变换 Tk(k = 1,2,…,n) 之间的联系得到，因此，Cn = Cn - 1Tn ，C0 是 k = 0 时刻的相机位姿。 } VO 的主要工作就是计算从图像 Ik 到图像 Ik - 1 相关变换 Tk ，然后集成所有的变换恢复出相机的全部轨迹 C0:n 。这意味着 VO 是一个位姿接着一个位姿，增量式重建轨迹。一个迭代优化基于前 m 位姿可以执行，之后可得到一个更准确的局部轨迹估计。迭代优化通过基于前 m 帧最小化三维点在局部地图中的重投影误差（基于窗口的捆绑调整，因为它在 m 帧窗口上执行）。局部地图空间中 3D 点的深度值通过三角测量法进行估计，所以可构造一个最优化问题，调整 R、t 使得对于所有的特征点 z j ，误差二范数累计最小，得到： ∑ CX j -[ = + ] N min X,R,t j = 1    1 λ1    1 λ2  1,1 T 2  Z j  C(RX j + t) -[ ]  2,1 T 2  Z j  （2）这就是最小化重投影误差问题。实际操作中，在调整每个 X j ，使得更符合每一次观测 Z j ，也就是每个误差项都尽量小。由于此原因，也称为捆绑调整（Bundle Adjustment）。捆绑调整优化原理如图 2 所示。计算机工程与应用www.ceaj.org

22 2018，54（7） Computer Engineering and Applications 计算机工程与应用 Cn - m 1 … Cn - m + 1 2 T1 T3,1 Cn - m + 2Cn - m + 3 T2 T3 3 4 空间中 3D 点 Cn - 1 Cn … n+1 像素点 n Tn T4,1 Tn - 1,3 m 图 2 捆绑调整优化原理（C 表示相机当前帧位姿，T 表示两个相机之间位姿的变换，m 表示相机总帧数） 3 VO 方法研究进展在过去十多年里，大范围场景的 VO[22，31]取得了巨大的成功。从 VO 实现方法上来分，主要分为基于特征点法和基于直接法，也有人提出基于混合的半直接跟踪的方法，即两种方法混合使用。 3.1 基于特征点的方法对于特征点法 [3，6，16，18，23，32-33]，Nister 是最早开展实时单目大场景 VO 相关工作[3]。稀疏特征点法的 VO 是当前的主流方法[32，34]，它的基本思路是对于每帧新的图像 Ik（在立体相机中是一对图像），前两步是检测和匹配 2D 特征点，通过与之前帧进行对比匹配。二维特征点的重投影从不同图像帧提取共同的 3D 特征点，这就是图像对应关系（大部分 VO 实现的时候都假设相机已经校准）。第三步是计算时刻 k - 1 和 k 之间的相对运动 Tk 。根据对应关系是三维或二维，有三种不同的方法，包括 2D-2D，对极约束、P3P、ICP[35- 38]等解决这个问题。相机位姿 Ck 是根据之前位姿变换 Tk 得到。除此之外，为了实现迭代优化（捆绑调整）获得更精确的局部轨迹估计，必须基于前 m 帧的深度估计构建局部地图。如图 3 是基于特征点法的 VO 系统的流程图。视频帧特征检测特征匹配（RANSAC) 运动估计 2D-to-2D 3D-to-2D 3D-to-3D 局部优化（捆绑调整）深度估计图 3 基于特征点法的 VO 系统主要流程图 VO 研究的主要问题是如何根据图像来估计相机运动。通常情况下由于灰度值极易受到光照、形变等影响，不同图像间变化可能非常大，因此仅凭灰度值是不够的，所以需要对图像提取特征点。根据维基百科关于特征（计算机视觉）的定义，在计算机视觉和图像处理中，特征是一组与计算任务有关的信息，计算任务取决于具体的应用。特征也可能是一般邻域操作或者特征检测应用到图像的结果。特征在图像中可能拥有特殊结构，例如角点、边缘，或者区块物体[39]。不过，一般更容易找出两幅图像中出现同一个角点，同一边缘则稍微困难些，同一区块则是最为困难的。所以，一种直观的特征提取方式就是辨认寻找不同图像角点，确定它们的对应关系。在这种情况下，角点就是所谓的特征。然而在实际情况中，单纯的角点依然不能满足需求。因此研究人员设计了许多更加稳定的局部图像特征，如 SIFT[40]、SUFT[41]等。虽然 SIFT 和 SUFT 充分考虑了图像变换过程中的各种问题，但是也带来了较大的计算量，一般来说很难实时在 CPU 上计算。不过近几年来，诸如 ORB[42]、BRISK[43]等一些易于计算的特征提取/ 描述算法的流行，逐渐替代了之前追踪效果不好的 Harris 角点或计算复杂的 SIFT/SUFT，成为 VO 的首选。 ORB 由于融合了 FAST 和 BRIEF 各自的优势，使得其在尺度、旋转、亮度等方面具有良好的特性。同时，该组合也非常高效，使得 ORB 特征是目前实时性最好的方案 [16]。一般来说特征都是由关键点和描述子组成。其中，FAST 角点提取：ORB 为了在描述子中增加旋转不变性，在原版的 FAST[44]基础上，增加了特征点的主方向。新 BRIEF 描述子：对前一步提取的关键点周围像素区域进行描述，由于在角点提取的时候增加了主方向，所以相对于原始的 BRIEF[45]描述子，ORB 的描述子具有较好的旋转不变性。本文主要针对特征点提取三种主要方法进行比较，分别是 SIFT、SURF 以及 ORB，这三种方法在 OpenCV 里面都已实现。如表 2 所示。表 2 不同特征之间性能比较特征类型 SURF√√√ √√√ √√√ √√√ SIFT√ √ √ √ ORB√√√√√ √ √ × 计算速度旋转鲁棒性模糊鲁棒性尺度变换鲁棒性同时，注意由于存在噪声，错误的测量方法，以及对数据的错误假设等原因导致在特征匹配过程中会有一些匹配的局外点。即使在异常值的情况下，进行鲁棒估计是确保精确的运动估计的任务。由于局外点的比较分散性质，会使用随机采样一致性（RANSAC）来挑选最优匹配，而非最小二乘匹配算法。基于特征点的实时 VO 早期较为成功的就是 Klein 等人提出的单目 VO 框架——PTAM[19]。虽然它的性能不是十分完善，但它提供了一个完整通用的框架，将整个里程计的实现分为前端、后端，分别包括跟踪和建图过程的并行化。目前多数的 VO 框架都是基于它实现的，包括目前最稳定的第二代基于 ORB 的即时定位与计算机工程与应用www.ceaj.org

祝朝政，何明，杨晟，等：单目视觉里程计研究综述 2018，54（7） 23 地图构建（Simultaneous Location and Mapping based on ORB，ORB-SLAM2）[16]。同时它也是第一个使用非线性优化的系统，在此之前的传统 VO 都是基于滤波器[18]实现。不过，它也存在场景小，缺乏全局重定位功能，导致实用性较差。由于光流法也具备跟踪特征点的特性，并且相对其他特征点匹配的方法可以节省部分计算量，所以也有人提出基于光流的特征点法 [46- 47]，虽然可以大幅提高 VO 的速度，但是要求相机运动较缓或者帧率较高。现有研究中实用性最好的基于特征的 VO 方法是 ORB-SLAM2[16]，它提出了一个更为完整的 VO 框架，如图 4 所示。包括跟踪、建图和回环检测三个线程。其中，跟踪线程主要负责对新一帧图像提取 ORB[42]特征点，并粗略估计相机位姿。建图线程主要是基于 Bundle Adjustment 对局部空间中的特征点与相机位姿的优化，求解误差更小的位姿与特征点的空间位姿。而回环检测线程负责实现基于关键帧的回环检测，可以有效消除累计误差，同时还可以进行全局重定位。同时它还兼容单目、双目和RGB-D相机等模式，这使它具有良好的泛用性。对于初始化方面，作者提出了一种自动的初始化地图策略，同时计算单应矩阵（假设一个平面场景）[31]和本质矩阵（假设非平面的场景）[32]，根据启发式的准则判断属于对应情况来初始化位姿。这也是文献[16]最大的贡献。ORB-SLAM 与 PTAM 计算优势除了选取的 ORB 特征更加高效之外，还取了上一帧能观测的地图点进行匹配，而不是直接使用所有地图点来匹配新的帧。 3.2 基于直接跟踪的方法特征点法一直是长期以来比较经典的方法，不过其鲁棒性主要建立于特征点的描述上。一方面越是增强鲁棒性，增加特征点描述的复杂性，越会导致算法复杂度的大幅提高；另一方面，特征点没法应用在特征点较弱的场景，例如墙面、天空等。所以基于像素灰度不变性假设估计相机运动的直接法在近年发展迅猛[20-21]。直接法从光流[48]发展而来，能够在不提特征（或不计算特征描述）的情况下，通过最小化光度误差（特征点法中最小化特征点的重投影误差），来估计相机运动和像素的空间位置。可以有效地解决特征点法所面临的问题。总的来说，根据空间点 P 多少情况，直接法又分为三类：稀疏直接法、半稠密的直接法和稠密直接法。早期直接的 VO 方法很少基于跟踪和建图框架，多数都是人工选择关键点[49-51]。直到 RGB-D 相机的出现，研究人员发现直接法对 RGB-D 相机 [26]，进而对单目相机[21-22]都是非常有效的手段。近期出现的一些直接法都是直接使用图像像素点的灰度信息和几何信息来构造误差函数，通过图优化求解最小化代价函数，从而得到最优相机位姿，且处理大规模地图问题用位姿图表示[21，52]。为了构建半稠密的三维环境地图，Engel 等人[22] 提出了大尺度的直接单目即时定位与地图构建（Large- Scale Direct monocular Simultaneous Location and Mapping，LSD-SLAM）算法，相比之前的直接的 VO 方法，该方法在估计高精度相机位姿的同时能够创建大规模的三维环境地图。由于单目 VO 存在尺度不确定性和尺度漂移问题，地图直接由关键帧直接的 Sim（3）变换组成，能够准确地检测尺度漂移，并且整个系统可在 CPU 上实时运行。与 ORB-SLAM2 类似，LSD-SLAM 也采用位姿图优化，因此能形成闭环回路和处理大尺度场景。系统为每个新加入的关键帧在已有关键帧集合（地图）中选取距离最近的关键帧位置。LSD-SLAM 主要流程图如图 5 所示。 DSO[21]（Direct Sparse Odometry，直接稀疏里程计）也是由 LSD-SLAM 的作者 Engel 提出的，该方法不仅从鲁棒性、精准度还是计算速度都远远超过之前的 ORB- SLAM 和 LSD-SLAM 等方法的效果。因为采用新的深度估计机制滑动窗口优化代替原来的卡尔曼滤波方法，所以在精度上有了十足的提高。另外，与 LSD-SLAM 相比，DTAM[25]引入直接法计算基于单目相机的实时稠密地图。相机的位姿使用深度图直接匹配整个图像得到。然而，从单目视觉中计算稠密深度需要大量的计算力，通常是使用 GPU 并行运算，例如开源的 REMODE[53]。因此，也有不少研究人员在这方面做了一些平衡诞生了 ① 跟踪双目/RGB- D 帧预处理输入位姿预测（运动模型）或者重定位场景识别地图视觉库地图点关键帧识别数据库可视化点云生成树循环修正循环检测更新地图全 BA 优化本质图循环融合计算SE（3）查询数据库全 BA ③ 闭环检测图 4 ORB-SLAM2 框架结构图跟踪局部决定新关地图键帧关键帧插入关键帧选择最近地图点创建新的点图地部局 ② 局部 BA 选择局部关键帧计算机工程与应用www.ceaj.org

24 2018，54（7） Computer Engineering and Applications 计算机工程与应用跟踪视频帧跟踪关键帧估计变换矩阵 SE（3）深度估计关键帧是否地图优化当前地图创建新的关键帧优化当前关键帧添加关键帧到地图调整地图更新当前帧三角测量集成到关键帧调整地图优化当前帧当前关键帧图 5 LSD-SLAM 的模块流程图添加关键帧到地图寻找最近关键帧估计尺度 sim（3）边缘能达到更快计算速度的方法，例如文献[54]和文献[20]。 3.3 基于混合的半直接跟踪的方法虽然基于直接跟踪的方法已经非常流行，但是低速以及没法保证最优性和一致性也是限制直接法的问题所在。因此有人在基于特征的方法和基于直接跟踪的方法两者各自优点的基础上，提出了一种混合的半直接方法即半直接视觉里程计（Semi-direct Visual Odometry，SVO）[20]，虽然 SVO 依旧是依赖于特征一致性，但是它的思路主要是还是通过直接法来获取位姿，因此避免了特征匹配和外围点处理，极大地缩短了计算时间，算法速度非常快。在嵌入式无人机平台（ARM Cortex A9 1.6 GHz CPU）上可以做到 55 f/s，而在普通笔记本上（Intel i7 2.8 GHz CPU）上可以高达 300 f/s。深度估计是构建局部点云地图的核心，SVO 也是采用概率模型建图。不过跟 LSD-SLAM 等方法不同的是，SVO 的深度滤波是采用高斯分布和均匀分布的混合模型[55]，而 LSD-SLAM 是基于高斯分布模型。首先使用直接法求解位姿进行匹配，其次使用了经典的 Lucas- Kanade 光流法[48]匹配得到子像素精度，然后结合点云地图计算最小化重投影误差进行优化。如图 6 所示。运动估计线程稀疏模型图像匹配新一帧上一帧特征匹配地图位姿结构优化地图线程帧队列关键帧是否特征提取更新深度滤波器初始化深度滤波器合并图 6 SVO 的模块流程图是：插入新点整个过程相较于传统的特征点法，只有选择关键帧时需要依靠特征，并且去掉了匹配描述子的计算，以及使用 RANSAC 去除局外点的步骤，所以更加高效。同时它相比于直接法不是对整幅图像进行直接匹配从而获得相机位姿，而是通过在整幅图像中提取的图像块来进行位姿的获取，这样能够增强算法的鲁棒性。SVO 最大贡献就是在巧妙设计了三次优化的方法（优化灰度误差，优化特征点预测位置，优化重投影误差）来满足精度问题的同时，也保持较为优秀的计算速度。另外，其代码结构较为简洁，非常适合深入研究学习。后来 Forster 又证明了该方法可以拓展到多目相机系统 [56]，跟踪边缘，包括运动的先验知识，同时也支持多种相机，例如鱼眼相机和透视相机。不过在半直接法方面的研究，除了 Forster 最新的研究[56]之外，目前还未出现其他有大影响力的论文。 3.4 优缺点分析特征点法一直是长期以来比较经典的方法，不过其鲁棒性主要建立于特征点的描述上，一方面越是增强鲁棒性，增加特征点描述的复杂性，也会导致算法复杂度的大幅提高；另一方面，特征点没法应用在特征点较弱的场景，例如墙面上。直接法是近几年比较新颖的方法，它可以适应于特征不够明显的场景下，例如走廊或者光滑的墙面上[57]，具有较强鲁棒性。由于跳过了特征描述和匹配的步骤，直接法，尤其是稀疏直接法，往往能够在极快的速度下运行。它也适用于那些需要构建半稠密或者稠密的地图的需求场景，这是特征点法是无法实现的。但是直接法也存在非凸性、单个像素没有区分度和灰度不变性假设性太牵强等问题，因此其研究和应用仍然没有特征点法成熟，目前只适合于运动较小，图像整体亮度变化不大的情形。虽然基于特征点的 VO[16，23]更为主流，但是从慕尼黑大学 TUM 组公布的实验结果来看，直接法的 VO[20-22]在近几年也取得很大的突破，其中基于稀疏的直接法[21]已经比稀疏的特征点法[16]具有更快更好的效果。直接方法使用了图像上的所有信息，甚至是像素梯度很小的区域，因此即使在场景纹理很差，失焦，运动模糊的情况下计算机工程与应用www.ceaj.org

祝朝政，何明，杨晟，等：单目视觉里程计研究综述 2018，54（7） 25 的性能也优于基于特征的方法。根据文献[21]对基于直接跟踪的方法和基于特征的方法进行的噪声实验对比，基于直接跟踪的方法对几何噪声较为敏感，例如卷帘快门相机等；而基于特征的方法对光学噪声更为敏感，例如模糊等。因此，在普通手机设备上（一般为卷帘快门相机），基于特征的方法效果可能更好；而在基于全局快门相机的机器人中，基于直接跟踪的方法可能越来越流行。基于混合的半直接跟踪的方法[20]，由 Forster 最早提出，具有速度快，适合于地图不确定性的模型，同时不受运动模型假设的影响的优点；然而由于跟踪的特征比较少，有些情况下可能会丢失。作者不仅发布了惊艳的实验测试视频，并开源了其代码框架。虽然其开源的代码效果鲁棒性不是很好，不过由于代码规范性较好，依旧很适合初学者进行阅读。为了更好地对比了解当前各个方法的进展情况，本文分别选取了当前基于特征的方法、基于直接跟踪的方法、基于混合的半直接跟踪的方法法中最具代表性的方法进行实验测试，结果分别如图 7 所示。 SVO 算法 DSO 算法 ORB-SLAM2 算法图 7 三类 VO 方法实现效果对比 4 VO 主要发展趋势及研究热点目前下表中所列的国内外学术科研机构，对 VO 展开了不同侧重的研究，如表 3 所示。虽然 VO 问题研究本质上是增量地计算相机位姿问题，为上层应用提供自身的一个位姿估计[3]，但是如何进一步提高精度、效率、鲁棒性等问题一直是研究人员不懈的追求。围绕着上述三个问题，目前已经形成探索新型传感器、多传感器数据融合、应用机器学习、探究新的缓解特征依赖和降低计算复杂度等几个方面入手的研究热点。表 3 国内外前沿机构的研究方向侧重方向基于平面的特征匹配、基于深度学习的语义地图直接法、基于新型视觉传感器的 VO 直接法视觉惯导融合 RGB-D 相机与惯导融合视觉惯导融合视觉惯导融合双目立体视觉双目立体视觉研究机构清华大学苏黎世大学慕尼黑大学香港科技大学谷歌苹果苏黎世联邦理工学院浙江大学美国国家航空航天局 4.1 探索新型传感器随着 2010 年微软推出 RGB-D 相机 Kinect 的兴起，它具有能够实时获取深度图的特性，能够简化大量的计算，也逐渐成为一种稠密三维重建系统的实现方式[7，24，26-28，30]，但是一方面由于其有效距离较短，另一方面容易受到外界光源的干扰无法在室外场景中使用，限制了它没法真正解决 VO 问题。文献[58]提出基于事件相机的 VO 算法，并且基于扩展卡尔曼滤波器与无结构的测量模型，集成了 IMU 作为数据融合的补充，以精确得到 6 自由度相机的位姿。未来随着新型传感器的出现，势必会引发一阵新的热点。 4.2 多传感器数据融合对于很多移动机器人来说，IMU 和视觉都是必备的传感器，它们可以数据融合互补，满足移动机器人系统的鲁棒性和定位精度的需求。单目摄像头和惯导融合[8-10，31，59]也是一个近几年比较流行的一个趋势，苹果公司在 WWDC 2017 大会上推出的 ARKit，主要就是基于 EKF 对单目相机和惯导数据融合的思路实现，为开发者做室内定位提供良好的基础平台支撑。后来又有人提出了用优化关键帧[60]方式对多目相机和惯导数据进行融合的思路 [9]。数据融合分为紧耦合和松耦合。一方面，有时候为了限制计算复杂度，许多工作遵循松耦合的原则。文献[31]集成 IMU 作为独立姿态和相关偏航测量加入到视觉的非线性优化问题。相反，文献[61]使用视觉位姿估计维护一个间接 IMU 的 EKF。类似的松耦合算法还有文献[62]和[63]，相机的位姿估计使用非线性优化集到了因子图，包括惯导和 GPS 数据。另一方面，由于松耦合方法本质上是忽略了不同传感器内部之间的相关性，所以紧耦合方法是将相机和 IMU 数据合并，将所有状态都联合估计成一个共同问题，因此需要考虑它们之间的相关性。文献[9]将两类方法进行对比，实验表明这些传感器内部的相关性对于高精度的视觉惯导系统（VINS）是非常关键的，所以高精度视觉惯导系统都是采用紧耦合来实现。有学者尝试多传感器的融合，首先是杨绍武提出的多相机传感器的融合[64]，还有双目立体视觉与惯导、速计算机工程与应用www.ceaj.org

26 2018，54（7） Computer Engineering and Applications 计算机工程与应用度等数据融合[65]，其次是 Akshay 提出的基于点云特征的 GPS-Lidar 融合算法，在 3D 城市建模过程中能有效地降低的位置测量误差[66]。 4.3 应用机器学习神经网络等机器学习方法近年来在众多领域中引起了广泛的学术轰动，VO 领域也不例外，在匹配跟踪部分，文献[67]提出了一种数据驱动模型（即 3DMatch），通过自监督的特征学习从现有的 RGB-D 重建结果中获得局部空间块的描述子，进而建立局部 3D 数据之间的对应关系。对于优化匹配误差，传统的 RANSAC 可能被一种新的 Highway Network 架构替代，它基于多级加权残差的跳层连接（Multilevel Weighted Residual Shortcuts）的方式，计算每个可能视差值的匹配误差，并利用复合损失函数进行训练，支持图像块的多级比较。在精细化步骤中可用于更好地检测异常点。文献[68]针对这种新架构应用立体匹配基准数据集进行实验，结果也表明匹配置信度远远优于现有算法。单目 VO 缺乏尺度信息一直是研究人员最为关注的问题，近期有德国研究人员 Keisuke 等人针对低纹理区域等单目 VO 恢复尺度容易失败的情况，提出一种将 CNN 预测的深度信息与单目直接计算的深度信息进行融合的方法，实验表明，它解决了单目 VO 的一个尺度信息丢失问题[69]。 2016 年 Muller 提出了基于光流（直接法）和深度学习的 VO[70]，光流的帧作为 CNN 的输入，计算旋转和平移，顺序增量式的旋转和平移构建相机运动轨迹地图。实验证明该方法比现有的 VO 系统具有更高的实时性。 4.4 探究新的缓解特征依赖 VO 对场景特征的依赖，本质上是由于使用了过于底层的局部特征（点特征），因此目前出现了不少研究提出了利用边、平面[71]等更为高层的图像信息来缓解特征依赖。理论上由于边可以携带方向、长短、灰度值等信息，所以具备更为鲁棒的特性，基于边的特征在室内场景（规则物品较多）应具有更好的鲁棒性。文献[72]提出了一种结合点与边缘优点的单目 VO 算法。该算法不仅在 TUM 提供的单目公开数据集 [21]中表现优异，而且在低纹理的环境中，可以大幅降低运动估计误差。文献[6]主要应用了图模型和图匹配机制对平面物体进行跟踪，并且设计一种解决最优解寻找问题的新策略，该策略能预测物体姿态和关键点匹配。 4.5 降低计算复杂度目前基于 RGB-D 相机的实时恢复稠密场景已经较为完善[7，24，26-28，30]，近年来，由于 AR 应用研究的爆发，较早的开始研究为 AR 提供基础技术支撑的是谷歌的 Schöps 等人，他们提出基于 TSDF 来融合深度图在 Project Tango 上实现的三维重建方法[74]，其主要计算复杂度在于半稠密或稠密重建所需计算的深度估计点太多。所以目前多数的优化手段大多集中在优化深度估计步骤，例如 DTAM[25]引入正则项对深度图进行全局优化，降低错误匹配概率。REMODE[53]则采用了深度滤波模型，不断优化每帧的深度测量更新概率模型的参数。上述方法虽然都能实时重建出稠密的三维点云地图，但大多还都依赖于 GPU 的并行加速运算。因此，如何提高计算效率，降低计算复杂度，只用 CPU 即可恢复出基于单目的半稠密或稠密三维点云地图，仍是未来一个热门课题。 5 结论本文从 VO 与视觉 SLAM 的对比分析入手，对 VO 问题进行形式化。随后重点探究实现 VO 的各类方法的研究进展，实验对比分析各自优劣。最后结合国内外一流的科研机构在研方向，总结今后发展研究热点。目前多数研究人员只关注白天等视野较好的理想场景，但是场景变化（白天黑夜、四季变化等）问题在实际室内外场景中很常见，如何让 VO 系统在这样的环境下依旧实现高鲁棒性应是科研人员一个重要研究内容。此外，为了达到实时效果，VO 的计算复杂度也不能太高。未来也可以在以下领域展开新的应用研究：在消防领域，消防人员可以对大型室内火灾救援现场进行定位，并实时绘制出运动轨迹帮助救灾人员标记已经搜救完成的地方，将搜救工作效率最大化；在反恐领域中，针对突发事件中对警犬的行为特征进行检测分析，以便实现在复杂人群中通过警犬对突发事件实现前方预警。将 VO 应用到该场景中，对警犬的位姿进行准确的定位，进而以一种低成本的方式提供预警功能。参考文献： [1] Durrantwhyte H，Bailey T.Simultaneous localization and I[J].IEEE Robotics & Automation Maga- mapping：Part zine，2006，13（3）：108-117. [2] Durrantwhyte H，Bailey T.Simultaneous localization and mapping：Part II[J].IEEE Robotics & Automation Maga- zine，2006，13（3）：108-117. [3] Nister D，Naroditsky O，Bergen J.Visual odometry[C]// Proceedings of the 2004 IEEE Computer Society Con- ference on Computer Vision and Pattern Recognition， 2004：652-659. [4] Matthies L，Maimone M，Johnson A，et al.Computer vision on mars[J].International Journal of Computer Vision， 2007，75（1）：67-92. [5] Malleson C，Gilbert A，Trumble M，et al.Real- time full- body motion capture from video and IMUs[C]//Proceedings of International Conference on 3D Vision，2017. [6] Wang T，Ling H.Gracker：A graph- based planar object tracker[J].IEEE Transactions on Pattern Analysis & Machine 计算机工程与应用www.ceaj.org

祝朝政，何明，杨晟，等：单目视觉里程计研究综述 2018，54（7） 27 Intelligence，2017，99. mation，2014：15-22. [7] Endres F，Hess J，Sturm J，et al.3- D mapping with an RGB-D camera[J].IEEE Transactions on Robotics，2017， 30（1）：177-187. [21] Engel J，Koltun V，Cremers D.Direct sparse odometry[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence，2017，40（3）：611-625. [8] Bloesch M，Omari S，Hutter M，et al.Robust visual inertial odometry using a direct EKF- based approach[C]// Proceedings of International Conference on Intelligent Robots and Systems，2015：298-304. [9] Leutenegger S，Lynen S，Bosse M，et al.Keyframe- based visual-inertial odometry using nonlinear optimization[J]. International Journal of Robotics Research，2015，34（3）： 314-334. [10] Qin T，Li P，Shen S.VINS-Mono：A robust and versatile monocular visual- inertial state estimator[J].arXiv：1708. 03852v1，2017. [11] Strasdat H，Montiel J M M，Davison A J.Visual SLAM： Why filter?[J].Image & Vision Computing，2012，30（2）： 65-77. [22] Engel J，Schöps T，Cremers D.LSD- SLAM：Large- scale direct monocular SLAM[C]//Proceedings of European Conference on Computer Vision，2014：834-849. [23] Mur-Artal R，Montiel J M M，Tardós J D.ORB-SLAM： A versatile and accurate monocular SLAM system[J]. IEEE Transactions on Robotics，2015，31（5）：1147-1163. loop closure detec- tion for large-scale multi-session graph-based SLAM[C]// Proceedings of International Conference on Intelligent Robots and Systems，2014：2661-2666. [24] Labbé M，Michaud F.Online global [25] Newcombe R A，Lovegrove S J，Davison A J.DTAM： Dense tracking and mapping in real-time[C]//Proceedings of IEEE International Conference on Computer Vision， 2011：2320-2327. [12] Strasdat H，Montiel J M M，Davison A J.Real- time monocular SLAM：Why filter?[C]//Proceedings of IEEE International Conference on Robotics and Automation， 2010：2657-2664. [26] Kerl C，Sturm J，Cremers D.Dense visual SLAM for RGB-D cameras[C]//Proceedings of International Con- ference on Intelligent Robots and Systems，2014：2100- 2106. [13] Handa A，Chli M，Strasdat H，et al.Scalable active matching[C]//Proceedings of IEEE International Confer- ence on Computer Vision and Pattern Recognition，2010： 1546-1553. [27] Whelan T，Salas-Moreno R F，Glocker B，et al.Elastic- Fusion：Real- time dense SLAM and light source esti- mation[J].International Journal of Robotics Research， 2016，35（14）：1697-1716. [14] Civera J，Grasa O G，Davison A J，et al.1- Point RANSAC for extended Kalman filtering：Application to real-time structure from motion and visual odometry[J]. Journal of Field Robotics，2010，27（5）：609-631. [15] Mei C，Sibley G，Cummins M，et al.RSLAM：A system for large-scale mapping in constant-time using stereo[J]. International Journal of Computer Vision，2011，94（2）： 198-214. [16] Mur-Artal R，Tardós J D.ORB-SLAM2：An open-source SLAM system for monocular，stereo，and RGB-D cam- eras[J].IEEE Transactions on Robotics，2016，33（5）： 1255-1262. [17] 高翔 . 视觉 SLAM 十四讲[M]. 北京：电子工业出版社， 2017. [18] Davison A J，Reid I D，Molton N D，et al.MonoSLAM： Real-time single camera SLAM[J].IEEE Transactions on Pattern Analysis & Machine Intelligence，2007，29（6）： 1052. [19] Klein G，Murray D.Parallel small AR workspaces[C]//Proc of Sympo on Mixed & Augmented Reality，2007：1-10. tracking and mapping for IEEE & ACM Int [20] Forster C，Pizzoli M，Scaramuzza D.SVO：Fast semi- direct monocular visual odometry[C]//Proceedings of IEEE International Conference on Robotics and Auto- [28] Whelan T，Leutenegger S，Moreno R S，et al.Elastic- Fusion：Dense SLAM without a pose graph[J].Interna- tional Journal of Robotics Research，2016，35（14）：1-9. [29] Bloesch M，Burri M，Omari S，et al.Iterated extended Kalman filter based visual- inertial odometry using direct photometric feedback[J].International Journal of Robotics Research，2017，36（10）：1053-1072. [30] Izadi S，Kim D，Hilliges O，et al.KinectFusion：Real-time 3D reconstruction and interaction using a moving depth camera[C]//Proceedings of ACM Symposium on User Interface Software and Technology，Santa Barbara，CA， USA，2011：559-568. [31] Konolige K，Agrawal M，Solà J.Large- scale visual odometry for rough terrain[C]//Proceedings of International Symposium on Robotics Research，November 26-29， 2011：201-212. [32] Quijada S D，Zalama E，García-Bermejo J G，et al.Fast 6D odometry based on visual features and depth[M]// Intelligent Autonomous Systems 12.Berlin Heidelberg： Springer，2013：5-16. [33] Tang C，Wang O，Tan P.GlobalSLAM：Initialization- robust Monocular Visual SLAM[J].arXiv：1708.04814v1， 2017. [34] Scaramuzza D，Fraundorfer F.Visual Odometry[Tutorial][J]. 计算机工程与应用www.ceaj.org

分享到：

赞收藏

资料库

论文研究-单目视觉里程计研究综述.pdf

相关推荐

开发技术

热门标签

最新资料