logo资料库

基于视觉的三维重建关键技术研究综述.pdf

第1页 / 共22页
第2页 / 共22页
第3页 / 共22页
第4页 / 共22页
第5页 / 共22页
第6页 / 共22页
第7页 / 共22页
第8页 / 共22页
资料共22页,剩余部分请下载后查看
第 46 卷 第 4 期 2020 年 4 月 自 动 化 学 报 ACTA AUTOMATICA SINICA Vol. 46, No. 4 April, 2020 基于视觉的三维重建关键技术研究综述 郑太雄 1 黄 帅 1 李永福 2 冯明驰 1 摘 要 三维重建在视觉方面具有很高的研究价值, 在机器人视觉导航、智能车环境感知系统以及虚拟现实中被广泛应用. 本 文对近年来国内外基于视觉的三维重建方法的研究工作进行了总结和分析, 主要介绍了基于主动视觉下的激光扫描法、结构 光法、阴影法以及 TOF (Time of flight) 技术、雷达技术、Kinect 技术和被动视觉下的单目视觉、双目视觉、多目视觉以及其 他被动视觉法的三维重建技术, 并比较和分析这些方法的优点和不足. 最后对三维重建的未来发展作了几点展望. 关键词 三维重建, 主动视觉, 被动视觉, 关键技术 引用格式 郑太雄, 黄帅, 李永福, 冯明驰. 基于视觉的三维重建关键技术研究综述. 自动化学报, 2020, 46(4): 631−652 DOI 10.16383/j.aas.2017.c170502 Key Techniques for Vision Based 3D Reconstruction: a Review ZHENG Tai-Xiong1 HUANG Shuai1 LI Yong-Fu2 FENG Ming-Chi1 Abstract 3D reconstruction is important in vision, which can be widely used in robot vision navigation, intelligent vehicle environment perception and virtual reality. This study systematically reviews and summarizes the progress related to 3D reconstruction technology based on active vision and passive vision, i. e. laser scanning, structured light, shadow method, time of flight (TOF), radar, Kinect technology and monocular vision, binocular vision, multi-camera vision, and other passive visual methods. In addition, extensive comparisons among these methods are analyzed in detail. Finally, some perspectives on 3D reconstruction are also discussed. Key words 3D reconstruction, active vision, passive vision, key techniques Citation Zheng Tai-Xiong, Huang Shuai, Li Yong-Fu, Feng Ming-Chi. Key techniques for vision based 3D reconstruc- tion: a review. Acta Automatica Sinica, 2020, 46(4): 631−652 三维重建经过数十年的发展, 已经取得巨大的 成功. 基于视觉的三维重建在计算机领域是一个 重要的研究内容, 主要通过使用相关仪器来获取 物体的二维图像数据信息, 然后, 再对获取的数据 信息进行分析处理, 最后, 利用三维重建的相关理 论重建出真实环境中物体表面的轮廓信息. 基于视 觉的三维重建具有速度快、实时性好等优点, 能够 广泛应用于人工智能、机器人、无人驾驶、SLAM (Simultaneous localization and mapping)、虚拟现 收稿日期 2017-10-24 录用日期 2018-07-05 Manuscript received October 24, 2017; accepted July 5, 2018 国家自然科学基金 (61773082, 51505054), 重庆市基础与前沿技术项 目 (cstc2018jcyjAX0684), 重庆邮电大学交叉项目 (A2018-02), 重庆 市重点产业共性关键技术创新专项项目 (cstc2015zdcy-ztzx60002) 资 助 Supported by National Natural Science Foundation of China (61773082, 51505054), Basic Science and Emerging Technology of Chongqing (cstc2018jcyjAX0684), Project of Crossing and Emerging Area of CQUPT (A2018-02), and Chongqing Science and Technology Commission (cstc2015zdcy-ztzx60002) 本文责任编委 桑农 Recommended by SANG Nong 1. 重庆邮电大学先进制造工程学院 重庆 400065 自动化学院 重庆 400065 2. 重庆邮电大学 1. College of Advanced Manufacturing Engineering, Chongqing University of Posts and Telecommunications, Chongqing 400065 2. College of Automation, Chongqing University of Posts and Telecommunications, Chongqing 400065 实和 3D 打印等领域, 具有重要的研究价值[1−3],也 是未来发展的重要研究方向. 1963 年, Roberts[4] 首先提出了使用计算机视 觉的方法从二维图像获取物体三维信息的可能性, 也就是从这时开始, 基于视觉的三维重建快速发展, 涌现出了许多新方法. 从发表在 ICCV (Interna- tional Conference on Computer Vision)、ECCV (European Conference on Computer Vision) 和 CVPR (International Conference on Computer Vision and Pattern Recognition) 等知名国际会议 上的相关论文数量增长情况便可看出其研究发展 程度. 发达国家对于三维重建技术的研究工作起步 比较早, 研究相对比较深入. 1995 年, 日本东京大 学的 Kiyasu 等[5] 利用物体反射的 M-array coded 光源影像对物体表面进行三维重建. 随着研究更 进 一 步 的 深 入, 2006 年, Snavely 等[6] 开 发 出 了 Photosynth 和 Photo Tourism 两个三维重建系统. 这两个系统的优点是能够自动计算每一帧图像的视 点, 从而可以重建出物体的稀疏三维模型. 遗憾的 是, 稀疏三维模型重建的效果并不是很清晰, 可视化 程度较低, 需要进行稠密三维模型重建. 2008 年,
632 自 动 化 学 报 46 卷 Pollefeys 等[7] 在相机焦距不变的条件下对重建物 体的周围拍摄多幅图像, 通过特征提取、匹配和多 视几何关系等步骤对相机进行标定并重建三维模型. 2009 年, Furukawa 等[8] 提出了一种基于面片的多 视图立体重建方法, 这种方法的优点是重建出的物 体轮廓完整性较好、适应性较强, 而且不需要初始 化数据. 此外, 2013 年, 微软研究院推出的 Kinect Fusion 项目[9] 在三维重建领域取得了重大突破, 与 三维点云拼接不同, 它主要采用一台 Kinect 围绕物 体进行连续扫描, 并且实时地进行物体的三维模型 重建, 这样做有效地提高了重建精度. 微软研究院 (Microsoft Research) 在 ISMAR 2015 会议上公布 了 Mobile Fusion 项目[10], 这个项目使用手机作为 一台 3D 扫描仪, 可以拍摄出各种 3D 场景图像. 国 内对于三维重建的研究虽然相对落后, 但也取得了 不错的成果. 1996 年, 中科院的李利等[11] 提出了 恢复室内场景的三维重建技术. 2002 年, 中科院的 Zhong 等[12] 提出了一种新的匹配方法–半稠密匹配 法, 这种方法解决了稀疏匹配重建出的物体信息较 少和稠密匹配重建出的点云物体信息较多等问题. 2003 年, 中科院的 Lei 等[13] 利用 Kruppa 方程进 行相机的自标定, 成功研发出了 CVSuite 软件[14], 该软件实现了利用不同视角的影像进行三维建模. 2014 年, 西安电子科技大学的张涛[15] 提出了一种 基于单目视觉的三维重建方法, 这种方法利用获取 的空间稀疏三维点云, 再使用欧氏重建和射影重建 方法, 从而重建出获取图像的真实场景. 近年来, 三维重建技术的研究和应用得到了快 速的发展, 但仍然面临着许多问题. 为此, 本文将对 近些年来基于视觉的三维重建技术方法的主要进展 和部分具有代表性的研究成果进行介绍, 为科研人 员提供参考, 并以此为基础, 通过对比和分析, 探究 三维重建技术研究中的难点和热点, 以及可能的发 展趋势. 在接下来章节中, 本文将从现有技术分析总结 和未来发展方向两个方面讨论三维重建关键技术问 题, 具体安排如下: 第 1 节总结了三维重建的方法; 第 2 节对各种方法进行了分析, 并比较了各种方法 的优缺点、自动化程度、重建效果、实时性以及应用 场景; 第 3 节总结了三维重建关键技术以及未来的 发展方向, 并总结概括了本文内容. 1 三维重建方法 从整体上来看, 三维重建技术主要通过视觉传 感器来获取外界的真实信息, 然后, 再通过信息处理 技术或者投影模型得到物体的三维信息, 也就是说, 三维重建是一种利用二维投影恢复三维信息的计算 机技术[16−17]. 1997 年, V´arady 等[18] 将数据获取 方式分为接触式和非接触式两种. 2005 年, Isgro 等[19] 又将非接触式方法分为主动式和被动式两类. 主动式需要向场景中发射结构光源, 然后再通过计 算和提取光源在场景中的投影信息来检测目标位置 并进行测量. 被动式不使用任何其他能量, 而是通过 获取外界光源的反射来进行三维测量. 接触式方法其实就是利用某些仪器能够快速直 接测量场景的三维信息[20], 主要包括触发式测量、 连续式测量、CMMs (Coordinate measuring ma- chines) 和 RA (Robotics arms) 等. 虽然, 接触式 方法有其独特的优点, 但是该方法只能应用于仪器 能够接触到测量场景的场合. 而且, 在测量某些加工 精密物体表面时, 很可能会划伤被测物体的表面, 造 成被测物体某种程度的损坏, 影响其性能. 非接触式 方法是在不接触被测量物体的前提下, 利用影像分 析模型原理来获取被测物体的数据信息. 虽然, 这种 方法的精度并没有接触式高, 但是, 这种方法的应用 范围比接触式方法更广泛. 由于接触式测量不属于 视觉测量, 因此本文只对非接触式方法进行详细介 绍. 非接触式主要包括主动视觉法和被动视觉法; 主 动视觉又包括激光扫描法、结构光法、阴影法、TOF 技术、雷达技术、Kinect 技术等; 被动视觉法根据摄 像机数目的不同分为单目视觉法、双目视觉法和多 目视觉法; 根据原理 (匹配方法) 不同又可以分为区 域视觉法、特征视觉法等; 根据应用方法也可以分为 运动恢复结构法和机器学习法等. 三维重建技术的 分类如图 1 所示. 1.1 基于主动视觉的三维重建技术 基于主动视觉的三维重建技术主要包括激光 扫描法[21−22]、结构光法[23]、阴影法[24] 和 TOF 技 术[25]、雷达技术[26]、Kinect 技术[27] 等. 这些方法 主要利用光学仪器对物体表面进行扫描, 然后, 通 过分析扫描数据, 重建物体表面的三维结构. 此外, 这些方法还可以获取目标表面的其他一些细节信息, 从而能够精确地重建出目标物的三维结构. 1.1.1 激光扫描法 激光扫描法其实就是利用激光测距仪来进行真 实场景的测量. 首先, 激光测距仪发射光束到物体 的表面, 然后, 根据接收信号和发送信号的时间差确 定物体离激光测距仪的距离, 从而获得测量物体的 大小和形状. 该方法的优点是不仅可以建立简单形 状物体的三维模型, 还能生成不规则物体的三维模 型, 而且生成的模型精度比较高. 激光扫描数据处理 流程如图 2 所示, 首先, 通过激光扫描法获取点云数 据, 然后与原始获得的数据进行配准获得配准后的 点云数据, 最后对获取的点云数据进行一系列的处 理, 从而获取目标物的三维模型.
4 期 郑太雄等: 基于视觉的三维重建关键技术研究综述 633 图 1 三维重建技术分类 Fig. 1 Classification of 3D reconstruction technology 差模型进行了评价. 2007 年, Voisin 等[31] 研究环境 光线对三维激光扫描的影响. 至此, 三维激光扫描仪 步入了一个新的里程碑. 1.1.2 结构光法 随着科技的不断进步, 三维重建技术涌现出了 许多研究方向, 其中结构光法就是三维重建技术的 主要研究方向之一[32]. 结构光法的原理是首先按照 标定准则将投影设备、图像采集设备和待测物体组 成一个三维重建系统; 其次, 在测量物体表面和参考 平面分别投影具有某种规律的结构光图; 然后再使 用视觉传感器进行图像采集, 从而获得待测物体表 面以及物体的参考平面的结构光图像投影信息; 最 后, 利用三角测量原理、图像处理等技术对获取到的 图像数据进行处理, 计算出物体表面的深度信息, 从 而实现二维图像到三维图像的转换[33−36]. 按照投影 图像的不同, 结构光法可分为: 点结构光法、线结构 光法、面结构光法、网络结构光和彩色结构光. 基于结构光法的三维重建主要利用光学三角测 量原理来计算物体的深度信息. 它主要通过扫描仪 中的光源、光感应器和反射点构成的三角关系来计 算目标物体的深度信息, 从而实现目标物体的三维 重建. 三角测量又可以分为: 单光点测量、单光条测 图 2 激光扫描数据处理流程 Fig. 2 The process of laser scanning data processing 20 世纪 60 年代, 欧美一些国家就已经对三维 激光扫描技术进行了研究. 在很早以前, 斯坦福大学 就已经开展了大规模的地面固定激光扫描系统的研 究, 获得了较精确的实验结果. 1999 年, Yang 等[28] 介绍了三角法激光扫描, 详细地论述了在大型曲面 测量原理的基础上影响激光扫描测量精度的几个因 素. 2003 年, Boehler 等[29] 分析并验证了使用不同 种类的三维激光扫描仪对实验结果的影响. 更进一 步, 2006 年, Reshetyuk[30] 详细地分析了脉冲式地 面激光扫描仪的误差来源以及影响程度, 并对该误
634 自 动 化 学 报 46 卷 量和多光条测量. 如图 3 为结构光三角测量原理示 意图. 三维模型的方法[43−44]. 这是一种基于弱结构光的方 法, 与传统的结构光法相比, 这种方法要求非常低, 只需要将一台相机面向被灯光照射的物体, 通过移 动光源前面的物体来捕获移动的阴影, 再观察阴影 的空间位置, 从而重建出物体的三维结构模型. 这种 方法的优点是检测速度快、精度高. 阴影法主要分 为这几种类型: 平行光的直接阴影法、点光源发散 光的直接阴影法、微观阴影法、聚焦阴影法、立体和 全息阴影法和大型阴影法. 最经典的平行光阴影法 如图 4 所示, 该方法使用点光源通过聚焦透镜和针 孔, 再利用凹透镜原理使其转换成平行光投影到毛 玻璃片上, 其中 ε 表示平行光投影到毛玻璃片上产 生的误差. 图 3 结构光三角测量原理示意图 Fig. 3 Schematic diagram of the principle of structured light triangulation 如图 3 所示, 假设物体坐标 (XW , YW , ZW ) 为 世界坐标与被测量的图像坐标 (u, v) 以及投影角 θ 之间的关系如下: [XW , YW , ZW ] = b f cos θ − u [u, v, f] (1) 自 20 世纪 80 年代以来, 基于结构光法的三 维重建越来越受到国外研究人员的关注. 2000 年, Kowarschik 等[37] 采用了一种光栅结构法的三维测 量系统, 解决了结构光在测量中存在的遮挡问题. 2002 年, Shakhnarovich 等[38] 提出了利用多种点 结构光投影的光点法进行三维重建. 2004 年, Salvi 等[39] 采用结构光条法, 将激光发射的光束直接通过 圆柱体透镜, 然后, 再使用步进电机匀速转动圆柱体 透镜, 使光束能够完全扫过测量物体的表面, 进而可 以获得物体的图像信息并进行信息的提取和三维测 量. 国内也在这方面做了大量的研究, 2002 年, 张 广军等[40] 建立了结构光三维双视觉 RBF (Radial basis function) 神经网络模型, 这种模型的优点是 不需要考虑外在因素的影响, 从而使该模型具有较 高的精度. 同年, 天津大学首先研制了可以应用于生 物医学、工业测量等领域的线结构光轮廓传感器[41]. 2004 年, 清华大学研究出了线结构光的多用途传感 器, 这种传感器的优点是可以对运动的物体以及腐 蚀性的物体进行三维测量和重建, 特别适合于对移 动物体和腐蚀性表面的快速、在线、非接触的测量 与重建[42]. 1.1.3 阴影法 阴影法是一种简单、可靠、低功耗的重建物体 图 4 平行光阴影法 Fig. 4 Parallel photocathode 从国内外的研究来看, 阴影被分为硬阴影和软 阴影. 与硬阴影相比, 软阴影要考虑物体之间的几何 特征, 更加难以实现, 但是, 显示效果更加真实. 在 真实的世界中, 由于光源比较复杂以及物体之间有 光照的影响, 形成的阴影明暗程度并不是唯一的, 所 以, 使用阴影法实现三维空间的物体重建是非常复 杂的过程[45−48], 该方法不适合于实时性较高的三维 场景. 1.1.4 TOF 技术 TOF (Time of flight) 法是主动测距技术的一 种, 可从发射极向物体发射脉冲光, 遇到物体反射 后, 接收器收到反射光时停止计时, 由于光和声在空 气中的传播速度是不变的, 从而通过发射到接收的 时间差来确定物体的距离, 进而确定产生的深度信 息, 其原理如式 (2) 所示: d = n + ϕ 2π 2 λ (2) 其中, λ 表示脉冲的波长; n 表示波长的个数; ϕ 表 示脉冲返回时的相位; d 表示物体离发射之间的距 离. TOF 相机的研究相对比较早, 与二维测距仪相 比具有较大的优势, 它可以从三维点云中直接获取 场景的几何信息. 2014 年, 微软推出了 Kinect 2.0
4 期 郑太雄等: 基于视觉的三维重建关键技术研究综述 635 传感器, 采用 TOF 技术来计算深度, 从而获得三 维点云信息. 文献 [49− 50] 使用 TOF 相机获取的 深度信息提取出场景中的几何信息. 2008 年, May 等[49] 使用两帧之间匹配数据中对应的方向向量来 提高定位精度. 2009 年, Hedge 等[50] 运用提取的方 向向量来探测不容易识别的路平面. 同年, Pathak 等[51] 利用方向向量建立三维地图, 为移动机器人提 供导航信息. 然而, 由于 TOF 相机获取的三维点云 信息存在比较多的误差点, 只依靠几何信息来构建 地图和定位会产生较大的误差. Stipes 等[52] 采用 ICP (Iterative closest point) 算法拼接 TOF 两帧 之间的数据, 通过获取的三维点云来实现 ICP 的迭 代过程. May 等[53] 通过 SLAM 算法解决两帧之间 的数据匹配问题. 1.1.5 雷达技术 雷达作为一种很常见的主动视觉传感器, 可以 通过发射和接收的光束之间的时间差来计算物体的 距离、深度等信息. 如式 (3) 所示: 解的方法对拟合曲面进行点云拼接, 从而实现了点 云的三维重建. 2012 年, 魏征[58] 使用车载激光雷达 获取建筑物的点云数据进行了几何重建. 1.1.6 Kinect 技术 Kinect 传感器是最近几年发展比较迅速的一种 消费级的 3D 摄像机, 它是直接利用镭射光散斑测 距的方法获取场景的深度信息[59], Kinect 在进行深 度信息获取时采用的是第 1.1.2 节所介绍的结构光 法, 下面主要是对 Kinect 技术研究现状进行简要概 述. 由于 Kinect 价格便宜, 自 2010 年发售以来, 受 到了国内外的广泛关注, 并开始使用 Kinect 进行三 维重建的研究. Kinect 传感器如图 5 所示. d = c∆t 2 (3) 图 5 Kinect 传感器 Fig. 5 Kinect sensor 式中, c 为光速; ∆t 为发射与接受的时间间隔; d 表 示雷达到物体之间的距离. 在 20 世纪 60 年代激光雷达传感器迅速发展, 这种传感器通过激光束的扫描, 可以得到周围环境 的深度信息. 本部分仅介绍激光雷达的相关应用, 其 他雷达不再赘述. 激光雷达的数学模型可以表示为:  = λ  a1 a2 a3   x  +   XS YS ZS  X Y Z b1 c1 b2 c2 b3 c3 y z (4) 其中, X, Y, Z 是空间点的三维坐标; ai, bi, ci 为 3 个 空间姿态角组成的方向余弦; x, y, z 为空间扫描点 坐标; XS, YS, ZS 为激光雷达扫描器的直线外方位 元素; 通过式 (4) 可以获得物体的空间三维坐标. 2004 年, Streller 等[54] 对激光雷达获取的扫描 点进行聚类, 从而实现智能车前方目标的检测. 2005 年, Schwalbe 等[55] 利用激光雷达获取点云数据, 然 后采用线追踪近邻面将点云数据进行分段投影, 最 后重建出建筑物的三维模型. 2007 年, Weiss 等[56] 使用激光雷达聚类的方法来提取智能车前方车辆的 轮廓信息, 然后对目标车辆进行三维重建, 从而获取 形状信息, 最后采用模式识别算法, 结合得到的轮廓 和形状信息对目标车辆进行检测. 2010 年, 胡明[57] 提出了边界保持重建算法, 利用激光雷达获取的点 云数据选取二次曲面进行局部拟合, 再使用单元分 Kinect 传感器中间的镜头为摄像机, 左右两端 的镜头被称为 3D 深度感应器, 具有追焦的功能, 可 以同时获取深度信息、彩色信息、以及其他信息等. Kinect 在使用前需要进行提前标定, 大多数标定都 采用张正友标定法[60]. 2011 年, Smisek 等[61] 为了 解决 Kinect 传感器无法找到棋盘格角点问题, 对 Kinect 深度相机自身的红外发射器进行遮挡, 并使 用卤素灯生成红外图像, 从而标定 Kinect 传感器两 个相机之间的位置. 2014 年, Zollh¨ofer 等[62] 为了解 决 Kinect 获取的深度信息含有噪声的问题, 使用高 斯滤波器进行滤波处理, 从而减小了噪声影响. 目前, 使用 Kinect 进行三维重建的研究比较流 行. 2014 年, Henry 等[63] 最早使用 Kinect 相机对 室内环境进行三维重建, 得到的效果不是很好, 重建 的模型有很多黑色斑点, 实时性也较差, 需要进一 步提高其性能. 为了解决这些问题, 2012 年, Henry 等[64] 使用了重投影误差的帧间配准、FAST 特征 等优化方法对其进行了改进, 实时性得到了显著提 高. 2011 年, Newcombe 和 Izadi 等[65−66] 开发了 Kinect Fusion 系统, 该系统利用获取的深度信息生 成三维点云及法向量, 从而可以对场景进行三维重 建, 其结果更加精确. 2013 年, 吴侗[67] 采用体密度 变化率直方图的方法对点云数据进行分割和检测, 然后, 对于 Kinect 采集到的纹理信息使用卷包裹算 法, 从而完成了对点云数据的三维重建. 表 1 所示为 主动视觉常用方法优缺点的对比.
636 自 动 化 学 报 46 卷 表 1 主动视觉方法对比 Table 1 Active visual method comparison 方 激光扫描 法 法[28−31] 1. 重建结果 优 很精确; 结构光 法[32−42] 1. 简单方便、 无破坏性; 阴影 法[43−48] 1. 设备简单, 图像 直观; TOF 技 术[49−53] 1. 数据采集频 率高; 雷达技 术[54−58] 1. 视场大、扫描 Kinect 技 术[59−67] 1. 价格便宜、轻 距离远、灵敏度 便; 2. 能建立形 2. 重建结果速 2. 密度均匀, 2. 垂直视场角 高、功耗低; 2. 受光照条件的 点 状不规则物 率快、精度高、 简单低耗, 对图像 大; 2. 直接获取深度 影响较小; 体的三维模 型. 能耗低、抗干 扰能力强. 的要求非常低. 3. 可以直接提 信息, 不用对内部 3. 同时获取深度 取几何信息. 参数进行标定. 图像和彩色图像. 1. 需要采用 算法来修补 漏洞; 缺 2. 得到的三 维点云数据 量非常庞大, 点 而且还需要 对其进行配 准, 耗时较长; 3. 价格昂贵. 1. 测量速度慢; 1. 对光照的要求较 1. 深度测量系统 1. 受环境的影响 1. 深度图中含有 2. 不适用室外 高, 需要复杂的记 误差大; 较大; 大量的噪声; 场景. 录装置; 2. 灰度图像对比 2. 计算量较大, 2. 对单张图像的 2. 涉及到大口径 度差、分辨率低; 实时性较差; 重建效果较差. 的光学部件的消 3. 搜索空间大、 像差设计、加工 效率低; 和调整. 4. 算法扩展性差, 空间利用率低. 1.2 基于被动视觉的三维重建技术 的关系, 关系坐标可以表示为:  =  u v 1  fx 0 0 0 fy 0  · u0 v0 1 R t 0 1  XW YW ZW 1  1.2.1 根据相机数目分类 基于被动视觉的三维重建技术是通过视觉传感 器 (一台或多台相机) 获取图像序列, 进而进行三维 重建的一种技术. 这种技术首先通过视觉传感器 (一 台或多台相机) 获取图像序列, 然后提取其中有用的 信息, 最后, 对这些信息进行逆向工程的建模, 从而 重建出物体的三维结构模型. 该方法的优点是能够 应用于各种复杂的环境中, 对主动视觉法具有很好 的补足. 另外, 它具有价格较低, 操作简单, 实时性 较高, 对光照要求较低以及对场景没有要求的优点, 容易实现; 不足的是重建精度不是很高. 由于主动视 觉方法受环境及设备等因素的限制, 近几年, 人们投 入大量精力用于被动视觉方法的研究上. 根据相机 数量的不同, 被动视觉的三维重建技术可以分为单 目视觉、双目视觉和多目视觉, 这一部分将重点从相 机数目的角度对被动视觉的三维重建技术进行总结 和分类. 1.2.1.1 单目视觉法 单目视觉是仅使用一台相机进行三维重建的方 法, 该方法简单方便、灵活可靠、处理时间相对较短, 而且价格便宜, 使用范围比较广, 能够使用在三维测 量和检测等领域. 为了进一步表示空间中任意一个 三维点 P 在世界坐标系转换到二维图像坐标系之间 (5) 其中, (XW , YW , ZW ) 为空间中的三维点; (R t) 称 为旋转矩阵和平移向量; fx 和 fy 是摄像机在两个方 向上的焦距; (u0, v0) 是摄像头主点在图像坐标系下 的坐标; (u, v) 是图像坐标系下的坐标; 从而通过式 (5) 可以求解出任意空间一点的三维坐标. 基于单目 视觉的三维重建流程如图 6 所示. 单目视觉主要提取图像中的亮度、深度、纹理、 轮廓、几何形状、特征点等特征信息. 由于这些特征 信息已经在文献 [68] 中详细阐述过, 为了使相关研 究人员以及读者能够更好地了解发展趋势以及能够 清楚它们之间在三维重建中的优缺点, 这一部分简 要的概述图像中所包含的特征信息. 1) 明暗度恢复形状法 明 暗 度 恢 复 形 状 法, 简 称 SFS (Shape from shading), 即通过分析图像中的明暗度信息, 利用 表面的反射模型, 获取物体表面的法向信息, 从而恢 复出物体的三维轮廓, 图像在 (u, v) 处的像素强度
4 期 郑太雄等: 基于视觉的三维重建关键技术研究综述 637 Iuv 可以表示为: Iuv = RI(ρ, n, s, v) (6) 其中, RI 表示反射图; ρ 为表面反射率; n 是表面法 向量; s 表示入射光方向; v 表示反射光方向. 明暗度恢复形状法的概念最早由 Horn[69] 于 1970 年提出. 1989 年, Penna[70] 提出了 PSFS (Per- spective shape from shading) 方法, 这种方法其 实就是用透视投影替代正交投影的明暗度恢复法. 1994 年, Bakshi 等[71] 提出了使用非朗伯特模型的 明暗度法. 2008 年, Vogel 等[72] 综合以上两种方法 又提出了基于非朗伯特模型的 PSFS 方法. 图 6 基于单目视觉的三维重建流程 Fig. 6 3D reconstruction process based on monocular vision 2) 光度立体视觉法 虽然 SFS 可以从单幅图像中获取物体的三维信 息, 但是其信息量比较少, 而且重建出来的三维模型 的效果也不是很好. 于是, Woodham[73] 于 1980 年 对明暗度恢复形状法的不足进行改进, 提出了光度 立体视觉法, 简称 PS (Photometric stereo). 光度立 体视觉法首先将单个摄像机固定在目标物体的正上 方, 然后通过光源发出的光线从不同的角度射到目 标物体的表面, 最后通过摄像机获取多幅图像, 从而 得到图像的灰度值与目标物体的关系以此来恢复三 维物体的形状. 随后, 许多研究人员在光度立体视觉 法的基础上又有了进一步的研究. 2003 年, Noakes 等[74] 在光度立体视觉法中提出非线性与噪声减除 的方法. 2004 年, Horovitz 等[75] 在光度立体视觉 法中引入了控制点和梯度场的概念. 2005 年, Tang 等[76] 使用可信度传递与马尔科夫随机场[77] 的方法 对光度立体视觉法进行了优化. 2007 年, Sun 等[78] 采用非朗伯特模型的光度立体视觉法. 2009 年, Vlasic 等[79] 提出了使用多视角进行三维重建的方 法. 2010 年, Shi 等[80] 提出了自标定的光度立体视 觉法. Morris 等[81] 使用了动态折射立体法对物体 表面进行三维重建. Higo[82] 提出了对非刚性不规则 物体进行三维重建的方法. 这些方法在一定程度上 提高了三维重建的精度. 这种方法可以用亮度方程 进行表示: I(x, y) = k(x, y) × N(x, y) × S (7) 其中, I 为图像亮度; S 为光源向量; N 为物体表面 的法向量; k 是由物体表面反射系数、光源强度、摄 像机对光敏感度共同决定的系数. 光度立体视觉法在不同光照的条件下通过摄像 机拍摄多幅图像, 再根据不同图像的亮度方程进行 联立, 从而求解出物体表面的法向量, 进而恢复物体 的几何形状. 3) 纹理法 纹理法简称 SFT (Shape from texture). 这种 方法通过分析图像中物体表面的纹理大小和形状, 来获取物体的三维信息, 进而重建出物体的三维模 型. 纹理法分为两种, 一种是基于频谱分析的方法, 这种方法主要通过频域变换分析纹理单元的谱信息 来恢复物体表面的法向, 利用这些法向重建出物体 的三维模型. 1988 年, Brown 等[83] 采用傅里叶变 换对物体的纹理进行了三维重建. 2002 年, Clerc 等[84] 使用小波变换对物体表面进行了纹理分析和 三维重建. 另外一种则是在正交投影条件下基于 后验概率分布的方法, 这个方法是由 Wiktin[85] 于 1981 年最早提出的. 2010 年, Warren 等[86] 为了使 重建效果有进一步的提高, 采用了透视投影模型对 Wiktin 的方法进行了改进, 通过实验验证了这种方 法的可行性. 4) 轮廓法 轮 廓 法 简 称 SFS/SFC (Shape from silhou- ettes/contours). 该方法主要是通过一个相机从多 个角度拍摄图像来获取物体的轮廓信息, 通过这些 轮廓信息恢复物体的三维结构模型. 轮廓法又可以 分为体素法[87]、视壳法[88] 和锥素法[89−91] 三种. 采用轮廓进行三维重建是由 Martin 等[87] 于 1983 年首次提出的方法, 这种方法首先将物体所在 的三维几何空间离散化为体素, 然后再使用正向试 探法, 消除投影在轮廓区域以外的体素, 进而可以获 得物体的三维信息. 为了进一步研究轮廓法的相关
638 自 动 化 学 报 46 卷 理论, 1994 年, Laurentini[88] 提出了可视壳 (Visual hull) 的概念. 2006 年, Forbes 等[92] 实现了从未标 定图像中生成三维可视壳的方法. 此外, 文献 [93] 中还提出了一些基于图形硬件的可视壳生成方法. 5) 调焦法 调焦法简称 SFF (Shape from focus), 这种方 法通过分析相机的光圈、焦距和拍摄图像的清晰度 之间的关系获取物体表面的深度信息, 从而重建出 物体的三维模型. 由于相机镜头具有光学聚焦的原理, 因此, 当 物体经过相机镜头时, 其产生的表面深度信息与相 机焦距之间的关系可以确定该物体在图像上的清晰 程度. 所以, 该方法又可以分为聚焦法[94−95] 和离焦 法[96] 两种. 6) 亮度法 亮度法简称 SFI (Shape from illumination). 这 种方法主要是用来分析物体在多个视角下通过相机 拍摄来获取物体的多张图像, 然后计算图像中的亮 度特征, 通过这些亮度特征恢复出物体表面的深度 信息, 利用深度信息从而可以重建出物体的三维模 型. 该方法具体又可以分为正向法[97] 和逆向法[98]. 正向法是将物体三维空间中的采样点投影到二 维图像中, 通过判断是否满足亮度一致性来判断该 点是否属于物体的表面. 目前已有的正向法有体素 颜色法[99]、空间雕刻法[100] 等. 逆向法是搜索图像中能够满足亮度一致性的匹 配点, 然后再使用立体视觉中的三角测量原理, 用这 些获取的匹配点来反算其对应的三维点位置. 1.2.1.2 双目视觉法 双目视觉的工作原理来源于人类的双目视觉系 统[101−102], 也就是说从不同的视角通过两个相同的 相机捕获同一个位置下的左右两侧图像, 然后再利 用三角测量原理获取物体的深度信息, 通过这些深 度信息重建出物体的三维模型. 目前, 基于双目视 觉的三维重建方法是三维重建技术中的热点和难 点[103−104]. 20 世纪 60 年代, 麻省理工学院的 Roberts 首 次将二维图像扩展到三维图像. 此外, MIT 人工智 能实验室的 Marr 等[105] 提出了视觉相关理论, 这 种理论为双目视觉的研究奠定了坚实的基础. 根据 两个相机安装位置的不同可分为两种双目视觉系统, 一种称为平行式光轴双目视觉系统[106], 另一种被称 为汇聚式光轴双目视觉系统[107]. 图 7 显示了这两种 系统. 1) 平行式光轴双目视觉系统 平行式光轴双目视觉系统是比较理想的一种系 统. 在平行式光轴视觉系统中, 左右相机互相对齐, 它们的光轴也要互相平行, 形成一个共面的成像平 面. 由于左右相机只在轴上的位置不同, 而焦距等其 他参数是相同的, 因此, 左右相机拍摄的同一物点所 成的像分别在左右两图像上对应的对集线上, 可以 较好的实现立体匹配. 图 7 (a) 所示, 这一成像特点 极大地解决了立体匹配问题. 假设空间点 P 的三维坐标为 (XW , YW , ZW ), 对 应 在 左 右 摄 像 机 中 的 图 像 坐 标 分 别 为 p1(x1, y1), p2(x2, y2), 由此可以得到式 (8):  XW = ∆x(x1−u0) YW = ∆xax(y1−v0) ay(x1−x2) ZW = ∆xax x1−x2 x1−x2 (8) 其中, ax, ay, u0, v0 为摄像机的内部参数; x1 − x2 称 为视差; ∆x 为两台摄像机光心之间的距离. 因此, 在得到摄像机的内部参数以后, 只要再知道空间中 任意一点投影到左右摄像机平面中的图像坐标, 然 后利用视差图就可以恢复空间中任意一点的三维坐 标. 图 7 双目视觉系统 Fig. 7 Binocular vision system 2) 汇聚式光轴双目视觉系统 汇聚式光轴双目视觉系统是将平行式光轴双目 视觉系统中的左右相机分别绕光心顺时针和逆时针 旋转一定角度, 从而形成汇聚式双目视觉系统. 此系 统的优点是能够获得更大的视场, 图 7 (b) 所示. 大 视场的好处就是能够提高计算视差的精度, 从而可 以提高三维重建的精度. 但是, 在匹配过程中视差太 大会产生误匹配点增多、匹配范围扩大等问题, 需要 更加复杂的算法来处理这些问题, 并且实时性会降 低. 最重要的是, 当相机摆放的角度太大会造成立体 匹配相当困难, 进而不能精确地重建出物体的三维 模型. 同 样 假 设 空 间 点 P 的 三 维 坐 标 为 (XW , YW , ZW ), 左摄像机的坐标系为 O1 − X1Y1Z1, 图 像 坐 标 系 为 o1 − x1y1; 右 摄 像 机 的 坐 标 系 为 O2 − X2Y2Z2, 图像坐标系为 o2 − x2y2; 原点 O1, O2 分别为左右摄像机的光心; 左右摄像机的焦距分别
分享到:
收藏