Geomètry
in Computer Vision
中
多
Richard Hartley Andrew Zisserman 著
韦穗杨尚骏章权兵胡茂 林 译
γ~
-a
、
、
安徽大学出版社
•
•
TP391. 41 /1856
2002
Multiplè View
GeOlnetηr
in Computer Vision
!、
中
Richard Hartley Andrew Z isserman 著
韦穗杨尚骏章权兵胡茂林译
安徽大学出版社
•
固书在版编目( CIP) 敬据
•
计算机视觉中的多视剧几何! P合特利 (R. Hartley ) 和
齐瑟虽 ( A . Zisserman) 苦:书德等译-合肥:安徽大学出
版社, 2002.8
ISBN 7 - 81052
503
4
1 . ì ~.. .
、 lY. TP302. 7
U. ① l喻… ②齐… ①韦 …
四. ì-~算机视觉
中同!恒牛: f是I
151'古 CIP 数据核字 (2002) 第 094394 号
•
RIDGE
UNTVERSITY
PRESS
剑桥大学出版社
最新引进版
计算机视 觉中的多视图几何
穗韦
杨尚骏
伞权兵
胡茂林
t辛
Richard Hartley
Andrew Zisserman
主F
出版发行
~自曹大学 rll 版丰 1:
联 系电话
电子倩箱
(介 I1巴 Ir i IJ巴川师13 飞去 邮编 230039}
总编写 055 1 - 5107719
~H 币~I 0551 - 510778.:1
ahdxchps(!' mail. hf. ah. cn
经
销
印
开
印
字
版
印
刷
本
张
数
次
次
特约编辅
I~( 权只
责任编辅
封面设计
*东冬
而 11,次仰
I f 16
新华 IH可
合 11巴远尔自l 务有限公 IiJ
787 x 1092
30.25
710 r
2002 年 8 ) 1 第 l 版
2002 年 8 ) I 第 1
1火印 刷
ISBN 7
81052 - 503 - 4!Tp.61
定价
50.00 元
如Hi 影响阅读的印装质量问题,请与出版社发行部联系调换
内容提要
计算机视觉的基本问题是 :根据若干幅世界景物的图像求得对真实世界景物结构的理
解.
本书解决这个基本问题所采用的技术源于射影几何和摄影测量学.其与众不同的特色
是采用禾标定的方法一一不需要知道或不必计算摄像机内部参数就能得到问题的答案本
书以一个统一 的框架,对近期关于景物重构的理论和实现两方面的 主要发展作了详细的介
绍
本书涵盖了摄像机投影矩阵、基本矩阵和 三 焦点张量的几何原理和它们的代数表达.
在讨论这些有关的理论和计算方法时都配有实际的例子,如它们在由多幅图像进行货物重
构中的应用 . 作者提供了综合性的背景材料,读者只要熟悉线性代数和基本的数值方法就
能够理解书中给出的射影几何和估计算法,并能直接依据本书来实现有关算法,
序
让计算机具有视觉,科学家与工程师们,作出了近 40 年的不懈努力.应该说, 40 年努力
的进展是显著的,进展主要有两个方面:
已经形成一些计算视觉的基本理论框架,如 80 年代初形成的以 Marr 为代表的视觉计
算理论(有些学者称之为 三 维重建框架)和以后出现的基于模型的视觉 (Model Based Vi
sion) 、主动视觉 (Active Vísion) 等.现在看来,虽然我们仍然不清楚这些计算理论框架能否
最终成为最理想的计算机视觉系统的基础,但有几点几乎是可以肯定的:一是迄今为止提出
的各种理论框架虽然有方法论上的差异,有些甚至具有科学哲学思想的差异,但并没有本质
上的相互排斥,而且是互补的. 二是这些已有的 视觉系统理论框架已 经 可以作为有 一定程
度视觉功能的实用视觉系统的基础.随着计算机性能价格比的指数增长,以现有视觉系统
理论框架为基础的,针对特定任务的实用视觉系统,将会广泛应用于现实生活中. 三 是与人
工智 能的其他许多领域类似,真正的突破要比当初想像的要困难得多.这里,"真正的突破"
是指:当我们将当前的人工智能系统与人相比时,人的智能系统具有更强的通用性、自学习
能力、自适应性和对噪声的鲁棒性.
计算机视觉另 一方面的重要进展是,提出了大量的计算方法尤其是 90 年代以来,为
适应不同计算理论框架和为改进计算机视觉系统对噪声的鲁棒性,引进了许多数学方法和
与之相对应的计算方法.几乎所有的数学分支,尤其是应用数学分支都要到计算机视觉领
域来一显身手,使许多初学者,甚至搞了多年研究的学者都感到困惑.人们不禁要问,难道
我们真需要这么多的复杂数学分支和计算方法来解决计算机视觉问题吗?事实上,这确实
反映了当前的许多数学工具还不能有效解决"更强的通用性 、 自学习能力、自适应性和对噪
声的鲁棒性",另 一 方面,现在的许多数学方法,本质上是相通的.而我们缺少既对这些方法
都精道,又对计算机视觉中所面临的实际问题有深入理解的理论 工 作 者 来对各种方法加以
融会贯通 .
在上述视觉计算方法的研究中,基于几何的视觉计算方法,在 90 年代发展到了几乎是
完美的程度.本书的作者既是这方面的先驱者,也在本书中作出了很好的总结与系统论述.
基于儿何的视觉计算方法,之所以引起很大关注是因为:
1 计算机视觉的研究目标是使计算机具有通过 二 维图像认知 三 维环境信息的能力.
这种能力将不仅使机器能感知 三维环境中物体的几何信息,包括它的形状、位置、姿态、运动
等,而且能对它们进行识别与理解.事实上 , 80 年代形成的 Marr 的计算理论框架和其他计
算理论框架中,绝大部分内容都涉及利用几何方法计算环境中的 三 维物体的形状、位置、姿
态和运动.
2. 如果读者对欧几里德几何和近几百年来提出的各种几何,如本书中提到的射影几
何、仿射几何等有些探入了解的话,应该理解"各种几何的本质是描述几何元素在不同变换
群下的不变量"由此,使用几何方法,不仅可以由 二 维图像重建 (re∞nstruct) 三 维物体,还
可以描述它们在摄像机变换下的不变盘,从而达到识别的目的,也就是说,几何方法,可以贯
穿计算视觉理论框架下的所有部分,有人称之为基于几何的计算机视觉
3. 90 年代以来,计算机视觉界将对应于射影几何、仿射几何、欧几里德几何的射影变
换、仿射变换、欧几里德变换系统地引进到视觉计算方法中, 三种变换都构成变换群,而且,
后者为前者的子群,它们所对应的几何不变盘 , 前者为后者的子集.这些性质比较完美地对
应为视觉系统中对物体由粗到细的描述 , 在一 些特定任务的计算机视觉系统中降低了对系
统参数了解的要求(如本书中所描述的不需要对摄像机标定的 三 维重建) ,一定条件下提高
了系统对噪声的鲁棒性,而这些确实是许多实用计算机视觉系统极为需要的品质.
本书金面介绍了近 10 年来发展的基于几何的计算机视觉计算方法及其数学基础除
了上述内容外 , 其中多摄像机视图几何及其计算方法,值得读者关注.这是因为当前计算机
的性能价格比大大提高,使人们有条件在视觉系统中使用更多的摄像机,以 利 用冗余的信
息 , 来换取系统对噪声的鲁捧性.系统对噪声的鲁棒'险一直是实用计算机视觉系统的瓶颈
问题,解决该问题的可能的办法是 : 提高摄像机的分辨率、多摄像机方法和近年来大量引进
的统计最优化鲁棒算法(本书许多章节也有描述)
安徽大学的老师们将本书译成中文,是一件很有益的工作.我曾长期讲授计算机视觉
课程,深感我国工科大学研究生,缺乏现代几何的有关知识,对近 10 年来发展的基于几何的
计算机视觉计算方法的本质接受较慢 . 本书比较系统地介绍了射影几何,在各章节中也注意
介绍有关数学基础 , 使即使缺少这方面系统知识的工科学生也能接受,应该对我国专门从事
计算机视觉研究的读者有较好的参考价值 . 这本书对我国从事相关数学领域研究的人士也
值得一读 , 计算机视觉涉及的数学,量大面广,是一个典型的数学工作者可有用武之地的领
域,但比起其他国家来说,我国的数学家们基本不介入一 些有相当实用背聋的新兴学科,学
科不能交叉, 创新从何而来?
由于本书是介绍计算机视觉中的一个分支的很专业的书,为了使初学者对其背景有 一
点了解,我对本书的内容和特点做了上述介绍,以此为中译本序,不一定准确,望读者批评指
中国科学院自动化所 马颂 德
r
正.
2
原序
奥利维尔 · 法格罗斯 (Olivier Faugeras)
60 年代,在人工智能领域的带头专家眼里,使计算机具有视觉功能充其盘只是属于暑
期学生设计的事. 40 年以后这项任务仍然没有解决并且似乎还很艰难.称之为计算机视觉
的整个领域本身已成为一 门与数学和计算机科学都有很强联系的学科,同时它与物理、感知
心理 学和i 神经科学也有 一定的联系
造成部分失败的一 种可能的原因始研究者忽略了这样的事实:动物和人类的感知,特别
是视觉感知比当初想像的要复杂得多.当然没有理由要求计算机视觉算法 一 定要模仿生
物,但ljJ实是:
( l) 生 物视觉工作的方式仍有许多米知的东西,因而难以在计算机上模拟.
(2)企图忽略生物视觉而重新发明 一种基于磁片的视觉并没有像当初想像的那样成功.
除了这些负面的评论外,计算机视觉方面的研究者在实践和理论两个方面都已经获得
了某 些显若的 成功.
在实践方面,举 一个例子说明,用计算机视觉技术引导汽车、卡率等交通工具在平圾的
道路或崎岖的地形上行驶己成为可能,并且许多年前就在欧洲 、英国和 日本进行过汹示.引
导车辆需要相当复杂的实时分析 三 维动态景物的能力.今天,汽车制造商己慢慢地将其中
的某些功能集成到他们的产品中 去.
在理论方面 ,称 之为几何计算机视党的领域已给取得了一些显著的成就.其中包括把
从不同视点观察到的物体表现的变化描述成一个关于物体形状和摄像机参数的民做.如果
不应用相当复杂的数学技术,这样的成就是不可能得到的,上述数学技术囊括了几何的许
多领域,有古代的也有现代的.这本书特别对世界物体的图像间存在的复杂而又美妙的几
何关系加以研究,对这些关系加以分析本身是很重要的,因为提供对视觉表观的解释是科
学的目标之一,同时研究它们 的 另 一 个重要原因是对它们的理解导致 的应用 植困越来越
广.
这本书的作者是两位几何计算机视觉领域的开拓者和专家.他们在具有挑战的领域取
得了成功,即他们把需要理解的几何概念表达得读显易懂,把他们以及全世界的其他学者获
得的成果础盖得很全面,分析了几何与 图像测量必含有噪声这 一习]:~之间的相互影响,把许
多理论的结果表达成算法的形式,从而使它们能够很容易地被转换成计算机代码,并且给出
了许多其实的例子来解释概念,展示了理论的应用范围.
回到使计算机具有视觉功能的初衷,我们也许怀疑这种工作盐仔是在正确方向上.我
必须让本书的读者来回答这个问题,并且我相信读者会赞同如下的晰言 : 任何一 个打算用摄
像机连接计算机的系统设计者都不会忽略这项工作 .这可 能是在定义使一台计算机具有视
觉功能到底意味着什么这个方向上重要的一步.
前
百主F
E写
过去十多年里,计算机视觉在多视困几何的理解和建模方向已得到迅速发展.理论和
实践已达到成熟的程度, 10 年前尚未解决并经常被认为无法解决的 一些 问题现在已经有了
漂亮的结果.这些任务和算法包指 :
· 给定两幅图像而不附带其他信息,计算图像之间的匹配、产生这些匹配的点的 3D 位置以
及锦到这些图像的摄像机.
· 给定 三 幅图像并不附带其他信息,类似地计~~:困像之间的匹配点和直线,以及这些点和
直线的 3D 位置和摄像机.
· 在不需要标定物体的情况下,计算,双服装置的对极几何以及 三 国装置的 三 焦点儿何.
. 由自然景物的图像序列来计算摄像机的内参数(即"在放映中"标定)
这些算法的与众不同的特点是它们朵 朱标定 的一一不必要知 i草或不必首先计算摄像机
的内参数(例如焦距) .
支撑这些算法的基础是一种新的、更完整的关于多阳来标定视图的几何理论的理解:所
包含的参数数目,视圈中点和直线之间的约束,以及由图像对应恢复摄像机和 三维空 间 点.
例如确定-I{I) 双眼装置的对极几何仅需要指定 7 个参数.并不需要对摄像机进行标定.这
些参数可以由 7 个或更多的图像点对应确定. 与 此非标定的路线相反, 10 年前采用了预先
标定的路线:每个摄像机必须首先用工程上仔细标定的并已知儿何的物体的图像进行标定.
标定涉及确定每 一个摄像机的 11 个参数,然后由这样两组 11 个参数的数据才能计算对极
儿何.
该例子说明来标定(射影)方法的重要性一一采用适宜的几何表达可使计算每一 阶段所
需要的参数更明 晰 .这样避免了计算那些对最后结果没有影响的参数,并得到更简单的算
法.同时,在这里值得纠正一个可能产尘的错误概念.在未标定框架中,实体(例如 三 维空
间点)通常在一个准确定义的多义性下加以恢复,这种多义性并不表示点是一种不良估计.
更贴近实际来看,通常不可能对摄像机进行一 次标定后就永久有效,例如摄像机被移动
了(在移动的车 t) 或内参数改变了(具有变焦的侦察摄像机)进 一 步说,在某些情况下标
定信息并不能简单得到.想像如下情况 : 囱视频序列计算摄像机的运动,或自归挡的胶片卷
构造虚拟现实的模型,其中运动和内标定信息都是未知的.
在多视图几何方面之所以取得成功可能是因为我们关于理论理解方丽的进展,同时也
是由于囱图像估计数学目标的提高.第一个提高是关注的姐定系统的误差必须最小化一一
不论它是代数的、几何的或是统计的 ; 第 二个提高是使用了鲁榕估计算法(例 如 RANSAC) ,
使得估计不受数据中"野值"的影响.同时,这些技术产生强有力的搜索和匹配算法.
我们可以说现在许多重构的问题已经解决.这些问题包括:
( 1 ) 囱图 像点对应估计多焦 点 张盘,特别是基本矩阵和三焦点张量(四焦点张血·还没有
得到重视)
1