2018/10/17
机器之心
从R-CNN到RFBNet,目标检测架构5年演进全盘点
机器之心
9月23日
选自arXiv
作者:Li Liu, Wanli Ouyang, Xiaogang Wang, Paul Fieguth, Jie Chen, Xinwang Liu, Matti Pietikäinen
机器之心编译
参与:Panda
目标检测是计算机视觉领域的基本且重要的问题之一,而「一般目标检测」则更注重检测种类广泛
的自然事物类别。近日,中国国防科技大学、芬兰奥卢大学、澳大利亚悉尼大学、香港中文大学、
加拿大滑铁卢大学的研究者在 arXiv 发布了一篇综述论文,对用于一般目标检测的深度学习技术进
行了全面系统的总结。机器之心选取了其中部分内容进行介绍,更详细的内容请参阅原论文。
此外,来自首尔国立大学的 Lee hoseong 在近期开源了「deep learning object detection」
GitHub 项目,正是参考该论文开发的。该项目集合了从 2013 年 11 月提出的 R-CNN 至在近期举
办的 ECCV2018 上发表的 RFBNet 等四十多篇关于目标检测的论文,相当全面。这些论文很多都曾
发表在机器学习或人工智能顶会上,如 ICLR、NIPS、CVPR、ICCV、ECCV 等。正如图中红色字体
标示的那样,其中也包含了很多代表性的成果,如从 R-CNN 到 Mask R-CNN 的 R-CNN 系列、
YOLO 系列、RPN、SSD、FPN 以及 RetinaNet 等。无论对刚入门的机器学习新手,还是想深入研
究目标检测的研究者,都是难得的学习、参考资源。
https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650749003&idx=1&sn=2bd8c165b01b66ecb2cd91a8f5e08075&chksm=871afc3… 1/20
2018/10/17
机器之心
不仅如此,项目作者还给出了相应的完整资源列表,包括论文、官方/非官方实现。
心动的小伙伴还不快 Star、Fork 一下:
https://github.com/hoya012/deep_learning_object_detection#2014
论文地址:https://arxiv.org/abs/1809.02165
一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目
标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是
一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进
展。在这个发展迅速的时期,本论文的目标是全面概括近期由深度学习技术为该领域所带来的发展成
果。这份综述论文包含超过 250 项关键贡献,覆盖了一般目标检测研究的许多方面:领先的检测框
架、基础性的子问题(包括目标特征表示、目标提议生成、形境信息建模和训练策略)、评估问题
(尤其是基准数据集、评估指标和当前最佳表现)。最后,我们会指出有研究潜力的未来研究方向。
https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650749003&idx=1&sn=2bd8c165b01b66ecb2cd91a8f5e08075&chksm=871afc3… 2/20
2018/10/17
机器之心
1 引言
目标检测是计算机视觉领域内一个长期存在的基础性难题,几十年来也一直都是一个活跃的研究领
域。目标检测的目标是确定某张给定图像中是否存在给定类别(比如人、车、自行车、狗和猫)的目
标 实 例 ; 如 果 存 在 , 就 返 回 每 个 目 标 实 例 的 空 间 位 置 和 覆 盖 范 围 ( 比 如 返 回 一 个 边 界 框 [53,
179])。作为图像理解和计算机视觉的基石,目标检测是解决分割、场景理解、目标追踪、图像描
述、事件检测和活动识别等更复杂更高层次的视觉任务的基础。目标检测在人工智能和信息技术的许
多领域都有广泛的应用,包括机器人视觉、消费电子产品、安保、自动驾驶、人机交互、基于内容的
图像检索、智能视频监控和增强现实。
近来迅猛发展的深度学习技术 [81,116] 是一类能自动从数据中学习特征表示的强大方法。特别需要
指出,这些技术已经显著改善了目标检测的表现,这个问题在过去五年中得到了很大的关注,即便之
前心理物理学家、神经科学家和工程师已经研究了这个问题数十年时间。
目标检测可以分为两种类型 [69, 240]:特定实例检测和特定类别检测。前者的目标是检测一个特定
目标的实例(比如唐纳德·特朗普的脸、五角大楼建筑或我的狗 Penny),而后者的目标则是检测预
定义目标类别的不同实例(比如人、车、自行车和狗)。历史上,目标检测领域的很多研究都关注的
是单个类别(比如人脸或行人)或少数几个特定类别的检测。而过去几年中,研究界则已经开始向构
建通用型目标检测系统的艰难目标迈进,以让目标检测的范围能与人类比肩。
但是在 2012 年,Krizhevsky et al. [109] 提出的深度卷积神经网络(DCNN)AlexNet 在大规模
视觉识别挑战赛(ILSRVC)[179] 上实现了创纪录的图像分类准确度。自那以后,许多计算机视觉
应用领域都将研究重心放在了深度学习方法上。在一般目标检测领域涌现出了很多基于深度学习的方
法 [65, 77, 64, 183, 176],也取得了很大的研究进展,然而我们仍还没有对过去五年一般目标检测
主题的全面总结。本论文聚焦于这段快速发展的时间,特别重点关注了基于深度学习的一般目标检
测,以呈现出更明晰的一般目标检测全景。
一般目标检测问题本身的定义为:给定任意一张图像,确定其中是否存在任何预定义类别的形义目标
实例;如果存在,就返回其空间位置和覆盖范围。目标(object,也可译为「对象」或「物体」)
是指可以被看见和触碰的有形事物。尽管一般目标检测和目标类别检测有很多共同的含义,但前者更
注重旨在检测种类广泛的自然事物类别的方法,而后者则主要针对特定目标实例或特定类别(比如人
脸、行人或车)。一般目标检测已经得到了很大的关注,我们也能从近些年的目标识别竞赛上看出这
一点,比如 2006-2012 年的 PASCAL VOC 检测挑战赛 [53, 54],2013 年的 ILSVRC 大规模检测
https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650749003&idx=1&sn=2bd8c165b01b66ecb2cd91a8f5e08075&chksm=871afc3… 3/20
2018/10/17
机器之心
挑战赛 [179] 以及自 2015 年以来的 MS COCO 大规模检测挑战赛 [129]。图 1 展示了近些年目标
检测方面的引人注目的进展。
2.1 问题
2 背景
一般目标检测(即一般目标类别检测)也被称为目标类别检测 [240] 或目标分类检测,其定义如
下。给定一张图像,确定其中是否存在多个预定义类别的任何目标实例;如果存在,就返回每个实例
的空间位置和覆盖范围。
https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650749003&idx=1&sn=2bd8c165b01b66ecb2cd91a8f5e08075&chksm=871afc3… 4/20
图
1
:
近
些
年
目
标
检
测
表
现
的
发
展
演
进
。
可
以
看
到
,
自
2
0
1
2
年
深
度
学
习
入
场
之
后
,
目
标
检
测
表
现
(
均
值
平
均
精
度
/
m
A
P
)
提
升
显
著
。
最
佳
检
测
器
的
表
现
每
年
都
有
稳
定
的
显
著
提
升
。
(
a
)
在
P
A
S
C
A
L
V
O
C
数
据
集
上
的
结
果
:
在
V
O
C
2
0
0
7
-
2
0
1
2
竞
赛
中
获
胜
方
法
的
检
测
结
果
(
仅
使
用
竞
赛
提
供
的
训
练
数
据
)
。
(
b
)
I
L
S
V
R
C
2
0
1
3
-
2
0
1
7
中
最
佳
的
目
标
检
测
竞
赛
结
果
(
仅
使
用
竞
赛
提
供
的
训
练
数
据
)
。
2018/10/17
机器之心
2.2 主要难题
https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650749003&idx=1&sn=2bd8c165b01b66ecb2cd91a8f5e08075&chksm=871afc3… 5/20
图
3
:
与
一
般
目
标
检
测
相
关
的
识
别
问
题
。
(
a
)
图
像
层
面
的
目
标
分
类
,
(
b
)
边
界
框
层
面
的
一
般
目
标
检
测
,
(
c
)
像
素
层
面
的
形
义
分
割
,
(
d
)
实
例
层
面
的
形
义
分
割
2018/10/17
机器之心
2.3 过去二十年的进展
3 框架
用于识别的目标特征表示和分类器一直以来都在稳步发展,从人工设计特征 [213, 42, 55, 76, 212]
到学习 DCNN 特征的重大变化也证明了这一点 [65, 160, 64, 175, 40]。
相对而言,用于定位的基本「滑动窗口」策略 [42, 56, 55] 仍还是主流,尽管 [113, 209] 也做出了
一些努力。但是窗口的数量很大,而且会随像素数量呈二次增长,而且搜索多个尺度和宽高比的需求
还会进一步增大搜索空间。巨大的搜索空间会导致高度的计算复杂度。因此,有效且高效的检测框架
设计具有关键性作用。经常采用的策略包括级联、共享特征计算和降低每个窗口的计算量。
在这一节,我们会回顾一般目标检测领域在深度学习进入这一领域后出现的里程碑检测框架,如图 6
所示,详细情况总结在表 10 中。过去几年中提出的几乎所有检测器都基于其中一种里程碑检测器,
试图在一个或多个方面实现改进。整体而言,这些检测器可以分为两大主要类别:
1. 两级式检测框架,包含一个用于区域提议的预处理步骤,使得整体流程是两级式的。
2. 单级式检测框架,即无区域提议的框架,这是一种单独提出的方法,不会将检测提议分开,使得
整个流程是单级式的。
https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650749003&idx=1&sn=2bd8c165b01b66ecb2cd91a8f5e08075&chksm=871afc3… 6/20
图
4
:
一
般
目
标
检
测
中
的
难
题
概
览
图
2
:
目
标
检
测
和
识
别
的
里
程
碑
,
包
括
特
征
表
示
[
3
7
,
4
2
,
7
9
,
1
0
9
,
1
1
4
,
1
3
9
,
1
4
0
,
1
6
6
,
1
9
1
,
1
9
4
,
2
0
0
,
2
1
3
,
2
1
5
]
、
检
测
框
架
[
5
6
,
6
5
,
1
8
3
,
2
0
9
,
2
1
3
]
和
数
据
集
[
5
3
,
1
2
9
,
1
7
9
]
。
在
2
0
1
2
年
之
前
,
主
导
方
法
都
还
是
人
工
设
计
的
特
征
。
我
们
看
到
,
随
着
K
r
i
z
h
e
v
s
k
y
e
t
a
l
.
[
1
0
9
]
为
图
像
分
类
开
发
出
了
D
C
N
N
,
2
0
1
2
年
迎
来
了
转
折
。
这
里
列
出
的
大
多
数
方
法
都
得
到
了
大
量
引
用
并
至
少
赢
得
了
一
个
I
C
C
V
或
C
V
P
R
的
主
要
奖
项
。
详
见
2
.
3
节
。
2018/10/17
机器之心
https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650749003&idx=1&sn=2bd8c165b01b66ecb2cd91a8f5e08075&chksm=871afc3… 7/20
图
6
:
一
般
目
标
检
测
的
里
程
碑
,
基
于
第
一
个
a
r
X
i
v
版
本
的
时
间
点
图
7
:
里
程
碑
检
测
框
架
R
C
N
N
[
6
5
,
6
7
]
的
细
节
图
示
2018/10/17
机器之心
https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650749003&idx=1&sn=2bd8c165b01b66ecb2cd91a8f5e08075&chksm=871afc3… 8/20