目标检测总结.pdf-资料库

第1页 / 共20页

第2页 / 共20页

第3页 / 共20页

第4页 / 共20页

第5页 / 共20页

第6页 / 共20页

第7页 / 共20页

第8页 / 共20页

2018/10/17 机器之心从R-CNN到RFBNet，目标检测架构5年演进全盘点机器之心 9月23日选自arXiv 作者：Li Liu, Wanli Ouyang, Xiaogang Wang, Paul Fieguth, Jie Chen, Xinwang Liu, Matti Pietikäinen 机器之心编译参与：Panda 目标检测是计算机视觉领域的基本且重要的问题之一，而「一般目标检测」则更注重检测种类广泛的自然事物类别。近日，中国国防科技大学、芬兰奥卢大学、澳大利亚悉尼大学、香港中文大学、加拿大滑铁卢大学的研究者在 arXiv 发布了一篇综述论文，对用于一般目标检测的深度学习技术进行了全面系统的总结。机器之心选取了其中部分内容进行介绍，更详细的内容请参阅原论文。此外，来自首尔国立大学的 Lee hoseong 在近期开源了「deep learning object detection」 GitHub 项目，正是参考该论文开发的。该项目集合了从 2013 年 11 月提出的 R-CNN 至在近期举办的 ECCV2018 上发表的 RFBNet 等四十多篇关于目标检测的论文，相当全面。这些论文很多都曾发表在机器学习或人工智能顶会上，如 ICLR、NIPS、CVPR、ICCV、ECCV 等。正如图中红色字体标示的那样，其中也包含了很多代表性的成果，如从 R-CNN 到 Mask R-CNN 的 R-CNN 系列、 YOLO 系列、RPN、SSD、FPN 以及 RetinaNet 等。无论对刚入门的机器学习新手，还是想深入研究目标检测的研究者，都是难得的学习、参考资源。 https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650749003&idx=1&sn=2bd8c165b01b66ecb2cd91a8f5e08075&chksm=871afc3… 1/20

2018/10/17 机器之心不仅如此，项目作者还给出了相应的完整资源列表，包括论文、官方/非官方实现。心动的小伙伴还不快 Star、Fork 一下： https://github.com/hoya012/deep_learning_object_detection#2014 论文地址：https://arxiv.org/abs/1809.02165 一般目标检测（generic object detection）的目标是根据大量预定义的类别在自然图像中确定目标实例的位置，这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法，并已经为一般目标检测领域带来了显著的突破性进展。在这个发展迅速的时期，本论文的目标是全面概括近期由深度学习技术为该领域所带来的发展成果。这份综述论文包含超过 250 项关键贡献，覆盖了一般目标检测研究的许多方面：领先的检测框架、基础性的子问题（包括目标特征表示、目标提议生成、形境信息建模和训练策略）、评估问题（尤其是基准数据集、评估指标和当前最佳表现）。最后，我们会指出有研究潜力的未来研究方向。 https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650749003&idx=1&sn=2bd8c165b01b66ecb2cd91a8f5e08075&chksm=871afc3… 2/20

2018/10/17 机器之心 1 引言目标检测是计算机视觉领域内一个长期存在的基础性难题，几十年来也一直都是一个活跃的研究领域。目标检测的目标是确定某张给定图像中是否存在给定类别（比如人、车、自行车、狗和猫）的目标实例；如果存在，就返回每个目标实例的空间位置和覆盖范围（比如返回一个边界框 [53, 179]）。作为图像理解和计算机视觉的基石，目标检测是解决分割、场景理解、目标追踪、图像描述、事件检测和活动识别等更复杂更高层次的视觉任务的基础。目标检测在人工智能和信息技术的许多领域都有广泛的应用，包括机器人视觉、消费电子产品、安保、自动驾驶、人机交互、基于内容的图像检索、智能视频监控和增强现实。近来迅猛发展的深度学习技术 [81,116] 是一类能自动从数据中学习特征表示的强大方法。特别需要指出，这些技术已经显著改善了目标检测的表现，这个问题在过去五年中得到了很大的关注，即便之前心理物理学家、神经科学家和工程师已经研究了这个问题数十年时间。目标检测可以分为两种类型 [69, 240]：特定实例检测和特定类别检测。前者的目标是检测一个特定目标的实例（比如唐纳德·特朗普的脸、五角大楼建筑或我的狗 Penny），而后者的目标则是检测预定义目标类别的不同实例（比如人、车、自行车和狗）。历史上，目标检测领域的很多研究都关注的是单个类别（比如人脸或行人）或少数几个特定类别的检测。而过去几年中，研究界则已经开始向构建通用型目标检测系统的艰难目标迈进，以让目标检测的范围能与人类比肩。但是在 2012 年，Krizhevsky et al. [109] 提出的深度卷积神经网络（DCNN）AlexNet 在大规模视觉识别挑战赛（ILSRVC）[179] 上实现了创纪录的图像分类准确度。自那以后，许多计算机视觉应用领域都将研究重心放在了深度学习方法上。在一般目标检测领域涌现出了很多基于深度学习的方法 [65, 77, 64, 183, 176]，也取得了很大的研究进展，然而我们仍还没有对过去五年一般目标检测主题的全面总结。本论文聚焦于这段快速发展的时间，特别重点关注了基于深度学习的一般目标检测，以呈现出更明晰的一般目标检测全景。一般目标检测问题本身的定义为：给定任意一张图像，确定其中是否存在任何预定义类别的形义目标实例；如果存在，就返回其空间位置和覆盖范围。目标（object，也可译为「对象」或「物体」）是指可以被看见和触碰的有形事物。尽管一般目标检测和目标类别检测有很多共同的含义，但前者更注重旨在检测种类广泛的自然事物类别的方法，而后者则主要针对特定目标实例或特定类别（比如人脸、行人或车）。一般目标检测已经得到了很大的关注，我们也能从近些年的目标识别竞赛上看出这一点，比如 2006-2012 年的 PASCAL VOC 检测挑战赛 [53, 54]，2013 年的 ILSVRC 大规模检测 https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650749003&idx=1&sn=2bd8c165b01b66ecb2cd91a8f5e08075&chksm=871afc3… 3/20

2018/10/17 机器之心挑战赛 [179] 以及自 2015 年以来的 MS COCO 大规模检测挑战赛 [129]。图 1 展示了近些年目标检测方面的引人注目的进展。 2.1 问题 2 背景一般目标检测（即一般目标类别检测）也被称为目标类别检测 [240] 或目标分类检测，其定义如下。给定一张图像，确定其中是否存在多个预定义类别的任何目标实例；如果存在，就返回每个实例的空间位置和覆盖范围。 https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650749003&idx=1&sn=2bd8c165b01b66ecb2cd91a8f5e08075&chksm=871afc3… 4/20 图 1 ：近些年目标检测表现的发展演进。可以看到，自 2 0 1 2 年深度学习入场之后，目标检测表现（均值平均精度 / m A P ）提升显著。最佳检测器的表现每年都有稳定的显著提升。（ a ）在 P A S C A L V O C 数据集上的结果：在 V O C 2 0 0 7 - 2 0 1 2 竞赛中获胜方法的检测结果（仅使用竞赛提供的训练数据）。（ b ） I L S V R C 2 0 1 3 - 2 0 1 7 中最佳的目标检测竞赛结果（仅使用竞赛提供的训练数据）。

2018/10/17 机器之心 2.2 主要难题 https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650749003&idx=1&sn=2bd8c165b01b66ecb2cd91a8f5e08075&chksm=871afc3… 5/20 图 3 ：与一般目标检测相关的识别问题。（ a ）图像层面的目标分类，（ b ）边界框层面的一般目标检测，（ c ）像素层面的形义分割，（ d ）实例层面的形义分割

2018/10/17 机器之心 2.3 过去二十年的进展 3 框架用于识别的目标特征表示和分类器一直以来都在稳步发展，从人工设计特征 [213, 42, 55, 76, 212] 到学习 DCNN 特征的重大变化也证明了这一点 [65, 160, 64, 175, 40]。相对而言，用于定位的基本「滑动窗口」策略 [42, 56, 55] 仍还是主流，尽管 [113, 209] 也做出了一些努力。但是窗口的数量很大，而且会随像素数量呈二次增长，而且搜索多个尺度和宽高比的需求还会进一步增大搜索空间。巨大的搜索空间会导致高度的计算复杂度。因此，有效且高效的检测框架设计具有关键性作用。经常采用的策略包括级联、共享特征计算和降低每个窗口的计算量。在这一节，我们会回顾一般目标检测领域在深度学习进入这一领域后出现的里程碑检测框架，如图 6 所示，详细情况总结在表 10 中。过去几年中提出的几乎所有检测器都基于其中一种里程碑检测器，试图在一个或多个方面实现改进。整体而言，这些检测器可以分为两大主要类别： 1. 两级式检测框架，包含一个用于区域提议的预处理步骤，使得整体流程是两级式的。 2. 单级式检测框架，即无区域提议的框架，这是一种单独提出的方法，不会将检测提议分开，使得整个流程是单级式的。 https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650749003&idx=1&sn=2bd8c165b01b66ecb2cd91a8f5e08075&chksm=871afc3… 6/20 图 4 ：一般目标检测中的难题概览图 2 ：目标检测和识别的里程碑，包括特征表示 [ 3 7 , 4 2 , 7 9 , 1 0 9 , 1 1 4 , 1 3 9 , 1 4 0 , 1 6 6 , 1 9 1 , 1 9 4 , 2 0 0 , 2 1 3 , 2 1 5 ] 、检测框架 [ 5 6 , 6 5 , 1 8 3 , 2 0 9 , 2 1 3 ] 和数据集 [ 5 3 , 1 2 9 , 1 7 9 ] 。在 2 0 1 2 年之前，主导方法都还是人工设计的特征。我们看到，随着 K r i z h e v s k y e t a l . [ 1 0 9 ] 为图像分类开发出了 D C N N ， 2 0 1 2 年迎来了转折。这里列出的大多数方法都得到了大量引用并至少赢得了一个 I C C V 或 C V P R 的主要奖项。详见 2 . 3 节。

2018/10/17 机器之心 https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650749003&idx=1&sn=2bd8c165b01b66ecb2cd91a8f5e08075&chksm=871afc3… 7/20 图 6 ：一般目标检测的里程碑，基于第一个 a r X i v 版本的时间点图 7 ：里程碑检测框架 R C N N [ 6 5 , 6 7 ] 的细节图示

2018/10/17 机器之心 https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650749003&idx=1&sn=2bd8c165b01b66ecb2cd91a8f5e08075&chksm=871afc3… 8/20

资料库

目标检测总结.pdf

相关推荐

人工智能

热门标签

最新资料