logo资料库

论文研究-改进的Faster RCNN煤矿井下行人检测算法.pdf

第1页 / 共8页
第2页 / 共8页
第3页 / 共8页
第4页 / 共8页
第5页 / 共8页
第6页 / 共8页
第7页 / 共8页
第8页 / 共8页
资料共8页,全文预览结束
200 2019,55(4) Computer Engineering and Applications 计算机工程与应用 改进的 Faster RCNN 煤矿井下行人检测算法 李伟山 1,卫 晨 2,王 琳 1 1. 西安邮电大学 通信与信息工程学院,西安 710121 2. 西安邮电大学 经济与管理学院,西安 710121 摘 要:针对煤矿井下环境恶劣、光照差、背景混杂、行人模糊、行人多尺度等问题,提出了一种改进的 Faster RCNN 煤矿井下行人检测方法,使用深度卷积神经网络代替传统的手工设计特征方式自动地从图片中提取特征。利用深度 学习通用目标检测框架 Faster RCNN,以 Faster RCNN 算法为基础 ,对候选区域网络(Region Proposals Network, RPN)结构进行了改进,提出了一种“金字塔 RPN”结构,来解决井下行人存在的多尺度问题 ;同时算法中加入了特征 融合技术,将不同卷积层输出的特征图进行融合,增强煤矿井下模糊、遮挡和小目标行人的检测性能。实验结果表 明 :改进的 Faster RCNN 可以有效解决井下行人检测问题,在井下行人数据集上获得了 90%的检测准确率,并在公 测数据集 VOC 07 上对改进算法进行了验证。 关键词:深度学习 ;Faster RCNN ;行人检测 文献标志码:A 中图分类号:TP391 doi:10.3778/j.issn.1002-8331.1711-0282 李伟山,卫晨,王琳 . 改进的 Faster RCNN 煤矿井下行人检测算法 . 计算机工程与应用,2019,55(4):200-207. LI Weishan, WEI Chen, WANG Lin. Improved Faster RCNN approach for pedestrian detection in underground coal mine. Computer Engineering and Applications, 2019, 55(4):200-207. Improved Faster RCNN Approach for Pedestrian Detection in Underground Coal Mine LI Weishan1, WEI Chen2, WANG Lin1 1.School of Communication and Information Engineering, Xi’an University of Posts and Telecommunications, Xi’an 710121, China 2.School of Economics and Management, Xi’an University of Posts and Telecommunications, Xi’an 710121, China Abstract:In order to solve the problems of harsh underground environment, poor lighting, mixed background and multi- scale pedestrian, this paper proposes a pedestrian detection method of underground coal mine based on improved Faster RCNN. Deep convolutional neural network can replace traditional manual design feature to extract features automatically from images. Based on the Faster RCNN algorithm, RPN(Region Proposals Network)structure is improved and a“pyra- mid RPN”structure is proposed to solve multi-scale detection problem of pedestrian underground. At the same time, by adding feature fusion technology, the feature maps of different convolution layers are merged to improve the detetion per- formance for under-mine blur, occlusion and tiny pedestrian. The experimental results indicate that the improved Faster RCNN can effectively solve the pedestrian detection problem of underground coal mine, which obtains 90% detection accurary on the under-mine pedestrian dataset. The improved Faster RCNN algorithm is validated in the VOC 07 benchmark. Key words:deep learning; Faster RCNN; pedestrian detection 1 引言 随着信息化与工业化的深度融合,煤矿行业作为一 个传统的重工业产业,正在逐步加快“两化融合”的脚 步。煤矿作为一个高危产业,在入井口、出井口、井下的 各个巷道等位置都安装有大量的监控摄像头,但是目前 大量的视频资源没有得到有效的利用。矿井下的视频 基金项目:陕西省科技厅资源主导型产业关键技术(链)工业领域项目(No.2015KTCXSF-10-13)。 作者简介:李伟山(1991—),男,硕士研究生,研究领域为深度学习,E-mail:420702722@qq.com;卫晨(1983—),男,讲师,研究领 域为图像理解与分析;王琳(1992—),女,硕士研究生,研究领域为深度学习。 收稿日期:2017-11-20 修回日期:2018-01-12 文章编号:1002-8331(2019)04-0200-08 CNKI 网络出版:2018-05-24, http://kns.cnki.net/kcms/detail/11.2127.TP.20180522.0944.002.html 计算机工程与应用www.ceaj.org
李伟山,等:改进的 Faster RCNN 煤矿井下行人检测算法 2019,55(4) 201 图像存在环境复杂、光线暗淡、噪声干扰大等问题,且矿 井下摄像头安装位置在高处,监控视频中所监测到的行 人存在尺寸偏小、分辨率低、尺度变化、行人重叠等问 题。井下因其特殊的环境,井下图像中包含了目标检测 和行人检测问题中常见的目标扭曲、多尺度、遮挡、光照 等情况。因此,井下行人检测拥有较高的研究价值和意 义,能够进一步提高工业视频的利用率,保障井下作业 人员的安全。 传统的目标检测一般使用手提特征,然后采用一个 分类器来实现目标的检测。如 Dalal 等人提出的 HOG+ SVM 的行人检测方法[1]。这类方法一般使用滑动窗口 的框架,大致分为三个步骤:(1)使用不同尺度大小的滑 动窗口在图像中滑动,选取某一部分作为候选目标区 域;(2)提取候选目标区域的视觉特征,如 HOG(Histo- gram of Oriented Gradient)特征(常用于行人目标检 测)、Harr 特征(常用于人脸检测)[2]、LBP(Local Binary Pattern)特征[3]、积分通道特征[4]等;(3)应用分类器进行 分类识别。这种传统的方法要求研究人员根据不同的 检测任务,对相关领域深入研究设计出特定的适应性好 的特征,泛化能力差。 近些年来,随着硬件设备的提升,深度学习技术得 到了快速发展。卷积神经网络可以替代传统的手工设 计特征且提取的特征拥有高级的语义表达能力,特征表 达能力强,鲁棒性更好[5-8],在图像分类、目标检测等计算 机视觉领域取得了巨大的成果[9-10],出现了大量的基于 深度学习的检测算法[7-14]。 研究发现,目前大量的目标检测、行人检测的研究 都是基于自然光场景的,其图像质量都较高,目标也比 较清晰。如 VOC 数据集[15]、微软的 COCO 数据集[16]以及 著名的大规模视觉挑战赛 ImageNet[17]等都是基于自然 场景下的研究。本文将基于 Faster RCNN[18]的方法实 现煤矿井下的行人检测。同时井下图片多来自于井下 监控视频,将视频转换为图片会出现运动模糊,因此图 片中会出现行人模糊不清晰的现象,本文的研究也可以 归为模糊场景下的检测问题,并推广至相关领域。 2 相关研究 目前行人检测已经取得了大量的研究成果,2012 年 Dollar 等人[19]对行人检测进行了综述,对比了近年来最 优的行人检测方法;2014 年 Benenson 等人[20]对近十年行 人检测领域约 40 多种方法在 Caltech 数据集上进行了性 能比较;2015 年 Hosang 等人 [21]对将卷积神经网络应用 于行人检测进行了研究。 行人检测可以看作目标检测的一个子任务,通过对 目标检测算法改进可以实现某一特定目标的检测。目 前许多基于深度学习的特定目标的检测都是通过对通 用目标检测算法的改进来实现的。Goirshick 在 2015 年 提出了基于深度学习的 Faster RCNN 通用目标检测算 法,利用 RPN 网络生成候选区域,送入到 Faster RCNN 实现目标的检测,获得了非常高的准确率[18]。因其卓越 的检测性能,被广泛应用到各类任务中。宋焕生等人[22] 将 Faster RCNN 转换为二分类问题应用到复杂场景下 的车辆检测中;Sun 等人[23]通过特征融合、难例挖掘、多 尺度训练等策略改进 Faster RCNN,将其应用到人脸检 测任务中。 目前主流的基于深度学习的目标检测算法分为两 类:一类是以 Faster RCNN 为主的基于区域的目标检测 算法,生成候选目标区域,对区域加以分类实现检测,如 Faster RCNN、R-FCN[7]等。这类算法的优点是检测准 确率较高,缺点是速度较慢。另一类是以 YOLO(You Only Look Once)为代表的将目标检测转化为回归问 题求解,输入原始图片直接输出物体的位置与类别,如 YOLO[10]、SSD[11]等。该类方法的优点是检测速度快,每 秒能实现几十帧的检测,但检测准确率低,针对小目标 的检测不敏感。 本文将 Faster RCNN 通用目标检测算法引入到煤 矿井下的行人检测这一复杂场景中。煤矿井下环境复 杂,利用深度卷积神经网络可以很好地实现特征的提 取;处于监控场景的行人,像素总体偏小,本文对 RPN 网络中的 anchor 大小做了进一步改进 ;原始的 Faster RCNN 在最后一层特征图上使用一个 3×3 的滑动窗来 生成候选区域,本文进一步改进,提出了一种金字塔 RPN 方式来生成候选区域;针对图片中的行人运动模 糊,将不同层级的特征进行融合来提高行人检测准确 率。本文提出了一个改进的 Faster RCNN 井下行人检 测算法,在井下数据集进行了实验分析,并在 VOC 07 公测数据集的行人类别上验证了本文算法的有效性。 3 井下行人检测方案的设计 本文设计的井下行人检测方案如图 1 所示,采用文 献[18]中近似联合优化(Approximate Joint Optimization) 机制实现模型的端到端的训练。选取井下行人数据集 作为训练样本,将数据输入到网络中,图片缩放到 600× 1 000 送入特征提取网络生成特征图,将输出的特征图 送入 RPN 网络生成候选区域,再将提取的候选区域的 特征经 RoI Pooling 层[18,24]处理为固定大小的特征向量, 送入后面的全连接层实现分类与范围框的回归。整个 CNN 特征图 RPN 网络 候选区域 图片 RoI Pooling 图 1 井下行人检测方案 分类损失 范围框损失 分类损失 范围框损失 计算机工程与应用www.ceaj.org
202 2019,55(4) Computer Engineering and Applications 计算机工程与应用 方案是一个端到端的结构,一个网络,四个 loss。这样 的方案设计是一种多任务学习策略,有助于提高模型的 准确度[25]。 3.1 Faster RCNN 简介 Faster RCNN 目标检测网络分为两步,首先定位目 标,然后对目标的具体类别进行分类。输入一张图片, 首先利用特征提取网络经过一系列的卷积、池化操作提 取图像的特征图(Feature Map);RPN 网络在特征图上 定位候选目标,使用 softmax 分类器来判别候选目标属 于前景还是背景,同时利用范围框回归器修正候选目标 的位置,最终生成候选目标区域。分类网络利用特征图 和 RPN 网络生成的候选区域实现目标类别的检测,在 本文中即实现行人的检测,判别候选区域属于行人还是 背景。 3.2 特征提取网络 选择 VGG16 作为本文的特征提取网络,其是由牛 津大学计算机视觉组和谷歌研究院一起研发的深度卷 积神经网络,在 2014 年 ILSVRC 比赛中图像分类和目标 定位分别获得第二和第一的成绩。整个网络通过堆叠 相同尺寸的卷积核(3×3)和池化层(1×1)来实现。本文 选取 VGG16 提取输入图片的特征,去掉了原网络中的 全连接层和最后一个池化层,具体的网络参数如表 1 所示。 表 1 VGG16 网络结构参数表 卷积核数量 卷积核大小/步长 输出 64 128 256 512 512 3 × 3/1 2 × 2/2 3 × 3/1 2 × 2/2 3 × 3/1 2 × 2/2 3 × 3/1 2 × 2/2 3 × 3/1 600 × 1 000 300 × 500 300 × 500 150 × 250 150 × 250 75 × 125 75 × 125 38 × 63 38 × 63 类型/层数 Convl_x/2 Maxpool Conv2_x/2 Maxpool Conv3_x/3 Maxpool Conv4_x/3 Maxpool Conv5_x/3 本文将 VGG16 网络中输出大小相同的卷积层归为 一部分,如表 1 中第 1 列所示,整个网络分为 5 组卷积 层,每一组分别包含 x 层,如 Conv5_x/3 表示第 5 部分共 包含 3 层卷积。从表中 1 可以发现,整个网络卷积核大 小均为 3×3。3×3 的卷积核是最小的能够提取特征的尺 寸。同时这样反复地堆叠小尺寸的卷积核,能够提升 CNN 对特征的学习能力。因此,选择 VGG16 作为本文 井下行人检测的特征提取网络。表中第 2、3、4 列分别 表示卷积核数量、卷积核大小/步长、每一层对应的特征 图输出大小。 3.3 金字塔 RPN 结构 RPN 网络输入特征提取网络生成的特征图,输出目 标候选区域矩形框集合。原始的 RPN 网络结构通过在 输出的特征图上利用滑动窗口通过 3×3 的卷积直接实 现候选区域的提取,送入网络后续部分进一步实现前景 背景的分类和候选区域位置框的回归。在特征提取网 络输出的最后一层特征图上经过 3×3 卷积之后每一个 像素点映射回原始图片对应的坐标点,以该点为中心生 成 3 种比例 1∶1/1∶2/2∶1,3 种尺度 128/256/512,共 9 种不 同大小的粗粒度的候选区域,即“anchor”。如图 2、图 3 所示。 范围框损失 RPN 分类损失 9 anchor 框 特征图 3×3 候选区域 图 2 原始 RPN 网络结构 坐标 回归层 中间层 得分 分类层 512-维 滑动窗 卷积层特征图 图 3 anchor 生成示意图 井下行人的数据来源于井下监控摄像头,监控视频 中行人通常离摄像头位置较远,因此图片中行人的尺寸 普遍偏小。为了使模型对小目标更加敏感,将 anchor 的 scale 修改为 64/128/256,比例保持不变,生成 9 种不同的 候选区域。 井下行人在经过摄像头过程中,由远到近会呈现出 不同尺度变化,为了提高网络对多尺度目标的检测能 力,本文提出了一种金字塔 RPN 结构。原始的 RPN 网 络利用 VGG16 卷积层 Conv5_3 输出的最后一层特征图 生成候选区域,经过 3×3 滑窗后每一个像素点的感受野 是 228×228。不能仅通过一种感受野来生成候选区域, 不同尺度的目标可以使用不同大小的感受野来获得更 好的候选区域。本文提出了在最后一层特征图上使用 3 种不同大小的滑动窗来生成候选区域,分别通过 1×1、 3×3、5×5 卷积实现,如图 3 所示,将这种 RPN 结构,命名 为“金字塔 RPN”。 感 受 野 [26]是 卷 积 神 经 网 络 的 每 一 层 输 出 的 特 征 图 上 像 素 点 在 原 图 像 上 映 射 的 区 域 大 小 。 Fisher 和 Valdlen[26]使用扩张卷积(Dilated Convolution)聚合多尺 度的上下文信息提高了图像分割的准确率,其中扩张卷 积的作用主要是在不损失图片信息的情况下增大感受 野。卷积神经网络从 2012 年的 7 层 LeNet[5]到发展到 2015 年 152 层的残差网络[27],使图像分类和检测性能大 幅提升,一方面得益于网络结构的设计以及深度网络提 计算机工程与应用www.ceaj.org
李伟山,等:改进的 Faster RCNN 煤矿井下行人检测算法 2019,55(4) 203 取到更加鲁棒的特征,另一方面网络越深导致感受野也 越大。受上述相关工作的启发以及检测问题中存在多 尺度问题,RPN 网络可以使用感受野不同的特征图来定 位不同尺度的目标(即生成目标的候选区域),因此提出 了一种利用三种不同大小的卷积核的金字塔 RPN 结 构,如图 4 所示。这样的结构设计对目标的多尺度可以 更加鲁棒,从而提高整个模型的检测能力。 1×1 Conv5_3 特征图 3×3 特征融合 候选区域 5×5 图 4 “金字塔 RPN”网络结构 RPN 分类 损失 范围框 损失 3.4 特征融合 原始的 Faster RCNN 中,RPN 网络生成的候选区域 通过坐标映射到特征提取网络的最后一层特征图上,得 到候选区域的特征图,经 RoI Pooling 层生成固定大小 的特征图,送入网络后续部分实现目标的分类和区域框 的回归,只利用了网络最深层的特征。卷积神经网络中 深层的特征具有较强的语义特征,感受野也较大,是一 种全局信息,粗粒度的特征;浅层的特征拥有更强的细 节信息,是一种局部信息,细粒度的特征。 图像语义分割任务是一种基于像素点的预测,需要 对 每 一 个 目 标 进 行 分 类 并 从 背 景 图 片 中 分 离 出 来 。 FCN[28]使用跨层连接(Skip Architecture)结构将全局信 息和局部信息、粗粒度和细粒度特征相结合来改善预测 的准确率,具体的操作就是将卷积神经网络不同层输出 的特征图对应的像素相加。PSPnet[29]利用来自四个不 同池化层的特征图,将全局和局部、不同层级的信息相 结合,提高了区别不同目标类别的能力。这类结合特征 信息的方式统称为“特征融合”,将不同卷积神经网络中 不同层输出的特征图以不同的方式进行了组合。 井下数据集中行人较模糊,且行人之间会出现遮 挡。受图像分割[25-26,28-29]中将不同层输出的特征图进行 融合来提高模型的检测能力以及曹洁等人[23,30]利用特征 融合实现人脸识别和人脸检测的启发,在煤矿井下行人 检测任务中,可以将不同卷积层输出的特征图进行融 合,来提高行人的检测性能。这里的特征融合使用的是 特征图的拼接(Feature Concatenation),具体的操作方 Conv4_3 特征图 Conv5_3 特征图 候选区域 式在下文中会论述。井下行人数据集图片中行人较模 糊,容易与背景相混叠,浅层的特征图包含一些局部信 息,可以帮助行人的准确定位,仅使用深度的特征会使 遮挡严重的行人漏检或者检测的位置不准。具体的实 现过程如下:将候选区域映射到特征提取网络 Conv5_3 层和 Conv4_3 层生成的特征图中,得到候选区域位于这 两层上的特征图,经 RoI Pooling 和 L2 正则化得到固定 大小的特征向量,送入后续的全连接层实现行人的检测 与范围框的回归。值得注意的一点是,如果去掉 L2 正 则化,在实验过程中会导致网络过拟合。具体的细节如 图 5 所示。 如图 5 中所示,这里特征融合使用的方法是拼接, 将输入的特征图在指定维度进行堆叠。例如:输入两组 大小为 (N,C,H,W) 的数据,输出的数据为 (N,2C,H, W) 。其中 N 表示图片数量,C 表示通道数,H 和 W 分别表示特征图或者图片的高和宽。不足的是,特征融 合会增加整个网络的运算量。特征融合将不同卷积层 输出的特征图堆叠送入全连接层,因此网络的运算量主 要增加在了与全连接层相连接的部分。RoI 池化层在卷 积层输出的特征图上进行池化操作,输出大小为 7×7 的 特征图。由图 5 可知,RoI Pooling 4 和 5 分别输出 512 张 7×7 的特征图,经特征融合后为 1 024 张 7×7 特征图送 入全连接层,全连接层包含 4 096 个神经元,因此特征融 合后全连接层共包含 4 096×1 024×7×7=205 520 896,约 2 000 万个参数。原始的 Faster RCNN 中 RoI Pooling 仅在最后一层卷积层输出的特征图上进行池化操作 并 送入全连接层,此时全连接层包含 4 096×512×7×7= 102 760 448,约 1 000 万个参数。特征融合后的结构较 原始结构增加了约 1 000 万个参数,因此在训练过程中 会更加耗时,测试时检测速度会有所降低。 4 实验分析与结果 本文在井下行人检测数据集上评估了上述结构,以 验证本文算法性能。并在 VOC 07 公测数据集上对改 进的 Faster RCNN 煤矿井下行人检测算法进行了评估。 4.1 数据集 本文煤矿井下数据集来自于某煤业井下监控视频, 整个数据集共包含 23 210 张图片,图片大小均为 1 280× 720,选择 11 605 张图片作为训练集,11 605 张图片作为 RoI Pooling 5 RoI Pooling 4 L2 正则化 L2 正则化 图 5 不同层级特征融合结构 特征融合 全连接层 分类 范围框 计算机工程与应用www.ceaj.org
204 2019,55(4) Computer Engineering and Applications 计算机工程与应用 测试集。每张图片中行人个数从 1~20 人不等,包含各 种尺度。 4.2 模型训练 网 络 实 现 部 分 本 文 选 择 主 流 的 深 度 学 习 框 架 [31] caffe(https://github.com/BVLC/caffe)作为实验平台。按 照目前基于深度学习的目标检测方法的标准惯用策 略[7-8,10-11,30],选择在 ImageNet 分类[17,32]任务上预训练好的 模型初始化训练网络。将 ImageNet 分类预训练所得到 的 VGG16 卷积神经网络来初始化特征提取网络卷积层 的权重。整个网络的训练过程使用 SGD 反向传播优 化 整个网络模型。学习率为 0.001,momentum 为 0.9, weight_decay 为 0.000 5,每 5 万次迭代衰减一次学习率, 衰减因子为 0.1,共进行 8 万次的迭代。实验所用设备为 ubuntu15.04,GeForce GTX 1070。 4.3 井下行人检测数据集结果及分析 最终本文提出的改进的 Faster RCNN 模型在井下 行人检测数据集上取得了 90%的平均检测准确率 AP。 训练的 loss 曲线如图 6 所示,网络的 P-R 曲线如图 7 所示。 2.0 1.5 1.0 s s o L 0.5 0 1 2 4 3 5 Iteration/104 图 6 Loss 曲线 6 7 8 集,训练样本包含 1 万多张图片,整个训练样本中包含 约 3 万个标记的行人;(2)Faster RCNN 利用 PRN 生成 行人候选区域,后续网络再对后续区域进行分类的这种 基于区域检测的优良结构;(3)针对不同尺度的矿井下 行人,本文提出来的“金字塔”RPN 网络结构,对不同尺 度的行人生成候选区域;(4)针对图片中行人存在的模 糊问题,使用了特征融合的方式作为候选区域的特征进 行分类与范围框的回归。最终本文的改进算法取得了 上述的检测结果。 4.4 检测结果展示 图 8 中左侧图片是改进的 Faster RCNN 煤矿井下 行人检测算法在测试数据集上的检测效果。从图中可 以观察到改进算法能够很好地检测出行人,并非常准确 地标记出具体的位置。为了验证改进算法的先进性,将 井下数据集在 YOLO 目标检测算法 [10]上训练得到了一 个基于 YOLO 的井下行人检测模型。YOLO 也是基于 深度学习的通用目标检测框架,使用回归的方式直接进 行目标的预测。在测试集上选取了 4 张具有代表性的 图片,分别利用改进的 Faster RCNN 和 YOLO 算法进行 检测,检测结果如图 8 所示。左侧图片是利用改进的算 法获得的检测结果;右侧图片是利用 YOLO 获得的检测 结果。由图 8 可得,在前两张图片中,两种算法的检测 性能相当,都准确地检测出图片中所有的行人;第 3 张 图片当行人出现遮挡情况下,改进 Faster RCNN 仍能准 确地检测出行人,而 YOLO 出现了漏检;第 4 张图片上 包含了两个小尺度的行人,改进的 Faster RCNN 准确地 检测出两个行人,YOLO 出现了漏检且位置不够精确。 从图 8 可以直观地看出,在行人被遮挡、小目标的行人 数据上改进的 Faster RCNN 算法性能优于 YOLO。 n o i s i c e r P 1.00 0.98 0.96 0.94 0.92 0.90 0.88 0.86 0.84 0.82 0 0.2 0.4 0.6 0.8 1.0 Recall 图 7 P-R 曲线 由图 6 中可以看出,经过 8 万次迭代本文的模型达 到了收敛。本文算法在井下行人测试数据集获得了 90%的平均检测准确率 AP,P-R 曲线如图 7 所示。通过 分析,改进的 Faster RCNN 算法在煤矿井下数据集能获 得 90%的检测准确率,主要原因:(1)大量的训练数据 图 8 改进的 Faster RCNN 与 YOLO 在井下行人 测试数据集上的检测结果 计算机工程与应用www.ceaj.org
李伟山,等:改进的 Faster RCNN 煤矿井下行人检测算法 2019,55(4) 205 为了证明本文模型的鲁棒性,从百度图片中找了一 张煤矿井下的图片,该图片与井下行人数据集分布不同 且是彩色图片。利用改进的 Faster RCNN 和 YOLO 井 下行人检测模型分别对该图片进行检测,实验结果如 图 9 所示。YOLO 检测结果出现了错判(图 9 右侧),改 进的 Faster RCNN 准确地检测出图中的行人,这充分说 明改进的 Faster RCNN 算法鲁棒性更好。 图 9 与井下数据集不同分布图片上检测结果 4.5 可视化特征图 可视化理解卷积神经网络已经超出了本文的研究 范畴,相关的研究工作可以参考 Zeiler 和 Fergus 可视化 卷积神经网络的研究工作[33],其分析了卷积神经网络的 每一层学习到了什么样的特征。这里对本文中使用的 算法网络中间层输出的特征图进行了可视化,结果如 图 10 所示。 图 10 是可视化了网络中不同层输出的特征图,每 一层都会输出大量的特征图,这里只挑选了部分图片来 展示。输入的图片如图(a)所示,图(b)是 Conv1_1 层输 出的特征图,图(c)是 Conv5_3 层输出的特征图,图(d) 是 RoI Pooling 层输出的特征图,图(e)是 RPN 分类层输 出的特征图。由表 1 可知 Conv1_1 层共有 64 个卷积核, 每一个卷积核输出一张大小为 600×1 000 的特征图,这 里只可视化了其中的 25 张特征图,如图(b)所示。同样 由表 1 可知 Conv5_3 层输出 512 张大小为 38×63 的特征 图,这里同样只可视化了其中的 25 张,如图(c)所示。 观察图(b)、(c)、(d)可以发现每一张特征图都不相同, 这是因为卷积神经网络不同的卷积核会提取到不同的 特征。观察图(b)中的特征图,用肉眼能够看出所提取 的特征,可以理解这些特征的意义;但是观察图(c)中的 特征图,已经无法用肉眼解释这些特征的意思。这是因 为卷积神经网络中浅层会提取一些低级特征,而深层提 取的是图像中的高级语义特征。更多该方面的研究可 以参考前文提到的 Zelier 和 Fergus 的工作。由图(a)可 知输入的图片中共有 3 人,观察图(e)可以发现每一幅 特征图中白色激活部分映射到图(a)中恰好是图片每 一个行人的位置,由此可以发现 RPN 网络可以非常准 确地定位行人的位置,图片中的其他信息都被判为了 背景。 (a)输入的原始图片 (b)Conv1_1 层输出的特征图 (c)Conv5_3 层输出的特征图 (d)RoI Pooling 层输出的特征图 (e)RPN 分类层输出的特征图 图 10 卷积神经网络中不同层输出的特征图 4.6 VOC 07 数据集上的实验 为了验证本文改进算法的有效性,进一步在公测数 据集 VOC 07 上进行了验证。VOC 07 数据集共包括 9 963 张图片,20 个类别,共标注了 24 640 个目标,尺寸 基本为 375×500 的自然场景下的图片。模型训练的参数 设置、实验平台与 4.2 节相同,本文复现了原始的 Faster RCNN 结构;分别实现了 3.3 节所述的改进的“金字塔 RPN”结构和3.4节所述的特征融合。不同模型在VOC 07 上的检测结果如表 2 所示。 观察表 2 中第 2、3 列数据,“金字塔 RPN 网络”较原 计算机工程与应用www.ceaj.org
206 2019,55(4) Computer Engineering and Applications 计算机工程与应用 始算法在 VOC 07 数据集上总的平均检测性能仅提高 了约 0.7%,性能提升不明显。值得注意的是,瓶子的检 测性能降低了 5%,而椅子的性能竟然提高了 15%,其他 类别的目标性能基本保持不变或小幅提升。针对这一 现象,对 VOC 07 数据集中瓶子和椅子两个类别的数 据进行了分析。VOC 07 数据集中包含瓶子的图片共 502 张,其中 244 张图片被用来训练,标注的数据中有 大量的瓶子尺寸较小;VOC 07 椅子类别的数据共包含 1 117 张,其中 445 张图片共包含了 798 个目标被用来训 练,尺寸普遍较大且通常有不同尺度遮挡,因为数据集 中椅子上会坐有人或者摆放着其他物品等。经过分析 认为:“金字塔 RPN 结构”使用三种不同尺度的卷积核 来定位目标,5×5 的卷积核在原始图片上感受野太大, 瓶子的尺寸较小,可以划分为小目标检测,太大的感受 野会损害小目标的检测性能;数据集椅子尺度较大且 尺度不一,“金字塔 RPN 结构”中 5×5 卷积核可以帮助 定位尺寸较大的目标,三种尺度的卷积核对不同尺度 的目标更加鲁棒,因此“金字塔 RPN”检测椅子的性能 较原始算法大幅提高。分析表 2 中第 4 列,特征融合利 用了图片的浅层特征和深层高级语义特征,浅层特征 可以利用一些细节信息帮助目标的定位,不同幅度地 提高了 VOC 07 数据集上各个类别的检测性能。表 2 中第 5 列数据是将“金字塔 RPN”和特征融合结合后在 VOC 07 数据集上的检测结果。 表 2 不同模型 VOC 07 数据上的检测结果 % Faster RCNN+ 金字塔 RPN+ Faster RCNN+ Faster RCNN+ 本文的研究主要针对井下行人检测,因此特别关注 改进的 Faster RCNN 算法在 VOC 07 人类别数据上的 检测结果。本文绘制了改进算法在 VOC 07 人类别上 的 P-R 曲线,如图 11 所示。同时 VOC 07 人类别的数据 与井下的数据集分布不同,都是全高清彩色的图片,涵 盖了各类姿态的人,包括大尺度人脸、行人等,而井下的 数据只包含行人。 1.0 0.9 0.8 0.7 0.6 0.5 0.4 n o i s i c e r P Faster RCNN Faster RCNN+金字塔 RPN Faster RCNN+特征融合 Faster RCNN+金字塔 RPN+特征融合 0 0.1 0.2 0.3 0.4 0.5 Recall 0.6 0.7 0.8 0.9 图 11 不同模型在 VOC 07 人类别上 P-R 曲线图 整个 VOC 07 数据集中有 4 192 张图片包含人,其 中 2 096 张用于训练,2 096 张用于测试。由表 2 和图 11 可以得到,本文的改进算法是有效的,在自然场景下改 进算法将原始的 Faster RCNN 性能提升了约 3%,性能 优于原始算法。同时也证明了改进算法也适用于自然 场景下的行人检测。 5 结论与展望 本文以 Faster RCNN 为基础,提出了一种改进的 Faster RCNN 煤矿井下行人检测算法。井下行人尺寸 偏小,首先对 anchor 的大小进行了调整;进一步对 RPN 网络结构进行了改进,提出了一种“金字塔 RPN”网络结 构;最后利用特征融合技术,将底层特征和高层语义特 征进行融合来共同实现目标的分类。最终在井下行人 检测数据集上获得了 90%的检测准确率,并在 VOC 07 行人类别数据上对本文的算法进行了验证。下一步研 究方向包括井下行人姿态检测,工业视频的智能化应 用,这将有助于煤矿安全管理和智慧煤矿的发展。 参考文献: [1] Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//Proc IEEE Conf Comput Vis Pattern Recognit,2005:886-893. [2] Mita T,Kaneko T,Hori O.Joint Haar- like features for face detection[C]//10th IEEE International Conference on Computer Vision,2005:1619-1626. [3] Ahonen T,Hadid A,Pietikäinen M.Face recognition with local binary patterns[C]//European Conference on Com- 特征融合 70.88 79.69 69.02 57.43 55.38 79.51 81.27 86.30 66.72 77.07 66.74 81.37 82.26 74.96 79.76 41.85 70.02 65.96 76.71 73.03 71.80 模型 飞机 自行车 鸟 轮船 瓶子 公交车 小轿车 猫 椅子 奶牛 桌子 狗 马 山地车 人 植物 绵羊 沙发 火车 电视机 平均值 Faster RCNN 金字塔 RPN 特征融合 66.17 78.13 67.83 56.25 50.54 75.94 79.65 86.96 49.30 75.77 64.36 81.05 80.18 72.59 76.84 41.76 67.14 64.83 74.85 71.31 69.10 68.83 78.41 68.64 56.75 45.71 78.15 79.90 83.74 64.16 74.16 64.16 79.26 80.58 74.80 77.85 41.43 67.98 64.49 74.86 71.68 69.77 69.43 79.86 69.97 58.37 59.79 76.63 80.04 87.74 52.07 77.49 65.32 82.57 81.09 76.55 78.68 41.63 69.25 65.03 76.98 73.65 71.16 计算机工程与应用www.ceaj.org
李伟山,等:改进的 Faster RCNN 煤矿井下行人检测算法 2019,55(4) 207 puter Vision.Berlin,Heidelberg:Springer,2004:469-481. [4] Dollár P,Tu Z,Perona P,et al.Integral channel features[C]// British Machine Vision Conference,London,Sep 7-10,2009. [5] Krizhevsky A,Sutskever I,Hinton G E.Imagenet classifi- cation with deep convolutional neural networks[C]//Inter- national Conference on Neural Information Processing Systems,2012:1097-1105. [6] Lecun Y,Boser B,Denker J S,et al.Backpropagation applied to handwritten zip code recognition[J].Neural Com- putation,2014,1(4):541-551. [7] Li Y,He K,Sun J.R- FCN:object detection via region- based fully convolutional networks[C]//Advances in Neu- ral Information Processing Systems,2016:379-387. [8] 曹诗雨,刘跃虎,李辛昭 . 基于 Fast R-CNN 的车辆目标检 测[J]. 中国图象图形学报,2017,22(5):671-677. [9] 闫喜亮,王黎明 .卷积深度神经网络的手写汉字识别系统[J]. 计算机工程与应用,2017,53(10):246-250. [10] Redmon J,Divvala S,Girshick R,et al.You only look once:unified,real- time object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pat- tern Recognition,2016:779-788. [11] Liu W,Anguelov D,Erhan D,et al.SSD:single shot mul- tibox detector[C]//European Conference on Computer Vision.Cham:Springer,2016:21-37. [12] 熊丽婷,张青苗,沈克永 . 基于搜索区域条件概率 CNN 的 精确目标探测方法[J]. 计算机工程与应用,2017,53(20): 134-140. [13] 杜玉龙,李建增,张岩,等 . 基于深度交叉 CNN 和免交互 GrabCut 的显著性检测[J]. 计算机工程与应用,2017,53 (3):32-40. [14] Li J,Liang X,Shen S M,et al.Scale- aware Fast R- CNN for pedestrian detection[J].IEEE Transactions on Multimedia,2018,20(4):985-996. [15] Everingham M,Gool L,Williams C K,et al.The Pas- cal visual object classes(VOC) challenge[J].International Journal of Computer Vision,2010,88(2):303-338. [16] Lin T Y,Maire M,Belongie S,et al.Microsoft COCO: common objects in context[C]//European Conference on Computer Vision.Cham:Springer,2014:740-755. [17] Russakovsky O,Deng J,Su H,et al.Imagenet large scale recognition challenge[J].International Journal of visual Computer Vision,2015,115(3):211-252. [18] Ren S,He K,Girshick R,et al.Faster R-CNN:towards real- time object detection with region proposal net- works[C]//Advances Information Processing Systems,2015:91-99. in Neural [19] Dollár P,Wojek C,Schiele B,et al.Pedestrian detection: an evaluation of the state of the art[J].IEEE Transac- tions on Pattern Analysis & Machine Intelligence,2012, 34(4):743-761. [20] Benenson R,Omran M,Hosang J,et al.Ten years of pedestrian detection,what have we learned?[C]//European Conference on Computer Vision.Cham:Springer,2014: 613-627. [21] Hosang J,Omran M,Benenson R,et al.Taking a deeper look at pedestrians[C]//Proceedings of the IEEE Confer- ence on Computer Vision and Pattern Recognition,2015: 4073-4082. [22] 宋焕生,张向清,郑宝峰,严腾 . 基于深度学习方法的复杂 场 景 下 车 辆 目 标 检 测 [J/OL].[2017- 03- 31].http://www. arocmag.com/article/02-2018-04-004.html. [23] Sun X,Wu P,Hoi S C H.Face detection using deep learning:an improved Faster RCNN approach[J].arXiv: 1701.08289,2017. [24] He K,Zhang X,Ren S,et al.Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intel- ligence,2015,37(9):1904. [25] He K,Gkioxari G,Dollár P,et al.Mask RCNN[J].arXiv: 1703.06870,2017. [26] Yu F,Koltun V.Multi-scale context aggregation by dilated convolutions[J].arXiv:1511.07122,2015. [27] He K,Zhang X,Ren S,et al.Identity mappings in deep residual networks[C]//European Conference on Computer Vision.Springer International Publishing,2016:630-645. [28] Long J,Shelhamer E,Darrell T.Fully convolutional net- works for semantic segmentation[C]//IEEE Conference on Computer Vision and Pattern Recognition,Boston, 2015:3431-3440. [29] Zhao H,Shi J,Qi X,et al.Pyramid scene parsing net- work[C]//IEEE Conference on Computer Vision and Pat- tern Recognition,Hawaii,2017:2881-2890. [30] 王娇娇,刘政怡,李辉 . 特征融合与 objectness 加强的显著 目标检测[J]. 计算机工程与应用,2017,53(2):195-200. [31] Jia Y,Shelhamer E,Donahue J,et al.CAFFE:convolu- tional architecture for fast feature embedding[C]//ACM International Conference on Multi-Media,2014:675-678. [32] 桑军,郭沛,项志立,等 .Faster-RCNN 的车型识别分析[J]. 重庆大学学报(自然科学版),2017,40(7):32-36. [33] Zeiler M D,Fergus R.Visualizing and understanding convolutional networks[C]//European Conference on Com- International Publishing,2014: puter Vision.Springer 818-833. 计算机工程与应用www.ceaj.org
分享到:
收藏