logo资料库

论文研究-基于深度卷积神经网络的行人检测.pdf

第1页 / 共5页
第2页 / 共5页
第3页 / 共5页
第4页 / 共5页
第5页 / 共5页
资料共5页,全文预览结束
162 2016,52(13) Computer Engineering and Applications 计算机工程与应用 基于深度卷积神经网络的行人检测 芮 挺 1,费建超 1,周 遊 2,方虎生 1,朱经纬 1 RUI Ting1, FEI Jianchao1, ZHOU You2, FANG Husheng1, ZHU jingwei1 1.解放军理工大学 野战工程学院,南京 210007 2.江苏经贸职业技术学院,南京 210007 1.College of Field Engineering, PLA University of Science & Technology, Nanjing 210007, China 2.Jiangsu Institute of Commerce, Nanjing 210007, China RUI Ting, FEI Jianchao, ZHOU You, et al. Pedestrian detection based on deep convolutional neural network. Com- puter Engineering and Applications, 2016, 52(13):162-166. Abstract:Pedestrian detection remains an important task in the theory research and practical application of object detec- tion. Designing an efficient describing method to extract the pedestrian features and applying classifier to realize dichotomy is a popular way in the area of pedestrian detection at present. Deep convolutional neural network has made great success on image and audio, which is the important component of deep learning. Artificial designed methods of feature extracting have an imperfect description of pedestrian in the complex background. To solve this problem, a method based on deep convolutional neural network with multi-layers is proposed. This paper analyzes the influence to the detection accuracy of the number of layer, the size of convolution kernel and the dimension of features, which provides an reference to optimize the related parameter. The experiment results show that the proposed method is a feasible way to detect pedestrian and per- form an higher accuracy compared with the traditional methods on the self-build dataset. Key words:pedestrian detection; deep learning; convolutional neural network; feature extracting 摘 要:行人检测一直是目标检测研究与应用中的热点。目前行人检测主要通过设计有效的特征提取方法建立对 行人特征的描述,然后利用分类器实现二分类。卷积神经网络作为深度学习的重要组成,在图像、语音等领域得到 了成功应用。针对人工设计的特征提取方法难以有效表达复杂环境下行人特征的问题,提出采用多层网络构建深 度卷积神经网络实现对行人检测的方法。系统分析了卷积神经网络层数、卷积核大小、特征维数等对识别效果的影 响,优化了网络参数。实验结果表明该方法对于行人检测具有很高的识别率,优于传统方法。 关键词:行人检测;深度学习;卷积神经网络;特征提取 文献标志码:A 中图分类号:TP139.41 doi:10.3778/j.issn.1002-8331.1502-0122 1 引言 随着模式识别和机器视觉的发展,目标检测技术得 到了广泛地应用。行人检测作为目标检测的一种,有着 重要的应用价值。然而,在自然环境中受背景的复杂 性、拍摄角度、人体姿态多样性等因素影响,使得行人检 测具有极大的挑战性。 目前行人检测技术主要基于统计分类的方法,将行 人检测转化成人与非人的二分类问题,包括特征提取和 分类学习两个部分 [1-7]。传统的行人检测需要人工设计 复杂的特征提取方法,这些方法在鲁棒性上有一定的局 限性。HOG 特征是目前公认的最具有泛化能力的特征 之一,但对于复杂背景和遮挡等情况下的行人检测效果 较差。将 HOG 特征和多种特征相融合是行人检测的另 一趋势,但复杂的高维特征运算大大降低了系统的实时性。 最近,深度学习成为机器学习领域的研究热点[8-12], 其概念由 Hinton[13]等人于 2006 年首先提出,通过自下而 基金项目:国家自然科学基金(No.61472444,No.61472392)。 作者简介:芮挺(1972—),男,博士,IEEE 高级会员,CCF 高级会员,副教授,主要从事机器学习、图像视频分析、模式识别研究; 费建超(1989—),男,硕士研究生,主要研究方向是机器视觉与模式识别,E-mail:feijianchao2010@163.com。 收稿日期:2015-02-10 修回日期:2015-07-15 文章编号:1002-8331(2016)13-0162-05 CNKI 网络优先出版:2015-08-19, http://www.cnki.net/kcms/detail/11.2127.TP.20150819.1600.006.html
芮 挺,费建超,周 遊,等:基于深度卷积神经网络的行人检测 2016,52(13) 163 上的方式逐层学习特征,最终获得特征的非线性表达。 深度学习通过深度结构模拟人脑,自动学习数据的本质 特征,避免了复杂的特征提取和数据重建过程。卷积神 经网络是深度学习模型的一种,它的权值共享结构使之 更类似于生物神经网络,大大减少了网络的参数,结合 局部连接和空间下采样,使得网络在图像分析中优势明 显,能够自动提取图像的纹理、颜色等特征,并具有一定 平移、缩放和扭曲不变性,提高了分类的鲁棒性。 在经典卷积神经网络的基础上,本文提出基于深度 卷积神经网络的行人检测方法,研究分析了网络深度、 卷积核大小等参数对检测结果的影响,并实验证明了深 度卷积神经网络对行人检测的有效性。 2 卷积神经网络结构与特点 卷积神经网络作为深度学习模型的一种,能够从数 据中自动学习并提取特征,其泛化能力显著优于传统方 法,已经成功应用于模式分类、物体检测和物体识别等 领域 [16-18]。卷积神经网络是一种多层的监督学习网络, 有输入层、隐含层(包括卷积层和下采样层)和输出层, 通过误差反传算法优化网络结构,求解未知参数,其网 络结构如图 1 所示。 输入 卷积层 下采样层 卷积层 下采样层 输出 图 1 卷积神经网络框架图 在卷积层,特征图(Feature Map)的每一个神经元 与前一层的局部感受野相连,经过卷积操作提取局部特 征。卷积层中有多个 Feature Map,每个 Feature Map 提 取一种特征,在提取特征时,同一个 Feature Map 的神经 元共享一组权值(即卷积核),不同的 Feature Map 权值 不同,从而提取不同的特征,在训练过程中不断地调整 权值参数,使特征提取朝着有利于分类的方向进行,卷 积操作示意图如图 2 所示。一般地,卷积层的计算公式 如式(1): = f ( å xl j xl - 1 i ´ k l ij + bl j ) (1) i Î M j 其中,l 代表层数,k 代表卷积核,M 输入层的感受野, j b 代表偏置。 k k 1 k k 4 7 k k k 2 5 8 k k k 3 6 9 卷积核 图 2 卷积操作示意图 在 下 采 样 层 中 ,输 入 的 Feature Map 经 过 池 化 (Pooling)后其个数不变,大小变为原来的 1/n(假设池 化尺寸为 n)。池化操作的主要作用是减小特征图的分 辨率,降低特征维数,同时在一定程度上增加网络对位 移、缩放、扭曲的鲁棒性。池化分为最大池化和平均池 化。下采样层的形式如式(2)所示: xl j = f (β l j down(xl - 1 j ) + bl j ) (2) 其中 down(×) 为池化函数,β 为权重系数。 3 行人检测卷积神经网络结构 卷 积 神 经 网 络 最 早 应 用 于 手 写 字 符 识 别 ,并 在 Mnist 样本集上得到了非常好的结果。其经典结构分为 5 层,包括 2 个卷积层,2 个下采样层,卷积核大小为 5×5。 直接将此经典网络模型用于测试行人检测样本集, 训练样本大小为 128×64,发现网络无法收敛,不能完成 行人检测。经过分析研究,其主要原因有以下几点: (1)Mnist 样本集图像内容相对单一,近乎于二值图 像,而行人检测样本集中行人姿态与图像背景十分复 杂,场景、光线不断变化,复杂的图像信息要求更深度的 网络结构来提取高层的特征表达,5 层结构已经无法完 成有效的特征提取。 (2)经典网络结构中卷积核大小为 5×5,对 Mnist 样 本 集 图 像 能 够 有 效 提 取 局 部 特 征 ,但 相 对 于 尺 寸 为 128×64 的图像来说,卷积核过小,卷积的结果无法包含 表达局部特征的有效信息。 (3)Mnist 样本集图像尺寸为 28×28,而行人检测样 本集图像尺寸为 128×64,图像尺寸增大导致隐含层输 出特征维数过高,分类器不能根据描述能力有限的高维 特征做出正确的分类。 经典卷积神经网络不能有效完成行人检测任务,网 络深度、卷积核大小、最终提取特征维数是影响结果的 主要因素。因此需要针对行人检测问题的具体特点,对 卷积神经网络的结构进行重新的设计。设计过程中重 点考虑了以下问题。 (1)卷积核的影响。卷积核是卷积神经网络模型中 最具特性的部分,可以理解为生物视觉中感受野的模型 化表示。它的性质直接决定了特征提取的好坏、网络收 敛的速度等。卷积核的大小决定了感受野的大小,感受 野过大,提取的特征超出卷积核的表达范围,而感受野 过小,则无法提取有效的局部特征。因此,卷积核大小 对整个网络的性能有着至关重要的影响。 图 3 列出了两种卷积核提取特征的结果,均取自网 络第二层的 Feature Map。显然,卷积核为 9×9 时特征 提取效果好,图 3(c)所示结果模糊,局部特征提取效果 较差。 (2)深度的影响。相比传统人工神经网络,卷积神 经网络具有更深层的结构框架。深度学习中最核心的
164 2016,52(13) Computer Engineering and Applications 计算机工程与应用 (a)样本集原图(128×64) (b)卷积核为 9×9 对应的特征图 (c)卷积核为 5×5 对应的特征图 图 3 不同卷积核特征提取可视化结果 内容之一就是“无监督特征学习”(Unsupervised Feature Learning),这种特征学习过程正是通过具有一定深度的 网络结构在逐层抽象中完成的。通过增加网络的层数, 其特征信息表达能力逐步增强,但层数过多也会致使网 络结构过于复杂,训练时间增加,易出现过拟合现象。 因此,选择合适的层数对提高网络训练效率和检测结果 有重要影响。 (3)分类器输入特征维数的影响。在卷积神经网络 中,训练过程采用 BP 训练策略,因此最后一层的分类器 本质上是 BP 分类器,输入维数的高低对最终结果也有 影响。同时,一个隐含层特征提取的好坏决定着网络的 总体性能,而隐含层输出的特征维数则是影响网络收敛 和收敛速度的一个重要因素,在有限样本集的情况下, 过高的特征维数会产生冗余,无法提取有效信息,过低 则无法完整表达特征。 基于上述分析,对行人检测卷积神经网络进行了重 新设计,并通过实验对上述思想及网络结构参数进行了 验证。最终确定深度卷积神经网络结构共分 7 层,卷积 核大小为 9×9,隐含层输出特征维数为 360 维左右。 4 实验及分析 4.1 训练与测试样本集 目前,在行人检测实验中,常用的样本集有 MIT 数 据库、INRIA 数据库和 Daimler 数据库等,MIT 数据库是 较 早 公 开 的 数 据 库 ,样 本 含 有 正 面 和 背 面 两 个 视 角 ; INRIA 数据库是目前使用最多的静态行人检测数据库, 背景复杂,拍摄条件多样,存在光线变化、人体遮挡等情 形;Daimler 数据库采用车载相机获取,样本更符合实际 情况。 考虑到样本的多样性(如不同场景、不同天气等), 使训练网络具有更强的适应能力,从上述三种公共数据 库中随机选择样本形成自建样本集,由于场景中的负样 本区域被检测的概率更高,但特征相对稳定,所以在实 验中正负样本比例设置为 1∶1,其成分组成如表 1 所示。 表 1 自建样本集成分组成 公共数据库 训练集 测试集 MIT 924 0 INRIA Daimler 686 641 1 900 559 总计 2 800 1 200 样本集中负样本大多数取自于 Daimler 数据库,因 其采用行车驾驶拍摄,更符合实际情况;训练集中正样 本包括所有 MIT 数据库样本和部分 INRIA 数据库样本, 测试集正样本全部取自 INRIA 数据库,且训练集和测试 集之间无相关性。所有样本都转化为灰度图像,大小为 128×64,部分样本集样本如图 4 所示。 (a)负样本 (b)正样本 图 4 部分样本集样本 4.2 深度网络结构设计 4.2.1 卷积核 将手写字符识别的经典卷积神经网络用于测试行 人样本集,网络无法收敛(如图 5(a),横坐标为 epoch 个 数,纵坐标为样本均方误差,下同)。调整上述网络卷积 核 n = 9 ,其他参数不变,在 epoch » 6 400 次时,网络开 始收敛(如图 5(b))。 差 误 方 均 本 样 0.45 0.40 0.35 0 差 误 方 均 本 样 1.0 0.5 0 2 4 2 4 epoch/104 (a)卷积核 n = 5 epoch/104 (b)卷积核 n = 9 图 5 5 层卷积神经网络均方误差曲线 将网络层数增加至 7 层,其他参数不变,卷积核取 n = 5(基于下采样层整除问题,将第三层卷积核大小微 调为 6×6,下同)和 n = 9 ,正确率分别为 89.9%和 97.1%, 后者错误率更低。 最后将卷积核 n 设为 5、7、11、15、17,网络结构均取 5 层,特征维数取 360 左右(由于结构原因,不一定能准 确取值,但以最小差值靠近 360,下同),实验结果如图 6 所示。 从图 6 可以看出,卷积核大小 n = 5n = 17 时,网络 无法收敛,卷积核过大或过小均不能有效提取特征信 息,致使网络不能完成行人检测;n = 7n = 9n = 11 开
芮 挺,费建超,周 遊,等:基于深度卷积神经网络的行人检测 2016,52(13) 165 0.5 0.4 0.3 0.2 0.1 0 15 10 5 0 差 误 方 均 本 样 3 - 0 1 / 差 误 方 均 本 样 卷积核为 5 卷积核为 7 卷积核为 9 卷积核为 11 卷积核为 15 卷积核为 17 0.5 1.0 1.5 2.0 2.5 3.0 epoch/104 (a)不同卷积核下训练收敛曲线 卷积核为 5 卷积核为 7 卷积核为 9 卷积核为 11 卷积核为 15 卷积核为 17 1.10 1.12 1.14 epoch/104 1.16 1.18 (b)不同卷积核下训练收敛曲线局部图 图 6 不同卷积核均方误差曲线比较 差 误 方 均 本 样 0.5 0.4 0.3 0.2 0.1 0 3 - 0 1 / 差 误 方 均 本 样 10 5 0 3 层 4 层 5 层 6 层 7 层 8 层 0.5 1.0 1.5 2.0 2.5 3.0 epoch/104 (a)不同深度层训练收敛曲线 3 层 4 层 5 层 6 层 7 层 8 层 0.94 0.96 0.98 epoch/104 1.00 1.02 (b)不同深度层训练收敛曲线局部图 图 7 不同层数均方误差曲线图 始收敛的时间差异不大,n = 15 收敛较晚;经过充分训 练,n = 9 时完全收敛时间最早,且误差曲线最稳定,均 方误差最小,各结构识别率如表 2 所示。 n = 9 时识别率 最高,进一步说明卷积核为 9×9 时更能够对自建样本集 进行特征提取。 表 2 不同卷积核网络识别率 卷积核 n 识别率/% 5 7 9 11 15 17 53.4 97.0 98.1 97.2 90.5 48.6 4.2.2 网络层数 基于上小节结论,本小节实验卷积核取 9,将网络层 数分别设为 3、4、5、6、7、8(由于卷积核和样本大小限制, 8 层结构卷积核取 5),特征维数均取 360 左右,识别率如 表 3 所示。 表 3 不同层数网络识别率 层数 3 4 5 6 7 识别率/% 53.4 96.9 98.1 99.0 99.8 均方误差曲线如图 7 所示。 网络层数为 3 时,未能收敛,无法有效提取能用于 分类的特征;4 层结构虽能收敛,但收敛时间较长,需要 更多轮次的训练才能逐步学习到有效特征;8 层结构由 于训练参数较多、结构复杂,在训练集有限的情况下,收 敛速度同样较长;5、6、7 层均能较快地开始收敛,但 7 层 结构误差曲线趋于稳定的时间明显短于其他结构,且识 别率最高,综合考虑,7 层结构能够在保证收敛速度的同 时识别率最高,为最优结构。 为了增加实验的完整性和说服力,将层数为 8 的网 络用不同卷积核进行大量实验,实验结果显示,最好识 别率为 98.1%,低于 7 层结构,进一步证明了上述结论。 目前,对于不同的样本集,网络最优层数没有一个定性 的标准,只能通过大量实验及分析来得到相对较好的层 数,输入样本的大小及其本身的复杂程度与网络的深度 有一定的相关性。 4.2.3 特征维数 采用卷积核为 9×9,层数为 7,不同隐含层输出特征 维数的深度卷积神经网络进行大量实验,部分均方误差 曲线与检测结果如图 8 所示。 差 误 方 均 本 样 0.5 0.4 0.3 0.2 0.1 0 维数为 54 维数为 90 维数为 180 维数为 270 维数为 360 维数为 540 维数为 1 000 0.5 1.0 1.5 2.0 2.5 3.0 epoch/104 图 8 不同特征维数的均方误差曲线 由图 8 可知,特征维数取 360 时,均方误差最小,稳 定性好,结合表 4 所示对应识别率,特征维数取 360 时, 网络表现最好。实验证明,特征维数过少或过多都会导 致网络不收敛,过少时不能进行充分特征描述,过多时 会产生过拟合现象。因此,在设计深度卷积神经网络时 应该根据样本特征的复杂度等因素调整特征维数,过高 或过低均不能产生理想分类效果。
166 2016,52(13) Computer Engineering and Applications 计算机工程与应用 表 4 不同维数的识别率 维数 54 90 识别率/% 97.1 98.0 180 99.1 270 99.1 360 99.7 540 98.8 1 000 53.4 4.3 实验结果及对比 经 4.2 节实验证明,卷积核取 9×9,网络层数为 7,特 征维数为 360 时,深度卷积神经网络对自建样本集能达 到最好效果,将本样本集运用传统方法进行行人检测, 结果对比如表 5 所示。 表 5 不同行人检测方法对比 方法 本文 CNN HOG+SVM HOG+daboost 识别率/% 99.7 96.7 95.5 上述对比结果进一步表明深度卷积神经网络能够 更好地提取行人特征并完成对行人的检测,与其他方法 相比,其正确率达到了非常高的水平。 5 结论 深度学习已成为机器学习领域新的研究热点,由于 其具有“无监督特征学习”能力,特别适合于工程领域的 实际应用。本文提出利用更具深度的卷积神经网络提 取复杂行人特征,完成行人检测,避免了复杂的人工特 征提取和数据重建过程。针对行人检测问题的特点进 行了理论分析,提出了网络结构设计的依据,通过大量 系统实验,详细说明了深度卷积神经网络主要结构参数 的选择及优化方法,对构建深度网络解决相关问题提供 了借鉴与参考。最后,实验证明,提出的卷积神经网络 结构对于行人检测具有很好的表现,准确率高达 99.7%, 证明了此方法的可行性和优越性。 参考文献: [1] Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//Proceedings of the 2005 IEEE Interna- tional Conference on Computer Vision and Pattern Rec- ognition.Washington,DC:IEEE Computer Society,2005, 1:886-893. in integrating heterogeneous local [2] Wu B,Nevatia R.Optimizing discrimination-efficiency tradeoff features for object detection[C]//Proceedings of the 2008 IEEE Inter- national Conference on Computer Vision and Pattern Recognition.Washington,DC:IEEE Computer Society, 2008:1-8. [3] Viola P,Jones M.Rapid object detection using a boosted cascade of simple features[C]//Proceedings of CVPR2001, Kauai,HI,USA,2001:511-518. [4] Serre T,Wolf L,Bileschi S,et al.Object recognition with cortex-like mechanisms[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2007,29(3):411-428. [5] Ye Q,Liang J,Jiao J.Pedestrian detection in video images via error correcting output code classification of mani- fold subclasses[J].IEEE Transactions on Intelligent Trans- portation Systems,2012,13(1):193-202. [6] Munder S,Gavrila D M.An experimental study on pedes- trian classification[J].IEEE Transactions on Pattern Anal- ysis and Machine Computer Vision,2006,28(11): 1863-1868. [7] Wu B,Nevatia R.Cluster boosted tree classifier for multi- view,multi-pose object detection[C]//Proceedings of the 11th IEEE International Conference on Computer Vision. Washington,DC:IEEE Computer Society,2007:1-8. [8] Bengio Y.Learning deep architectures for AI[J].Founda- tions and Trends in Machine Learning,2009,2(1):1-71. [9] Dahl G E,Yu D,Deng L,et al.Context-dependent pre- trained deep neural networks for large-vocabulary speech recognition[J].IEEE Trans on Audio Speech and Lan- guage Processing,2012,20(1):30-42. [10] Zhang C,Zhang Z.Improving multiview face detection with multi-task deep convolutional neural networks[C]// Proceddings of 2014 IEEE Winter Conference on Appli- ä cations of Computer Vision(WACV),2014:1036-1041. ngkvist M,Karlsson L,Loutfi A.A review of unsu- pervised feature learning and deep learning for time- series modeling[J].Pattern Recognition Letters,2014,42: 11-24. [11] L networks [12] Dahl G E,Sainath T N,Hinton G E.Improving deep neural linear units and dropout[C]//Proceedings of 2013 IEEE Inter- national Conference on Acoustics,Speech and Signal Processing(ICASSP),2013:8609-8613. for LVCSR using rectified [13] Hinton G E,Salakhutdinov R R.Reducing the dimen- sionality of data with neural networks[J].Science,2006, 313:504-507. [14] Hubel D H,Wiesel T N.Receptive fields of single neu- rones in the cat’s striate cortex[J].Journal of Physiology, 1959,148:574-591. [15] Fukushima K.A neural network model for selective atten- tion in visual pattern recognition[J].Biological Cybernetics, 1986,55(1):5-15. [16] Hariharan B,Arbeláez P,Girshick R,et al.Simultaneous detection and segmentation[C]//Proceedings of ECCV 2014.[S.l.]:Springer International Publishing,2014:297-312. [17] Sermanet P,Eigen D,Zhang X,et al.Overfeat:Integrated recognition,localization and detection using convolu- tional networks[C]//Proceedings of International Confer- ence on Learning Representation,2013. [18] Krizhevsky A,Sutskever I,Hinton G.Image net classifi- cation with deep convolutional neural networks[C]// Advances Information Processing Systems (NIPS 2012),2012:1106-1114. in Neural
分享到:
收藏