logo资料库

基于图像识别的候梯人数检测系统.pdf

第1页 / 共8页
第2页 / 共8页
第3页 / 共8页
第4页 / 共8页
第5页 / 共8页
第6页 / 共8页
第7页 / 共8页
第8页 / 共8页
资料共8页,全文预览结束
中国科技论文在线 http://www.paper.edu.cn 基于图像识别的候梯人数检测系统# 张宇洋,韩韬,刘满华** (上海交通大学电子信息与电气工程学院,上海市 200240) 10 5 摘要:候梯人数检测是提高电梯群控系统运送效率的关键,本文提出并设计了基于图像识别 的候梯人数检测系统。首先考虑候梯乘客的感受以及覆盖范围,摄像机安装高度约为 3.5m 至 5.5m。由于受光线,摄像机的安装角度、遮挡等因素影响,若选取人脸、肩膀等人体特 征作为识别目标,识别结果不能够正确的代表候梯人数的数量。本文提出以人体头部作为人 体目标设计图像识别算法、从而最终达到检测候梯乘客数量的目的。由于图像质量受光线、 遮挡等因素影响,本文采用基于 Mean Shift 的图像分割以及支持向量机 (SVM) 决策分类器 相结合的图像识别算法。上述方法在电梯群控的实际环境下采集的图像进行验证,实验结果 证明,针对电梯候梯人数图像采集的特殊性,该系统具有速度快,准确率高的特点,使电梯 群控系统能够获得一个稳定可靠的输入参数,从而提高电梯群的运送效率。 关键词:候梯人数检测;图像识别;Mean Shift 图像分割;SVM 决策分类 中图分类号:TP391 15 Elevator-Waiting People Counting System Based on Image Recognition Zhang Yuyang, Han Tao, Liu Manhua (School of Electronic Information and Electrical Engineering, Shanghai Jiao Tong University, Shang Hai 200240) Abstract: Counting the number of passengers waiting for the elevator plays an important role to improve the efficiency of the elevator-group-control system. In this paper, we propose and design an elevator-waiting people counting system which detects the number of passengers waiting outside of the elevator based on image recognition. Firstly, considering the feeling of passengers and the coverage of the captured image, the camera is installed in the height from 3.5m to 5.5m. Since the image is easily affected by the light, camera installation and shelter etc., the recognition results cannot indicate the correct number of passengers waiting for the elevator. This paper proposes an image recognition method based on head detection to detect the number of passengers waiting for the elevator. In this image recognition method, Mean Shift method is used for image segmentation and SVM (Support Vector Machine) classifier is used for head detection. The proposed method is evaluated on the images captured in the real elevator-group-control system. Experimental results show that the developed elevator-waiting people counting system has high accuracy and high speed which can improve the efficiency of the elevator-group-control system. Key words: People Counting, Computer Vision Detection, Mean Shift Image Segmentation, SVM classification 0 引言 在多电梯群控系统中,若能提前获知各层候梯人数,将若干电梯优先服务等候人数较多 的楼层,便可以提升电梯群的运送效率,缩短候梯时间。相比于轿厢称重等后验检测方法, 基于计算机视觉的人数检测方案更为准确和高效。但候梯人群心理和成本等因素限制了摄像 机选取和采集图像质量;建筑风格、候梯大厅的场景、光照变化的多样性,使图像背景相当 复杂与多变;电梯控制器计算能力和储存器等硬件限制了检测算法的复杂性,否则无法满足 候梯人数检测系统实时性的要求。 基金项目:教育部博士点基金(No.20090073120019) 作者简介:张宇洋(1987-),男,研究生,主要研究方向:机器视觉识别 通信联系人:刘满华(1975-),女,副教授,主要研究方向:图像处理与模式识别. E-mail: mhliu@sjtu.edu.cn 20 25 30 35 40 45 - 1 -
中国科技论文在线 http://www.paper.edu.cn 选择什么目标作为待识别模式是该检测方案中最重要的问题。传统的识别人脸然后计数 的方法,如基于启发式模型的镶嵌图(Mosaic Image)人脸检测[1]及改进的镶嵌法[2],由于候梯 乘客不会全部主动的正面面对摄像头,所以并不适用;以人体肩膀间隔作为待识别的模式达 到分割人群的效果,只适用于大门入口等场景人数检测[3]。要求目标人群排列成为平行的一 50 列,对随意站立的候梯人群同样不适用。在本应用中,考虑到单目俯视图像、候梯大厅的面 积和顶高、光照和复杂背景以及人流密集的情况下出现互相遮挡、粘连等问题,只能选择头 部轮廓、头顶颜色分布等特征。同时由于乘客服装、帽子的颜色可能存在与人体皮肤颜色发 色相近情况的,简单的彩色直方图模板匹配方法可能会引入不可控误差[4]。参考文献[5]提出 了在基于梯度信息的 Hough 变换的基础上,利用改进的椭圆间距测度和共圆置信度识别出 55 图像中所有真实人体头部并提取出每个人体头部区域的最优拟合轮廓,从而获得人体头部的 精确定位的方法。该方法利用灰度判决器和基于视知觉分组理论的共圆判决器去除大量的虚 假候选头部区域轮廓,具有一定的准确率,但在摄像机拍摄角度不能完全俯视时,头部的椭 圆形轮廓特征将没有那么明显,存在漏检的可能。同时,当背景或目标服装中有物体轮廓有 与头部轮廓相似时,会产生误检测。 60 在对可能成为头部目标的区域进行判决之前,必须通过一定的方法将可能为头部的目标 65 70 区域与背景分离开来。运动检测中的帧间差分法对光线变化不敏感,且检测速度快,常用于 目标的运动检测。但该方法一般不能完全提取出所有相关的特征像素点,对于复杂背景下的 运动目标检测效果堪忧;背景减法对于复杂背景下的运动目标的检测效果通常优于前者[3][6], 但对于光照和外来无关事件等干扰特别敏感,需要进行适当的改进。如基于卡尔曼滤波的自 适应背景模型和自适应的混合高斯背景模型能在一定程度上减少光照等对效果产生的影响; 利用图像分割的方法,如基于 graph cut 分割的轮廓检测方法[7],可对各目标的边界进行提取 并与背景准确的分割开来,同时再附加一个判决过程,如包涵图像的边缘的部分为背景,便 可以将背景去除。但由于该方法往往只能提取目标的整体轮廓,并不能将头部与目标与身体 其他部位分离出来,在多个目标有重叠情况发生时,往往会使后续检测过程有一定误差。 本文提出了基于 Mean Shift[8]的图像分割算法作为去除背景,提取目标的方法,将分割 后面积较大的区域作为背景区域去除,所有面积较小的区域均作为目标区域送入, 支持向量 机 SVM,Support Vector Machine)决策分类器中进行判决。由于 Mean Shift 分割算法既不会 像分水岭算法那样会有过度的过分割,也不会像类似于基于 graph cut 的分割法的轮廓提取 算法那样提取整个目标,多个目标可以被准确的分割开来,全部作为单个目标处理,避免了 75 多目标的判决统计的过程,达到了较好的候梯人数统计效果,系统框图如图 1 所示。 - 2 -
中国科技论文在线 http://www.paper.edu.cn 图 1 基于图像识别的候梯人数检测系统框图 Fig.1 The Diagram of Elevator-Waiting People Counting System Based on Image Recognition 80 1 图像采集 对于候梯人数检测系统使用的摄像机有如下需求:覆盖范围需要能够包括整个电梯的候 梯区域,且尽量避免遮挡等问题;尽可能考虑候梯乘客的感受,不使用较明显的大型枪体摄 像机,且摄像机在安装后有一定的隐蔽性;在能够保证检测精度的前提下,尽量控制摄像头的 85 成本。根据电梯生产厂商所提供的数据,候梯区域长宽应保证不小于 4m×3.5m,安装高度 约为 3.5m 至 5.5m。 为保证系统工作尽可能稳定可靠,设置视野范围 ROI(Region of Interest)为 4.5m×4.5m。 为了使 ROI 能够覆盖电梯门口,实际安装摄像机时倾角 θ 约等于 0,图 2 所示。针对这些需 求,本系统选择采用覆盖范围较大的半球型广角摄像机,安装于电梯门所在墙一侧,采用自 90 顶向下的拍摄角度。为折衷图像采集质量和摄像头成本,选择 1/3 英寸的 SONY CCD,有效 像素为 752(水平)*582(垂直)。由于采用 1/3 英寸 CCD(感光元件对角线长度 6mm, 582 个像素点在 CCD 中所占物理长度约为 3.67mm。为了能保证摄像头的有效视野范围能在 3.5m 至 5.5m 的可能安装高度中都能覆盖到完整的候梯人群,应选择焦距可调的摄像机,且 可调范围应涵盖 2.85mm 至 4.49mm。 95 图 2 摄像机视野范围 - 3 - 图像采集图像分割特征提取确定头部区域与非头部区域的样本是否建立分界面决策分类自动检测头部区域统计头部数量并输出是否为训练样本Wθ视野范围电梯感光元件WLHV
中国科技论文在线 http://www.paper.edu.cn 满足了上述需求的摄像机,采集过程也不可避免的产生了一些影响检测系统准确性的问 题,如部分图像的变形、人脸信息不完整,人脸姿态、方向的不确定等。这些都是本应用需 Fig.2 ROI (Region of Interest) of Camera 100 要克服的难点,成为了图像分割与决策分类时不得不考虑的因素之一。 2 图像分割 由于本文提出的人数统计的核心方法为图像分割配合决策分类从而实现对候梯人群的 头部进行识别,然而作为决策分类器的输入端,图像分割的准确率将直接影响到决策分类器 的准确率。为保证实时性,图像分割算法的执行速度也非常重要。 105 当 Mean Shift 算法运用于图像分割时,统一考虑图像的空间信息和色彩(或灰度等)信息, 组成一个 维的向量 ,其中 表示网格点的坐标, 表示该网格点上 p 维向 量特征,当图像为灰度图像时,p=1;彩色 RGB 图像时,p=3。分别用 和 ,i=1,…,n 表示 原始和分割后的图像。定义向量[9] (1) 110 其中,w(xi)为采样点 x 的权重,离 x 近的采样点 xi 有较大的权重,即离 x 越近的采样点 对估计 x 周围的统计特性越有效,反之亦然。 定义核函数 来估计 的分布, 具有如下形式, (2) 其中 为带宽,带宽的大小可以看作是分割分辨率,带宽越大,越多的图像细节就会被 115 忽略。C 是一个归一化常数。 用 Mean Shift 算法进行图像分割的具体步骤如下(对每一个像素点): 1.初始化 ,并且使 2.计算 3.把 赋给 120 4.如果 ,Mean Shift 过程结束, 记收敛后的值为 ;若不然,继续执行(1)。 5.赋值 6.收敛至同一点的起始点归为一类,合并像素点过少的类,融合局部像素,得到分割结果。 3 特征提取与决策分类 由于摄像机拍摄角度为自上而下,检测候梯人数最实际可行的方法便是检测头部的数 125 量。经过图像分割之后,得到一系列区域,利用基于机器学习的模式识别方法,可以建立一 个 SVM 决策分类器[10]。将这些区域分成两类,一类为是头部,一类为不是头部。 - 4 - 2p(,)srxxxsxrxixiz11()()()()niiiihniiixxKwxxhmxxxKwxh,srhhKx22,2srsrhhpsrsrCxxKkkhhhh,srhh1j,1iiyx()hmx()hmxx()hmxx,icy,,sriiiczxy
中国科技论文在线 3.1 特征提取 http://www.paper.edu.cn 一块分割后的图像区域可以由多种特征表示,包括颜色,边缘,纹理,形状和大小等特 征。其中,彩色直方图作为一种代表目标的色彩统计特征的非常有效的图像描述,能有效描 130 述区域物体的表面性质,在模式识别以及目标跟踪中应用非常广泛[11];在本应用中,将尽 可能地提取丰富的特征信息,然后通过设计非线性分类器进行图像区域识别。首先,由于头 发的颜色特征具有一定的判别能力,我们计算彩色直方图作为图像区域的颜色特征。另外, 图像区域的大小(所占像素点的个数)和形状(长轴长与短轴长的比值)也是描述物体的非常重 要的特征,本应用计算图像区域的大小以及形状、并与彩色直方图配合,来对图像区域进行 135 描述。 3.2 分界面的建立 由于样本属于两个类,一类为是头部区域,一类为非头部区域。设 n 维训练样本为 x1,x2, … ,xN ,其中训练样本各个维度的物理意义在本应用中即为图像中已知头部区域大小, 长轴长度,短轴长度,周长,形心,颜色等特征。根据参考文献[10],其中最优分类界面 H 为 d(x)=wTx-b=0。 140 给定训练样本集 其中 yi 为某个区域是否为头部的标志位,取值为 1 或 0,1 表示是头部区域,0 表示非 {(x1, y1),(x2, y2), …, (xN, yN)} (3) 头部区域。 设分类界面为平面 145 , (4) 通过训练所求的参数 λi( i =1,2, …, N )和 b 应满足 (5) 4 试验结果 150 为了测试本系统的有效性,我们设计两个实验验证提出的图像识别算法[12~17]。实验一是 验证基于 Mean Shift 的图像分割的效果。图 3 为分割实验结果的对比,图 3(c)为简单快速的 分水岭分割,由图可以看到,分水岭分割虽然简单、速度快,但会出现大量的过分割,会极 大程度的影响后续决策分类的准确性和处理时间;而图 3(d)所示的基于 Graph Cut 的分割结 果,虽然可以将目标与背景进行较好的分离,但并不能很好的将几个目标单独分割开来,同 155 时由于 4 个目标人物衣着颜色与部分地板颜色相近,被误以为一个目标被合并至到一起,需 要增加多个目标检测统计的环节,显得得不偿失。 图 3(b)为 Mean Shift 的图像分割结果,其中 hs=8,hr =9。该图像分割技术原理简单,计 算速度较快,通常能在一次分割后形成大量小的模态区域。这样将直接将分析层次从像素域 提升到特征域 ,从而使计算过程有更好的鲁棒性,且能更好的进行区域合并过程,最后以较少 160 的处理时间作为代价得到一个较为准确的分割结果,满足系统对图像分割部分实时性和准确 性的要求。 - 5 - 10NTiiiiyxxb0i1()1NTiiiiiyyxxb
中国科技论文在线 http://www.paper.edu.cn (a)原始图像 (b) Mean Shift 分割结果 165 (c) Watershed 分割结果 (d) Graph Cut 分割结果 图 3 原始图像与分割后图像对比 Fig.3 Comparison of the Original Image and the Image after Segmentation 实验二是验证所提取的各种图像特征对头部检测的有效性。通过选取不同特征作为 170 SVM 分类器的输入,在实际测试实验的平均准确率与均方差如表 1 所示,其中单次准确率 =(测试人数个数-实际人数个数)/实际人数个数。其中使用的训练样本为多个候梯厅、一段时 间内有电梯乘客使用电梯的约 1000 幅图片。 表 1 选取不同特征时的识别准确率 Table 1 Recognition Accuracy with Different Features 选用特征 平均准确率 均方差 RGB 直方图+大小+形状 82.49% 0.0245 RGB 直方图 83.77% 0.0207 RGB 直方图+大小 83.36% 0.0170 RGB 直方图+形状 79.36% 0.0262 a b 1 1 175 (a)基于彩色直方图特征 (b) 基于彩色直方图和区域 大小和形状特征 图 4 基于不同特征的头部识别结果图 180 Fig.4 Comparison of Head Detection for Different Features - 6 -
中国科技论文在线 http://www.paper.edu.cn 185 根据表 1 的实验数据,虽然彩色直方图特征在实际检测中起着决定性的作用,但加入 区域大小特征后,平均准确率与均方差指标均有所提高,整体误判率减小,稳定性也略有 提高。究其原因,由于候梯乘客站姿、面对方向、身高等都不尽相同,这样的拍摄角度下 在图片中头部头部呈现出的形状(长轴长与短轴长之比)没有很好的聚类特性,加入形状特 征不能提高整体检测效果,甚至有可能适得其反,在一定程度上影响分类器的分类效果[17], 如图 4(a)所示,由于 1 号目标的头部位置处于广角镜头畸变最严重的位置,受到非常严重 的变形,若加入形状信息作为特征,出现了漏检;而头部大小表现在图像中即为头部所占 的像素点个数,在这样的拍摄角度下不会有太大的浮动,且能与图像分割后的其他区域有 明显的区别,故加入大小特征后分类效果能有略微的提高,如图 4(b)所示。 190 实验结果的平均准确率均能保持在 80%以上,单次准确率最低不低于 70%。实验计算 机环境配置为 Intel(R) Core(TM)2 Duo CPU E7500, 1.96GB 内存,测试系统环境为 Windows Xp, 总体检测的平均时间 418.69 毫秒,标准差为 126.25 毫秒, 最大值为 773 毫秒, 最小值为 105 毫秒。实际 DSP 作为处理器的控制器中每次处理时间可以控制在 2 秒以内。 5 结束语 195 200 205 210 215 220 225 230 本文根据电梯群控系统的需求,提出了一种利用基于 Mean Shift 的图像分割与支持向 量机(SVM)决策分类器为核心的视觉检测技术获得候梯人数的新方法。针对候梯人群图像 采集角度、拍摄镜头的特殊性,通过分析计算对摄像机的选取提供了理论依据,同时采用 了基于 Mean Shift 的图像分割技术与 SVM 决策分类器相结合对候梯人群头部进行识别的方 法,得到了较为准确且快速的识别结果。实验数据表明,此检测方法准确可保持在 80%, 能够满足电梯群控系统对候梯人群统计的准确性以及实时性的要求,使今后该视觉检测系 统能够真正的被使用于电梯群控系统中成为了可能。 [参考文献] (References) [1] Yang G Z, Huang T S. Human face detection in a complex background[J]. Pattern Recognition, 1994, 27(1):53-63. [2] 卢春雨, 张长水, 闻芳等. 基于区域特征的快速人脸检测法[J]. 清华大学学报(自然科学版),1999,39(1): 101-105. [3] Yaowu Hu, Ping Zhou, Hao Zhou. A New Fast and Robust Method Based on Head Detection for People-Flow Counting System[J]. International Journal of Information Engineering, 2001,1:33-43. [4] Z. Zivkovic, B. Krose. An EM-Like Algorithm for Color-Histogram-Based Object Tracking[A]. Z. Zivkovic. IEEE Computer Society Conference on Computer Vision and Pattern Recognition[C]. USA: IEEE Computer Society, 2004. 798-803. [5] 于海滨. 基于头部特征提取的人体检测与跟踪及其应用[D]. 杭州:浙江大学, 2007. [6] Enwei ZHANG, Feng CHEN. A Fast and Robust People Counting Method in Video Surveillance[A]. Enwei ZHANG. International Conference on Computational Intelligence and Security[C]. USA: IEEE Computer Society, 2007. 339-343. [7] Yuri Boykov, Vladimir Kolmogorov. An Experimental Comparison of Min-Cut/Max-Flow Algorithms for Energy Minimization in Vision[J]. IEEE Transactions on PAMI, 2004, 26(9):1124-1137. [8] Y. Cheng. Mean shift, mode seeking, and clustering[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence 1995,17 (8):790-799. [9] Dorin Comaniciu, Peter Meer. Mean Shift: A Robust Approach toward Feature Space Analysis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(5):603-619. [10] 孙即祥. 现代模式识别[M]. 北京:现代教育出版社,2008. [11] M.J.Swain, D.H. Ballard, Color Indexing, International Journal of Computer Vision. 2002, 7(1):11-32. [12] J. CANNY. A Computational Approach to Edge Detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence. 1986, 8(6):679-698. [13] Akhil Khare, Kanchan Warke, Dr. Akhilesh Upadhayay. Segmentation and Counting of People through Collaborative Augmented Environment[J].Global Journal of Computer Science and Technology, 2011, 11:23. [14] Ye Qing. A robust method for counting people in complex indoor spaces[A]. Ye Qing. International Conference on Education Technology and Computer[C].USA: IEEE Computer Society, 2012. 450-454. [15] Hyun Hee Park, Hyung Gu Lee, Seung-In Noh, and Jaihie Kim. An Area-Based Decision Rule for People-Counting Systems[J]. Multimedia Content Representation, Classification and Security, 2006, 4105:450-457. [16] Djamel MERAD, Kheir-Eddine AZIZ, Nicolas THOME. Fast People Counting Using Head Detection From Skeleton Graph[A]. Djamel MERAD. 2010 Seventh IEEE International Conference on Advanced Video and Signal Based Surveillance[C].USA: IEEE Computer Society, 2010. 233-240. - 7 -
中国科技论文在线 http://www.paper.edu.cn 235 [17] KOIVUNEN T.A. Noise-Insensitive Motion Detector [J]. IEEE TCE, 1992,38(3):168-174. - 8 -
分享到:
收藏