logo资料库

使用卡尔曼滤波器在3D深度专人跟踪..doc

第1页 / 共19页
第2页 / 共19页
第3页 / 共19页
第4页 / 共19页
第5页 / 共19页
第6页 / 共19页
第7页 / 共19页
第8页 / 共19页
资料共19页,剩余部分请下载后查看
使用卡尔曼滤波器在 3D 深度专人跟踪空间 摘要:手势是自然语言在许多研究领域,如用于一类重要的人机交互和计算机视觉。手势识 别需要事先确定手的位置的通过检测和跟踪。一个用于跟踪手的最有效的策略之一是使用 2D 视觉信息,如颜色和形状。然而,视觉传感器为基础的专人跟踪方法是非常敏感的,当 可变光条件下进行跟踪。此外,由于手的动作是在三维空间中,使用二维信息手势识别性能 在本质上是有限的。在这篇文章中,我们提出了一个在深度空间使用 3D 深度感应器和采用 卡尔曼滤波新颖的实时 3D 手势跟踪方法。我们发现使用运动集群和预定义的波动手候选人, 并采用跟踪手的位置 Kalman 滤波器。为了验证该方法的有效性,我们比较建议的表现方法 与视觉为基础的方法。实验结果表明,该方法的性能出进行视觉为基础的方法。 1 引言 近日,人机交互(HCI)技术已引起关注,因为一个有前途的人机交流方法。人机交互 的进步已经为首的计算能力的相关发展,各种传感器,以及显示技术[1,2]。 在人对人际交往方式的兴趣 人机交互也有所增加。这些措施包括人类的手和手臂的运 动。人类手势都是非语言的沟通,从范围简单的指向人与人之间复杂的相互作用。手势主要 优点是沟通的能力在距离[3]。对于使用手势 HCI 要求的人的手的构可以通过电脑是可以衡 量的。性能高度依赖于检测与跟踪的准确度手位置。目前手头检测与跟踪方法是使用各种传 感器,包括直接附着于手,特殊功能的手套,和颜色或深度图像[4-7]。 通过图像传感器的手部侦测与追踪可能与 2D 或 3D 信息进行。然而,由于获得 3D 信息 需要高计算能力和高性价比的设备,2D 方法已经比较发达比 3D。在 2D 手工检测与跟踪方法, 最常用的方法是一种视觉为基础的方法,其使用的信息,如颜色,形状,和边缘。视觉为基 础的方法可归类为基于颜色的和基于模板的方法。在基于颜色的方法开始通过使用颜色信息 查找手区域(RGB,HSV,YCbCr 图像)。然后,颜色直方图是由从检测到的手。在此基础上 的颜色直方图这是类似于手的颜色的区域,可以跟踪[8,9]。基于模板的方法创建一个边缘 图像通过彩色或灰度图像。边缘图像是相匹配的训练手模板,然后手被跟踪[10]。 然而,手部动作通常发生在 3D 空间。然后,2D 方法只能使用二维信息,这消除了沿 ZAXIS 的移动信息。这使得 2D 方法的固有局限性。近日,装备获取 3D 信息变得更快,更准确,并 符合成本效益。这设备包括深度传感器,如 TOF 相机和 PrimeSensor[11]。该设备的出现后, 实时 3D 手势跟踪方法发展迅速。例如,布鲁尔等人。 [12]用一个红外线 TOF 相机来创建一 个接近实时的手势识别制度。 Grest 等。 [13]提出了一种人体运动使用深度和轮廓的组合 跟踪方法信息。 在这篇文章中,我们提出了一种新的实时 3D 手使用 PrimeSensor 与深度空间跟踪方法 Kalman 滤波器。我们从生成的运动图像深度图像。然后,我们检测手使用的候选运动集群 和预定义的波动,并跟踪使用卡尔曼滤波器的手的位置。 本文的结构如下。在第 2,相关工作进行了简要综述。在第 3 节,预处理的深度信息和 建议手检测和跟踪方法进行了描述。在第 4 节,我们的专人跟踪系统的几个实验进行。最后, 我们的文章中第 5 节。 2 背景 2.1 视觉为基础的手部跟踪 有两个著名的视觉专人跟踪方法:色和基于模板的方法。在色基方法中,初始指针检测
后,颜色信息从指定的初始区域被提取。这颜色信息是由 RGB 空间的像素的颜色或转化为 HSI 空间的像素颜色。在[14],该颜色直方图是从色调和饱和度值进行该区域。然后,将所 得的颜色直方图是用来手跟踪。在基于模板的方法中,初始手是通过与一个准备好的匹配整 个图像中找到训练手的模板。模板附近移动到初始手区域,和的匹配点手被发现。这个过程 是用来对于每帧[15]。 视觉为基础的方法是自然的跟踪方法。然而,视觉为基础的方法是高度受光照条件。 当使用颜色直方图或肤色的概率密度函数,RGB,色相,以及饱和度值可以通过光照发生变 化。这可以使其难以发现和跟踪的手。此外,当手的特定部分闭塞或阴影由对象,然后用手 跟踪可以失败[16,17]。 2.2 基于深度的手部跟踪 基于深度的专人跟踪方法可分为到基于模型和基于运动的。基于模型的手跟踪使用 3D 模型衔接适合手。基于运动的方法,在深入使用手部动作空间。 布鲁尔等人。 [12]提出了基于模型的手跟踪深度空间。为了估计位置和手的方向,主 成分分析用于与三维点。这些 3D 点随后安装到一个关节手模型细化的第一估计。此外, Oikonomidis 等。 [18]提出了一种系统,使用基于模型的 fulldegree 的自由度手板模型初 始化和跟踪在近实时与 Kinect 的。他们一方面优化模型参数之间的误差最小化虚拟实例的 外观和三维结构手模型和实际到手观测。该基于随机元下降为优化跟踪器在高维状态空间, 提出了 Bray 等人。 [19]。这个算法是基于梯度自适应和参数的下降法步长。手跟踪器被整 合增强基于线性混合变形的手模型剥皮和体位测量。 在基于运动的专人跟踪方法,霍尔特等人。[20]提出的观点不变手势识别系统与 TOF 相机。这种方法找到了从累积图像运动基元的基础上三维数据。它采用 2D 的 3D 视觉检测动 作双差分(减去深度值 pixelwise 在两对深度图像),阈值,以及积累。 2.3 颜色信息与深度信息 图 1 示出了根据不同的颜色和深度图像光照条件。图 1a 中的 B 显示的颜色和深度图像 与通常的照明条件。与此相反,图 1c,D 示出了它们在低照明条件。数字显示光照灵敏度 的色彩和深度图像的变化。由于数字示,该彩色图像是照明非常敏感变化。 该 TOF 相机和 PrimeSensor 目前发达深度图像传感器。两个传感器产生存储真正的深度 值在每个深度图像像素。例如,PrimeSensor 存储在每个像素中用 16 位的深度信息。我们 也与图像三维信息 X,Y 和 Z 轴。深度图像也有一些缺点。首先,深度图像包括大量的噪音, 在物体的边缘。第二,它是难以找对象的不变特征,因为深度信息只能在距离取决于。表 1 示出的优点和缺点总结颜色和深度信息。 2.4 卡尔曼滤波器 卡尔曼[21]提出了一种递归的方法来解决离散数据线性滤波问题。提供在数字计算很多 优点,卡尔曼滤波器是在各种研究领域和实际应用中应用区[22]。卡尔曼滤波器的主要程序 是估计状态,然后从完善国家错误。 卡尔曼滤波器有两个更新程序如图 2 所示,一个是控制更新和另一种是测量更新。在控 制更新,我们估计状态与以前的状态和操作参数(向量)。在测量更新,的状态由传感器信 息校正。方程卡尔曼滤波器的示于表 2。
图 1 对比颜色和深度的图像不同的光照条件下。(a)在正常照明的彩色图像; (b)深入 图 像中正常照明; (c)在低照度彩色图像; (d)在低照度深度图像 3 提出的方法 在本节中,我们将解释所提出的检测手与跟踪算法。图 3 示出的步骤提出的方法。首先, 我们得到了一个深度图像从深度传感器,并创造这是一个运动图像累积差分图像。然后,我 们减少与空间滤波和形态学噪声操作。动态聚类方法,提出找运动集群。然后,进行初始检 测手间的集群波动。最后,卡尔曼滤波器用于跟踪的手。
3.1 预处理 从深度传感器的深度图像具有不同的噪声的来源,例如反射率和不匹配的图案。有时, 这些噪声被检测为真运动信息。因此,降噪应手检测之前进行。也预处理包括最初的手聚类 算法检测。 3.1.1 动态影像(累积差分图像) 我们使用的是累积的差值的运动图像。产生的运动过程图像示于图 4 中,首先,我们存 储五个连续影像中的时间顺序。然后,我们得到的差分图像是前一帧(它-1)从当前帧(它) 中减去,如图(1)。差异 imaget=它 - 它 - 1(1) 我们累积差分图像。在这个积累图像,人,物体和噪声的一切运动都是表示。接下来,降噪, 运动集群,和指针检测程序被应用到本运动图像。 3.1.2 降噪 我们使用空间滤波和形态学处理降噪。当降噪方法被应用到运动图像,真实运动能 清楚显示。一个 5×5 的光圈值滤波器是用来用于空间滤波。中值滤波器替代了象素 值与所述子图像与孔的中值[23]。这个中值滤波提供了极好的盐和辣椒降噪相当少模糊。 由于运动图像的噪声模式是非常相似对椒盐噪声,中值滤波是非常有效的。我们还利用形态 学处理噪声减少。我们使用其中包括的打开操作侵蚀随后扩张[23]。的基本效果打开操作是 降低的外部形状物体的侵蚀和扩大外衣。一般情况下,该操作平滑外衣,分裂狭窄区域,并 消除了薄的周长。因此,该开口操作删除了随机产生的噪音和平滑原始图像。糜烂手术滑出 对象或颗粒层,减少无关从图像中的像素和小颗粒。扩张操作做腐蚀运算的逆运算。它附加 层到对象或颗粒,它可以返回侵蚀物体或颗粒到它们的原始大小。这些操作是对深度高效 图像降噪。
深度信息 运动图像 空间滤波 减噪 运动群集 形态学运算 原始的手势检测 手势跟踪 图 5a 示出了原始的运动图像和图 5b 示出的噪声去除方法的结果空间滤波和形态学处理 我们的实验运动图像。 图 3 步骤建议手势跟踪方法。 3.1.3 动态聚类 在本节中,我们描述了如何动态聚类区域从运动图像。首先,我们选择连接部件从所述 运动图像。然后,获得连接的组件聚集。这些集群是可能的候选人的手。该选中集群可以是 真正的运动或噪声。噪音集群通常较小或经常分裂,因此,如果其大小比一定阈值时,那么 我们就可以决定它作为噪声集群,并删除它。 决定大小的门槛,我们用多项式回归法。首先,我们得到一个手的大小从 60-750 厘米, 每 10 厘米的每个距离间隔。用所获得的手掌大小的数据,我们采用多项式回归法,以适应 曲线的数据集[24]。我们使用的五阶多项式模型由(2)给出
因为五阶多项式模型是足够模型获得的数据。给定的 m 个数据点,我们使用由下式给出 最小二乘误差最小化的目标(5) 其中 y=[Y1,...,YM]是已知的数据,我们在手掌大小的实验获得的。p 代表的 p 雅可比矩 阵(x)的: 最后,我们可以从估计的参数向量等式(7),其结果是由于在公式(8)。 然后,我们可以找到拟合曲线的手的大小数据集在等式任何距离(9)。 其中 y 表示像素的距离的估计数目 p。图 6 示出拟合曲线的结果从 60 到 750 厘米在图 中,’x’代表真正的手大小的数据和’o’表示的手的大小,估计通过多项式回归函数。 现在,我们可以通过这个回归选择的门槛功能。图 7a 示出了运动的聚类的结果。噪音 集群仍然存在。图 7b 示出了运动聚类的阈值的结果手的大小。握在手里的检测过程中,我 们发现这些集群中的手集群。 我们由多项式减少簇的数目回归法。然后,如果其他议案重叠后面的手,手不能被发现, 因为在运动的手的附近区域图像变成白色。这种情况显示在图 8。
图 5 中的原议案的形象和降低噪音的运动图像。(a)原议案的图像;(b)降低噪音的运动图 像 为了找到在这种情况下用手簇中,我们使用鸟瞰图像的概念。鸟瞰视图是一个高架视图 的场景从上面。这鸟瞰可以与 3D 景深很容易产生信息。深度图像和运动图像的描绘在 X-Y 平面。在重叠的情况下,然而,我们需要分析 XZ 平面的信息。现场的 XZ 平面可以是鸟瞰 如图 9a 所示。该图是在 X-Z 平面原来的深度图像。那么我们认为这与图 8b 以上的运动图像。 我们提取的议案从原来的鸟瞰图和生成的信息图 9b。我们称这个数字为运动鸟鸟瞰。图 9b 中的白色区域表示的运动,这具有相同的含义为白色的运动图像区域。在图 9b 中,小矩形 表示前部分是手和大矩形表示后面一部分是移动体。因此,我们可以从分离手部分移动身体 像图 8a​ 3.2 初步检测手 ​ 。 在预处理部分,我们产生的运动图像通过累积差分图像,减少了噪音在运动图像时,发 现运动集群。在本节中,我们发现从手集群其余簇在图 7b 中所示的图像中。 要查找的手,我们设置手波的条件运动,它由一个从一侧到另一侧的运动的序列。首先, 我们发现群集运动的方向使用运动模板[25,26]。该议案模板是一种有效的方法跟踪一般 移动,并且它是用于手势特别有用认可。一个集群都需要使用运动模板。我们已经从运动获 得的簇图像。此后,我们假设我们有一个良好的分割簇是中所示的白色矩形图 10a。这个图 像被称为运动历史图像。这个图像的白色区域代表所有在此区域内的像素被设置为浮点。由 于矩形移动,一个新的群集计算由新的当前运动图像和堆叠到运动历史图像。在图 10B,C, 白色矩形表示新的群集和以前的簇老运动已经变得更暗。最黑暗的矩形表示最古老的运动。 和矩形是变在连续顺序轻。这些相继衰落矩形表示簇的移动。数字 10D 显示了深度空间的运 动历史图像
图 6 的手的大小与五阶多项式回归函数的拟合曲线。 图 7 动态聚类手的大小。(a)在申请手掌大小的门槛;(b)施加的手的大小的阈值之后。 从运动历史图像,我们可以推导出方向通过采取梯度。该梯度可以是由索贝尔梯度函数 和 Scharr 滤波器计算梯度。一些从运动计算梯度历史图像是无效的。那些发生在非运动 区具有零梯度和外边缘集群具有较大的梯度。既然我们知道时间帧之间的,我们可以计算梯 度的范围,我们可以删除无效的梯度。最后,我们可以决定全局梯度的方向。图 11 示出了簇的方向。在圈内行由此可见,集群前进的方向。
分享到:
收藏