使用卡尔曼滤波器在 3D 深度专人跟踪空间
摘要:手势是自然语言在许多研究领域,如用于一类重要的人机交互和计算机视觉。手势识
别需要事先确定手的位置的通过检测和跟踪。一个用于跟踪手的最有效的策略之一是使用
2D 视觉信息,如颜色和形状。然而,视觉传感器为基础的专人跟踪方法是非常敏感的,当
可变光条件下进行跟踪。此外,由于手的动作是在三维空间中,使用二维信息手势识别性能
在本质上是有限的。在这篇文章中,我们提出了一个在深度空间使用 3D 深度感应器和采用
卡尔曼滤波新颖的实时 3D 手势跟踪方法。我们发现使用运动集群和预定义的波动手候选人,
并采用跟踪手的位置 Kalman 滤波器。为了验证该方法的有效性,我们比较建议的表现方法
与视觉为基础的方法。实验结果表明,该方法的性能出进行视觉为基础的方法。
1 引言
近日,人机交互(HCI)技术已引起关注,因为一个有前途的人机交流方法。人机交互
的进步已经为首的计算能力的相关发展,各种传感器,以及显示技术[1,2]。
在人对人际交往方式的兴趣 人机交互也有所增加。这些措施包括人类的手和手臂的运
动。人类手势都是非语言的沟通,从范围简单的指向人与人之间复杂的相互作用。手势主要
优点是沟通的能力在距离[3]。对于使用手势 HCI 要求的人的手的构可以通过电脑是可以衡
量的。性能高度依赖于检测与跟踪的准确度手位置。目前手头检测与跟踪方法是使用各种传
感器,包括直接附着于手,特殊功能的手套,和颜色或深度图像[4-7]。
通过图像传感器的手部侦测与追踪可能与 2D 或 3D 信息进行。然而,由于获得 3D 信息
需要高计算能力和高性价比的设备,2D 方法已经比较发达比 3D。在 2D 手工检测与跟踪方法,
最常用的方法是一种视觉为基础的方法,其使用的信息,如颜色,形状,和边缘。视觉为基
础的方法可归类为基于颜色的和基于模板的方法。在基于颜色的方法开始通过使用颜色信息
查找手区域(RGB,HSV,YCbCr 图像)。然后,颜色直方图是由从检测到的手。在此基础上
的颜色直方图这是类似于手的颜色的区域,可以跟踪[8,9]。基于模板的方法创建一个边缘
图像通过彩色或灰度图像。边缘图像是相匹配的训练手模板,然后手被跟踪[10]。
然而,手部动作通常发生在 3D 空间。然后,2D 方法只能使用二维信息,这消除了沿 ZAXIS
的移动信息。这使得 2D 方法的固有局限性。近日,装备获取 3D 信息变得更快,更准确,并
符合成本效益。这设备包括深度传感器,如 TOF 相机和 PrimeSensor[11]。该设备的出现后,
实时 3D 手势跟踪方法发展迅速。例如,布鲁尔等人。 [12]用一个红外线 TOF 相机来创建一
个接近实时的手势识别制度。 Grest 等。 [13]提出了一种人体运动使用深度和轮廓的组合
跟踪方法信息。
在这篇文章中,我们提出了一种新的实时 3D 手使用 PrimeSensor 与深度空间跟踪方法
Kalman 滤波器。我们从生成的运动图像深度图像。然后,我们检测手使用的候选运动集群
和预定义的波动,并跟踪使用卡尔曼滤波器的手的位置。
本文的结构如下。在第 2,相关工作进行了简要综述。在第 3 节,预处理的深度信息和
建议手检测和跟踪方法进行了描述。在第 4 节,我们的专人跟踪系统的几个实验进行。最后,
我们的文章中第 5 节。
2 背景
2.1 视觉为基础的手部跟踪
有两个著名的视觉专人跟踪方法:色和基于模板的方法。在色基方法中,初始指针检测
后,颜色信息从指定的初始区域被提取。这颜色信息是由 RGB 空间的像素的颜色或转化为
HSI 空间的像素颜色。在[14],该颜色直方图是从色调和饱和度值进行该区域。然后,将所
得的颜色直方图是用来手跟踪。在基于模板的方法中,初始手是通过与一个准备好的匹配整
个图像中找到训练手的模板。模板附近移动到初始手区域,和的匹配点手被发现。这个过程
是用来对于每帧[15]。
视觉为基础的方法是自然的跟踪方法。然而,视觉为基础的方法是高度受光照条件。
当使用颜色直方图或肤色的概率密度函数,RGB,色相,以及饱和度值可以通过光照发生变
化。这可以使其难以发现和跟踪的手。此外,当手的特定部分闭塞或阴影由对象,然后用手
跟踪可以失败[16,17]。
2.2 基于深度的手部跟踪
基于深度的专人跟踪方法可分为到基于模型和基于运动的。基于模型的手跟踪使用 3D
模型衔接适合手。基于运动的方法,在深入使用手部动作空间。
布鲁尔等人。 [12]提出了基于模型的手跟踪深度空间。为了估计位置和手的方向,主
成分分析用于与三维点。这些 3D 点随后安装到一个关节手模型细化的第一估计。此外,
Oikonomidis 等。 [18]提出了一种系统,使用基于模型的 fulldegree 的自由度手板模型初
始化和跟踪在近实时与 Kinect 的。他们一方面优化模型参数之间的误差最小化虚拟实例的
外观和三维结构手模型和实际到手观测。该基于随机元下降为优化跟踪器在高维状态空间,
提出了 Bray 等人。 [19]。这个算法是基于梯度自适应和参数的下降法步长。手跟踪器被整
合增强基于线性混合变形的手模型剥皮和体位测量。
在基于运动的专人跟踪方法,霍尔特等人。[20]提出的观点不变手势识别系统与 TOF
相机。这种方法找到了从累积图像运动基元的基础上三维数据。它采用 2D 的 3D 视觉检测动
作双差分(减去深度值 pixelwise 在两对深度图像),阈值,以及积累。
2.3 颜色信息与深度信息
图 1 示出了根据不同的颜色和深度图像光照条件。图 1a 中的 B 显示的颜色和深度图像
与通常的照明条件。与此相反,图 1c,D 示出了它们在低照明条件。数字显示光照灵敏度
的色彩和深度图像的变化。由于数字示,该彩色图像是照明非常敏感变化。
该 TOF 相机和 PrimeSensor 目前发达深度图像传感器。两个传感器产生存储真正的深度
值在每个深度图像像素。例如,PrimeSensor 存储在每个像素中用 16 位的深度信息。我们
也与图像三维信息 X,Y 和 Z 轴。深度图像也有一些缺点。首先,深度图像包括大量的噪音,
在物体的边缘。第二,它是难以找对象的不变特征,因为深度信息只能在距离取决于。表 1
示出的优点和缺点总结颜色和深度信息。
2.4 卡尔曼滤波器
卡尔曼[21]提出了一种递归的方法来解决离散数据线性滤波问题。提供在数字计算很多
优点,卡尔曼滤波器是在各种研究领域和实际应用中应用区[22]。卡尔曼滤波器的主要程序
是估计状态,然后从完善国家错误。
卡尔曼滤波器有两个更新程序如图 2 所示,一个是控制更新和另一种是测量更新。在控
制更新,我们估计状态与以前的状态和操作参数(向量)。在测量更新,的状态由传感器信
息校正。方程卡尔曼滤波器的示于表 2。
图 1 对比颜色和深度的图像不同的光照条件下。(a)在正常照明的彩色图像; (b)深入 图
像中正常照明; (c)在低照度彩色图像; (d)在低照度深度图像
3 提出的方法
在本节中,我们将解释所提出的检测手与跟踪算法。图 3 示出的步骤提出的方法。首先,
我们得到了一个深度图像从深度传感器,并创造这是一个运动图像累积差分图像。然后,我
们减少与空间滤波和形态学噪声操作。动态聚类方法,提出找运动集群。然后,进行初始检
测手间的集群波动。最后,卡尔曼滤波器用于跟踪的手。
3.1 预处理
从深度传感器的深度图像具有不同的噪声的来源,例如反射率和不匹配的图案。有时,
这些噪声被检测为真运动信息。因此,降噪应手检测之前进行。也预处理包括最初的手聚类
算法检测。
3.1.1 动态影像(累积差分图像)
我们使用的是累积的差值的运动图像。产生的运动过程图像示于图 4 中,首先,我们存
储五个连续影像中的时间顺序。然后,我们得到的差分图像是前一帧(它-1)从当前帧(它)
中减去,如图(1)。差异 imaget=它 - 它 - 1(1)
我们累积差分图像。在这个积累图像,人,物体和噪声的一切运动都是表示。接下来,降噪,
运动集群,和指针检测程序被应用到本运动图像。
3.1.2 降噪
我们使用空间滤波和形态学处理降噪。当降噪方法被应用到运动图像,真实运动能
清楚显示。一个 5×5 的光圈值滤波器是用来用于空间滤波。中值滤波器替代了象素
值与所述子图像与孔的中值[23]。这个中值滤波提供了极好的盐和辣椒降噪相当少模糊。
由于运动图像的噪声模式是非常相似对椒盐噪声,中值滤波是非常有效的。我们还利用形态
学处理噪声减少。我们使用其中包括的打开操作侵蚀随后扩张[23]。的基本效果打开操作是
降低的外部形状物体的侵蚀和扩大外衣。一般情况下,该操作平滑外衣,分裂狭窄区域,并
消除了薄的周长。因此,该开口操作删除了随机产生的噪音和平滑原始图像。糜烂手术滑出
对象或颗粒层,减少无关从图像中的像素和小颗粒。扩张操作做腐蚀运算的逆运算。它附加
层到对象或颗粒,它可以返回侵蚀物体或颗粒到它们的原始大小。这些操作是对深度高效
图像降噪。
深度信息
运动图像
空间滤波
减噪
运动群集
形态学运算
原始的手势检测
手势跟踪
图 5a 示出了原始的运动图像和图 5b 示出的噪声去除方法的结果空间滤波和形态学处理
我们的实验运动图像。
图 3 步骤建议手势跟踪方法。
3.1.3 动态聚类
在本节中,我们描述了如何动态聚类区域从运动图像。首先,我们选择连接部件从所述
运动图像。然后,获得连接的组件聚集。这些集群是可能的候选人的手。该选中集群可以是
真正的运动或噪声。噪音集群通常较小或经常分裂,因此,如果其大小比一定阈值时,那么
我们就可以决定它作为噪声集群,并删除它。
决定大小的门槛,我们用多项式回归法。首先,我们得到一个手的大小从 60-750 厘米,
每 10 厘米的每个距离间隔。用所获得的手掌大小的数据,我们采用多项式回归法,以适应
曲线的数据集[24]。我们使用的五阶多项式模型由(2)给出
因为五阶多项式模型是足够模型获得的数据。给定的 m 个数据点,我们使用由下式给出
最小二乘误差最小化的目标(5)
其中 y=[Y1,...,YM]是已知的数据,我们在手掌大小的实验获得的。p 代表的 p 雅可比矩
阵(x)的:
最后,我们可以从估计的参数向量等式(7),其结果是由于在公式(8)。
然后,我们可以找到拟合曲线的手的大小数据集在等式任何距离(9)。
其中 y 表示像素的距离的估计数目 p。图 6 示出拟合曲线的结果从 60 到 750 厘米在图
中,’x’代表真正的手大小的数据和’o’表示的手的大小,估计通过多项式回归函数。
现在,我们可以通过这个回归选择的门槛功能。图 7a 示出了运动的聚类的结果。噪音
集群仍然存在。图 7b 示出了运动聚类的阈值的结果手的大小。握在手里的检测过程中,我
们发现这些集群中的手集群。
我们由多项式减少簇的数目回归法。然后,如果其他议案重叠后面的手,手不能被发现,
因为在运动的手的附近区域图像变成白色。这种情况显示在图 8。
图 5 中的原议案的形象和降低噪音的运动图像。(a)原议案的图像;(b)降低噪音的运动图
像
为了找到在这种情况下用手簇中,我们使用鸟瞰图像的概念。鸟瞰视图是一个高架视图
的场景从上面。这鸟瞰可以与 3D 景深很容易产生信息。深度图像和运动图像的描绘在 X-Y
平面。在重叠的情况下,然而,我们需要分析 XZ 平面的信息。现场的 XZ 平面可以是鸟瞰
如图 9a 所示。该图是在 X-Z 平面原来的深度图像。那么我们认为这与图 8b 以上的运动图像。
我们提取的议案从原来的鸟瞰图和生成的信息图 9b。我们称这个数字为运动鸟鸟瞰。图 9b
中的白色区域表示的运动,这具有相同的含义为白色的运动图像区域。在图 9b 中,小矩形
表示前部分是手和大矩形表示后面一部分是移动体。因此,我们可以从分离手部分移动身体
像图 8a
3.2 初步检测手
。
在预处理部分,我们产生的运动图像通过累积差分图像,减少了噪音在运动图像时,发
现运动集群。在本节中,我们发现从手集群其余簇在图 7b 中所示的图像中。
要查找的手,我们设置手波的条件运动,它由一个从一侧到另一侧的运动的序列。首先,
我们发现群集运动的方向使用运动模板[25,26]。该议案模板是一种有效的方法跟踪一般
移动,并且它是用于手势特别有用认可。一个集群都需要使用运动模板。我们已经从运动获
得的簇图像。此后,我们假设我们有一个良好的分割簇是中所示的白色矩形图 10a。这个图
像被称为运动历史图像。这个图像的白色区域代表所有在此区域内的像素被设置为浮点。由
于矩形移动,一个新的群集计算由新的当前运动图像和堆叠到运动历史图像。在图 10B,C,
白色矩形表示新的群集和以前的簇老运动已经变得更暗。最黑暗的矩形表示最古老的运动。
和矩形是变在连续顺序轻。这些相继衰落矩形表示簇的移动。数字 10D 显示了深度空间的运
动历史图像
图 6 的手的大小与五阶多项式回归函数的拟合曲线。
图 7 动态聚类手的大小。(a)在申请手掌大小的门槛;(b)施加的手的大小的阈值之后。
从运动历史图像,我们可以推导出方向通过采取梯度。该梯度可以是由索贝尔梯度函数
和 Scharr 滤波器计算梯度。一些从运动计算梯度历史图像是无效的。那些发生在非运动
区具有零梯度和外边缘集群具有较大的梯度。既然我们知道时间帧之间的,我们可以计算梯
度的范围,我们可以删除无效的梯度。最后,我们可以决定全局梯度的方向。图 11
示出了簇的方向。在圈内行由此可见,集群前进的方向。