百家 争鸣
商品与质量
·1 7 9 ·
基 于 隐 马 尔科 夫模 型 的人体 行 为 识 别 方 法研 究
于洪波 李 静 于成龙
(牡 丹江 大 学 ,黑龙 江 牡丹 江 1 5 7011)
【摘 要 】本 文首先介 绍 了人体 行 为描 述方 法、识别 方法 ,然后 分析 了人 体行 为描 述及 识别方 法各 自的优缺 点 ,最后 提 出了基 于 隐马
尔科 夫模型的 人体行 为识 别方 法 ,该 方法具有一 定的研 究及应 用价值 。
【关键 词 】人 体 行 为识 别 ; 隐马 尔科 夫 模 型
文 章编 号 :I SSN1 006-- 656X(201 4)01卜01 79一O2
一
、 人 体 行 为 描 述 方 法
特征是模 式识别 中的比较重要的问题,主要任务是从许多特征中
找 出具 有 良好 的鲁棒 性 、较好 的抗干 扰性和 较好 的抗 噪声能 力的特
征 ,并 且对 于平 移 、旋 转及 以及 缩放 都具 有 不变 形 的最 有效 的特
征 。 由于 系统分类是 在特征抽取 之后进行 的 ,所 以特 征选取 的好 坏,
将 直接影 响到 系统 分类 的结果 。 目前广 泛采用 的特征描 述方法 主要
有 基于 外观形 状特征 的描述 和基 于运动特 征 的行 为描述 方法 。
(一 )基 于 外 观 形 状 特 征 的行 为 描 述 方 法
基 于外观形状特征 的描述方法又分为 :基于外 形的表示方法和基
于人体模 型的表示方 法两种 。 下面将对 两种表 示方法分别进 行介绍 。
(1)基 于 外 形 的 表 示 方 法
基于外形 的表示方法 的主要思想是直接从 图像 中提取 目标物体的
宽度 、高度 、颜色和轮廓等相关信息特征,并用这些信息特征与之前 已
经学习好 的模 型进行 匹配比较 ,以此获取对 当前运动的描述。很多人
对该方法进行 了分析研究 ,如 :赵海勇等人定义 了一 种称为边界点 一
半径 的轮廓描 述 函数 ,该 函数首先对 轮廓 的局部特 征进行 描述与分
本 文为黑 龙江省教 育厅高职 高专科 学研究项 目:“基 于
视 觉 的 人 体 特 征 识 别技 术研 究 与 应 用 ”结 题 论 文 (项 目批准
编 号 :1 252 5 1 3 7)。
作 者 简 介 :于 洪波 (1 9 7 9 一一 ), 副教 授 ,硕 士 ,
研 究方 向 为 Web信 息 处 理 。
析,然后 提取行为 的关键 姿态,最后 利用边际距离在最近邻距 离框架下
识别人 的行 为;黄彬等人 利用傅里 叶描述子来描述 人体姿态 ,基本思
想是利 用系数 的低频 部分描 述轮廓 的大体特征 ,用高 频部分来 反映
轮廓 的微 观特 征 ,但是 该方法 只能描述 单个闭 环曲线 ,并 且在 噪声
环境下其 转换性 能不是 很高 ,所以一般 用于描述 外部边 界点 。基 于
外 观形状 特征 的行为描 述方法 优点是 :实现简单 ,在不需要 特定模
型的情况 下 ,就可 以 比较 精确地 描述人 的运动细 节 ,并且 对光照也
不敏 感 ,可 以适 用 于很 多环 境 条 件 【l】。
(2 )基 于 人 体模 型 的表 示 方 法
基 于人体模 型 的表示方 法的主要思 想是 :人体 及其姿 态通过参
数化 的形式表示 ,通 过分 析这些参 数化 的人体模 型以达到识别 人体 运
动的 目的。此种方法通常 用来 表示 比较精细 的运动,可以突 出精确地
表示 出运动的细节,提高识别 的准确度 。如体操运动分析 、手语 、手势
等。人体模型主要有三种:骨架模型 、2D模型和 3D模型三种。其 中2D
模型应用较 为广泛 ,而 3D模型 由于其 复杂度较高 、尤其是在摄像机
的情况下参数很难估计,所 以应用较少 。基于人体模型的表示 方法的优
点是 :可以准确地描述一 些比较复杂的人体运动 ,尤其是肢体动作 ;
其缺点是 :由于特征空 间的维数较高,所 以在进行非线性优化 时比较 困
难。而且在 图像分辨 率较低 的情 况下 ,对模 型参数 的估计也很 困难。
(二 )基 于运 动 特 征 的 行 为 描 述 方 法
基于运 动特征 的行为描 述方法 的主要思 想是 :对 预先确定 区域
跟踪 的运动轨迹 进行分 析 ,然后 利用光 流 、速度 以及 目标轨迹等 相
琴 和琴 凳的位 置 ,不许 他人挪 动 。但 由于 一般 的钢琴演 奏家是 不太
可 能随 身携带 自己的钢琴 和专 门的调律师 ,所 以还时 常还发生 过 因
为钢琴 调律不 准和琴 凳高 度不符 合要求而 演奏 家罢演 的事情 。在这
里 有一 个小故 事 :前 一段 时间我去 听 了一 场音乐会 ,是 国内和 国际
上 均有 较高人 气的青 年钢琴 演奏 家的独奏 专场 ,可最终 让我非 常的
失 望 ,中途 就 退 场 了 。原 因是 什 么 呢? 首先 ,一 场 古典 钢琴 的音
乐会 居然 安排 在体育 馆而不是 在音 乐厅 ;其 次 ,因为场地太 大 ,音
乐 会加 上 了 话筒 和 扩音 设 备 ,效果 大 受影 响 ;最后 ,也 是最 让 人
无 法忍受 的 :钢琴 的音律 极为不 准 ,就像是 一架很 长时 间没有调 过
音 的钢琴 。我不知 道这位 年轻 的大师 在弹这 台钢琴 时 的内心真 实感
受如 何 ,作为一 位职业 演奏家 ,他对 于这样 的演 出效果想 必也是 难
以忍受 的。或 许 ,演 出的 主办 方也 有 一 定 的责任 。但我 很想 知 道
的是 :如果在 美 国的卡 内基音乐 厅演 出他们还 会这样 吗 ?还 能 这么
唬 弄买着 昂贵 票价来 听演奏 的乐迷们 吗 ?作为演 奏者 ,既应该 为 自
己负责 ,也 要 为观 众 负责 。我 认为 ,没 有 职业 精 神 和道 德 的艺术
家 ,纵使 他 的演 奏 技艺 再 高超 ,在 今后 的艺 术道 路 上也 是走 不 长
的 。回到 我们 的主 题 ,也就 是说 ,如果 使用 一 台音 律 不 准 的钢琴
开独 奏音 乐 会 ,无疑 是对 听众 和 自己听觉 的极 大摧 残 。
当然 ,作为一位 出色 的钢琴 调律师 ,有时碰 到 的事 情还远 没有
那么简单 。据弗兰茨?摩尔在他 的书 中介绍到 ,在有钢琴协奏 曲的音乐
会 中给钢琴调律 ,更是一件非 常艰难 的事。首先 ,每位钢 琴大师都有
自己舒适 的相对音高标准 ,比方说 ,标准音的音高大约是 44O赫兹,而
有 的钢琴家 习惯于调到 438或 4.42赫兹来演奏 ,作为独奏 ,这是没有丝
毫问题的 ,但一旦和交 响乐 队合作 ,麻烦就来 了。 比如 :费城交 响乐
团的音 高标准是 44O赫兹 、而有的钢琴家却 习惯于 442赫兹的音高标准 ,
这中间调律师要做很多艰难 的努力 才能融合好钢琴与乐 队间的音准关
系 、钢琴 家和乐 队成员 的协调关 系 ,非一般调 律师能完成 。
四 、 钢 琴 的 保 健 医 生
钢 琴如果 细分 的话 ,大约有一 万多个 零件 ,它的装配 是非 常复
杂的 ,但 钢琴弹奏出来 的立体感和气势 ,是其他任何乐 器所无 法 比拟
的。也正 因为如此 ,它才有了 “钢琴之王 ”的美誉 。像 国外 的一些知
名 钢 琴 品牌 ,如 :斯 坦 威 、蓓 森 朵 夫 、雅 马 哈 ,他 们 的 钢 琴售
出后都是 由厂 家提供 终身维 修和调 律的 ,而在 我 国,大部 分地 区 目
前 还 远远 做 不 到这样 。当然 ,就我 们 一般 的习琴 者来 说 ,对于 钢
琴的要 求 自然不 会有钢 琴大 师们那 般复 杂 。
我们现在 从商场 或是琴 行购买 回来 的钢 琴 ,基本 上都是从 钢琴
厂 直接运 送到 商场或 琴行 的仓 库 ,钢琴 在 出厂 前 已经 经过 了多 次 的
整 音 、调律 ,搬 运 到家 就后 基 本上 就 可 以使用 了。有些 琴 行或 商
场 可能会 许诺送 免费 调律一 到两次 ,有 的则可 能没有 。那 么钢琴 过
了免 费的保 修期后该怎么办呢?是否每年都要进行调律呢 ?在钢琴后
续 的使用 中 ,有 一点是 一定要 引起注意 的 ,那就 是在使 用 中钢琴 的
音律 一定 要调 准 ,一旦 发觉钢琴 的发音 有不入耳 或不 准的地方 ,就
应该 马上请 调律 师上 门服务 ,这 或许也 是我们许 多 习琴 者们最 容易
忽 视 的 问 题 。
一 些 习琴者 肯定会 问 :“我 是初 学钢 琴的 ,音准 不准 我听不 出
来 啊 !… ‘市 面上 那 么 多 的调 律 师 ,我哪 能分 出他 们 水平 的高 低
呢 ? ”的确 ,现 在市 场上 钢 琴调 律 师 的水平 也 是 良莠 不齐 ,当然
是能 找专业 有资质 的或具 备相 当经验的调 律师最好 ,下面 就提几 点
建 议 ,供 大 家 参 考 :
l、钢琴 最好每年 能保证一 次调律 ,可 以在调 律师上 门服务时 ,
清除 一下钢 琴里 面的灰尘 、杂物 ,顺便 询 问调律师一 些最基 本 的钢
琴保 养 方 面的 注意 事 项 。
2、尽 量让 钢琴 老师 推荐 或询 问其他 习琴者 口碑 较好 、职业 素
质较 高 的调 律 师 的情 况 ,如果 觉得 满 意 ,可留下 调 律 师的 电话 号
码 ,以备 下 次 调 律 使 用 。
3、可 去琴 行或销 售 钢琴 的商场 及一 些艺术 培训 中心 咨询 ,要
求找 一位 水平 较 高 的调 律 师 ,相 对来 说他 们这方 面 的资 源较 多。
4、如 果是 专业学 习 钢琴或 钢琴水 平很 高 的学习 者 ,一 般来说
三 四年 最好 能把钢琴 做一次 全面 的整音 ,这 可能就需 要更高 水平 的
调 律 师 了 。
虽 然 ,平 时在 正 常使 用 的情 况下 ,钢琴 不会 出现什 么 大 的问
题 ,但如果 能保持给钢琴作一年一次 的常规调律 ,长此 以往 ,钢琴的
机械部分和音律始终处在一个非 常好 的状态 ,让演奏者弹起来会更 加
得心应手 ,琴声也更加 悦耳动 听。
· 1 8 0 ·
商 品 与 质 量
百 家 争 鸣
关 信息对人 体运动 特征进行 建模 。即对图像 中提取 的特征 区域或感
兴趣 点进 行跟 踪 ,若 匹配 ,就会 产 生一 条运 动 轨迹 ,再 对该 运 动
轨迹进行参数 化处 理 。但如果对 非预先确定 的 目标 区域运动 分析时 ,
该方 法 则不 适用 , 比较 常 用 的方法 是 光流 法 。
二 、 人体 行 为 识 别 方 法
人体行 为识别可 以看作是一个基 于时变特征数据之上的分类 问题,
其主要思想是 :首先获取人体 目标的特征数据,然后将已知运 动数据序
列与未知类 型数据序列进行 匹配 。 目前主要有模板 匹配法和状态空 间
法 两 种 【 I。
(一 )模 板 匹 配 法
模板 匹配法(template matching)的主要思想是 :从关键的序列 图像
中抽取相关 的二维信息特征 ,然后将 图像 序列 转换 为一组静 态形状模
式 ,最后通 过与预先存储 的行 为模 式进 行相似度 比较而达到识别的 目
的。其优点是算法简单 、计算量小 、识别率高 ;缺点是对噪声和运动
持 续 时 间 的 变 化 比较 敏 感 O
国内外 许多学 者针对模板 匹配法进行 了深入 的研究 ,并取得很
好 的科研成 果。其 中 Greg Mori及 Alex Berg等人将该 方法应用在人
体 跟踪上 ,获得较 好的识别结 果 ,他 们首先通 过人工 标注 的方式获
得有 效的人体行为特征 点,然后提取 了人体静态轮廓特 征,最后通过 模
板匹配方式成 功实 现了人体 跟踪 [31。Bobick等人利用该方法和提 出的
运动能量图像 (MEI)和运动历史 图像 (MHI)特征表征方法结合起
来对 人体 行为 进 行识别 ,获 得较 好 的实验 结果 [4】。
(二 )状 态 空 间 法
状态空间法(state space approach)以状态和操作符为基础 ,对空
间的问题表示和求解进行解答 的方法 。该方法 的优点是 :采用矩阵表
示 ,所 以当状态变量、输 入或输 出变量 的数 目增加时,并不增加系统描
述 的复杂性 。缺点是通常需要建立 内在 的非线性模 型 ,而非线性模 型
需要在训 练过程 中寻找一个全 局最优解 ,这就需要进 行复杂的迭代计
算 ,当节点 数 目扩展过 多 时 ,就 容易 出现 “组 合爆 炸 ”【51。
状态空 间模 型 中最 具代表性 的是 隐马尔科 夫模型 ,被广泛用 于
时间序列的预测 、估计和检测,隐马尔科夫模 型最初被广泛用 于语音识
别 中,直到最近才被 用于人 体运动序列 的识别 。隐马尔科 夫模型 主要
是通过将一 系列特征点构成 的轨迹作为 观察 向量 ,可 以识别在 已经 标
记 的房 间中的人体 的动 向、手势识别和字符识别等 。与 同类识别方法
相 比,识别率提高 了很多 。此方法的缺点是 :通常涉 及到复杂的迭代
运算 ,算法 的步骤较为复杂 ,实时 陛较差 ;而且对 于人体 日常活动的
识 别效果较 差 ,比如走路 和跑步轨迹很相似 ,这时用这种方法识别 效
果 不 好 ;
三 、 基 于 隐 马 尔科 夫 模 型 的 人 体 行 为 识 别 过 程
隐马尔科夫模型(Hidden Markov Model,简称 HMM)是由俄国科 学
家 Viadimir V.Markovnikov于 1870年提出的 ,HMM模型本质上是状
态转移过程不可观察 的一种随机过程 。每次状态只与它 的前一时刻状
态相关 。该模型在 自然语言处理 、模式识别 、图像 处理及 人体行为识
别 等领域具有非 常广 泛地应用 。
(一 )模 型 建 立
HMM 是属于一种表征随机 过程 的参数化概率统计模 型 ,模 型主
要包含 一般过程和马尔科夫链 两个 组成部分 。前者主要用来描述状态
与观测 序列二者之 间 的存 在关系,并通 过观测概 率值进行 描述表达 ;
后者 主要用来描 述前后状态转移过程,使用转移概率值进行描述 表达 。
HMM本 质上是状态转移过程 不可观察 的,但可 以通过观测 序列
观察 到某 时刻 的状 态 。若 已知某一 观测序 列 ,观测 值 与状 态不存 在
一 对应关 系 ,则无法 通过观测值 序列 获得实 际状态 序列 ,必须根
据 观测值 在每个 状态 的分布情况 、状态 初始概 率及相 应的状 态转移
一
矩阵 利用 估计 算 法 获得 。
HMM可通过五元组形式对其进行描述: =(N,M, ,A,B),或者简
写 为 : =( ,A,B),其 中 :
1)N为状态数 ,对于有限个不同的状态{S1,S2,...,SN},某一 时刻 n
所处 的状态仅可 以为{81,s2….,SN}状态 中的某一个 。
2)A={aij}:状态转移概率矩阵,对应每个元素可表示为:
aij=P(qt+l=sj Iqt=Si)1≤ i,j≤ N
3) =( i):各状态的初始概率分布
1T i=P(ql=Si),1≤ i≤ N
41 B:观察值概率 密度矩 阵
B=(bjk)N X L
bjk=P(Oklqt=Sj)1≤ i≤ N,l≤ k≤ L
(1)
(2)
(3)
其 中 L 为每个状态对 应 的可 能的观察值 数 目。
(二 ) 识 别 过 程
首先提取人体行为 的时空特征 ,时域特征为 Pi=(pl,p2,…,pi),运动
特征为 Qj={ql,q2,…,qJ},然后根据 同一时刻视频帧进行特征融合 ,得到
组合特 征 Mn={ml,m2,…,mn}(n