基于文献综述的学术课题提出与研究计划
家庭服务机器人文献综述
1
基于文献综述的学术课题提出与研究计划
目录
一、语音系统模块 ................................................... 3
1、基于微软 Speech API 的语音识别和语音合成 ..................... 3
1.1 研究背景 ................................................3
1.2 技术方案 ................................................3
1.3 技术难点与瓶颈 ..........................................5
1.4 项目计划 ................................................5
1.5 预期成果 ................................................6
2、基于麦克风阵列和时延估计的声源定位方法 ...................... 6
2.1 研究背景 ................................................6
2.2 技术方案 ................................................7
2.3 技术难点与瓶颈 .........................................10
2.4 项目计划 ...............................................10
2.5 预期成果 ...............................................11
二、视觉系统模块 .................................................. 11
1、人体跟随技术 ............................................... 11
1.1 研究背景 ...............................................11
1.2 技术方案 ...............................................12
1.3 技术难点 ...............................................14
1.4 项目计划 ...............................................15
1.5 预期成果 ...............................................15
2、基于 KINECT 人脸识别方法 .................................... 15
2.1 研究背景 ...............................................15
2.2 技术方案 ...............................................15
2.3 技术难点 ...............................................17
2.4 项目计划 ...............................................18
2.5 预期成果 ...............................................19
2
基于文献综述的学术课题提出与研究计划
一、语音系统模块
1、基于微软 Speech API 的语音识别和语音合成
1.1 研究背景
语音识别技术是将计算机接收、识别和理解语音信号转变为相应的文本文件
或者命令的技术。语音合成,又称文语转换(Text to Speech)技术,能将任意
文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。
在 Robocup 家庭服务机器人项目中,语音系统是尤为重要的一部分,除了参与相
关语音项目外,更重要的是起到一个信息汇总、信息传输、互动交流的作用。现
在在家庭服务机器人的比赛中,大部分队伍都是使用了与我们相同的语音引擎,
都是用基于微软 SAPI 来实现语音识别和语音合成(开源且免费),也有很多强队
是购买了科大讯飞的语音库(这是目前国内最好的语音平台,是不开源付费的)。
1.2 技术方案
1.2.1 基于语法树和常用库的语音识别
在语音识别方面,识别速度也是极为重要的,在比赛中超过 5 秒未识别则失
败,所以提高语音识别是极为重要的任务。在家庭服务机器人比赛中,大多数组
是采用将语句分组再按顺序建立语法,在识别时需要找到语句所在组并对每一个
单词进行识别。这种方法在比赛方所给的单词句式较为少的时候很好用,但是一
旦需要建立庞大的语法时,这种方法不但速度低下,识别率也十分低。
所以我们组建立了语法树和常用库,语法树是将句子拆分成树状结构,利用
正则表达式、连词技术、子字连接技术和模板匹配进行识别,将庞大的语法结构
进行压缩,极大减少了识别时间,并且这种方法能提高识别率。我们对单词进行
了分类,对每一类的单词只取其集合名词,再将所有集合名词综合,建立常用库。
这样不仅可以减少单词的错误识别,提高识别率,还便于使用者的修改。对
于家庭服务机器人比赛来说,现在所建立的语法树可以满足比赛的需要,但在下
3
基于文献综述的学术课题提出与研究计划
一阶段,我们计划建立深度的语法树,让语法树可以支持更多的句式。
1.2.2 基于语义解析的语音识别
在语义解析方面,现在只能解析一层语句,但如果第一次语句有误时,由于
无法将第一次语句保存再识别第二次语句,容易导致识别错误。其他学校在语义
解析方面大多数也是一层解析,目前知道上海交大采用了两层语义解析,但效果
并不明显。
所以目前的语音组接下来的任务是将语句进行深度解析,可以对一条语句多
次识别,最终得到正确的语句,这样能从软件方面极大地提高识别率。
在语义识别方面还有一个任务,是在将来在家庭服务机器人能实现抓取物体
和识别人脸等高级功能时,语音方面需要对语句进行深度解析,拆分命令,对每
一个命令识别并能向其他组传达指令,这样可以协调几个组之间运作,共同配合
完成复杂的任务。
1.2.3 基于连词技术和子字连接技术的语音识别
由于一个语句是由多个单词连接而成,所以在构建语句时需要用到连词技术
和子字连接技术。当句式不同时,单词间的连接会十分复杂,1 个常用的单词可
能会需要使用多次,在多次使用时会影响识别率,并降低效率。利用连词技术和
子字连接技术,可以将单词进行组合匹配,将子字接在某些单词的开头和结尾,
这样可以很好的防止识别重复和识别冲突等情况,提高识别率和运行效率。
由于比赛所提供的词库和规定句式较多,分析起来十分繁琐,很难考虑到所
有情况,且每次比赛所提供的词库和句式都不同,所以目前我们在这项技术上的
使用并不多,只是在比较重要和明显的地方使用该方法。
在下个阶段,我们计划扩大词库和句式范围,花更多时间分析并调整,通过
大量调试,在更多的地方使用连词技术和子字连接技术。
4
基于文献综述的学术课题提出与研究计划
1.3 技术难点与瓶颈
1.3.1 语音识别中的技术瓶颈
在进行语音识别时,语音的识别速度必须在 5 秒内,如果在比赛时遇到极大
的语法要求时,会导致识别速度变得很慢,特别是在多个进程并发进行时。语音
的识别率也是极其重要的一部分,现阶段微软 SAPI 中的语音引擎已经不再更新,
而且只能识别及其标准的美式英语,而在比赛时常常因为裁判的错误发音导致丢
分。提高语音的识别率和识别速度是接下来语音系统方面的工作重心。
1.3.2 语义解析技术难点
随着时间的发展,机器人在赛程中需要处理的信息将日益复杂。地点集、动
作集、人物集、物品集作为比赛的信息其规模也将日益庞大,如何在一个长命令
语法中提炼关键信息,并将其有序组织分类,发送给其他组以执行命令,将是语
义解析的难点。同时,优先级的确认将会变得复杂,无法单纯的用有限状态机进
行编程,这也是语义解析的难点。
1.4 项目计划
1.4.1 颜色编码化的物体识别
时间结点
负责人 参与人员
内容目标
2016.11.15-12.2
杨隆兴 14 级杨隆兴、钟朝阳 优化语法树结构,提升语音识
5
别效率与速度
2016.12.25- 本 学
杨隆兴 14 级杨隆兴、钟朝阳 尝 试 使 用 其 他 的 语 音 识 别 引
期结束
擎,比较不同语音引擎的识别
效率。
5
基于文献综述的学术课题提出与研究计划
1.4.2
基于语义解析的语音识别
时间结点
负责人 参与人员
内容目标
2017.2.5-2.20
杨隆兴 14 级杨隆兴、钟朝阳 设计一个合理的信息集到执行
2017.2.20-2.27 杨隆兴 14 级杨隆兴、钟朝阳 实现命令优先级的合理划分
集的信息处理方案
1.4.3
基于连词技术和子字连接技术的语音识别
时间结点
负责人 参与人员
内容目标
2017.2.27-3.12 杨隆兴 14 级杨隆兴、钟朝阳 扩大连词技术和子字连接技术
的使用范围,以扩大词库和句
式范围。
*注:上述时间节点因受考试时间、寒假安排等学校安排因素限制,并不能作为
准确节点,仅供参考,具体节点将根据确定后的学校安排进行实时更改。
1.5 预期成果
提升机器人语音识别的准确率以及语义解析的正确率。
2、基于麦克风阵列和时延估计的声源定位方法
2.1 研究背景
声源定位技术主要有三种,分别为基于可控波束形成的声源定位、基于高分
辨率谱估计的声源定位、基于到达时间差的声源定位算法,其中声波到达时间差
算法相较前 2 种算法运算量小, 硬件可实现性大, 需要解决的是合适的时延估
计算法, 并通过硬件平台来实现声源的定位。
声源定位技术现在处于相对成熟阶段,但相对与 socket 和 SAPI 仍有不足,
它并没有相关的 API,实现上也需要从底层做起,相对难度较大。如何克服混响
6
基于文献综述的学术课题提出与研究计划
效应和背景噪声的影响,提高定位精度,减少运算复杂量,满足实时性要求,这
些都是我们在前进道路上要面临的挑战。
2.2 技术方案
2.2.1 麦克风阵列
所谓麦克风阵列就是放置在空间中不同位置的多个麦克风。根据声波传到理
论,利用多个麦克风收集到的信号可以将某一方向传来的声音增强或抑制。利用
这种方法,麦克风阵列可以将噪声环境中特定声音信号有效的增强。更进一步来
说,这种增强效应只依赖与声源所在的位置,对噪声的类型、频谱等没有特殊的
要求,因此可以用在非常广的应用领域。由于麦克风阵列技术具有很好的抑制噪
声的能力,又不需要麦克风时刻指向声源方向,因此在语音处理领域 3 具有非常
好前景。
麦克风阵列较之单个麦克风有许多优点,其优越性表现在:
1)麦克风阵列系统具有空间选择性,可以用“电子”瞄准的方式从声源位置
处获取目标信号,并且抑制其它方向的干扰信号,其效果明显优于良好瞄准的、
高方向性的单麦克风。
2)麦克风阵列系统能够应用于自动跟踪识别声源,当声源移动时,麦克风阵
列并不需要发生物理上的调整,只需系统改变其电子波束指向即可,减少了手工
操作。
3)麦克风阵列系统能够识别监控同时发生的多个声源。
4)麦克风阵列系统可以用于近场测距,这是单麦克风无法实现的。
2.2.2 基于时延估计算法的声源定位
基于时延估计的声源定位系统, 是针对声音在空气中的传播速度是相对恒
定的特性来实现。一个好的时延估计算法不仅要能够在低信噪比和强混响的条件
下精确地估计出时延, 而应该具有较低的运算量, 或者是较快的运算速度。基于
时延估计的声源定位算法该算法首先估计各麦克风之间的相对时延,然后利用估
计出的时延,确定声源的位置。在现有的麦克阵列声源定位方法中,该方法运算量
7
基于文献综述的学术课题提出与研究计划
相对较小,实时性较好,硬件成本较低,因而倍受关注。但是,该算法适合于单个声
源的定位系统,如果用于多声源定位,性能将会严重下降。
时延估计声源定位算法的第一步,也是最重要的一步就是时延估计,在进行
时延估计时,首先传感器接收信号,经过计算机数字化,然后利用数学方法对这
些数据进行处理,也就是估计出信号到达各个传感器的相对时延,然后就是利用
这个时延估计值,通过数学计算确定出声源的位置,这个位置实际上也是估计值,
存在一定的误差,但是如果误差可以忍受,在实际中也是允许的。在现有的定位
算法中,由于此算法只是对时延的估计是一系列数学运算,包括傅立叶变换,点
乘,点除等,这在实际中很容易利用专用的数字信号处理器实现,故而硬件成本
可以做到很低,运算量相对较小,实时性也就大大提高。许多的仿真研究也证明,
该算法适合于单个声源的定位,在实际中得到了广泛的应用。
时延估计的算法有很多,但是在实际中用的较为广泛且相对简单的一种算法
是广义互相关函数法,广义互相关函数的基本原理是:求得两组信号间的互功率
谱,然后再频域内给予不同的加权运算,最后再反变换到时域,得到两组信号之
间的互相关函数,互相关函数的极值所对应的时间就是两组信号间的时延。
假定声源信号表达式如下
这里使用来表示声源信号,利用、来表达声波从声源到传声器的传播衰减系
数。而利用、来表达声源传播到两部传声器时所需要的时间,而,则代表高斯白
噪声,并且与、是不相关的。
互相关函数
利用相关函数的性质就可以得到,当时,便能取得最大值,因此值就是两个
麦克风之间的时延。
时延一旦被估计出来,剩下的步骤也就是进行一些简单的数学计算。对于平
面二维定位,只需要两个独立的时延估计值,三维的情况需要三个独立的时延估
计值。每个时延估计值对应一个二次、三次方程,求解这些方程组就可以算出声
源的坐标,所以时延估计算法的第二步就是根据第一步计算出来的实验估计值做
一些简单的数学计算。总体来说,基于时延估计的声源定位算法在运算量上优于
8