电子科技大学 人机交互复习总结
人机交互概念:人机交互是研究人、计算机以及它们相互影响的技术。狭义的讲,主要是研
究两者之间的信息交换,它主要包括人到计算机和计算机到人的信息交换两部分。
人机界面: 计算机与人之间通信和对话的接口,它作为计算机系统的重要组成部分,主要是
指人类与计算机系统之间的通信方式,它是人机双向信息交换的支持软件和硬件。
人机交互 VS 人机界面:
人际交互是指用户与计算机系统之间的通信,“交互”定义为一种通信,即双向的信息交
换。
人机界面指人类用户与计算机系统之间的通信媒体或手段。是人机双向信息交换的支持
软件和硬件,“界面”定义为通信的媒体或手段,物化体现是有关的支持软件和硬件。人机
界面也称为用户界面。
人机交互通过一定的人机界面来实现,在界面开发过程中,有时把他们作为同义词使用。
发展历程:命令行界面(CLI) 图形用户界面(GUI) ,也称 WIMP 界面 多通道人机界面(MMI)
发展趋势:强调“以人为本”,“自然、和谐”的交互方式,交互技术围绕集成化(多样化、
多通道)、网络化(在不同设备、不同网络、不同平台之间的无缝过度和扩展,在任何地方
用多种简单的自然方式进行人机交互)、智能化(非精确的信息交流,使人机之间的交互像
人与人交互一样自然、方便)、标准化(制定国际标准)展开。
人机交互的范畴:2-指导哲学 3-相互交叉和渗透 1-实现技术
【认知心理学:研究人的高级心理过程,主要是认知过程。从心理学的观点研究人机交
互的原理。
人机工程学:运用生理学、心理学和医学研究人、机器、环境相互间的合理关系,保证
人安全、健康、舒适的工作,提高整个系统工效的新兴边缘学科。分为硬件和软件两方面。
虚拟现实:真实感、沉浸感和交互性。自然和谐的人机交互是虚拟现实的一个研究内容。
多媒体:输入-将文字、声音、图形、图像集成在一起,多模态多通道输入。输出-引入
动画、音频、视频等动态媒体,丰富表现信息的形式,提高用户接收信息的效率。更直观。
信息处理-多媒体信息融合,单一媒体的分析处理。
人工智能:多通道系统力求对语义的理解。侧重于信息的理解与解释。
软件工程:软件的设计、实现、测试、开发管理】
人机交互的三元素:人(指导哲学)、交互设备、交互软件
人机交互的研究内容:多种独立模态的交互技术、智能用户界面(多模态信息融合)、虚拟现
实中的人机交互(3D 交互)
人机交互模型:对人机交互系统中的交互机制进行描述的结构概念模型
Norman 执行-评估模型:一个直观的交互模型,分为执行和评估两个阶段,通常由 7 步构成:
建立目标,形成意图,动作描述,执行动作,理解系统状态,解释系统状态,评估系统状态。
该模型指出了交互过程的某些特点,有助于在概念上理解交互过程,但完全以用户为中心,
对于计算机系统而言仅仅考虑到系统的界面部分,因此是不完整的模型。
运行鸿沟:用户意图与允许的行为之间的不匹配。
评估鸿沟:系统表示与用户期望之间的不匹配。
用户概念模型:一种用户能够理解的系统描述,使用一组集成的构思和概念,描述系统应做
什么、如何运作、外观如何等。
分为基于活动的和基于对象的。
基于活动:指示(按按钮)、对话(电话机器服务)、操作与导航(虚拟现实)和探索与
浏览(上网)。各类活动可以并存。
基于对象:界面比拟(桌面、电子表格,搜索引擎)、交互范型(我们在构思交互设计
时的某种主导思想或思考方式,设计时的灵感来源)
界面比拟是指采用“比拟”的方法将交互界面的概念模型与某个(或某些)物理实体之间
的某些相似性体现在交互界面设计中。
GOMS 预测模型:用户与系统交互时使用的知识和认知过程的模型,GOMS 代表目标、操作、
方法、选择规则。
目标:用户要达到什么目的。
操作:达到目标使用的认知过程和物理行为。
方法:为达到目标而采用的具体步骤。
选择规则:选择具体方法。
优点:可以预测专家用户如何使用一个系统,避免对用户进行可用性测试。能够定量预
测用户执行情况,从而对不同界面或系统进行比较分析,有助于确定产品的有效性。
缺点:无法预测普通用户的使用情况。适用范围有限,只适合分析数据录入类型的计算
机任务,而且只能预测专家级用户的执行情况,无法分析出错的情况。
交互框架模型: 交互分为四个部分:系统、用户、输入和输出,交互过程表现在信息在这
四个部分之间的流动和对信息描述方式的转换上。
交互周期中有四个阶段:目标建立、执行、表示和观察
1. 用户以用户语言在头脑中形成任务,并将任务翻译成机器可以识别的“输入语言”
2. “输入语言”被翻译成能被系统直接执行的一系列操作,即“核心语言”
3. 将系统的当前值以“输出语言”的形式呈现出来。
4. 用户观察输出,将其翻译为用“用户语言”表达的交互结果,与原目标进行比较和评价。
图形用户界面模型:【
三个思想:
桌面隐喻,即在界面中用人们熟悉的桌面上的物品来清楚的表现计算机可处理的能力。
WIMP 是组成图形用户界面的基本单元
直接操作以及‘所见即所得’的界面
多通道用户界面的特点:
使用多个感觉(侧重于多媒体信息的接受)和效应(侧重于交互过程中控制与信息输入)
通道。两者密不可分、相互配合,应允许充分的并行协作的多通道协同配合。
允许非精确的交互。允许使用模糊的表达手段可以避免不必要的认知负荷,有利于提高
交互活动的自然性与高效性。主张以充分性代替精确性。
三维和直接操纵。人生活在三维空间,习惯于看、听和操纵三维的客观对象,并希望及
时看到这种控制的结果。多通道的人机交互的自然性反应了这种本质的特点。
交互的双向性。人的感觉和效应通道通常具有双向性,多通道用户界面使用户避免通道
切换,从而提高自然性和效率。
交互的隐含性。追求交互自然性的多通道用户并不需要用户显式的说明每个交互成分,
而是在自然的交互过程中隐含的说明。
虚拟现实交互的特点:
立体感的视觉显示
置身于环境中的显示
动态的显示
以多种媒体和多种形式与计算机进行交互
闭环的交互方式
用户界面设计的一般原则:
一致性(用语与用词的一致性、操作方法的一致性、界面格局的一致性、数据格式的一
致性、系统响应的一致性)
易用性
容错性(重要操作提醒、操作完整性检测、输入正确性校验、命令执行的回溯 UNDO、
自动纠正错误、拒绝执行)
易学性
有效性(使用快捷键)
美观性
反馈性(词法级、语法级、语义级)
针对性(对不同层次的用户设计不同的操作环境)】
WEB 布局的设计原则:逻辑性、一致性、新颖性和实用性、采用容易扫视的表达方法、清
晰表达网页上的超链接
交互设备
输入:鼠标、键盘、跟踪球、操纵杆、触摸屏、手写板、光笔、数字化输入板、手势板、
三维输入设备
输出:显示器、打印机、扬声器
数据交互:人通过输入数据的方式与计算机进行交流的一种方式,是人机交互的重要内容与
方式。
数据交互的方式:
问答式对话数据输入交互、菜单选择、填表、直接操纵、关键词、条形码、光学字符识
别、声音、图像
输入设备:键盘、鼠标(定位,单击,释放,双击,拖动)、跟踪球、操纵杆、触摸屏、手
写板、光笔、数字化输入板、手势板、三维输入设备
输出设备:显示器、打印机
语音交互:研究人们如何通过自然的语音或机器合成的语音同计算机进行交互的技术。它是
一个多学科交叉的边缘学科,需要语言学、心理学、工程和计算机技术等领域的专业知识,
不仅要对语音识别和语音合成技术进行研究,还要对人在语音通道下的交互机理、行为方式
等进行研究。语音识别和语音合成的相结合,即构成一个“人机通信系统”。
语音交互的优缺点:
优点:人类最习惯的交流方式;认知负荷小(不需要长期占用注意力);资源占用少(空
间和照明);交互效率高(信息量大);
缺点:环境要求严(不能在噪声环境中);信息的模糊性;非结构化;短暂性;记忆负
荷大
语音识别:是将音频数据转化成文本或其他形式的计算机可以处理的信息的技术。它的研究
目的是让机器“听懂”人类的语言。
语音识别分类:
(1)孤立语音识别系统:以单字或单词为单位的识别系统。
连续语音识别系统:利用连续发语音词表中相关联的几个单字或单词,识别之前对连
续语音进行切分,最后给出连续发音的识别结果。(自然语音最大特点是连续语音)
(2)能识别词汇量小于 100 个的称为小词汇量识别;大于 100 个的称为中等词汇量识别;
大于 1000 个的称为大词汇量识别。
(3)特定人(SD)语音识别系统需要用户完成一个建立特定个人语音档案的过程,通过
朗读事先准备的文本,识别软件为用户创建符合用户声音和说话模式的语音模型。
非特定人(SI )语音识别系统针对多个用户的使用而设计,无需建立个人语音库,
不必使用者训练就可以识别各种语音。
特定人和非特定人语音识别系统之间的研究差距:
语音学差异。不同地方的说话人发音有很大不同。
生理差异。不同说话人会造成语音频谱特性不同。
发音习惯与心理状态差异。对说话的语音频谱特性造成影响。
“非特定人+自适应 ”是当前众多语音识别系统采用的使用框架。
语音识别:
模式匹配方法分为两步:
第一步,建立标准语音库(标准语音模板),系统首先建立有若干训练语句的标准语音
数据库供训练者使用,即训练;
第二步,将输入的语音信号经过处理后与标准语音模板相匹配,即识别,包括失真估计、
识别决策和专家知识运用;
建立语音模板的方法:选择一种识别方法,然后从输入的语音信号中提取该方法要求的
语言特征参数,保存起来形成语音模板。
模板匹配方法:概率统计方法(特征参数比较,失真测度最小判断结果,失败时,运用
专家知识)。
三个技术模块: 特征提取、模式匹配、标准模板库生成
三模块所涉及的技术:语音识别单元的选择、特征数据类型的选择、模式匹配方法与模
型训练技术
语音识别单元:单词(句)单元、音节单元(汉字)、音素单元(西文)
识别单元的分割技术:端点检测技术(过零率和能量特征参数获得分割精度)
特征参数提取:语音识别:特征参数的比较和识别
(1)特征提取:从语音信号中提取对语音识别有用的信息(根据语音单元特点提取)
(2)参数要求:最少特征表达信号,提高模式比较速度;最大限度不失真表示信号。
模型训练:按照一定准则,从大量已知模式中获取表征该模式本质特征的模型参数的过
程;
模式匹配:根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配的过程。
语音识别的后处理: 语音信息处理
在语音声学信号识别的基础上,利用语言学知识进一步纠正识别错误;还能提供一定
的反馈信息给声学信号识别系统,帮助声学信号识别系统提高识别性能。
语言信息处理方法:基于语料库的统计方法、基于文法的语法分析方法
语音识别方法:模式匹配法(动态规划方法 DP 即动态时间规整 DTW)、统计概率模型
方法(隐马尔科夫模型 HMM)、人工神经网络方法 ANN
三种语音识别方法比较:
DTW 方法优点是保留语音序列的时序信息,识别算法简单有效。缺点是动态规划(DP)
法计算量较大,不能进行动态训练,即不能用多次的发音来训练一个语音样本,只能采用多
套样本。一般用于中小字表、特定人或孤立词的语音识别系统中。
HMM 方法的特点是便于建立各种层次的语音识别基元(音素、音划、字、词组合句子)
的语音模型,容易综合各种不同性质的参数信息(声道参数、语法、语义、语音模型等),
缺点是建模本身存在不完善性,对于语音信号的时序反映能力较低等。 适合于非特定人、
大字表、连续语音的识别。
ANN 技术在语音识别中主要用来完成分类工作,多用于小字表的分类识别。对于复杂
的识别问题(大字表、非特定人、噪声环境等)神经网络方法普遍存在收敛缓慢、局部最优
和推广能力差的缺点。在端点检测、非线性特征参数提取和预处理方面,其效果和 DTW 类
似。
语音合成:通过计算机把数字信息变成语音输出,语音识别和语音合成是语音处理的互逆过
程。
实现途径:存储语言信号,需要时再重现(声音还原);让机器像人类说话,模拟人的语言
功能,完成内容到声音的实现过程。
语音合成方法:波形编辑方式;参数编辑方式;按规则合成方式
图像识别的三个层次、关系
图像处理:对图像进行各种加工以改善视觉效果,输入输出均为图像。
图像识别:对图像中感兴趣的目标进行监测和测量,通过抽取客观信息建立图像的描述。
图像感知:在识别的基础上,进一步研究图像中各目标的性质和联系,得出对图像内容
的理解和客观场景的解释,从而指导和规划行动。
关系:密切联系,又有明显区别,主要体现在输入和输出的关系上。图像感知输入一幅
图像,输出对该图像的解释。图像处理的输入和输出都是图像,主要工作是对图像进行加工。
图像识别对输入模式进行分类,它具有图像感知的内容,但理解的结果与图像感知相比不如
后者全面丰富。通常,图像感知包括图像处理和模式识别的内容。
图像识别过程:
特征提取(灰度特征、几何特征、统计特征):从原始数据中提取出对分类识别有用的信息。
分类判决:处理第一步获取的信息,完成特征信息与目标参数间的相互关联的判决
图像识别方法:
统计方法:以数学的决策理论为基础,建立统计学识别模型,通过对图像大量统计分析,
找出规律性认识,抽出反映图像本质特点的特征进行识别。
句法模式识别方法:从图像的结构特性出发分析、识别、描述图像。
统计法未考虑图像结构,句法模式未考虑环境中的噪声干扰,两者结合更好。
从识别逻辑观点看: 组合式(全部特征抽出进行判断),顺序式(每抽一次特征,进行
判断)
人脸图像识别过程:
面相检测:在动态的场景与复杂的背景中判断是否存在面相并分离出面相;
跟踪:是指对被检测到的面相进行动态目标跟踪;
识别:是对被检测到的面相进行身份确认和在面相库中进行目标搜索。
手写字体识别【
手写文字的联机识别主要解决将输入数据识别并转换成字符或词句,然后存储显示,或
者加以解释和执行。
脱机(手写字符/单词识别处理)/联机(数据采集与预处理技术、笔记分割技术、特征
提取、建模以及匹配技术、后处理技术)手写体识别
】
数字墨水:在 tabletPC 上书写或绘制的任何内容。墨迹把书写速度、压力、笔势等信息转化
为数字并记录下来,形成数字墨水。系统把数字墨水存储为一系列复杂的贝塞尔曲线方程,
而不是 bit 串,占用空间小。
人机行为交互:计算机通过定位和识别人类,跟踪人类肢体运动和表情特征,从而理解人类
的动作和行为,并作出响应的技术。
人体行为识别的过程:人的行为特征提取或者人体运动分析,主要确定如何描述人的运动,
如是否用模型、模型的复杂度等;行动追踪(图标模型、结构模型),建立行为特征与图像
序列的对应关系;行为识别(状态空间、模板匹配),从特征序列推断运动的高层语义。
以硬件为基础的视线跟踪:利用图像处理技术,使用能锁定眼睛的特殊摄像机,通过摄入从
人的眼角膜和瞳孔反射的红外线连续的记录视线变化,从而达到记录分析视线跟踪过程的目
的。
以软件为基础的视线跟踪:利用摄像机获取人眼或脸部图像,然后用软件实现图像中人脸和
人眼的定位与跟踪,从而估算用户在屏幕上的注视位置。人的注视方向可以用头的方位和眼
睛的方位两种方式来表示。
“米达斯接触(Midas Touch)”问题:用户希望随便看着什么并不必非“意味着”什么,更
不希望每次转移视线都可能启动一条计算机命令。
表情分类判决:基于表情表征的分类思想、表情特点和表情分类却又是不相交的。
表情识别过程是:进行人脸面部图像的分析,建立人脸部件的组合模型,提取子目标图像;
根据部件的形状分析,建立部件的可变形的模板;根据匹配分析,采用能量优化的方法,经
过模板匹配提取目标特征,得到人脸表情的表征矢量,与中性的表情矢量进行比较,达到识
别表情的目的。