logo资料库

基于深度卷积神经网络的人脸识别技术综述.pdf

第1页 / 共9页
第2页 / 共9页
第3页 / 共9页
第4页 / 共9页
第5页 / 共9页
第6页 / 共9页
第7页 / 共9页
第8页 / 共9页
资料共9页,剩余部分请下载后查看
第 35 卷第 1 期 2018 年 1 月 计算机应用与软件 Computer Applications and Software Vol. 35 No. 1 Jan. 2018 基于深度卷积神经网络的人脸识别技术综述 景晨凯1 宋 涛1 庄 雷1 刘 刚2 王 乐2 刘凯伦1 1 ( 郑州大学信息工程学院 河南 郑州 450001) 2 ( 河南省招生办公室 河南 郑州 450046) 人脸识别是计算机视觉的重要应用之一,广义的人脸识别包含图像采集、人脸检测、人脸对齐、特征表 摘 要 示等过程。人脸识别的发展史主要是人脸特征表示方 法 的 变 迁 史。针 对 特 征 的 表 示 方 法,从 人 脸 识 别 技 术 的 发 展历史、研究现状和未来发展三个方面进行综述: 分阶段 对 传 统 的 几 类 经 典 的 人 脸 识 别 算 法 进 行 回 顾 和 总 结; 以 深度学习算法的诞生过程为切入点,重点分析了在人脸识别中取得突破性进展的深度卷积神经网络 DCNN deep ) 的技术思想和关键问题; 针 对 人 脸 识 别 和 深 度 学 习 算 法 的 重 大 挑 战,展 望 了 未 来 可 convolutional neural networks 能存在的发展方向。 ( 关键词 人脸识别 特征表示 深度学习 深度卷积神经网络 中图分类号 TP391. 41 文献标识码 A DOI:10. 3969 / j. issn. 1000-386x. 2018. 01. 039 A SURVEY OF FACE RECOGNITION TECHNOLOGY BASED ON DEEP CONVOLUTIONAL NEURAL NETWORKS Jing Chenkai1 Liu Kailun1 1 ( School of Information Engineering,Zhengzhou University,Zhengzhou 450001,Henan,China) Liu Gang2 Wang Le2 Song Tao1 Zhuang Lei1 2 ( Higher Education Admission Office of Henan,Zhengzhou 450046,Henan,China) Abstract Face recognition is one of the important applications of computer vision. Generalized face recognition includes image acquisition, face detection, face alignment, and feature representation and so on. However, the development history of face recognition is mainly the history of the change of face feature representation method and summarizes the three aspects of the development history,research status and future development of face recognition technology. Firstly,reviews and summarizes several kinds of classical phases of traditional face recognition algorithm. Secondly,based on the process of ideas and key problems of deep convolutional neural networks ( DCNN ) , which are the breakthrough progress in face recognition, are analyzed emphatically. Based on this,the paper finally talks about the prospect of face recognition in the direction of development the depth learning algorithm, the technical may exist in the future under the challenge of face recognition and deep learning algorithms. Keywords Face recognition Feature representation Deep learning DCNN 0 引 言 人脸识别属于 计 算 机 视 觉 的 范 畴,特 指 计 算 机 利 用分析比 较 人 脸 视 觉 特 征 信 息 自 动 进 行 身 份 鉴 别 的 “智能 ”技 术。 相 比 于 指 纹、虹 膜 等 传 统 生 物 识 别 手 段,人 脸 识 别 具 有 无 接 触、符 合 人 类 识 别 习 惯、交 互 性 强、不易盗取等优势,因此在保障公共安全,信息安全, 金融安全,公 司 和 个 人 财 产 安 全 上 等 有 强 烈 的 需 求。 尤其是近些 年 来 随 着 深 度 卷 积 神 经 网 络 DCNN 的 引 入,人脸识别的准确率得以跨越式提升,各类相关应用 如人 脸 识 别 考 勤、考 生 身 份 验 证、刷 脸 支 付、人 脸 归 类 查询等已开始逐步投入使用,效果显著。 对于一张 静 态 2D 人 脸 图 片,影 响 识 别 的 因 素 主 收稿日期:2017 - 03 - 01。国家自然科学基金项目(61379079) ;河南省国际合作项目(152102410021) 。景晨凯,硕士生,主 研 领 域:深度学习,人脸识别。宋涛,博士生。庄雷,教授。刘刚,博士。王乐,硕士生。刘凯伦,硕士生。
224 计算机应用与软件 2018 年 要可分为基础 因 素、外 在 因 素 和 内 在 因 素。基 础 因 素 是指人脸本身具有的全局相似性,即人的五官、轮廓大 致相同;外在因素是指成像质量,主要包括人与摄像设 备的位置关系 ( 距 离、角 度、尺 度 ) ,摄 影 器 材 的 性 能, 光照的强弱,外物( 眼 镜、围 巾 ) 遮 挡 等;内 在 因 素 是 指 个人的内部属性,如性别、年龄变化、精神健康状态、面 部毛发、化妆整容、意外损伤等。但人类似乎天生具有 面部识 别 能 力,可 以 很 轻 松 地 剔 除 掉 这 些 因 素 的 影 响[1],并且可以通过 人 的 其 他 部 位、神 情、习 惯 等 辅 助 手段快速确定 一 个 人。 而 对 于 计 算 机,这 些 辅 助 手 段 由于其特征不稳定性反而容易被不法分子利用。目前 大多数情况下计 算 机 读 取 的 是 一 张 静 态 二 维 图 片,这 些图片本质上又 是 由 繁 多 的 多 维 数 字 矩 阵 组 成,如 一 张 256 × 256 的 RGB 彩 色 图 片 就 有 196 608 个 数 字。 可想而知,其识 别 任 务 难 度 巨 大。 幸 运 的 是 计 算 机 可 以使用人类设计的算法从图像中提取特征或者学习到 特征。计算机自动人脸识别 AFR( automatic face recog- nition) 的主要 任 务 就 是 如 何 为 减 少 个 人 内 部 的 变 化, 同时扩大人外部差异制定低维有效的特征表示。 1 回顾传统的人脸识别算法 人脸识别的发展史主要上还是人脸特征表示方法 的变迁史,从最初的几 何 特 征,到 经 验 驱 动 的“人 造 特 征”,最后到数据驱动的“表示 学 习 ”,人 脸 识 别 已 历 经 了近 60 年的发展历程。 英国 心 理 学 家 Galton 于 1888 年 和 1920 年 便 在 《Nature》上发 表 了 两 篇 关 于 人 脸 识 别 的 论 文,他 将 不 同人脸的侧面特征用 一 组 数 字 代 表,但 并 未 涉 及 AFR 问题。1965 年,Bledsoe 等在 Panoramic Research Inc 上 发表了第一篇 AFR 的报告[2],他们用脸部器官间的间 距( 如两眼 之 间 ) 、比 率 等 参 数 作 为 特 征,构 建 了 一 个 半自动人脸识别 系 统,开 始 了 真 正 意 义 上 的 人 脸 识 别 研究。1965 年至 1990 年 的 人 脸 识 别 研 究 主 要 基 于 几 何结构特征的方法以及基于模板匹配的方法。 基于几 何结构特征的方法一般通过提取人眼、口、鼻等重要特 征点的位置,以及 眼 睛 等 重 要 器 官的 直 观 几 何 形 状 作 为分类特征,计 算 量 小。但 当 受 光 照 变 化、外 物 遮 挡、 面部表情变化等 内 外 在 因 素 影 响 时,所 需 特 征 点 将 无 法精确定位,进 而 造 成 特 征 急 剧 变 化。而 基 于 模 板 匹 配的方法则通过计算模板和图像灰度的自相关性来实 现识 别 功 能,但 忽 略 了 局 部 特 征,造 成 部 分 信 息 丢 失。 这一阶段可以称 为 人 脸 识 别 的 初 级 阶 段,该 阶 段 的 研 究只适用于人脸图像的粗略识别,无法在实际中应用。 1992 年 Brunelli 等通过实验得出基于 模板匹配的方 法 优于基于几何结构特征的方法[3]的结论。 1991 年 到 1997 年 是 人 脸 识 别 研 究 的 第 二 阶 段, 尽管时间短暂,却 是 非 常 重 要 的 时 期。大 量 的 人 力 物 力投入其中,如 美 国 国 防 部 发 起 的 FERET ( Face Rec- ognition Technology Test) 资助了多项人脸识别研究,并 创建了著名的 FERET 人脸图像数据库,该项目极大地 促进了人脸识别 算 法 的 改 进 及 实 用 化,许 多 经 典 的 人 脸识别算法也都在这个阶段产生。具有里程碑意义的 研究是 麻 省 理 工 学 院 的 Turk 等 提 出 特 征 脸 Eigen- [4],该方法 是 后 来 其 他 大 多 数 算 法 的 基 准。 还 有 face [5],它 首 先 基于子空间分析的人脸 识 别 算 法 Fisherface 通过主成分分析方法 PCA( Principal Component Analy- sis)[4]将人脸降维,之后采用线性判别分析 LDA( Line- ar Discriminant Analysis)[5] 期 望 获 得 类 间 差 异 大 且 类 内差异小的线性子空间,但正因如此,它无法对复杂的 非线性模型进行建模。基于弹性图匹配的方法[6]是一 种将几何特征与对灰度分布信息的小波纹理分析相结 合的识别算法,它利用人脸的基准特征点构造拓扑图, 使其符合人脸的 几 何 特 征,然 后 获 取 人 脸 关 键 点 的 特 征值进行匹配。该算法能够在局部结构的基础上 保留 全局结构,而且能自动定位面部特征点,因此对角度变 化具有一定的 鲁 棒 性。其 缺 点 是 时 间 复 杂 度 高,实 现 复杂。基于模型的方法如 主 动 表 观 模 型 AAMs( Active Appearance Models)[7]是 人 脸 建 模 方 面 的 一 个 重 要 贡 献。AAMs 将人脸图像的 形 状 和 纹 理 分 别 用 统 计 的 方 法进行描述,然后通过 PCA 将二者 融 合 来 对 人 脸 进 行 统计建模,该算 法 常 用 在 人 脸 对 齐 上。另 外 比 较 经 典 的还 有 SVD 分 解[8] 、隐 马 尔可夫模 型 ( Hidden Markov Model)[10] 以 及 神 经 网 络 等方法。总的来 说,这 一 阶 段 的 人 脸 识 别 研 究 发 展 迅 速,所提出的算法 直 接 采 用 人 脸 图 像 中 所 有 像 素 的 颜 、人 脸 等 密 度 线 分 析 匹 配[9] 色或灰度值作为 初 始 特 征,然 后 通 过 在 训 练 数 据 上 学 习得到更具区分力 的 人 脸 表 示。从 技 术 方 案 上 看,2D 人脸图像线性子 空 间 判 别 分 析、统 计 模 式 识 别 方 法 是 这一阶段的主流技术。这一阶段的人脸识别系统在较 理想图像采集条件、用户配合、中小规模数据库上的情 况下较为适用。 第三阶段 (1998 年—2013 年) 重 点 研 究 真 实 条 件 下,以及基于其他的数据源 ( 如视频、近红外和素描) 的 人脸识别问题,并深入分析和研究不同影响下的人脸识 别,如光照不变人脸识别、姿态不变人脸识别和表情不 变人脸识别等。为了克服直接使用像素灰度值对光照 敏感等问题的限制,这一时期涌现出了很多对局部邻域 像素亮度或颜色值进行手工特征提取的方法,比如对人
第 1 期 景晨凯等: 基于深度卷积神经网络的人脸识别技术综述 225 [11]以及基于无监督学 脸较为有效 Gabor Face、LBP Face [12]等。分类识别上主要采 习的特征 learning Descriptors 用以线性判别分析为 代表的线性建模 方 法[13 - 14],以 核 方法为代表的非线性建模方法[15 - 16]和基于 3D 人脸重 建的人脸识别方法[17 - 18] 。LBP 特征是这一时期的典型 特征描述子,其将图像分成若 干区域,在每个区域用中 心值对邻域作阈值化,将 结果表 示成二 进 制数,然后基 于区域的频率直方 图 做 统 计。LBP 特 征 对 单 调 灰 度 变 化保持不变,并对图像中的噪声和姿态具有一定的鲁棒 性。在子空间分析改进 上,如针 对 Eigenface 算 法 的 缺 点,中 科 院 计 算 所 提 出 的 特 定 人 脸 子 空 间 ( FSS ) 算 法[13],FSS 为每个对象建立一个私有的人脸子空间,更 好地描述了不同个体人 脸之间的差 异性。香港中文大 学的王晓刚等提出的 统 一 子 空 间 分 析[14] 方 法 将 PCA、 LDA 和贝叶斯子空间[19] 三种子 空 间方法 进 行 比 较,并 将三者有机结合提高了识别性能。基于 3D 人脸重建的 人脸识别一 般 基 于 形 变 模 型 ( morphable model)[18],其 主要思想是首先将 2D 人脸图像映射到 3D 模型表面,之 后将这个 3D 模型转到正脸提取特征。虽然对姿态变化 具有鲁棒性,但需要定位大量基准点,并且 3D 数据难以 收集。值得一提的是 2007 年以后,LFW [20]数据库成为 真实条件下最权威的人脸识别测试 基准。它的样本来 自互联网的 5 749 人的 13 233 张名人人脸照片,采用十 折平均精度作为性能评价指标。2012 年 Huang 等首次 采用深度学 习 的 无 监 督 的 特 征 学 习 方 法[21] 在 LFW 取 得了 87% 的识别率,与当时最好的传统人脸识别算法相 比还有一定差距。总之,这一阶段提取的面部特征是人 为设计或基于无监 督学习 的局部 描 述 子。此 后 以 DC- NN 为代表的深度学习 算法 的 有监督学习在 AFR 的 应 用彻底颠覆了这种经验驱动的“人造特征”范式,开启了 数据驱动的“表示学习”的革命。 2 深度学习革命下的人脸识别研究 2006 年,Hinton 等在《Science》上 首 次 提 出 了 深 度 。 深 度 学 习 本 质 上 也 是 一 种 特 征 学 习 方法,传统方法需 要 有 相 关 专 业 背 景 的 专 家 设 计 特 征 学习的概 念[22] 表示方式,而深度 学 习 各 层 的 特 征 是 使 用 一 种 通 用 的 学习过程从数据中学到的。其也可以看作是使用像素 灰度值特征,它把 原 始 数 据 通 过 一些 简 单 的 非 线 性 的 模型转变成为更高层次的、更加抽象的表达,经过足够 多转换的组 合 来 学 习 非 常 复 杂 的 函 数。2012 年,Hin- [23] ton 又带领学生在目 前 最 大 的 图 像 数 据 库 ImageNet 上,将 Top5 的分类错误率 26% 降低 至 15% ,在学术界 一鸣惊人,并 引 起 了 工 业 界 的 强 烈 关 注,特 别 是 以 谷 歌、百 度、微 软、脸 谱 等 为 首 的 拥 有 大 量 数 据 和 高 性 能 计算的科技巨头企业。深度学习俨然已成为当今人工 智能界 具 有 统 治 地 位 的 算 法,而 深 度 学 习 前 身 就 是 NN。由此,本节先从人 工 智 能 和 NN 的 起 源 开 始 逐 步 深入分析这一算法。 2. 1 深度学习的前世今生 1956 年,John McCarthy 与 Marvin Minsky,Herbert Simon 等 在 达 特 茅 斯 学 院 正 式 创 立 了 人 工 智 能 的 概 念,并形 成 以 Herbert Simon 为 代 表 的 理 性 学 派 和 以 Marvin Minsky 为代表的 感 性 学 派。 NN 正 是 感 性 学 派 的代表。1957 年康奈尔大 学 心 理 学 教 授 Rosenblatt 利 用神经网络原理首次成功制作了能够读入并识别简单 的字母和图像电 子 感 知 机。1959 年,霍 普 金 斯 大 学 的 Hubel 和 Wiesel 通过观察猫脑部视 觉 中 枢 对 视 网 膜 进 入图像的处理方 式 发 现,提 出 了 简 单 细 胞 和 复 杂 细 胞 的概念。这一工作对后来从事 NN 研 究 的 计 算 机 专 家 提供了重要的建 模 思 路,比 如 神 经 元 是 分 工 分 层 对 信 息进行处理,不 同 神 经 元 关 注 的 对 象 特 征 不 同。 CNN 中的卷积和池化层灵感也直接来源于视觉神经科 学中 的简单细胞和 复 杂 细 胞。对 于 人 脸 图 像 来 说,前 几 层 的神经元抽象出 脸 部 的 部 分 特 征 如 边 角 或 线 条,然 后 经过逐层激发逐渐形成不同的形状,如眼睛和 鼻子,最 后在中枢的最高层激 发 对 整 个 对 象 产 生 认 知 的“祖 母 神经元”,也就是整张人脸的特征。 但好景不 长,1969 年 Minsky 在《感 知 机 》的 书 中 证明两层神经网 络 不 能 解 决 XOR ( 异 或 ) 这 一 个 基 本 逻辑问题直接导致了 NN 研究经历了第 一 次 长 达 十 几 年的寒冬。这一 时 期 理 性 学 派 的 专 家 系 统 得 以 盛 行, 感性流派虽没有 专 家 系 统 那 样 成 功,但 也 取 得 了 一 些 进步。如 1974 年,哈 佛 Werbos 的 博 士 论 文 证 明 在 输 入层 和 输 出 层 之 间 添 加 一 个 隐 层,可 以 解 决 XOR 问 题,但并未引起重视,另外层数的增加为各个层的 神经 节点连接 的 权 重 选 取 带 来 新 的 困 难。1986 年 Rumel- hart 等在《nature》提 出 的 反 向 传 播 BP ( back propaga- tion) 算法[24]一定 程 度 上 解 决 了 权 重 选 取 问 题。 多 层 感知机和 BP 算法为 NN 研究点燃了新的希望,在此基 础上分支联结主 义 开 始 流 行,其 核 心 领 导 者 是 两 位 心 理学家 Rumelhart 和 McLelland 和 未 来 的“深 度 学 习 之 父”Hinton。但是很快由于多层网络训练困难:如梯度 不稳定,训练数据和计算能力不足等问题,NN 在 20 世 纪末再次进入 寒 冬。值 得 关 注 的 是,在 此 期 间 专 家 系 统及 NN 维度的深化推动了超级计 算 技 术 的 发 展。这 一领域衍生出的计算机集群技术成为 20 世纪 90 年代 信息领域的互联 网 公 司 的 计 算 平 台,业 务 量 和 数 据 量
226 计算机应用与软件 2018 年 的增加使这些网 络 平 台 不 断 扩 张,存 储 和 计 算 能 力 相 应越来越强大,由此也产生 了大量的 数 据,为 NN 的 第 三次复苏埋下伏笔。 2006 年,NN 脱胎换 骨 成 为 深 度 学 习,Hinton 等 所 提出的深度信念网络 DBN( deep belief networks)[22]指 出具有大量隐层 的 网 络 具 有 优 异 的 特 征 学 习 能 力,而 网络的训练可以采用非监督的逐层初始化与反向传播 实现。2012 年 机 器 学 习 界 的 泰 斗 Andrew Ng 等 发 起 的 Google Brain 项 目 在 包 含 16 000 个 CPU 的 分 布 式 并行计算平 台 上 构 建 一 种 被 称 为“深 度 神 经 网 络 ”的 类脑学习 模 型[25],并 成 功 地“认 识 ”了 猫。 而 近 些 年 GPU 强大的并行计算 能 力 更 是 加 快 了 训 练 速 度,深 度 学习势如破竹。深 度 学 习 能 取 得 如 今 的 成 就,离 不 开 三个 长 期 专 注 NN 领 域 的 计 算 机 科 学 家,分 别 是 以 上 提到 的 深 度 学 习 开 创 者 Geoffrey Hinton、CNN 的 重 要 研究与发扬者 Yann LeCun 以 及 加 拿 大 蒙 特 利 尔 大 学 教授 Yoshua Bengio。 而 DCNN 是 深 度 学 习 算 法 的 一 种,目前主要在计算机视觉领域取得突破进展。 2. 2 DCNN 算法及其在人脸识别中的应用 1979 年日本京都大学的 Fukushima 基于感受野概 念提出了神经认 知 机 来 进 行 手 写 字 母 的 图 像 识 别,这 可以看作是 CNN 的第一个实现网络,也是感受野概念 在神经网络 领 域 的 首 次 应 用。1989 年 LeCun 选 择 将 BP 算法 用 于 训 练 多 层 卷 积 神 经 网 络 来 识 别 手 写 数 字[26],这 是 CNN 概 念 提 出 的 最 早 文 献。 但 是 建 立 起 现代卷 积 网 络 学 科 的 开 创 性 论 文 是 1998 年 LeCun 提 [27],并且 LeCun 认 为 CNN 不应看 作 是 生 出的 LeNet-5 物学上的神经系 统 原 型,因 此 他 更 倾 向 于 称 其 为 卷 积 网络,并把网络中的节点称为单元。尽管如此,卷积网 络由于使用了 与 许 多 神 经 网 络 相 同 的 思 想。 因 此,本 文遵循惯例,把它看作是神经网络的一种类型。 2014 年,脸 谱 的 团 队[30] 和 香 港 中 文 大 学 的 团 队[31]在 LFW 上分别报告了 97. 35% 和 97. 45% 的平均 分类精度,人脸识 别 的 主 要 技 术 路 线 由 人 工 设 计 特 征 与分类识别转变为基于 DCNN 的端到端的自主学习特 [34]在 LFW 数 据 集 上 平 征。2015 年 Google 的 FaceNet 均分类精度达 到 99. 63% ,基 本 上 宣 告 了 在 LFW 上 8 年性能竞赛的 结 束。 DCNN 同 样 使 用 BP 算 法 进 行 有 监督的学习,因 此 在 卷 积 核 中 的 权 值 都 能 得 到 训 练。 BP 算法是训练深度网络的核心算法,其利用链式求导 法则求解目标函数关于多层神经网络权值梯度。巧妙 之处在于目标函数对于某层输入的梯度可以通过向后 传播对该层输出 的 导 数 求 得,它 首 先 从 最 高 层 的 输 出 一直到最底层的输入计算目标函数对每层输入的导数 ( 残差) 然后一 次 性 地 求 解 每 一 层 残 差 对 权 值 w 和 偏 置 b 的梯度。 总结 BP 算法的一般形式如下: (1) 输入 x,为输入层设置对应的激活值 h1 ; (2) 前向传播:对每层 l = 1,2,…,l,计 算 相 应 的 z l = w l z l - 1 + b,h l = f( z l ) ; (3) 计算输出层误差:计算向量δ l =  h L⊙f( z l ) ; (4) 反向误差传播:对每层 l = l - 1,l - 2,l - 3, …,2,计算 δ l = ( ( w l + 1 ) T δ l + 1 ) ⊙f( z l ) ; (5) 输 出: 代 价 函 数 对 w 和 b 的 梯 度, L w l jk = h l - 1 k δ l j ,L w l j = δ l j 。其中 w l jk 表示 l 层第 j 个神经元与 l - 1 层第 k 个神经元之间的连接权重。 DCNN 被设计用来处理图像等多维数据,其用了 4 个关键思想来利用自然信号的属性:局部连接、权值共 享、池化以及多网络层,与人工设计的特征( LBP 等) 不 同,其能够端到端地自主学习到具有高层次、抽象的特 征表达向量。一般情况下卷积层后面都紧随有一 个非 线性激活层,如图 1、图 2 所示。图 1 最左侧是 l - 1 层的 输出,同样也是 l 层的输入,是一个单通道的 5 × 5 的特 征映射图,l 层有一个 3 × 3 的卷积核 w 和一个偏置 b,卷 积核从 l 层特征映射图的左上方以步长为 1 滑动,依次 与对应局部位置求加权和,并与偏置 b 相加后得到线性 输出 z,继续传入非线性激活函数 f( x) 。图 2 中例子为 [28 - 29],最终得到 l 层的 3 × 3 的非线性输出。一个 ReLU 特征图的各个局部共享一个卷积核,使用不同的卷积核 形成新的不同的特征映射图。使用这种局部连接、权值 共享的结构基于两方面的原因:一方面是对于人脸等图 像,一个像素与周围的像素经常是高度相关的,能 够形 成有区分性的局部特征;另一方面是自然图像有其固有 特性,一部分的统计特性与其它部分是相 关的,在一个 位置出现的特征也可能出现在别的位置。 图 1 卷积层运算实例
第 1 期 景晨凯等: 基于深度卷积神经网络的人脸识别技术综述 227 [30],DeepID 作为一种特征提 取 器,在 人 脸 识 别 中 的 主 要 目 的 还 是 通过 DCNN 自动学习到更具区分力的人脸特征表达进 而具有更强的 泛 化 能 力。这 主 要 通 过 两 方 面 来 提 升: 1) 通过表达能 力 更 强 的 网 络 结 构;2 ) 通 过 更 有 效 的 损失估计。 在 网 络 结 构 上,DeepFace [31] 和 VGGFace 均使用了直 线 型 网 络 结 构,Deepface 后 面 三 层采用了参数不共享的卷积核,但导致了参数的膨胀; DeepId 系列[31 - 33]则将 卷 积 层 的 输 出 与 上 一 层 的 池 化 层的输出进行融合来增强特征表达;FaceNet 则采用了 [35]局部多分支型网络结构同时融合了多尺度 inception 的特征,并采用 1 × 1 的卷积核减少训练参数数量。从 表 1 中也可以看 出 DCNN 的 网 络 结 构 正 在 变 大 变 深: [36] 已 VGGFace16 层、FaceNet22 层。2015 年 的 ResNet 经达到 152 层;更 深 的 网 络 意 味 着 更 加 强 大 的 特 征 抽 象能力,但同时也意味着训练难度的加大,训练参数的 增多和计算效率的下降,文献[37]通过对卷积核的有 效分解等操作在不明显增加参数和降低计算效率的情 况下提升了网络的特征表达能力。 表 1 几种经典的 DCNN 模型在 LFW 数据集上的测试结果 名称 年份 网络数量 训练集数 据量 / 万 LFW 十则平 均精度 / % DeepFace 2014 DeepID DeepID2 2014 2014 DeepID2 + 2015 VGGFace 2015 FaceNet 2015 3 25 25 25 1 1 700 20 20 45 2 600 20 000 97. 35 97. 45 99. 15 99. 47 98. 95 99. 63 在损失估计上,有 效 的 损 失 计 算 不 但 能 加 快 网 络 的训练,而且有利于学习到更强有力的人脸特 征表达, 在早期 DeepFace 及 DeepId 中直接采用了 softmax 分类 器( 人脸分 类 信 号 ) 作 为 损 失 计 算。 这 种 情 况 下 一 般 需要人脸的类别数达到 一 定 数 量 ( 万 人 ) ,并 且 每 一 个 人的样本数 也 应 足 够 的 多 ( 数 十 甚 至 上 百 ) 的 情 况 下 较为适用。分类的数目越多,对应的样本数越多,学习 到人脸特征的区分性和泛化性就越好。但是当人脸类 别数少且类内样 本 不 足 的 情 况 下,采 用 度 量 学 习 的 判 别式学习方法是必要的。在 DeepId2 则 同 时 采 用 人 脸 确认损失和人脸分类损失作为监督信号进行联合深度 学习,使用联合信号使类内变化达到最小,并使不同类 别的人脸图像间距保持恒定[38],其验证信 号 仅 考 虑 了 一对样本的 误 差;在 FaceNet 中 则 直 接 放 弃 了 softmax 分类损失,采 用 Triplet Loss 作 为 损 失 函 数,通 过 构 建 三元组,将最近负 样 本 距 离 的 大 于 最 远 正 样 本 的 距 离 作为目标函数,使 最 终 的 特 征 表 示 不 需 要 额 外 训 练 模 型进行分类,人脸 验 证 只 需 直 接 计 算 倒 数 第 二 层 隐 层 图 2 激活函数层运算实例 卷积层用来探 测 特 征 图 的 局 部 连 接,池 化 层 则 在 语义上把相似的 特 征 进 行 融 合,池 化 也 具 有 平 移 不 变 性,大量经验验证,加入池化层能够提升识别率。常见 的池化方式 有:平 均 池 化 ( 取 局 部 平 均 值 ) ,最 小 池 化 ( 取局部最小值) ,最大池化( 取局 部 最 大 值 ) 等。如 图 3 所示是最 大 池 化 操 作,池 化 单 元 计 算 特 征 图 中 的 一 个局部块( 图 3 中的尺寸大小是 2 × 2 ) 的最大值,池化 单元通过移动一行或者一列( 图 3 步长为 1 ) 最终提取 出一个 2 × 2 的特征图 ( 图 3 右 侧) 。卷积层和池化层 除了以上所述的 优 点 外,还 有 一 个 直 接 原 因 就 是 它 们 大大降低 了 可 训 练 参 数 的 同 时 也 降 低 了 特 征 图 的 维 度。对于图 1,如 果 是 全 连 接 层,则 需 要 学 习 5 × 5 + 1 = 26 个参数,而对于一 个 卷 积 核 来 说,则 只 需 要 学 习 3 × 3 + 1 = 10 个参数,并最 终 使 一 个 5 × 5 的 特 征 图 转 化成一个 2 × 2 的特征图。对于输入的多维人脸,随着 深度的增加,卷积与池化的层层叠加,神经元的数目也 相应的减少,并最终形成一个特定的、紧凑的、低维度、 全局性的人脸特征表 达 向 量 ( 一 般 是 倒 数 第 二 层 的 隐 藏层) 用 于 人 脸 识 别 ( 通 过 knn 分 类 器 等 ) ,人 脸 验 证 ( 计算距离) 等任务。 图 3 池化层运算实例 如表 1 中列举了近些年几 种比 较成功的基 于 DC- NN 的 人 脸 识 别 模 型 及 在 LFW 上 的 测 试 情 况,DCNN
228 计算机应用与软件 2018 年 输出的 128 维向 量 的 距 离 即 可,简 单 有 效。 从 最 初 的 单一的多分类器 到 度 量 学 习 到 引 入,再 到 仅 需 要 度 量 2 所示。 表 2 训练 DCNN 模型的建议 学习便可学习优 异 的 特 征,这 种 转 变 也 直 接 反 映 出 了 度量学习对于人脸特征学习所起到的关键作用。但是 值得注意的是,在 度 量 学 习 中 样 本对 的 选 择 是 一 个 不 可回避的重要问 题,不 恰 当 的 选 择策 略 将 很 有 可 能 引 起过拟合问题。 另外还有其他 的 提 升 人 脸 特 征 表 达 能 力 的 方 法。 如在 deepid 系 列 中 也 通 过 将 人 脸 分 割 多 个 区 域、尺 度,对人脸做镜像 和 反 转 等 作 为 输 入 形 成 互 补 和 数 据 增强。deepface 则在三维 人 脸 图 像 对 齐 后 再 输 入 到 网 络便于提取更有效的特征。还 有不得 不重视的是 DC- NN 作为一种非常适合大数据的算法,更多的数据依然 能够带来更鲁 棒,更 具 抽 象 能 力 的 特 征。 从 表 1 也 看 出了这 一 趋 势: DeepID 系 列 从 20 万 到 45 万,Deep- Face 的 700 万,VGGFace 有 2 600 万,FaceNet 则达 到 2 个亿。 为了解释分析 DCNN 内部神经元的特性,在 deep- [33]中研究发现 通 过 DCNN 学 习 得 到 的 高 层 次 的 id2 + 人脸特征是中度 稀 疏 的、对 人 脸 身 份 和 人 脸 属 性 有 很 强的选择性( 特定的 神 经 元 对 特 定 的 属 性 会 有 持 续 的 响应和抑制) 、对局部 遮 挡 具 有 良 好 的 鲁 棒 性,不 过 本 文对此目前仍抱 有 怀 疑 态 度,有 待 今 后 更 深 入 的 研 究 成果去证明。 2. 3 应用 DCNN 算法的障碍 虽然 DCNN 目前已经在人脸识别以及其他的计算 机视觉任务 中 得 以 成 功 应 用 并 有 成 为 一 种 通 用 的 AI 算法之势,但应用 DCNN 算 法 本 身 依 然 是 一 个 不 小 的 挑战,也可以说是一个主要问题,本文主要划分为以下 四点: 1) 有监督的学习,需要大量的 标记样本 从目前 的发展状况来看,有 监 督 的 学 习 已经 远 远 盖 过 了 无 监 督学习的风头。而 训 练 深 度 网 络 需 要 大 量 的 数 据,尽 管网络上有 大 量 的 数 据,但 都 杂 乱 无 章,需 要 人 工 标 注,并且近些年的标注成本也是水涨船高。 2) 理论研究不 足 深 度 学 习 包 括 DCNN 是 一 个 端到端的学习。神经网络,反向传播算法,卷积神经网 络等基本的方法 原 理 早 已 存 在,近 些 年 的 发 展 也 主 要 得益于大数据,高 性 能 计 算 以 及 各种 网 络 结 构 和 训 练 方法的改进,而实际上却并无深层次的本质理解,大量 的研究思路简单粗糙。因此在设计 DCNN 结构以及在 训练当中经常碰到的过拟合问题、梯度不稳定的问题, 除了遵循一些基 本 原 则,更 多 需 要 通 过 经 验 和 直 觉 来 进行,这种试验 性 的 研 究 思 路 增 加 了 运 用 难 度。如 表 方法 具体操作 数据增强 图像的反转,随机剪切,多尺度,颜色渲染等 预处理 归一化数据等 初始化 超参数 激活函数 正则化 使用 gaussion / Xavier 积核,卷积核或者池化层 的 大 小 或 步 长 ,是 否 做 [39]等小 的 随 机 数 初 始 化 卷 fine-ture 学习 率 ( 一 般 为 0. 1 ) ,动 量 ( 0. 9 ) ,批 处 理 大 小等 如经典的 Sigmoid,tanh,目前常用的 ReLu 及其变 形,leaky ReLu,Parametric Relu,Randomized ReLU L2 regularization,L1 regularization,Dropout,Batch [40]等 normalization 训练过程中,从误差下降 的 曲 线,以 及 在 验 证 集 看图修正 上的表现,及时地调整如 学 习 率 等 参 数,进 而 加 快训练速度,并且也能尽量避免过拟合的现象 3) 局部最优解 由 于 深 度 学 习 算 法 需 要 学 习 的 目标函数是非 凸 的,存 在 着 大 量 的 局 部 最 小 值。 而 训 练中用的梯度下 降 算 法,理 论 情 况 下 会 很 容 易 停 留 在 一个局部最小 值 上 面。并 且 如 果 初 始 值 的 不 同,即 使 是同样的训练集 也 会 朝 着 不 同 的 方 向 优 化,这 就 给 最 终的结果 带 来 了 很 大 的 不 确 定 性。 不 过 大 量 实 践 证 明,对于非小网络,这个问题并不会引起太大的麻烦。 4) 训练时间长 且 计 算 资 源 代 价 不 菲 深 度 学 习 由于参数较多,相 比 其 他 机 器 学 习 算 法 训 练 周 期 要 长 很多,近些年来其能够流行的一大因素离不 开 GPU 的 发展。GPU 成倍加快了训练速度,但是这些 GPU 售价 昂贵,建立 大 规 模 的 GPU 集 群 并 非 一 般 院 校 能 够 负 担。使用浮点计算的深度网络要求大存储空间和 大计 算量,使其在 手 机、移 动 机 器 人 等 设 备 上 的 应 用 大 大 受阻。 3 人脸识别的未来之路 3. 1 更具挑战的人脸数据集 LFW 作为前些年来 最 流 行 的 人 脸 测 试 数 据 集,识 别率 频 频 被 刷 新,如 香 港 中 文 大 学 的 DeepID2 + , Google 的 FaceNet 在 2015 年 均 取 得 了 99% 以 上 的 识 别率,这基 本 宣 告 了 LFW 竞 争 之 战 的 结 束。 在 LFW 上的刷分已然没 有 太 大 意 义,但 现 有 脸 部 识 别 系 统 仍 难以准确识别 超 过 百 万 的 数 据 量。因 此,未 来 急 需 更 多更具挑战的公开人脸数据集。这些数据集首先应当 满足大规模,标签准确等基本条件,可以是针对特定任 务( 如特定的年龄层或 特 定 的 场 景 等 ) 的 数 据 集,也 可
第 1 期 景晨凯等: 基于深度卷积神经网络的人脸识别技术综述 229 以是综合 ( 如 包 括 各 个 年龄 层 或 者 各 类 复 杂 场 景 等 ) 的数据集。2015 年 华 盛 顿 大 学 为 了 研 究 当 数 据 集 规 模提升数个量级 时,现 有 的 脸 部 识别 系 统 能 否 继 续 维 持 可 靠 的 识 别 率,发 起 了 一 个 名 为“MegaFace Chal- lenge”的公 开 竞 赛,MegaFace 数 据 集 有 690 572 个 体 1 027 060张 公 开 人 脸 图 像[41],难 度 颇 大,对 大 规 模 数 据的人脸识别起到了促进作用。 3. 2 特定问题的深入研究 影响人脸识别 的 诸 如 光 照、姿 态、年 龄、遮 挡 等 问 题并没有得到根本解决。对特定问题的研究有助于整 体人脸识 别 研 究 的 进 步。 在 CVPR2016 上,就 有 许 多 关于人脸识别特 定 问 题 的 研 究 工 作,例 如 南 加 州 大 学 的 Masi 关 注 了 人 脸 识 别 中 的 大 姿 态 变 化 问 题。 与 当 前大部分利用大量数据训练单一模型或者矫正人脸到 正脸来学习姿态 不 变 性 的 方 法 不 同,该 作 者 通 过 使 用 五个指定角度模型和渲染人脸图片的方法处理姿态变 化[42] 。中科院计算 所 Kan 等 通 过 尝 试 移 除 人 脸 数 据 之间的跨模态差 异 性,并 寻 找 跨 模 态 之 间 的 非 线 性 的 差异性和模态不变性表达解决人脸识别中的跨视图或 跨姿态问 题[43] 。 还 有 意 大 利 特 伦 托 大 学 做 了 人 脸 老 龄化预测的有关工作[44],这对跨越 年龄的人 脸 识 别 具 有很大的参考意义。 3. 3 新型有效的网络结构和训练方法 生物神经系统 的 连 接 极 为 复 杂,既 有 自 下 而 上 的 前馈和同层递归,又 有 自 上 而 下 的反 馈 和 来 自 其 他 神 经子系统的外部 连 接,目 前 的 深 度 模 型 尚 未 对 这 些 建 模。去年 MSRA 的 ResNet 达到了惊人的 152 层,解决 了极深网 络 在 增 加 层 数 的 同 时 也 能 保 持 准 确 率 的 问 题,也证明了极深 网 络 在 其 他 任 务 中 也 有 很 好 的 泛 化 性能。而芝 加 哥 大 学 的 Gustav 提 出 了 一 个 不 依 赖 于 [45],作 者 称 该 分 形 结 构 可 残差 的 极 深 架 构 FractalNet 以自动容纳过 去 已 有 的 强 大 结 构。但 是 需 要 明 白,这 些网络结构本身也是人为设计,哪个网络结构最佳,卷 积层的数量多 少 才 合 适,我 们 不 得 而 知。近 期 的 网 络 剪枝,网络简化 等 工 作 对 此 进 行 了 探 讨[46 - 47],并 认 为 稀疏性对 于 卷 积 神 经 网 络 应 用 于 人 脸 识 别 效 果 有 提 升,但该研究还处于起步阶段。 另外,DCNN 早 在 20 世 纪 80 年 代 就 已 经 基 本 成 型,当时未能普及的原因之一,就是缺少高效地优化多 层网络的方法,如 对 多 层 神 经 网 络进 行 初 始 化 的 有 效 方法。尽 管 有 Mini-Batch SGD、ResNet 中 的 shortcut、 ReLU 激活 函 数、Batch Normalization 等 促 进 表 达 能 力 和加快收敛的方法。但对此仍然缺乏一个完善的理论 作指 导。 对 于 人 脸 识 别,深 度 度 量 学 习 ( deep metric learning) 是一个 最 常 用 的 方 法,更 好 的 目 标 函 数 能 够 学到更 具 有 区 分 力 的 特 征。 如 上 文 提 到 的 DeepFace 和 DeepID 的 contrastive loss 度量,Facenet 的 triplet loss 度量等都有用 到 deep metric learning 的 方 法。 最 近 的 如在 CVPR2016 斯坦福大学提出利用训练批处理中所 有相同标签的人脸对和不同标签的人脸对的信息进行 语义特 征 映 射,来 减 少 同 类 间 距 离 同 时 增 加 异 类 间 距离[48] 。 3. 4 其他的学习算法 在使用 DCNN 训 练 出 的 模 型 时 可 以 发 现,在 某 个 数据集上表现好的模型在另外一个数据集结果可能并 不如意,比如使用 东 方 人 训 练 出 的 模 型 去 识 别 西 方 人 的人脸,或者反 之。这 种 训 练 数 据 和 应 用 数 据 之 间 的 偏差便可通过迁移学习进行消除,简而言之,如果这两 个领域之间有某种联系、某种相似性,就只需小部分 数 据在新的领域中重新学习即可。中科院 Kan 等提出的 对于人脸识别的领域自适应学习[49]做了相关的工作。 强化学习相对 深 度 学 习 更 古 老,但 由 于 计 算 瓶 颈 使它长时间处于 静 默 状 态,不 能 处 理 大 数 据。但 2015 年 Google 的 DeepMind 把 深 度 学 习 和 强 化 学 习 相 结 合,隐藏了很多强化学习的状态个数,这种隐藏使得 强 化学习能够应付 大 数 据,强 化 学 习 比 DCNN 在 图 像 上 面的应用更加复杂,更加契合人的行为。 大量有标签 数 据 是 DCNN 的 局 限 性 之 一,无 监 督 学习在人类和动 物 的 学 习 中 却 占 据 主 导 地 位,但 目 前 几乎所有 由 人 工 智 能 创 造 的 经 济 价 值 都 来 自 监 督 学 习。CNN 虽然与神经认 知 架 构 有 点 相 似,但 是 在 神 经 认知中并不需要类 似 BP 算 法 这 种 端 到 端 的 监 督 学 习 算法。并且获取大量无监督数据的成本相比有标签 数 据微乎其微。各方面讲,无监督学习都是未来的趋势, 代表了人工智能的一种关键技能。但直接从大量的无 监督数据中学习 确 实 非 常 困 难,也 许 少 量 有 监 督 数 据 与大量无监督数据结合的半监督学习是现阶段需要重 点研究的方向。 另外还有如增 量 学 习、终 生 学 习、对 抗 学 习、注 意 力模型等都是未来可能应用在人脸识别甚至影响整个 人工智能领域。 4 结 语 AFR 经过几十年的 研 究 发 展,已 经 逐 渐 成 为 一 个
230 计算机应用与软件 2018 年 成熟的研究 领 域。 DCNN 的 到 来,为 这 个 领 域 注 入 了 新的活力,并取得了显著的效果,甚至说在某些数据集 上已经超越人类,但是否真的超越,还言之过早。对于 实际应 用 中 的 光 照、抖 动、模 糊、遮 挡、分 辨 率、姿 态 等 的外 在 因 素 或 性 别、年 龄 变 化、精 神 健 康 状 态、面 部 毛 发、化妆整容、意外损伤等内在因素依然没有得到完全 解决。对于深度 学 习 算 法 的 内 在 原 理,甚 至 还 无 从 知 晓,本质上仍然 是 弱 人 工 智 能。两 者 的 结 合 是 历 史 的 必然,但未来的发 展 还 需 要 计 算 机 视 觉 研 究 者 们 的 共 同努力。 参 考 文 献 [1 ] 山世光. 人脸识别中若干 关 键 问 题 的 研 究[D]. 中 国 科 学 院研究生院( 计算技术研究所) ,2004. [2 ] Bledsoe W W. Man-machine facial recognition[J]. Rep. PRi,1966,22. [12] Winder S A J,Brown M. Learning local image descriptors [C]/ / Computer Vision and Pattern Recognition,2007. CVPR'07. IEEE Conference on. IEEE,2007:1-8. [13] Shan S,Gao W,Zhao D. Face identification from a single ex- ample image based on face-specific subspace ( FSS) [C]/ / Acoustics,Speech,and Signal Processing ( ICASSP ) ,2002 IEEE International Conference on. IEEE,2002,2: II-2125- II-2128. [14] Wang X,Tang X. A unified framework for subspace face rec- ognition[J]. IEEE Transactions on pattern analysis and ma- chine intelligence,2004,26(9) :1222-1228. [15] Yang M H. Kernel Eigenfaces vs. Kernel Fisherfaces: Face Recognition Using Kernel Methods[C]/ / IEEE International Conference on Automatic Face and Gesture Recognition, 2002. Proceedings. IEEE,2002:215-220. [16] Zhou S K,Chellappa R. Multiple-exemplar discriminant anal- ysis for face recognition [C]/ / Pattern Recognition,2004. [3 ] Brunelli R,Poggio T. Face recognition: Features versus tem- plates[J]. IEEE transactions on pattern analysis and ma- chine intelligence,1993,15(10) :1042-1052. ICPR 2004. Proceedings of the 17th International Conference on. IEEE,2004,4:191-194. [17] Blanz V,Vetter T. A morphable model for the synthesis of 3D [4 ] Turk M,Pentland A. Eigenfaces for recognition[J]. Journal faces[C]/ / Proceedings of the 26th annual conference on of cognitive neuroscience,1991,3(1) :71-86. [5 ] Belhumeur P N,Hespanha J P,Kriegman D J. Eigenfaces vs. fisherfaces:Recognition using class specific linear projection [J]. IEEE Transactions on pattern analysis and machine in- telligence,1997,19(7) :711-720. [6 ] Lades M,Vorbruggen J C,Buhmann J,et al. Distortion invari- ant object recognition in the dynamic link architecture[J]. IEEE Transactions on computers,1993,42(3) :300-311. [7 ] Qin H,Yan J,Li X,et al. Joint training of cascaded CNN for face detection[C]/ / Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:3456-3465. [8 ] Hong Z Q. Algebraic feature extraction of image for recogni- tion[J]. Pattern recognition,1991,24(3) :211-219. [9 ] Nakamura O,Mathur S,Minami T. Identification of human faces based on isodensity maps[J]. Pattern Recognition, 1991,24(3) :263-272. [10] Samaria F,Young S. HMM-based architecture for face identi- fication[J]. Image and vision computing,1994,12 ( 8 ) : 537-543. [11] Chen D,Cao X,Wen F,et al. Blessing of dimensionality: High-dimensional feature and its efficient compression for face verification[C]/ / Proceedings of the IEEE Conference and Pattern Recognition, 2013: on Computer Vision 3025-3032. Computer graphics and interactive techniques. ACM Press / Addison-Wesley Publishing Co. ,1999:187-194. [18] Blanz V,Vetter T. Face recognition based on fitting a 3D morphable model[J]. IEEE Transactions on pattern analysis and machine intelligence,2003,25(9) :1063-1074. [19] Moghaddam B,Jebara T,Pentland A. Bayesian face recogni- tion[J]. Pattern Recognition,2000,33(11) :1771-1782. [20] Huang G B,Ramesh M,Berg T,et al. Labeled faces in the wild: A database for studying face recognition in uncon- strained environments[R]. Technical Report 07-49,Univer- sity of Massachusetts,Amherst,2007. [21] Huang G B,Lee H,Learned-Miller E. Learning hierarchical representations for face verification with convolutional deep belief networks[C]/ / Computer Vision and Pattern Recogni- tion ( CVPR ) ,2012 IEEE Conference on. IEEE,2012: 2518-2525. [22] Hinton G E,Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. Science,2006,313(5786) : 504-507. [23] Deng Jia,Dong Wei,Socher R,et al. Imagenet:A large-scale hierarchical image database[C]/ / Computer Vision and Pat- tern Recognition,2009. CVPR 2009. IEEE Conference on. IEEE,2009:248-255. [24] Rumelhart D E,Hinton G E,Williams R J. Learning repre- sentations by back-propagating errors[J]. Cognitive model-
分享到:
收藏