国家重点研发计划项目申报书-V01
1 国内外现状及趋势分析
需求(简要描述存在的问题,解决问题的重要性、紧迫性)
难点分析(提炼核心难点,当前现状存在矛盾的地方,举例、数据支撑)
现状概述(现有技术,无法满足的需求)
国外研究机构 5 家、国内研究机构 5 家情况调研(机构名称、相关研究内容、
相关研究成果、成果应用情况、本项目与相关研究内容自评价)
人脸识别很重要:
随着社会的发展,传统的个人信息验证方法面临着各种挑战。传统的身份验
证信息通常是通过密码符号和身份证等进行,但密码不仅容易混淆也面临着网络
安全的问题,因此生物特征识别技术被广泛应用。生物特征技术包括人的指纹、
脸、声音、视网膜等,具有唯一性不可复制性的特点。其中人脸识别相对其他生
物特征识别更具有非接触、操作方便、设备简单和可同时性等优点。近年来人脸
识别技术在移动支付、门禁安防、公安刑侦、国防安全等领域得到了广泛应用。
虽然目前人脸识别技术已经取得了重大成果,但在实际实施过程中面临着诸
多挑战。人脸识别受光照、遮挡、姿态、表情等因素的干扰会影响人脸的特征提
取,进而影响准确率。因此,研究如何增强人脸识别的鲁棒性是十分有意义的。
在人脸上贴人脸特征的图片或对抗图像都可以成功干扰现有的人脸识别技
术,甚至利用 3D 打印的人脸模型也可以欺骗 AI。人脸识别技术的初衷是为了提
高安全性,倘若上述伪装和欺骗技术被不法分子利用,将会对个人和社会带来重
大损失。因此,如何提高人脸识别技术的防伪性能同样亟待解决。
由于高光谱图像比 RGB 图像包含更多的光谱信息,所以在人脸防伪、提高
准确率和和增强鲁棒性方面或许有显著效果。
现有技术和方法:
人脸识别技术的发展历程主要分为三个阶段。
第一阶段:基于特征的人脸识别方法,20 世纪 60 年代
该阶段主要利用人脸几何特征信息作为识别依据,利用特征点之间的拓扑关
系构建特征向量来进行判断。如 Bledsoe 等提出的人脸识别系统,利用人脸的局
1
国家重点研发计划项目申报书-V01
部几何特征来描述人脸信息,并利用最近邻 KNN 来实现分类。
第二阶段:基于子空间分析的人脸识别算法,20 世纪 90 年代
Turk 和 Pentland 提出“特征脸”(Engine Face)方法,利用主成分分析(PCA)
完成人脸图像在子空间之间的互相映射,在子空间完成分类判断。Belhumeur 等
人提出了一种基于 LDA 的 Fisher 方法。该方法可以使同类之间的距离达到最小,
异类之间的距离逐渐变大,通过强化异类样本之间的差异,削弱同一类别由于一
些外部因产生的变化,从而找到最理想的方法进行映射。在 2002 年,Bartlett 提
出了独立成分分析法 ICA,是对 PCA 的进一步优化。上述方法虽然取得了不错
的进展,但与人类识别能力还有一定的差距。
第三阶段:基于深度学习的人脸识别方法
研究主要集中在非理想条件下的识别,如光照不均匀、姿态以及表情变化、
有遮挡的人脸识别等。为了预防如人脸图片、3D 模型等的干扰,还有人脸活体
检测,由于高光谱图像比 RGB 图像包含更多的光谱信息,在人脸防伪和增强鲁
棒性方面或许有显著效果。
Geoffrey Hinton 在 2006 年提出的深度置信网络模型在人脸识别领域取得非
常优异的效果。Krizhevsky 在 2012 年提出的 AlexNet 模型并在 ImageNet 竞赛中
获得冠军,使分类任务的准确率相比于先前的算法有了显著提升。后来出现了
VggNet、GoogLeNet、ResNet、SENet、DenseNet 等非常优秀的卷积神经网络。
Facebook 公 司 在 2014 年 提 出 了 DeepFace ; 谷 歌 公 司 在 2015 年 提 出 了
FaceNet;同年,牛津大学研究团队利用 VGGFace 训练的人脸识别模型也达到了
很高的准确率;2017 年,SphereFace 提出乘性角度间隔,CosFace 和 Am-softmax
提出加行余弦间隔,ArcFace 加入了 SE 模块。这些算法在人脸数据集中取得了
显著的成果。
在 20 世纪 80 年代,国内人脸识别技术开始逐步发展。在奥运会期间有中国
科学院研究的人脸识别技术在安保等方面发挥了重大作用。2015 年由汤晓鸥团
队研究的 DeepID 在 LFW 数据集上取得了超出人眼识别的准确率。2016 年中科
院提出了基于 C++代码的 SeetaFace 人脸识别引擎。随后一些创业公司如商汤科
技、旷世科技的快速发展也促进了人脸识别技术的研究。
2
国家重点研发计划项目申报书-V01
现有性能:
数 据 集 :LFW 、YTF(YouTub 人 脸 数 据 库) 、CASIA-WebFace 数 据 集 、
AgeDB-30、CFP-FP、CALFW、CPLFW、IJB-C 等等。衡量人脸识别算法能力的
几个指标:拒识率、误识率、通过率、准确率等。
2014 年 Facebook 团队的 DeepFace 和香港中文大学汤晓鸥团队的 DeepID 在
LFW 数据集上分别达到了 97.35%和 97.45%的平均分类精度,人脸识别的主要技
术路线从人工设计特征和分类识别转换为基于深度神经网络的端到端的自主学
习特征。2015 年 Google 的 FaceNet 在 LFW 上平均分类精度达到 99.63%。2017
年 Sphereface 达到 99.42%的分类精度。CosFace 和 ArcFace 也在部分人脸数据集
中取得了较好的效果。
开放环境人脸识别很难:
虽然 DeepFace、FaceNet、SphereFace、CosFace 以及 ArcFace 等一系列优秀
的算法在人脸识别数据集 LFW 上已经达到了很高的识别精度,但在实际使用场
景中人脸识别问题存在着很多挑战,如在无约束场景中,光照、模糊、遮挡、姿
态以及表情等干扰因素都会降低图像的质量,影响识别精度,随着年龄的增长和
体重的变化人脸图像会出现较大差异,增加了识别的难度。现有方法大多过度追
求准确率,忽略了识别准确率与效率之间的平衡。所以人脸识别算法的实际应用
需要考虑多因素非受控环境下的识别效率和应用价值。
因此,人脸识别技术依旧有很多问题亟待解决,优化人脸识别技术是一项实
用且充满挑战性的工作。
1.在外部环境不太理想的情况下怎们提高人脸识别精度,减少限制条件。
2.人脸识别防伪
3.有遮挡人脸识别是现实应用中要解决的主要问题之一,其困难性主要体现
在由遮挡所引发的特征损失、对准误差和局部混叠等问题。
4. 人脸识别中对姿势变化问题的解决方案。
3
国家重点研发计划项目申报书-V01
请填写下表,按重要程度排序
表 1 国外从事相关研究的主要机构(不超过 5 家)
序号 机构名称 相关研究内容
相关研究成
果
DeepNet
FaceNet
2014 年提出人
脸识别算法
2015 年提出人
脸识别算法
1
2
3
4
5
Facebook
google
佐治亚理
工学院
伦 敦 帝 国
理工学院
斯坦福大
学
损失函数改进 SphereNet
2019 年提出人
脸识别算法
ArcFace
研究人脸重建
和跟踪技术
Face2Face
人脸跟踪软
本项目与国外机构相
成果应用情况
关研究内容自评价
(请在框里打√)
领跑□并跑□跟跑
领跑□并跑□跟跑
领跑□并跑□跟跑
领跑□并跑□跟跑
在 LFW 上取得
97.35%准确率
在 LFW 上取得
99.63%准确率
在 LFW 上取得
99.42%准确率
在 LFW 上取得
99.82%准确率
使用密集光度
一致性方法来
实时跟踪源于
领跑□并跑□跟跑
件
目标视频中的
表情
表 2 国内从事相关研究的主要机构(不超过 5 家)
序号
机构名称
相关研究内容
相关研究成果
成果应用情况
1
2
3
4
主要是通过损失函
香港中文大学汤
数的改进,降低类
晓鸥团队
内差距,提升类间
提出 DeepID 系列算法
商汤科技最初
核心技术
差距
腾讯人工智能实
验室
采用 LMCL 损失函
数
提出 CosFace 算法
目前开发出多
人脸检测、五官
定位、人脸对比
等多种商用产
品
人脸检测、人脸识别、
年龄性别识别、人脸属
支持自然环境
旷视科技
人脸识别技术商用
性识别、人脸检索、人
下人脸检测准
脸聚类、活体检测等应
确率>97%
用技术
商汤科技
人脸识别技术商用 检测跟踪,口罩检测等
4
具有一系列包
括人脸检测、身
份验证、人脸聚
类、真人检测等
国家重点研发计划项目申报书-V01
5
云从科技
人脸识别技术商用
3D 结构光人脸识别技
术,商用跨境追踪技术
(Re-ID)
技术
加快人体 3D 重
建算法速度 20
倍,提升准确率
30%
表 3 项目研发相关的主要文献、专利、标准(不超过 10 项)
序号
类型(文献、
专利、标准)
名称
机构
作者
Eigenfaces for
recognition
The media Laboratory
in MIT
Turk M,
Pentland A
Belhumeur
P N,
Hespanha J
P,
Kriegman
D J
Zhang K,
Zhang Z, Li
Z, et al.
Wright J,
Yang A Y,
Ganesh A
Taigman Y,
Yang M,
Ranzato M
F. Schroff, D.
Kalenichenko
and J. Philbin
Yale University
中国科学院人机智能
协同系统重点实验室
伊利诺伊大学协调科
学实验室
Facebook 人工智能研
究院
Google,Inc
Eigenfaces vs.
Fisherfaces:
recognition using
class specific linear
projection
Joint Face Detection
and Alignment Using
Multitask Cascaded
Convolutional
Networks
Robust Face
Recognition via
Sparse Representation
DeepFace: Closing the
Gap to Human-Level
Performance in Face
Verification
FaceNet: A unified
embedding for face
recognition and
clustering
SphereFace: Deep
5
1
2
3
4
5
6
7
标准
标准
标准
文献
文献
文献
文献
佐治亚理工学院
W. Liu, Y.
国家重点研发计划项目申报书-V01
Hypersphere Embedding
for Face Recognition
CosFace: Large Margin
Cosine Loss for Deep
Face Recognition
ArcFace: Additive
Angular Margin Loss for
Deep Face Recognition
Hyperspectral Face
Recognition With
Spatiospectral
Information Fusion and
PLS Regression
腾讯人工智能实验室
伦敦帝国理工学院
Wen, Z. Yu,
M. Li, B. Raj
and L. Song
H. Wang et
al.
J. Deng, J.
Guo, N. Xue
and S.
Zafeiriou
M. Uzair, A.
Mahmood
and A. Mian,
8
9
文献
文献
10
文献
主要论文:
2.Turk M, Pentland A. Eigenfaces for recognition[J]. Journal of Cognitive
Neuroscience, 1991, 3(1): 71-86.(Citation=1 万+)
1991 年 MIT 的 Turk 和 Pentland 提出了著名的特征脸人脸识别方法。该算法
是将人脸图像从像素空间变换到特征空间,然后在特征空间进行相似性计算。
3.Belhumeur P N, Hespanha J P, Kriegman D J. Eigenfaces vs. Fisherfaces:
recognition using class specific linear projection [J]. IEEE Transactions on Pattern
Analysis and Machine Intelligence, 1997, 19(7) :711-720.(citations=1803)
还有基于子空间的人脸识别算法 FisherFace,它首先通过主成分分析法 PCA
进行降维,最后利用线性判别分析 LDA 以获得类间差距大且类内间距小的线性
空间,但是它无法对复杂的线性模型进行建模。
4. Zhang K, Zhang Z, Li Z, et al. Joint Face Detection and Alignment Using
Multitask Cascaded Convolutional Networks[J]. IEEE Signal Processing Letters,
2016, 23(10): 1499-1503.(citations=1390)
5.M. Uzair, A. Mahmood and A. Mian, "Hyperspectral Face Recognition With
Spatiospectral Information Fusion and PLS Regression," in IEEE Transactions on
Image Processing,
vol.
24,
no.
3,
pp.
1127-1137, March
2015,
doi:
6
国家重点研发计划项目申报书-V01
10.1109/TIP.2015.2393057.
不同于传统的 RGB 图像人脸识别,在更多的波段上进行人脸特征的提取有
利于提高识别效率。由于高光谱特性,使其在人脸防伪领域起到重要作用。
6.Wright J, Yang A Y, Ganesh A, et al. Robust Face Recognition via Sparse
Representation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,
2009, 31(2): 210-227.(citations=6383)
该论文考虑了从不同的表情、光照以及遮挡和伪装情况下的自动人脸识别问
题。将识别问题归结为线型回归模型之间的分类问题,利用稀疏表示理论提出了
一种目标识别的通用分类算法。稀疏表示理论有助于在人脸识别过程中对遮挡处
理,并增强了对遮挡的鲁棒性。
7. Liu F, Zhao Q, Liu X, et al. Joint Face Alignment and 3D Face
Reconstruction with Application to Face Recognition[J]. IEEE Transactions on
Pattern Analysis and Machine Intelligence, 2020, 42(3): 664-678.
改论文提出了一种基于姿态和表情的人脸识别的算法,该方法在人脸对齐和
三维人脸重建方面均取得很好地效果。
8.Taigman Y, Yang M, Ranzato M, et al. DeepFace: Closing the Gap to
Human-Level Performance in Face Verification[C]. computer vision and pattern
recognition, 2014: 1701-1708.(citations=4137)
DeepFace 由 Facebook 公司提出,是深度卷积神经网络在人脸识别领域的奠
基之作。文中使用了 3D 模型进行人脸对齐任务,深度卷积神经网络对对齐后的
人脸 Patch 进行分类学习,使用交叉熵损失函数进行问题优化,最后通过特征嵌
入得到固定长度的人脸特征向量。利用 4000 多人脸图像训练卷积神经网络作为
人脸特征的提取器。使用 3D 对齐进行数据处理,具有 4096 个特征向量,在 LFW
上达到 97.35%的精度。
但是人脸识别算法普遍缺乏在实际应用中的考量。但是人脸识别算法在实际
应用中的准确识别精度还有待考量。
8. F. Schroff, D. Kalenichenko and J. Philbin, "FaceNet: A unified embedding
for face recognition and clustering," 2015 IEEE Conference on Computer Vision and
7
国家重点研发计划项目申报书-V01
Pattern Recognition
(CVPR), Boston, MA,
2015,
pp.
815-823,
doi:
10.1109/CVPR.2015.7298682.(citations=4687)
Google 公司提出 FaceNet,使用三元组损失函数(Triplet Loss)代替交叉熵损失
函数(softmax),在一个超球面上进行优化使类内距离更紧凑,类间距离更远,
最后得到一个紧凑的 128 维人脸特征,其网络使用了 GoogleLeNet 的 Inception
模型,模型参数量更少,精度更高,在 LFW 上取得了 99.63%的准确率。
10.W. Liu, Y. Wen, Z. Yu, M. Li, B. Raj and L. Song, "SphereFace: Deep
Hypersphere Embedding for Face Recognition," 2017 IEEE Conference on Computer
Vision and Pattern Recognition (CVPR), Honolulu, HI, 2017, pp. 6738-6746, doi:
10.1109/CVPR.2017.713.(citations=364)
SphereFace 在卷积神经网络中应用 A-softmaxloss,基本思想是“让同类之间
距离更近,让不同类之间距离更远”,接收了约 49 万个训练数据的训练,最终
在 LFW 上达到了 99.42%的识别率。通过 A-softmax 损失来学习判别性面部嵌入,
并 与 超 球 面 流 形 的 显 式 连 接 使 其 特 别 适 用 于 开 放 式 人 脸 识 别 问 题 。 但 是
SphereFace 的参数量过大,实时性欠缺。
11.H. Wang et al., "CosFace: Large Margin Cosine Loss for Deep Face
Recognition," 2018 IEEE/CVF Conference on Computer Vision and Pattern
Recognition,
Salt
Lake
City,
UT,
2018,
pp.
5265-5274,
doi:
10.1109/CVPR.2018.00552.
CosFace 的基本思想是“最小化类间方差,最大化类内方差”,提出新的损
失函数 LMCS(large margin cosine loss)。较 Softmax、Triplet Loss、A-Softmax
等损失函数具有更高的识别精度。
12.J. Deng, J. Guo, N. Xue and S. Zafeiriou, "ArcFace: Additive Angular Margin
Loss for Deep Face Recognition," 2019 IEEE/CVF Conference on Computer Vision
and Pattern Recognition (CVPR), Long Beach, CA, USA, 2019, pp. 4685-4694, doi:
10.1109/CVPR.2019.00482.
ArcFace 在改进 ResNet 网络的同时加入了 SE 模块,直接用角度去加 Margin,
式角度距离比余弦距离对角度的影响更加直接,同时对特征和全权重归一化,具
8