中国科技论文在线
http://www.paper.edu.cn
基于哈希方法的人脸图像检索技术综述
王义飞,肖波,周蓝翔**
(北京邮电大学信息与通信工程学院,北京,100876)
摘要:在海量图像中进行人脸图像相似性搜索是一个重要的研究方向,在大规模人脸图像检
索任务中,使用哈希方法进行人脸图像相似性搜索是当前的主流方法。人脸图像哈希检索方
法可以分为基于手工特征的传统机器学习方法和基于神经网络的深度学习方法,其发展和哈
希技术及人脸图像检索技术的发展密切相关。本文对基于哈希方法的人脸图像检索技术进行
了介绍和总结,并指出了未来的研究方向。基于哈希方法的人脸图像检索技术在安防、商业、
娱乐等众多场景中都有广泛应用。
关键词:哈希方法;人脸图像检索;机器学习
中图分类号:TP391.4
Face Image Retrieval Technology Based on Hash
Method :A Survey
(School of Information and Communication Engineering, Beijing University of Posts and
WANG Yifei, XIAO Bo, ZHOU Lanxiang
Telecommunications, Beijing, 100876)
Abstract: Face image similarity search is an important research direction. In large-scale face image
retrieval task, using hash method to search face image similarity is the current mainstream method. Face
image hash retrieval method can be divided into traditional machine learning method based on hand-
crafted features and deep learning method based on neural network. The development of the face image
retrieval technology based on hash method is closely related to the development of hash technology and
face image retrieval technology. This paper introduces and summarizes the face image retrieval
technology based on hash method, and points out the future research direction. The face image retrieval
technology based on hash method is widely used in security, business, entertainment and many other
scenes.
Key words: Hash method; Face image retrieval; Machine learning
5
10
15
20
25
30
0 引言
随着互联网行业的高速发展,互联网上的多媒体数据爆炸性地增长。其中,随着抖
音、FaceBook、QQ 等社交应用的流行,网络上包含人脸的多媒体数据也在飞速增长。对
35
于互联网上这些海量的多媒体数据,如何在海量图像中进行图像检索是一个重要的问题,
而海量图像中的人脸图像检索问题更是当前的研究热点。人脸图像检索技术在安防,商
业,娱乐等众多领域都存在广泛得应用。人脸图像检索问题不同于普通的检索问题,其存
在类内差异较大(同一个人的人脸图片受到不同光照、表情、衰老、遮挡等因素影响,看
起来区别较大),而类间差异较小(不同的人脸图像看起来区别不是非常大)的特点,是
40
最具挑战性的检索任务之一。哈希方法是将原始高维数据映射为固定长度的二进制字符串
作者简介:王义飞(1993-),男,北京邮电大学硕士研究生,主要研究方向:深度学习
通信联系人:肖波,男,北京邮电大学硕士生导师,副教授,主要研究方向:数据挖掘、网络搜索、网络
管理、网络应用. E-mail: xiaobo@bupt.edu.cn
- 1 -
中国科技论文在线
http://www.paper.edu.cn
的方法,由于其高效的存储和检索效率,被广泛应用在大规模图像检索领域。对于大规模
的人脸图像检索任务,使用哈希方法也是当前的主流。本文对近年来提出的基于哈希方法
的人脸图像检索技术进行了总结。基于哈希方法的人脸图像检索技术的发展和哈希技术及
人脸图像检索技术的发展密切相关,因此本文首先对哈希方法和人脸图像检索技术进行了
45
介绍,然后总结了基于哈希方法的人脸图像检索技术,总结了人脸图像哈希方法的发展规
律。
1 哈希方法简介
随着网络技术和存储设备的高速发展,许多应用程序产生的大量数据,需要大容量存
储、快速交付和快速分析。对于大规模图像检索,通常具有数据量大、特征维度高、要求
50
响应速度快等特点。对于大规模数据检索,对如何准确、有效地检索具有不同数据类型的
数百万条记录,提出了巨大的挑战。哈希算法由于其内存占用少、计算速度快的特点而受
到了欢迎,得到了长足的发展。
哈希技术将数据记录转换为固定长度的二进制值,这些值可以表示原始数据,同时显
著减少了运行时间或存储消耗。这种变换可以通过一个哈希函数 h(·)来表示从原始数据到
55
低维空间的映射。在哈希方法的帮助下,典型的数据访问操作可以在很短的时间内完成,
时间复杂度为 O(1)。
现有的哈希方法主要分为传统的哈希方法和基于深度学习的哈希方法。
传统的哈希方法可以分为以下两类:数据独立的哈希方法和数据依赖的哈希方法。数
据独立哈希方法,依赖随机投影来构造哈希函数。其优点是不需要大量的训练数据,但此
60
类方法效率不高,需要更长的哈希编码来表示图片。如局部敏感哈希(LSH)[1]及其扩
展,使用随机投影将高维特征表示投影到低维的二值空间,在设计哈希函数时,要求满足
原始特征空间中距离近的点的哈希表示发生碰撞的概率大于距离远的点的碰撞概率。数据
依赖的哈希方法利用训练数据学习哈希函数,可进一步分为无监督方法和有监督方法。虽
然无监督方法更为一般化,可以在没有语义标签或关联的情况下训练,但它们受到语义的
65
限制,即对象的高级语义描述通常与低级特征描述不同。而监督方法可以结合语义标签或
规则来减小语义差距,提高哈希质量,即用更少的码元实现精确搜索。
随着深度学习网络的快速发展,基于深度学习的哈希方法可以更有效地学习特征表示
和哈希编码,同时还可以自然地编码任何非线性哈希函数,具有端到端学习哈希编码的能
力。如卷积神经网络哈希(CNNH)[2],他分成两个阶段,在第一个阶段,从成对的标签
70
中学习哈希码,然后在第二个阶段,从第一个阶段得到的哈希码中学习图像像素的哈希函
数和特征表示。但是,在 CNNH 中,第二阶段的学习特征表示不能对第一阶段的学习给出
反馈,不能同时进行特征学习和哈希码学习。此后基于深度学习的哈希方法完善了这个问
题,在特征提取、量化结构以及多尺度特征融合等方面来进行了诸多改进,实现了端到端
学习哈希编码的能力,进一步提高了网络模型的检索精度。
- 2 -
中国科技论文在线
http://www.paper.edu.cn
75
2 人脸图像检索相关技术
人脸图像检索是指给定一张人脸图片,从海量的图像中快速检索出该人的所有人脸图像,
而这些图像可能具有不同的姿态、表情、背景、光照或遮挡等。人脸图像检索和人脸识别技
术都属于是人脸比对技术的延伸。但是人脸图像检索与人脸识别也有所不同,人脸识别出输
入人脸图对应身份的算法,而人脸图像检索是找出与给定图片同属于一个人的所有人脸图像。
80
人脸图像检索的性能要求主要是速度快,准确率高。人脸图像检索技术中有两个重要的问题:
①对于人脸图像,如何提取出更有鉴别力的特征。②对于提取出来的特征,检索方式的选择。
2.1 人脸图像的特征表示
对于人脸特征表示问题,早期的研究关注于使用图像处理技术来匹配描述面部几何形状
的简单特征。这种方法可以有效提取出人脸图像的特征,但是只能在严格的设置下才能有效
85
工作。此后,使用整个面部作为输入的整体方法,例如主成分分析(PCA)和线性判别分析
(LDA)等统计子空间方法得到了发展和普及。同时,其他计算机视觉领域的进步也导致了
局部特征提取器的发展,这些特征提取器能够描述不同位置的图像纹理。基于特征的面部识
别方法包括在面部图像之间匹配这些局部特征。直到最近,深度学习方法得到了长足的发展,
使用深度学习方法进行人脸图像特征提取成为了主流。本文将分别对传统方法和深度方法进
90
行介绍。
2.1.1 基于传统方法的人脸图像特征表示
基于传统方法的人脸图像哈希检索技术可以大致分为基于几何的方法,基于整体的方法,
基于特征的方法和混合方法。
最早的人脸识别算法是在七十年代初期开发的,文献[3],文献[4],属于基于几何的方法,
95
这些论文建议使用专用的边缘和轮廓检测器来找到一组面部标志的位置,并测量它们之间的
相对位置和距离。在文献[5]中对使用面部标志和其几何形状进行面部识别的可行性进行了深
入研究。具体来说,他们提出了一种基于测量两组面部标志之间的 Procrustes 距离的方法[6],
以及一种基于测量面部标志之间的距离比率的方法。作者认为,尽管其他从面部提取更多信
息的方法(例如整体方法)可以实现更高的识别精度,但所提出的基于几何的方法速度更快,
100
并且可以与其他方法结合使用以开发混合方法。这些早期系统的准确性在很小的面部数据库
中得到了证明。
人脸特征表示的整体方法使用整个面部区域表示面部。这些方法中的许多方法都是通过
将面部图像投影到低维空间上来工作的,该空间会丢弃识别任务不需要的多余细节和变化。
此类别中最受欢迎的方法之一是基于 PCA 的。基于 PCA 的方法的一个问题是投影最大化了
105
训练集中所有图像的方差。 这意味着,最主要的特征向量可能会对识别精度产生负面影响,
因为它们可能对应于与识别任务无关的个人内部变化(例如照明,姿势或表情)。文献[7],
文献[8],文献[9],文献[10]提出了基于线性判别分析(LDA)的整体方法,也称为 Fisher 判别
分析[11]来解决此问题。LDA 使用类别标签来找到一个投影矩阵,该矩阵可以最大化类别之
间的方差,同时最小化类别内部的方差。
110
基于特征的方法是指利用人脸图像中不同位置提取的局部特征的方法。与基于几何的方
法不同,基于特征的方法侧重于提取有区别的特征,而不是计算其几何参数。在处理呈现局
部变化(如面部表情或照明)的人脸时,基于特征的方法往往比整体方法更稳健。例如,考
- 3 -
中国科技论文在线
http://www.paper.edu.cn
虑同一个对象的两个面部图像,其中唯一的区别是其中一个对象的眼睛是闭着的。在基于特
征的方法中,只有与眼睛周围提取的特征相对应的特征向量的系数才会在两幅图像之间有所
115
不同。而在整体方法中,特征向量的所有系数都可能不同。此外,基于特征的方法中使用的
许多描述符被设计成对不同的变化(例如缩放、旋转或平移)具有不变性。第一种基于特征
的方法是[12]中提出的模块化人脸特征方法。随着局部特征描述符在其他计算机视觉应用中
的发展[13],基于特征的人脸识别方法越来越流行。与整体方法相比,基于特征的方法对不同
类型的变化具有更强的鲁棒性。然而,整体方法的一些优点已经丧失(例如,丢弃非鉴别信
120
息和更紧凑的表示),于是有一些混合方法被提出了。
混合方法结合了整体方法和基于特征的方法。在深度学习普及之前,大多数最先进的人
脸识别系统都是基于混合方法的。混合方法提供了最好的整体和基于特征的方法。他们的主
要限制是选择好的特征,能够充分提取识别人脸所需的信息。一些方法试图通过组合不同类
型的特征来克服这个问题,而另一些方法则引入了一个学习阶段来提高特征的辨别能力。
125
2.1.2 基于深度学习方法的人脸图像特征表示
常见的基于深度学习的人脸图像特征表示方法即使用卷积神经网络(CNN)对人脸图像
进行特征提取。深度学习方法的优势在于其不需要对不同的情况,例如不同的光照、姿势、
面部表情等手工设计特征,可以通过训练进行学习。其主要短板在于,深度学习方法是一种
数据依赖型的方法,需要使用大量数据进行训练,如果训练数据不足,则会对训练数据产生
130
过拟合,从而泛化能力不足。
尽管深度学习的方法在最近几年开始非常流行,但是使用神经网络进行人脸特征提取的
思 想 并 不 是 最 近 才 刚 刚 产 生 。 在 1997 年 就 有 研 究 者 提 出 了 一 种 名 为 “Face
recognition/detection by probabilistic decision-based neural network”(PDBNN)[14]的早期深度
学习方法。为了避免过拟合并且减少隐藏单元的数量,该方法为每一个训练主体划分了一个
135
全连接子网络,并分别使用密度和边特征进行训练,将两者的输出组合得到最终的人脸识别
分类结果。但是早期的深度学习方法并没有取得很好的效果,究其原因,是因为当时的计算
能力不够强大,训练数据规模较小,并且使用的网络结构很浅,难以有效学到有鉴别力的人
脸特征。
随着计算能力的不断发展,最近几年来的深度学习方法训练数据规模不断变大,并且网
140
络结构也逐渐变深,使用深度学习方法提取人脸特征的效果逐渐超过了传统方法。具有代表
性的深度学习方法是 Facebook 提出的 DeepFace[15],该算法在 LFW 基准上实现了 97.35%
的准确度,在之前的最佳算法上提升了 27 个百分点。该方法使用了 softmax 损失函数和一
个包含 440 万张人脸的数据集进行的模型训练。
对于基于深度学习的人脸特征提取方法,影响特征提取效果的因素可以分为三类:训练
145
数据,网络结构和损失函数。下面对这三方面分别介绍。
训练数据部分。在深度学习中,需要大量的训练数据来防止网络过拟合,这对于所有的
深度学习方法都是一致的。在普通的分类任务中,每一类样本的数量越多,则最终的分类效
果越好,这是因为普通的分类任务类间距离本身就比较大,通过增加类内差异,可以帮助模
型学习到更加鲁棒的功能。但是对于人脸特征提取的任务,情况有一些不同:不同人脸之前
150
的类间差距较小,只通过对每一类人脸增加数据,不能让网络学到足够的类间差异,进而造
成网络的泛化能力不足。因此对于人脸特征提取的任务,数据集不仅需要对每一类样本有足
够的数量(数据集深度),保证网络学到足够的类内差异,同时数据集中的类别数量(数据
- 4 -
中国科技论文在线
http://www.paper.edu.cn
集宽度)也很重要,这一点可以保证网络学到足够的类间差异。文献[16]研究了对于人脸数据
集,数据集宽度和深度对网络效果的影响,该研究的结论是:如果保持数据集的图像数量不
155
变,更宽的数据集训练出来的效果更好。表 1 给出了一些常用的人脸数据集。
表 1 常用人脸数据集
Tab. 1 Face datasets
Dataset
CelebFaces+
UMDFaces
CASIA-WebFace
VGGFace
VGGFace2
MegaFace
MS-Celeb-1M
FaceScrub
YouTubeFace
Images
202,599
367,920
494,414
2.6M
3.31M
4.7M
10M
106,863
63,800
Subjects
Images per Subject
10,117
8,501
10,575
2,622
9,131
672,057
100,000
530
1,595
19.9
43.3
46.8
1,000
362.6
7
100
201.6
40
160
网络结构部分。在 ILSVRC(ImageNet Large Scale Visual Recognition Challenge)挑战赛
中,有许多优秀的卷积神经网络结构显示出了很好的性能,人脸检索任务的网络结构就是从
这些结构中得到启发的。例如,VGG 网络[17]在文献[18,19]中的使用,残差网络(ResNets)[20]
在文献[21-27]中的使用。其中 ResNets 是目前众多深度学习方法中最受欢迎的一种网络,其结
构设计如图 1 所示。ResNet 的主要创新之处在于引入了 shortcut 捷径来学习残差映射。
165
Shortcut 的使用使得网络的梯度可以有效进行反向传播,从而使得更深更大的网络成为了可
能。更深更大的网络结构有助于学到更好的特征表示。
图 1 ResNet 网络结构
Fig. 1 The structure of ResNet
170
损失函数部分。近年来,有许多新的人脸检索损失函数被提出出来。尽管 SoftMax 损失
函数已经非常成功在文献[28-30],但 SoftMax 损失并不会减少类内距离。新型损失函数的设计
思想是,在增加类间距离的同时减少类内距离,从而达到更好的分类效果。度量学习(metric
learning)损失函数和基于余量的(margin-based)损失函数是两种不同类型的新型损失函数。
对于度量学习损失函数,三元组损失函数[31]和对比度损失函数[32]在人脸检索技术中得到了
175
广泛的应用。基于余量的分类,例如文献[22],文献[25-27]通过向提取的特征添加边界余量来修
改 SoftMax 损失,取得更好的分类效果。
2.2 检索方式的选择
图像检索任务的本质上和最邻近搜索问题是完全一致的[33],其根本目的是找到与待检索
- 5 -
中国科技论文在线
http://www.paper.edu.cn
图像最相思的 Top N 张图像。对于大规模的数据集来说,如果简单地将待检索图像与每一个
180
数据集中的图像进行一一比较,是非常效率低下的,整个检索过程会变得非常耗时,并且需
要耗费很大的存储空间。一个替代方案是通过近似最近邻搜索来替代最近邻搜索,例如使用
基于树的检索方法,比如KD树[34]算法,球树[35]算法,尺度树[36]算法,优点树[37]算法等。
但是基于树的检索算法也存在一些缺点,基于树的检索算法往往都需要较大的存储空间,并
且在处理高维数据时候表现效果不佳。除了上述介绍的基于树的检索方法,哈希方法也是常
185
见的检索方法。哈希方法通过对数据集进行反复二值分割,每次划分都产生一个哈希位,将
输入数据映射到二值的汉明空间中,将原始图像数据使用离散二值码进行表示。使用哈希方
法的优势是,可以将图像变为二值特征,极大的减少了存储空间,并且由于计算汉明距离可
以直接使用计算机的异或运算,带来了检索速度上的极大提升。鉴于哈希方法具备的上述优
点,哈希方法非常适用于大规模的图像检索,也是目前的主流检索方法。
190
3 基于哈希方法的人脸图像检索技术
3.1.1 基于传统方法的人脸图像哈希检索技术
人脸图像的哈希检索技术可以认为是人脸检索技术和哈希技术的结合,也可以分为基于
传统方法和深度方法两种。2004 年,文献[38]提出了一种从人脸生物特征中产生哈希码的方
法,该方法使用位提取方法将人脸图像的 PCA 系数离散为 n 位。在组合人脸图像数据库中,
195
比较了几种基于 PCA 的方法(包括 PCA、带加权系数的 PCA、基于小波子带的 PCA 和 LDA)
在离散化过程和不离散化过程下的性能结果。结果表明将位提取过程应用到基于 PCA 的方
法中,可以显著提高性能。类似的,2006 年,文献[39]提出了的人脸图像哈希算法也使用降
维来提高特征的表示能力,并且使用纠错来提高对类内变量的鲁棒性,使用随机投影和正交
化来提高类间的区分。2010 年,文献[40]使用基于局部和全局特征的可缩放人脸表示方法来
200
实现人脸哈希检索,并在一个一百万人脸数据库上,证明了局部特征和全局汉明符号的互补
性,基于局部特征的倒排索引为候选图像提供了很好的召回率,而基于全局汉明符号的多参
考重排序则获得了很好的精度。文献[41]则使用基于形状的方法进行人脸图像哈希检索。该文
章利用了人脸特有的特性,实现了可扩展性和良好的检索性能。文献[42]提出了一种基于判别
投影选择的人脸图像哈希算法,该论文应用 Fisher 准则以用户相关的方式选择随机投影矩阵
205
的行。文献[43]提出的人脸图像哈希方法的灵感来自于局部感测哈希(LSH)在大型通用数据
集上的成功应用,以及偏最小二乘(PLS)分析在用于人脸识别的大型特征向量集上的鲁棒
性,提出了一种基于 LSH 和 PLS 回归的人脸哈希方法。分析以上以上基于传统方法的人脸
图像哈希检索技术,不难发现,这些技术的发展和传统的人脸特征提取技术发展密切相关,
对于每种传统人脸特征提取技术都发展出了对应的人脸图像哈希方法。
210
3.1.2 基于深度学习方法的人脸图像哈希检索技术
随着深度学习技术的迅速发展,使用深度学习方法为人脸图像进行哈希编码成为了可能。
2015 年文献[44]提出了一种用于人脸视频检索的深度卷积神经网络。该网络将特征提取和散
列学习集成到一个统一的优化框架中,以保证特征提取器与后续散列具有最佳的兼容性。为
了更好地初始化网络,提出了一种低阶判别二值哈希算法来预学习哈希函数,并通过在
215
ImageNet 数据集上预先训练的 AlexNet 前七层来初始化特征抽取器。在获得初始化后,使用
三元组损失对网络进行微调,以提高人脸视频检索的性能。该方法在两个具有挑战性的电视
- 6 -
中国科技论文在线
http://www.paper.edu.cn
连续剧数据集上取得了良好的性能。2017 年,文献[45]提出了一种具有卷积池层堆栈的网络
DDH,通过合并第三最大池化层和第四卷积层的输出来提取多尺度和更加鲁棒特征。该方法
使用一种分割编码模块生成紧凑的哈希码,同时消除哈希码和网络参数之间的冗余。此外,
220
引入了 Softmax 损失函数以最大程度地减少学习的哈希码的预测误差,从而生成更加有判别
性哈希码。2018 年,文献[46]提出了一种新的深度量化哈希算法 DDQH,该方法在一个统一
的框架中探索了离散哈希码学习,批处理标准化量化(BNQ)模块和端到端学习,从而可以
确保哈希编码和特征学习的最佳兼容性。为了学习多尺度和鲁棒的面部特征,设计了一个适
当地堆叠几个卷积池层和池化层的深度网络,并通过融合最后一个卷积层和最后一个池化层
225
的输出来获得面部特征。为了获得更高的检索精度,可以使用 BNQ 模块将量化控制在中等
水平。文献[47]提出了一种基于异构哈希网络的跨模态人脸检索方法。该网络能够将位于不同
空间的人脸图像和人脸视频映射到一个公共且有判别力的二值空间上,以获得有效的二值哈
希表示。该网络包含图像分支、视频分支和哈希函数三个部分,首先图像和视频分支分别将
人脸图像和人脸视频映射到一个公共空间,然后在公共空间中学习非线性哈希函数。网络的
230
训练使用了 Fisher 损失、softmax 损失和三元排序损失(triplet ranking loss)三种损失函数,其
中的 Fisher 损失关注于公共空间的判别力,softmax 损失强调公共空间上表达的可分性,三
元排序损失用来提升检索性能。
4 总结与展望
本文主要对基于哈希方法的人脸图像检索技术进行了介绍和总结。基于哈希方法的人
235
脸图像检索技术可以分为基于传统方法和基于深度方法两种。基于哈希方法的人脸图像检
索技术和哈希技术及人脸图像检索技术的发展密切相关。在 2015 年之前,对应基于几何的
方法、基于整体的方法、基于特征的方法和混合方法等人脸检索技术,研究者提出了各类
传统方法的人脸哈希算法。在 2015 之后,在人脸哈希领域,更多的研究开始关注深度方
法,并且设计出了很多端到端的深度人脸哈希算法。从实验结果上来看,深度方法取得了
240
更好的检索效果,是后续人脸图像哈希检索方法的重点研究方向。
[参考文献] (References)
[1] A. Gionis, P. Indyky, and R. Motwaniz. Similarity search in high dimensions via hashing. In: Proc. of the 25th
VLDB Conference,1999. [doi: http://dx.doi.org/]
[2] R. Xia, Y. Pan, H. Lai, C. Liu, and S. Yan. Supervised hashing for image retrieval via image representation
learning. In: 28th AAAI Conference on Artificial Intelligence, AAAI 2014, pp. 2156-2162.
[3] M. D. Kelly, "Visual identification of people by computer." tech. rep., STANFORD UNIV CALIF DEPT OF
COMPUTER SCIENCE, 1970.
[4] T. KANADE, "Picture processing by computer complex and recognition of human faces," PhD Thesis, Kyoto
University, 1973.
[5] J. Shi, A. Samal, and D. Marx, "How effective are landmarks and their geometry for face recognition?," Computer
vision and image understanding, vol. 102, no. 2, pp. 117-133, 2006.
[6] I.L.Drydenand K.V.Mardia, Statistical shape analysis,vol.4.Wiley Chichester, 1998.
[7] P. N. Belhumeur, J. P. Hespanha, and D. J. Kriegman, "Eigenfaces vs. fisherfaces: Recognition using class
specific linear projection[J]." IEEE Transactions on pattern analysis and machine intelligence, vol. 19, no. 7, pp.
711-720, 1997.
[8] K. Etemad and R. Chellappa, "Discriminant analysis for recognition of human face images[J]." JOSA A, vol. 14,
no. 8, pp. 1724-1733, 1997.
[9] W. Zhao, A. Krishnaswamy, R. Chellappa, D. L. Swets, and J. Weng, "Discriminant analysis of principal
components for face recognition[J]." in Face Recognition, pp. 73-85, Springer, 1998.
245
250
255
260
- 7 -
中国科技论文在线
http://www.paper.edu.cn
[10] W. Zhao, R. Chellappa, and P. J. Phillips, Subspace linear discriminant analysis for face recognition[J]. Citeseer,
1999.
[11] R. A. Fisher, "The statistical utilization of multiple measurements[J]." Annals of Human Genetics, vol. 8, no.
4, pp. 376-386, 1938.
[12] A. Pentland, B. Moghaddam, T. Starner, et al., "View-based and modular eigenspaces for face recognition[J]."
1994.
[13] K. Mikolajczyk and C. Schmid, "A performance evaluation of local descriptors[J]." IEEE transactions on pattern
analysis and machine intel- ligence, vol. 27, no. 10, pp. 1615-1630, 2005.
[14] S.-H. Lin, S.-Y. Kung, and L.-J. Lin, "Face recognition/detection by probabilistic decision-based neural
network[J]." IEEE transactions on neural networks, vol. 8, no. 1, pp. 114-132, 1997.
[15] Y. Taigman, M. Yang, M. Ranzato, and L. Wolf, "Deepface: Closing the gap to human-level performance in
face verification[J]." in Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 1701-
1708, 2014.
[16] Dong, Zhen , et al. "Face Video Retrieval via Deep Learning of Binary Hash Representations[J]. " Thirtieth
Aaai Conference on Artificial Intelligence AAAI Press, 2016.
[17] Simonyan K , Zisserman A . Very Deep Convolutional Networks for Large-Scale Image Recognition[J].
Computer Science, 2014.
[18] D. Yi, Z. Lei, S. Liao, and S. Z. Li. Learning face representation from scratch[J]. ArXiv preprint
arXiv:1411.7923, 28 Nov 2014.
[19] O. M. Parkhi, A. Vedaldi, and A. Zisserman. Deep face recognition[J]. In: Proceedings of the British Machine
Vision Conference, BMVC 2015, pp. 41.1-41.12.
[20] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition[J]. In: 29th IEEE Conference
on Computer Vision and Pattern Recognition, CVPR 2016, pp. 770-778.
[21] R. Ranjan, C. D. Castillo, and R. Chellappa. L2-constrained softmax loss for discriminative face verification[J].
ArXiv preprint arXiv:1703.09507v3, 7 Jun 2017
[22] W. Liu, Y. Wen, Z. Yu, M. Li, B. Raj, and L. Song. Sphereface: Deep hypersphere embedding for face
recognition[J]. In: 30th IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2017, pp.6738-6746.
[23] Y. Wu, H. Liu, J. Li, and Y. Fu. Deep face recognition with center invariant loss[J]. In: 1st International ACM
Thematic Workshops, Thematic Workshops 2017, pp. 408-414.
[24] A. Hasnat, J. Bohn ́ e, J. Milgram, S. Gentric, and L. Chen. Deepvisage: Making face recognition simple yet
with powerful generalization skills[J]. In: 16th IEEE International Conference on Computer Vision Workshops,
ICCVW 2017, pp. 1682-1691.
[25] H. Wang, Y. Wang, Z. Zhou, X. Ji, Z. Li, D. Gong, J. Zhou, and W. Liu. Cosface: Large margin cosine loss
for deep face recognition[J]. In: 31st Meeting of the IEEE/CVF Conference on Computer Vision and Pattern
Recognition, CVPR 2018, pp. 5265-5274.
[26] F. Wang, W. Liu, H. Liu, and J. Cheng. Additive margin softmax for face verification[J]. In: IEEE Signal
Processing Letters, 2018, pp.926-930.
[27] J. Deng, J. Guo, and S. Zafeiriou. Arcface: Additive angular margin loss for deep face recognition[J]. ArXiv
preprint arXiv:1801.07698v3, 9 Feb 2019
[28] D. Yi, Z. Lei, S. Liao, and S. Z. Li. Learning face representation from scratch[J]. ArXiv preprint
arXiv:1411.7923, 28 Nov 2014.
[29] Y. Sun, X. Wang, and X. Tang. Deep learning face representation from predicting 10,000 classes[J]. In: 27th
IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2014, pp.1891-1898.
[30] X. Wu, R. He, and Z. Sun. A lightened cnn for deep face representation[J]. In: Proc. IEEE CVPR, 2015, vol. 4.
[31] Y. Sun, Y. Chen, X. Wang, and X. Tang. Deep learning face representation by joint identification-verification[J].
In: 28th Annual Conference on Neural Information Processing Systems 2014, NIPS 2014.
[32] J. Wang, T. Zhang, J. Song, N. Sebe, and H. T. Shen. A survey on learning to hash[J]. In: IEEE Transactions
on Pattern Analysis and Machine Intelligence (TPAMI), 2018, 40(4):769-790, pp.769-790.
[33] Shakhnarovich G, Darrell T, Indyk P. Nearest-neighbor methods in learning and vision: theory and practice.
Neural Information Process[M]. The MIT press, 2006.
[34] Bentley J L. Multidimensional binary search trees used for associative searching [J].Communications of the
ACM, 1975, 18(9):509-517.
[35] Omohundro S M. Efficient algorithms with neural network behavior [J]. Complex Systems, 1987, 1(2):273-347.
[36] Uhlmann J K. Satisfying general proximity/similarity queries with metric trees[J]. Information processing letters,
1991, 40(4):157-179.
[37] Yianilos, Peter N. Data structures and algorithms for nearest neighbor searching in general metric spaces[J].
ACM-SIAM Symp. on Discrete Algorithms, 1993, 1993:311-321.
[38] Ling, David Ngo Chek , A. T. B. Jin , and A. Goh . "Eigenspace-Based Face Hashing[J]." Biometric
Authentication, First International Conference, ICBA 2004, Hong Kong, China, July 15-17, 2004, Proceedings
DBLP, 2004.
[39] Ngo, D. C. L. , A. B. J. Teoh , and A. Goh . "Biometric hash: high-confidence face recognition[J]." IEEE
Transactions on Circuits and Systems for Video Technology 16.6(2006):771-775.
[40] Wu, Zhong , et al. "Scalable Face Image Retrieval with Identity-Based Quantization and Multireference
Reranking[J]." IEEE Transactions on Pattern Analysis & Machine Intelligence 33.10(2011):1991-2001.
[41] Smith, Brandon M. , S. Zhu , and L. Zhang . "Face image retrieval by shape manipulation[J]." Computer Vision
and Pattern Recognition (CVPR), 2011 IEEE Conference on IEEE, 2011.
[42] K. Cagatay, E. Hakan. Discriminative Projection Selection Based Face Image Hashing[J]. IEICE Transactions
- 8 -
265
270
275
280
285
290
295
300
305
310
315
320
325