人脸辨认技能全面总结：从传统要领到深度进修

发布时间：2019-02-14 06:49:17 所属栏目：建站来源：机器之心

导读：自七十年月以来，人脸辨认已经成为了计较机视觉和生物辨认规模被研究最多的主题之一。基于人工计划的特性和传统呆板进修技能的传统要领迩来已被行使很是大型的数据集实习的深度神经收集代替。在这篇论文中，我们对风行的人脸辨认要领举办了全面且最新的文

副问题[/!--empirenews.page--]

自七十年月以来，人脸辨认已经成为了计较机视觉和生物辨认规模被研究最多的主题之一。基于人工计划的特性和传统呆板进修技能的传统要领迩来已被行使很是大型的数据集实习的深度神经收集代替。在这篇论文中，我们对风行的人脸辨认要领举办了全面且最新的文献总结，个中既包罗传统要领（基于几许的要领、整体要领、基于特性的要领和殽杂要领），也有深度进修要领。

弁言

人脸辨认是指可以或许辨认或验证图像或视频中的主体的身份的技能。首小我私人脸辨认算法降生于七十年月初 [1,2]。自那往后，它们的精确度已经大幅晋升，此刻对比于指纹或虹膜辨认 [3] 等传统上被以为越发妥当的生物辨认要领，人们每每更偏幸人脸辨认。让人脸辨认比其余生物辨认要领更受接待的一大差异之处是人脸辨认本质上长短侵入性的。好比，指纹辨认必要用户将手指按在传感器上，虹膜辨认必要用户与相机靠得很近，语音辨认则必要用户高声措辞。相对而言，当代人脸辨认体系仅必要用户处于相机的视野内（假设他们与相机的间隔也公道）。这使得人脸辨认成为了对用户最友爱的生物辨认要领。这也意味着人脸识此外隐藏应用范畴更广，由于它也可被陈设在用户不祈望与体系相助的情形中，好比监控体系中。人脸识此外其余常见应用还包罗会见节制、诓骗检测、身份认证和交际媒体。

当被陈设在无束缚前提的情形中时，因为人脸图像在实际天下中的泛起具有高度的可变性（这类人脸图像凡是被称为天然人脸（faces in-the-wild）），以是人脸辨认也是最有挑衅性的生物辨认要领之一。人脸图像可变的处所包罗头部姿势、年数、遮挡、光照前提和人脸心情。图 1 给出了这些环境的示例。

人脸辨认技能全面总结：从传统要领到深度进修

图 1：在天然人脸图像中找到的典范变革。（a）头部姿势，（b）年数，（c）光照，（d）面部心情，（e）遮挡。

人脸辨认技能这些年已经产生了重大的变革。传统要领依靠于人工计划的特性（好比边和纹理描写量）与呆板进修技能（好比主因素说明、线性鉴别说明或支持向量机）的组合。人工计划在无束缚情形中对差异变革环境妥当的特性是很坚苦的，这使得已往的研究者偏重研究针对每种变革范例的专用要领，好比能应对差异年数的要领 [4,5]、能应对差异姿势的要领 [6]、能应对差异光照前提的要领 [7,8] 等。近段时刻，传统的人脸辨认要领已经被基于卷积神经收集（CNN）的深度进修要领接替。深度进修要领的首要上风是它们可用很是大型的数据集举办实习，从而进修到表征这些数据的最佳特性。收集上可用的大量天然人脸图像已让研究者可网络到大局限的人脸数据集 [9-15]，这些图像包括了真实天下中的各类变革环境。行使这些数据集实习的基于 CNN 的人脸辨认要领已经实现了很是高的精确度，由于它们可以或许学到人脸图像中妥当的特性，从而可以或许应对在实习进程中行使的人脸图像所泛起出的真实天下变革环境。另外，深度进修要领在计较机视觉方面的不绝遍及也在加快人脸辨认研究的成长，由于 CNN 也正被用于办理很多其余计较机视觉使命，好例如针检测和辨认、支解、光学字符辨认、面部心情说明、年数预计等。

人脸辨认体系凡是由以下构建模块构成：

人脸检测。人脸检测器用于探求图像中人脸的位置，假若有人脸，就返回包括每张人脸的界线框的坐标。如图 3a 所示。
人脸对齐。人脸对齐的方针是行使一组位于图像中牢靠位置的参考点来缩放和裁剪人脸图像。这个进程凡是必要行使一个特性点检测器来探求一组人脸特性点，在简朴的 2D 对齐环境中，即为探求最得当参考点的最佳仿射调动。图 3b 和 3c 展示了两张行使了统一组参考点对齐后的人脸图像。更伟大的 3D 对齐算法（如 [16]）还能实现人脸正面化，即将人脸的姿势调解到正面向前。
人脸表征。在人脸表征阶段，人脸图像的像素值会被转换成紧凑且可判此外特性向量，这也被称为模板（template）。抱负环境下，统一个主体的全部人脸都应该映射到相似的特性向量。
人脸匹配。在人脸匹配构建模块中，两个模板会举办较量，从而获得一个相似度分数，该分数给出了两者属于统一个主体的也许性。

人脸辨认技能全面总结：从传统要领到深度进修

图 2：人脸识此外构建模块。

许多人以为人脸表征是人脸辨认体系中最重要的组件，这也是本论文第二节所存眷的重点。

人脸辨认技能全面总结：从传统要领到深度进修

图 3：（a）人脸检测器找到的界线框。（b）和（c）：对齐后的人脸和参考点。

深度进修要领

卷积神经收集（CNN）是人脸辨认方面最常用的一类深度进修要领。深度进修要领的首要上风是可用大量数据来实习，从而学到对实习数据中呈现的变革环境妥当的人脸表征。这种要领不必要计划对差异范例的类内差别（好比光照、姿势、面部心情、年数等）妥当的特定特性，而是可以从实习数据中学到它们。深度进修要领的首要短板是它们必要行使很是大的数据集来实习，并且这些数据齐集必要包括足够的变革，从而可以泛化到不曾见过的样本上。荣幸的是，一些包括天然人脸图像的大局限人脸数据集已被果真 [9-15]，可被用来实习 CNN 模子。除了进修鉴别特性，神经收集还可以降维，并可被实习因素类器或使费用量进修要领。CNN 被以为是端到端可实习的体系，无需与任何其余特定要领团结。

用于人脸识此外 CNN 模子可以行使差异的要领来实习。个中之一是将该题目看成是一个分类题目，实习齐集的每个主体都对应一个种别。实习完之后，可以通已往除分类层并将之前层的特性用作人脸表征而将该模子用于辨认不存在于实习齐集的主体 [99]。在深度进修文献中，这些特性凡是被称为瓶颈特性（bottleneck features）。在这第一个实习阶段之后，该模子可以行使其余技能来进一步实习，觉得方针应用优化瓶颈特性（好比行使连系贝叶斯 [9] 或行使一个差异的丧失函数来微调该 CNN 模子 [10]）。另一种进修人脸表征的常用要领是通过优化配对的人脸 [100,101] 某人脸三元组 [102] 之间的间隔怀抱来直接进修瓶颈特性。

行使神经收集来做人脸辨认并不是什么新头脑。1997 年就有研究者为人脸检测、眼部定位和人脸辨认提出了一种名为「基于概率决定的神经收集（PBDNN）」[103] 的早期要领。这种人脸辨认 PDBNN 被分成了每一个实习主体一个全毗连子收集，以低落潜匿单位的数目和停止过拟合。研究者行使密度和边特性别离实习了两个 PBDNN，然后将它们的输出组合起来获得最终分类抉择。另一种早期要领 [104] 则组合行使了自组织映射（SOM）和卷积神经收集。自组织映射 [105] 是一类以无监视方法实习的神经收集，可将输入数据映射到更低维的空间，同时也能保存输入空间的拓扑性子（即在原始空间中临近的输入在输出空间中也临近）。留意，这两种早期要领都不是以端到端的方法实习的（[103] 中行使了边特性，[104] 中行使了 SOM），并且提出的神经收集架构也都很浅。[100] 中提出了一种端到端的人脸辨认 CNN。这种要领行使了一种孪生式架构，并行使了一个比拟丧失函数 [106] 来举办实习。这个比拟损战败用了一种怀抱进修流程，其方针是最小化对应统一主体的特性向量对之间的间隔，，同时最大化对应差异主体的特性向量对之间的间隔。该要领中行使的 CNN 架构也很浅，且实习数据集也较小。

上面提到的要领都未能取得打破性的成就，首要缘故起因是行使了手段不敷的收集，且实习时能用的数据集也相对较小。直到这些模子获得扩展并行使大量数据 [107] 实习后，用于人脸识此外首个深度进修要领 [99,9] 才到达了当前最佳程度。尤其值得一提的是 Facebook 的 DeepFace [99]，这是最早的用于人脸识此外 CNN 要领之一，其行使了一个手段很强的模子，在 LFW 基准上实现了 97.35% 的精确度，将之前最佳示意的错误率低落了 27%。研究者行使 softmax 丧失和一个包括 440 万张人脸（来自 4030 个主体）的数据集实习了一个 CNN。本论文有两个全新的孝顺：（1）一个基于明晰的 3D 人脸建模的高效的人脸对齐体系；（2）一个包括局部毗连的层的 CNN 架构 [108,109]，这些层差异于通例的卷积层，可以从图像中的每个地区学到差异的特性。在那同时，DeepID 体系 [9] 通过在图块（patch）上实习 60 个差异的 CNN 而获得了临近的功效，这些图块包括十个地区、三种比例以及 RGB 或灰度通道。在测试阶段，会从每个图块提取出 160 个瓶颈特性，加上其程度翻转后的环境，可形成一个 19200 维的特性向量（160×2×60）。相同于 [99]，新提出的 CNN 架构一ü用结局部毗连的层。其验证功效是通过在这种由 CNN 提取出的 19200 维特性向量上实习一个连系贝叶斯分类器 [48] 获得的。实习该体系所行使的数据集包括 202599 张人脸图像，来自 10177 位绅士 [9]。

对付基于 CNN 的人脸辨认要领，影响精确度的身分首要有三个：实习数据、CNN 架构和丧失函数。由于在大大都深度进修应用中，都必要大实习集来防备过拟合。一样平常而言，为分类使命实习的 CNN 的精确度会随每类的样本数目的增添而晋升。这是由于当类内差别更多时，CNN 模子可以或许进修到更妥当的特性。可是，对付人脸辨认，我们感乐趣的是提取出可以或许泛化到实习齐集不曾呈现过的主体上的特性。因此，用于人脸识此外数据集还必要包括大量主体，这样模子也能进修到更多类间差别。[110] 研究了数据齐集主体的数目对人脸辨认精确度的影响。在这项研究中，起首以降序情势凭证每个主体的图像数目对一个大数据集举办了排序。然后，研究者通过逐渐增大主体数目而行使实习数据的差异子集实习了一个 CNN。当行使了图像数目最多的 10000 个主体举办实习时，获得的精确度是最高的。增进更多主领会低落精确度，由于每个特殊主体可用的图像很是少。另一项研究 [111] 研究了更宽度的数据集更好，照旧更深度的数据集更好（假如一个数据集包括更多主体，则以为它更宽；相同地，假如每个主体包括的图像更多，则以为它更深）。这项研究总结到：假如图像数目相称，则更宽的数据集能获得更好的精确度。研究者以为这是由于更宽度的数据集包括更多类间差别，因而能更好地泛化到不曾见过的主体上。表 1 展示了某些最常用于实习人脸辨认 CNN 的果真数据集。

人脸辨认技能全面总结：从传统要领到深度进修

表 1：果真的大局限人脸数据集。

用于人脸识此外 CNN 架构从那些在 ImageNet 大局限视觉辨认挑衅赛（ILSVRC）上示意优秀的架构上取得了许多灵感。举个例子，[11] 中行使了一个带有 16 层的 VGG 收集 [112] 版本，[10] 中则行使了一个相似但更小的收集。[102] 中试探了两种差异范例的 CNN 架构：VGG 气魄威风凛凛的收集 [112] 和 GoogleNet 气魄威风凛凛的收集 [113]。纵然这两种收集实现了相等的精确度，但 GoogleNet 气魄威风凛凛的收集的参数数目少 20 倍。更近段时刻，残差收集（ResNet）[114] 已经成为了许多方针辨认使命的最受偏幸的选择，个中包罗人脸辨认 [115-121]。ResNet 的首要创新点是引入了一种行使捷径毗连的构建模块来进修残差映射，如图 7 所示。捷径毗连的行使能让研究者实习更深度的架构，由于它们有助于跨层的信息活动。[121] 对差异的 CNN 架构举办了全面的研究。在精确度、速率和模子巨细之间的最佳衡量是行使带有一个残差模块（相同于 [122] 中提出的那种）的 100 层 ResNet 获得的。

人脸辨认技能全面总结：从传统要领到深度进修

图 7：[114] 中提出的原始的残差模块。

选择用于实习 CNN 要领的丧失函数已经成为迩来人脸辨认最活泼的研究规模。纵然行使 softmax 丧失实习的 CNN 已经很是乐成 [99,9,10,123]，但也有研究者以为行使这种丧失函数无法很好地泛化到实习齐集未呈现过的主体上。这是由于 softmax 丧失有助于进修能增大类间差此外特性（以便在实习齐集区别差异的类），但不必然会低落类内差别。研究者已经提出了一些能缓解这一题目的要领。优化瓶颈特性的一种简朴要领是行使鉴别式子空间要领，好比连系贝叶斯 [48]，就像 [9,124,125,126,10,127] 中所做的那样。另一种要领是使费用量进修。好比，[100,101] 中行使了配对的比拟丧失来作为独一的监视信号，[124-126] 中还团结行使了分类丧失。人脸辨认方面最常用的怀抱进修要领是三元组丧失函数 [128]，最早在 [102] 中被用于人脸辨认使命。三元组丧失的方针是以必然余量分隔正例对之间的间隔和负例对之间的间隔。从数学情势上讲，对付每个三元组 i，必要满意以下前提 [102]：

人脸辨认技能全面总结：从传统要领到深度进修

个中 x_a 是锚图像，x_p 是统一主体的图像，x_n 是另一个差异主体的图像，f 是模子进修到的映射相关，α 施加在正例对和负例对间隔之间的余量。在实践中，行使三元组丧失实习的 CNN 的收敛速率比行使 softmax 的慢，这是由于必要大量三元组（或比拟丧失中的配对）才气包围整个实习集。尽量这个题目可以通过在实习阶段选择坚苦的三元组（即违背余量前提的三元组）来缓解 [102]，但常见的做法是在第一个实习阶段行使 softmax 丧失实习，在第二个实习阶段行使三元组丧失来对瓶颈特性举办调解 [11,129,130]。研究者们已经提出了三元组丧失的一些变体。好比 [129] 中行使了点积作为相似度怀抱，而不是欧几里德间隔；[130] 中提出了一种概率式三元组丧失；[131,132] 中提出了一种修改版的三元组丧失，它也能最小化正例和负例分数漫衍的尺度差。用于进修鉴别特性的另一种丧失函数是 [133] 中提出的中心丧失（centre loss）。中心丧失的方针是最小化瓶颈特性与它们对应类此外中心之间的间隔。通过行使 softmax 丧失和中心丧失举办连系实习，功效表白 CNN 进修到的特性可以或许有用增大类间差别（softmax 丧失）和低落类内个别差别（中心丧失）。对比于比拟丧失和三元组丧失，中心丧失的利益是更高效和更轻易实现，由于它不必要在实习进程中构建配对或三元组。另一种相干的怀抱进修要领是 [134] 中提出的范畴丧失（range loss），这是为改进行使不服衡数据集的实习而提出的。范畴丧失有两个组件。类内的丧失组件是最小化统一类样本之间的 k-最大间隔，而类间的丧失组件是最大化每个实习批中最近的两个类中心之间的间隔。通过行使这些极度案例，范畴丧失为每个类都行使同样的信息，而不管每个种别中有几多样本可用。相同于中心丧失，范畴丧失必要与 softmax 丧失团结起来以停止丧失降至零 [133]。

当团结差异的丧失函数时，会呈现一个坚苦，即探求每一项之间的正确均衡。最近一段时刻，已有研究者提出了几种修改 softmax 丧失的要领，这样它无需与其余丧失团结也能进修鉴别特性。一种已被证明可以增进瓶颈特性的鉴别手段的要领是特性归一化 [115,118]。好比，[115] 提出归一化特性以具有单元 L2 范数，[118] 提出归一化特性以具有零均值和单元方差。一个乐成的要领已经在 softmax 丧失中每类之间的决定界线中引入了一个余量 [135]。为了简朴，我们先容一下行使 softmax 丧失举办二元分类的环境。在这种环境下，每类之间的决定界线（假如偏置为零）可由下式给定：

人脸辨认技能全面总结：从传统要领到深度进修

个中 x 是特性向量，W_1 和 W_2 是对应每类的权重，θ_1 和 θ_2 是 x 别离与 W_1 和 W_2 之间的角度。通过在上式中引入一个乘法余量，这两个决定界线可以变得越发严酷：

人脸辨认技能全面总结：从传统要领到深度进修

如图 8 所示，这个余量可以有用地增大种别之间的区分水平以及各自种别之内的紧凑性。按照将该余量整合进丧失的方法，研究者们已经提出了多种可用要领 [116,119-121]。好比 [116] 中对权重向量举办了归一化以具有单元范数，这样使得决定界线仅取决于角度 θ_1 和 θ_2。[119,120] 中则提出了一种加性余弦余量。对比于乘法余量 [135,116]，加性余量更轻易实现和优化。在这项事变中，除了归一化权重向量，特性向量也如 [115] 中一样举办了归一化和比例调解。[121] 中提出了另一种加性余量，它既有 [119,120] 那样的利益，尚有更好的几许表明方法，由于这个余量是加在角度上的，而不是余弦上。表 2 总结了有余量的 softmax 丧失的差异变体的决定界线。这些要领是人脸辨认规模的当前最佳。

人脸辨认技能全面总结：从传统要领到深度进修

图 8：在两个种别之间的决定界线中引入一个余量 m 的结果。（a）softmax 丧失，（b）有余量的 softmax 丧失。

人脸辨认技能全面总结：从传统要领到深度进修

表 2：有余量的 softmax 丧失的差异变体的决定界线。留意这些决定界线针对的是二元分类案例中的种别 1。

（编辑：河北网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页

6个值得珍藏的搜索引擎	网站优化核心减少SEO污
网站seo优化三个基础知	什么时候宣布文章收录