基于卷积神经网络的脸部特征识别系统研究文献综述

 2022-08-13 10:08

一、文献综述

深度学习是人工神经网络的一个分支,具有深度网络结构的人工神经网络是深度学习最早的网络模型。1943年,美国数学家沃尔特·皮茨(W.Pitts)和心理学家沃伦·麦克洛克(W.McCulloch)首次提出了人工神经网络这一概念,并使用数学模型对人工神经网络中的神经元进行了理论建模,开启了人们对人工神经网络的研究 [1]。1949年,著名心理学家唐纳德·奥尔丁·赫布(D. Olding Hebb)给出了神经元的数学模型,提出了人工神经网络的学习规则[2]。1957年,著名人工智能专家弗兰克·罗森布莱特(F.Rosenblatt)提出了感知器(Perceptron)人工神经网络模型,并提出采用Hebb学习规则或最小二乘法来训练感知器的参数,感知器是最早且结构最简单的人工神经网络模型。随后,弗兰克·罗森布莱特又在Cornell university Aeronautical laboratory通过硬件实现了第一个感知器模型:Mark I,开辟了人工神经网络的计算机向硬件化发展方向[2]。感知器是一种前向人工神经网络,采用阈值型激活函数,只含一层神经元。通过训练网络权值,对于一组输入响应,感知器可以得到1或0的目标输出,从而实现分类输入响应的目标。但感知器的分类能力非常有限,只能够处理简单的二元线性分类,受限于其只具有一层神经网络,它不能处理线性不可分问题,比如异或问题。

1980年,基于传统的感知器结构,深度学习创始人,加拿大多伦多大学教授杰弗里·辛顿(G. Hinton)采用多个隐含层的深度结构来代替代感知器的单层结构,多层感知器模型(Multi_Layer Perceptron)是其中最具代表性的,而且多层感知器也是最早的深度学习网络模型[3]。1974年,Paul Werbos提出采用反向传播法来训练一般的人工神经网络,随后,该算法进一步被杰弗里·辛顿、燕·勒存(Y. LeCun)等人应用于训练具有深度结构的神经网络[3]。反向传播法根据神经网络输出层的计算误差来调整网络的权值,直到计算误差收敛为止[4]。但是,反向传播法训练具有多隐含层的深度网络的网络参数的学习性能并不好,因为具有多隐含层的深度网络的网络参数的训练问题是一个非凸问题,基于梯度下降的反向传播法很容易在训练网络参数时收敛于局部极小值。此外,反向传播法训练网络参数还存在很多实际问题,比如需要大量的标签样本来训练网络的权值,多隐含层的神经网络权值的训练速度很慢,权值的修正随着反向传播层数的增加逐渐削弱等。

面对采用反向传播法来训练具有多隐含层的深度网络的网络参数时存在的缺陷,一部分研究人员开始探索通过改变感知器的结构来改善网络学习的性能,由此产生了很多著名的单隐含层的浅层学习模型,如SVM、logistic regression、Maximum entropy model和朴素贝叶斯模型等。浅层学习模型能够有效地解决简单或者具有复杂条件限制的问题,但受限于只含一个隐含层,所以浅层学习模型特征构造的能力有限,不能有效处理包含复杂特征的问题[5]。为了同时解决具有多隐含层的深度网络在参数训练时存在的缺陷和浅层网络特征构造能力有限的问题,一些研究人员开始尝试采用新的参数训练方法来训练多隐含层的深度网络。

1984年,日本学者福岛邦彦提出了卷积神经网络的原始模型神经感知机(Neocognitron)[7]。1998年,燕·勒存(Y. LeCun)提出了深度学习常用模型之一卷积神经网络(Convoluted Neural Network, CNN)[3,7]。2006年,杰弗里·辛顿(G. Hinton)提出了深度学习的概念,随后与其团队在文章《A fast Learning Algorithm for Deep Belief Nets》中提出了深度学习模型之一,深度信念网络,并给出了一种高效的半监督算法:逐层贪心算法,来训练深度信念网络的参数,打破了长期以来深度网络难以训练的僵局[5,6]。从此,深度学习的大门打开,在各大政府、高校和企业中掀起了研究深度学习的大浪潮。2009年,Yoshua Bengio提出了深度学习另一常用模型:堆叠自动编码器(Stacked Auto-Encoder,SAE),采用自动编码器来代替深度信念网络的基本单元:限制玻尔兹曼机,来构造深度网络。

约翰·霍普菲尔德(John Hopfield)在1982提出了Hopfield网络,是最早的递归神经网络(Recurrent Neural Network,RNN)。因Hopfield网络实现困难,没有合适的应用场景,86年后逐渐被前向神经网络取代。1990年,出现了Elmanamp;Jordan SRN两种新的RNN网络,同样因为没有合适的应用场景,很快淡出了研究人员视线。Dalle Molle人工智能研究所的主任Jurgen Schmidhuber在论文《THE VANISHING GRADIENT PROBLEM DURING recurrent neural networks and problem solutions》提出了LSTM,促进了循环神经网络的发展,特别是在深度学习广泛应用的今天,RNN(LSTM)在自然语言处理领域,如机器翻译、情感分析、智能对话等,取得了令人惊异的成绩。

在人脸识别方面的应用:

卷积神经网络(CNN)是人脸识别方面最常用的一类深度学习方法。深度学习方法的主要优势是可用大量数据来训练,从而学到对训练数据中出现的变化情况稳健的人脸表征。这种方法不需要设计对不同类型的类内差异(比如光照、姿势、面部表情、年龄等)稳健的特定特征,而是可以从训练数据中学到它们。深度学习方法的主要短板是它们需要使用非常大的数据集来训练,而且这些数据集中需要包含足够的变化,从而可以泛化到未曾见过的样本上。幸运的是,一些包含自然人脸图像的大规模人脸数据集已被公开 [9-15],可被用来训练 CNN 模型。除了学习判别特征,神经网络还可以降维,并可被训练成分类器或使用度量学习方法。CNN 被认为是端到端可训练的系统,无需与任何其它特定方法结合。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。