基于判别性特征学习的域鲁棒自适应表情识别研究文献综述

 2022-03-18 09:03

文献综述

情感交互在人机自然交互的研究中受到了很大的重视,而情感识别是人机情感交互的关键,其研究目的是让机器感知人类的情感状态,提高机器的人性化水平。

常见的情绪识别方法主要分成两大类:基于非生理信号的识别和基于生理信号的识别。基于非生理信号的情绪识别方法主要包括对面部表情和语音语调的识别。面部表情识别方法是根据表情与情绪间的对应关系来识别不同的情绪,在特定情绪状态下人们会产生特定的面部肌肉运动和表情模式,如心情愉悦时嘴角角上翘,眼部会出现环形褶皱; 愤怒时会皱眉,睁大眼睛等。

人的情感的产生是一个很复杂的心理过程,情感的表达方式也有多种,在计算机研究中分为表情、语音、动作三类。在这 三种情感表达方式中,心理学家拉塞尔(J.A.Russell)发现大约 55%的日常交流信息是用面部表情传递的。面部表情是一个人情绪的外在表达,是复杂心理过程的直接体现。美国著名心理学家Ekmann与Friese把人类表情划分为7种基本表情:自然、恐 惧、悲伤、愤怒、高兴、惊讶和厌恶,每种情感以唯一的表情来反映人的一种独特的心理活动,通过表情可以准确识别人的心理情绪。

近十几年来,人脸表情识别在国内外进行大量的研究,取得了非常丰硕的成果,涌现了许多性能良好的特征提取算法和识别分类方法,并在公开的表情数据库上取得很好的识别率,其中MIT、CMU、Stanford大学、哈尔滨工业大学、中科院、中国科技大学等研究所的贡献尤为突出。在传统的表情识别方法中识别率在公开的数据库中达到了90%以上,随着大数据的到来,深度学习方法的兴起,深度学习的表情识别对7种表情的识别率达到了95%及以上,但对于实际场景的表情识别,识别率还不是很稳定,大部分算法识别率仅在80%左右。

传统学习的问题和难点:

  • 传统的机器学习方法在静态图片的识别上几乎90%及以上,动态图片的表情识别也在80%-90%之间,但在实际应用中输入的表情图片识别率只有80%左右,甚至更低。
  • 在传统的识别算法中强调的重点在特征提取和特征识别,这两步的算法直接影响表情识别的准确率,由于人脸表情是一个柔性物体而非刚性物体,目前传统的识别方法和表情数据库都是具有显著性特征的样本。因此,传统学习无法表示与面部表情无关的因素,在提取深层特征信息方面的能力较差
  • 算法的鲁棒性不高,采用不同的人脸数据库训练,测试实际数据的识别率结果差异较大,即人脸表情特征的提取与分类方法都是 在特定的数据库上进行研究,在不同的数据库上识别率相差很大。

深度学习的出现,极大地提高了识别率,其中卷积神经网络(ConvolutionalNeuralNetwork,CNN)是深度学习中应用最为广泛的模型。深度学习的核心是特征学习,通过分层网络获取分层次的特征信息,解决了以往需要人工提取特征的重要难题,能够较为准确地捕捉到隐藏的特征信息。深度学习避免了传统表情识别算法对人脸姿态、 光照、遮挡物的影响,提高了表情识别的鲁棒性,在公开的表情 数据库上取得非常优异成绩,个别算法识别率高达99%以上, 体现非常优越的性能。

深度学习的问题和难点

  • 表情识别训练必需以已建立好的公开数据库作为前提。
  • 对训练样本的规模有较高要求,在小样本上进行训练时容易发生过拟合现象。
  • 极其痛苦的“人工调参”。在实际应用中研究者都是耗费大量的时间去设置训练参数和训练方式,通过做实验进行最优的超参数选择。
  • 计算量大;依赖于高度发展的硬件基础;在并行和硬件实现上比较难;学习速度慢;很难微型实时学习
  • 缺乏支持理论,难以找到一种快速的训练方式
  • 针对不同实际问题,难以设计出最佳的网络结构

综上所述,首先,尽管深度表情识别通过高性能算法的不断改进,已经能达到较高的识别率,但这仅仅限于针对标签化的人脸表情数据库的测试,在实际场景的测试上识别率大幅度降低,仅为65%左右,同时训练的模型在泛化性也有限,通常一个模型的训练集容易过拟合、或是学到过多数据集(域本身的特征),导致模型在跨数据集上的表现不佳。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。