第一人称视频的人体动作识别系统设计文献综述

 2022-11-22 04:11

一、文献综述的引言(包括撰写文献综述的原因、意义、文献的范围、正文的标题及基本内容提要)

随着佩戴式智能相机与智能手机等设备的普及,用户可以通过以自我为中心的自拍摄方式很方便的拍摄第一人称视角的视频。这些以自我为中心的视频既可以上传到社交平台中,如微博、抖音等短视频应用平台;又可以通过大量数据来分析佩戴者的行为来识别日常生活场景,如应用到环境辅助生活系统中;还可以通过识别相机佩戴者与面对相机佩戴者得互动者之间的互动行为进行更好的交互。因此,对这些第一人称视频中的人体动作内容进行识别是一项非常有使用价值的研究课题。虽然传统的动作识别在最近二十年取得了不错的进展,然而由于第一人称视频中的动作受相机拍摄的特殊角度、相机的晃动容易、帧分辨率底等等因素,传统的动作识别方法并不能直接用于解决第一人称视频的人体动作识别问题。目前,第一人称视频的人体动作识别作为一个热门研究方向,许多研究人员通过优化算法、模型和框架提高识别精确度。而本课题研究第一人称视频的人体动作识别,在查阅各种以自我为中心并通过对相关算法进行改进,开发一套第一人称视频的人体动作自动识别系统。本文通过分析目前国内外科研人员对第一人称视频中人体动作的识别研究的总体概况,梳理、总结了相关文献,进一步提出本人对该课题的研究意见和思路。

二、文献综述的正文(是文献综述的主要内容,包括某一课题研究的历史 (寻求研究问题的发展历程)、现状、基本内容 (寻求认识的进步), 研究方法的分析(寻求研究方法的借鉴),已解决的问题和尚存的问题,重点、详尽地阐述对当前的影响及发展趋势,这样不但可以使研究者确定研究方向,而且便于他人了解该课题研究的起点和切入点,是在他人研究的基础上有所创新,对以往研究的优点、不足和贡献的批判性分析与评论)

近年来,识别视频中的人体动作作为计算机视觉中一个热门研究方向。大多数研究都基于第三人称角度的视频分析,相对来说,以自我为中心即第一人称的视频分析较少有人去讨论探索,但是以自我为中心的视频分析在人机交互、人工辅助等方面具有潜在的应用。早期的动作识别基于兴趣点的检测和表示,主要通过梯度直方图,时空兴趣点检测和光流直方图用于提取图像和时序的特征表示。但是由于视频分析需要大量数据,面对大规模数据集时,这些特征缺乏一定的灵活性和可扩展性。近年来,研究者在视频识别中开始使用神经网络。神经网络在图像和识别和物体检测等计算机视觉任务上取得了很大的成果,然而,直接将用于图像的神经网络用于第一人称视频分类会忽略视频的时序特征。时序特征是视频识别的一项关键特征,所以有研究人员提出了基于双流的视频动作识别方法。利用双流神经网络,可以同时获得视频中人或物理的外表和运动信息,该技术在各个基准数据集上都获得了较高的识别率。除了双流网络,研究人员还提出了基于3D卷积网络的双流网络结构。通过全局动作C3D学习[3]与自我运动的交互,局部显著运动C3D分析咸鱼区域内行动者的动作分析,大大提高了准确率。此外,还有很多有效的视频动作识别方法,如基于长短时记忆网络(LSTM)的识别框架、基于对抗神经网络(GAN)的框架等等。虽然目前动作识别已经取得了飞速的发展,但相比人类识别水平仍有很大的差距,在实际应用中也面临着各种复杂的问题和挑战。所以,希望通过本次课题对第一人称的人体动作识别相关算法的研究学习,并对现有算法进行改进,将其应用到解决第一人称视频人体动作识别任务中。

在现有研究中,许多研究人员通过方式来解决第一人称视频动作识别等问题。为了解决一般的循环神经网络(RNN)中存在的长期依赖问题提出了长短期记忆网络(LSTM)这种时间循环神经网络,它适用于处理和预测时间序列中间隔和延长非常长的重要事件,不但比时间递归神经网络及隐马尔科夫模型(HMM)好,而且可以作为复杂的非线性单元用于构造更大型深度神经网络。但是LSTM具有在输入序列中的鉴别信息在空间上局部化的缺点。针对LSTM的不足之处,Swathikiran[1]等人提出了一种新的循环神经单元,即长短时注意(LSTA)。研究人员将LSTA部署到跨模态融合的两流框架中,通过使用另一模态对一模态的偏置参数进行控制,同时还对模型进行消融分析,在GTEA61、GTEA71、EGTEA Gaze 和epi-kitchen四个公共数据集上对该方法进行评估。通过实验表明跨模态融合的LSTA比ego-rnn两种流性能好2%。同样的,Kenji Matsuo[8]等人提出了一种基于注意力的方法来提高自我中心视频中活动识别的精确度,此方法不同于基于手操作确定关键对象,解决了传统的场景和物体类型限制问题。研究人员将用户的注意力量化为视觉注意力地图,并根据用户的注意力将每个对象区分为两组,优化了自我中心视频的视觉注意。虽然此方法的实验仅在传统的日常生活活动中自我中心视频的公共数据集上进行,但是与基于手的方法相比,基于注意力的方法可以保持或提高12个活动类别的识别准确率。平均识别率从36.9%提高到43.3%,比传统方法提高了6.4个百分点,与此同时此方法的稳定性更高。

此外,除了基于注意力解决自我中心视频动作识别的问题,Evangelos Kazakos[2]等人员基于多模态融合,提出了一种有效多模态时间绑定方法;而Li和Yan等人则是分别引入对偶关系建模框架和多任务聚类框架来学习建模相机佩戴者和交互者之间的关系。

三、文献综述的结论(文献研究的结论,概括指出自己对该课题的研究意见,存在的不同意见和有待解决的问题等)

通过大量文献的阅读,我对第一人称视频的人体动作识别有了一个全面的认识,在研究人员通过不同角度和方法对已有算法进行进一步的改进基础上,识别率都有所提高并且更稳定。但是在第一人称视频角度特殊、运动模式、帧分辨率底等等问题下,现有的研究还是不能彻底解决这些任务,虽然有些研究进行了改进,但是也存在性能不够完善、计算成本高等其他问题。所以针对这些问题,本课题需要通过对传统算法的改进,将其应用到解决第一人称视频人体动作识别任务,开发一套实时演示系统。

四、文献综述的附录(列出参考文献,说明文献综述所依据的资料,增加综述的可信度,便于读者进一步检索)

[1] Swathikiran Sudhakaran, Sergio Escalera, and Oswald Lanz. LSTA: Long Short-Term Attention for Egocentric Action Recognition. CVPR 2019

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。