基于LSTM网络的群体活动识别系统文献综述

 2022-11-26 01:11
  1. 前言

随着社会的迅速发展,具有拍摄功能的终端设备逐渐普及,且计算机软件技术和硬件技术迅速发展,导致图像和视频数据爆发式增长。这些海量的数据,对实现视频的智能分析和处理提出了更高的要求,同时也为挖掘数据中有价值的信息提供了数据基础。单纯地依靠人工处理的效率十分低且可靠性难以保证,需要消耗大量人力和物力。因此,视频智能处理相关技术的需求非常迫切,应用前景广泛。

视频行为识别包括个体行为识别和群组行为识别,作为一个多学科交叉的研究领域,其融合了模式识别和机器学习、人工智能、神经科学等多个学科的理论和技术。群组行为识别是行为识别的重要方面,被广泛应用于视频分类和安防监控等领域,其相比于个体行为识别更具挑战性,挑战包括行为类的可变性、背景复杂、不同行为类之间的相似性、个体间遮挡以及群体行为外其他目标的影响等因素。目前,群体行为识别作为一个研究热点,国内外已有不少研究团队在此领域取得一定成果。

  1. 相关文献的研究现状
  2. 行为识别

大量的研究探索了行为识别问题,如个体行为识别[1],两人交互识别[2]。在过去十年,该领域取得了非常显著的成果[3][4]。个体/两人行为识别问题的关键是准确有效地描述人体行为的外观和运动等底层特征,并用高层语言描述提取的特征,在两人行为识别中需获得人与人之间的交互信息。从传统的手工特征提取方法到深度学习特征提取模型,研究者对数据信息的提取越来越准确。

在基于手工特征提取的方法中,改善的密集轨迹(iDT[5])是目前效果最优、稳定性最好的。iDT算法对轨迹周围小立方体进行特征提取,这些包含时空信息的特征包括:方向梯度直方图(HOG[6])、HOG3D、光流直方图(HOF[7])和运动边界直方图,然后利用FV(Fisher Vector)的方法对特征进行编码。由于光流计算耗时较长,iDT方法的速度较慢。且传统的手工特征提取方法,大多数都需要准确地前期处理和后期的复杂建模,整个流程较为繁琐,并且模型复杂导致控制变量较多,鲁棒性不强。

基于深度学习的方法是通过样本数据的学习来表示特征。近年来,研究学者在行为识别领域提出很多高效的深度学习模型,提高了人体行为识别的准确率。其主流的解决方法的方向有:1)基于双流神经网络的框架[1],通过空间流网络和时间流网络分别提取外观和运动特征信息,该方法在行为识别领域取得了很大的突破,后续有大量对此框架改进的算法。2)基于3D卷积神经网络的框架[8],将卷积扩展到时间维度上。C3D网络[9]可以对数据进行端到端的训练,但由于其参数太多,模型深度难以增加,易导致过拟合。Carreira提出的I3D(Inflated-3D)[10]模型,预训练参数并将2D卷积核扩展为3D,很好的解决了上述问题。后续提出了其他的变形模型,如:P3D(Pseudo-3D)[11],T3D,Res3D,S3D等。3)基于时序信息编码的框架,通常使用RNN[12],LSTM[13]捕获长期时序信息。如Donahue等人[14]在预处理的CNN上堆叠LSTM,用于处理如行为识别,图像描述和视频描述之类的顺序任务。

  1. 群体行为识别

群体活动识别是计算机视觉领域的一个前言课题。较早的方法通常有两种,主要基于手工设计的视觉特征与图模型或AND-OR语法模型的组合。一种方法是利用个体活动的空间分布,并用时空描述符来表示人的空间分布。例如:Choi等人[15]利用个体在场景中的空间分布及其姿势和动作来实现可靠的行为分类。Lan等人[16]在潜在变量框架中探索两种类型的上下文信息,即人组交互和人人交互。Lan等人[17]和Ramanahan等人[18]分别在完全监督和弱监督的框架中探讨社会角色的概念,预测个体在群体语境下的行为。另一种方法是跟踪视频中的所有个体,然后学习整体的特征表示以推断群体活动的类别。例如:Choi和Savarese[19]同时对多个人进行跟踪,在一个联合框架中识别个体行为,交互和群体性为。Vahdat等人[20]通过一系列关键姿势对行为进行建模,模型包括演员的空间分布以及时序的关键姿势。但是,前一种方法需要推断人与人之间的复杂空间关系,而后一种方法受到群体活动外个体行为的影响。这些方法均使用手工设计的特征提取,通常采用表达受限的线性模型。

使用深度学习模型进行群体活动识别的常用方法是,首先学习个体层级的动态行为表示,然后整合个体行为表示来识别群体活动。卷积神经网络(CNN[21])在群体活动识别方面有非常好的性能,其应用包括图像分类和动作识别。基于循环神经网络(RNN[12])的模型通常用于处理时长不定的视频数据,LSTM模型[13]在RNN模型中很受欢迎,因为它能对时序数据建模,处理复杂的序列信息。LSTM通过学习人的高层动态表示来解决人交互识别的问题[22],[23],[24],[25],[26],其已应用于各种任务。Karpathy等人[24]将结构化目标用于图像区域上对其CNN,在句子上对其双向RNN,深层多模态RNN结构用生成图像描述。Veeriah等人[26]提出了一种差分门控方案,对由连续帧之间的显着运动引起的信息增益变化进行量化。

最近的深度学习研究架构提出了层次LSTM网络模型,在视频行为识别方面表现出良好的性能。Ibrahim[22]设计了分层深度时序模型(HDTM),首先通过对几个LSTM对单个动态运动进行建模,而后续LSTM被设计用来整合个体信息以进行群体活动识别。其模型将单人动态汇总为整体动态表示,但且没有考虑群体活动中人与人之间的相互关系。

但是,前面提到的方法均把场景中所有个体对群体活动的贡献视作相同的,这样抑制了相关个体的作用,高估了不相关个体的作用。为解决此问题,Deng等人设计深度结构化模型[23](Deep Structured Model)和结构推断机[25](Structure Inference Machines),其模型关注的是群体活动中“相关”个体的运动信息,忽视“不相关”个体的运动信息。可是,这些个体间的交互是随时间变化的,相关个体并不是一直相关,不相关个体也并不是一直不相关,该模型使群体外个体得某些突发动作信息可能丢失。

Tang和Shu等人[27][28]提出H-LSTCM模型和CCG-LSTM模型。H-LSTCM模型通过捕获多个人之间同时存在的长期相互关联的动态而非多个个体动态,来聚合群体场景中个体的相互关联的信息。CCG-LSTM模型利用时空语境连贯性(STCC)和全局语境一致性(GCC)约束来提取相关个体的动态和量化个体行为对群体活动的贡献,来进行群体活动识别。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。