基于光流法的人类行为识别研究文献综述

 2022-05-27 22:28:32

文献综述

人类行为识别有着广泛的应用,包括高级家庭监控,视频监控,视频搜索,视频索引和人工机器人交互等方面。人类行为识别正式成为计算机视觉领域的研究热点之一,研究的对象是视频或者图像序列,而之前这些都是通过快速捕捉和存储二维图像形成的,并没有目标之间的相对位置信息,给研究造成很大困难。

光流是图像亮度的表观运动,表达了图像的变化,由于光流包含了目标运动的信息,因此可以被用来确定目标的运动情况。在计算机视觉及相关领域光流是重要的研究部分。从光流中恢复目标的三维结构和运动是最富挑战性的任务。

在本次设计实验中,选择光流法来实现人体行为识别。

光流法首先要确定约束方程,而由于孔径问题,所以需要引入其他的约束条件。

估算光流有以下几种方法:1)基于梯度的方法,利用事变图像灰度的时空微分(时空梯度函数)来计算像素的速度矢量。典型代表是Horn-Schunck算法和Lucas-Kanade(LK)算法。2)基于匹配的方法,包含基于区域和特征两种。基于特征的方法不断对目标主要特征进行定位和跟踪,对目标大的运动和亮度变化具有鲁棒性。问题是光流通常很稀疏,而且特征提取和匹配很困难。基于区域的方法先对类似的区域进行定位,然后通过相似区域的位移计算光流。这种方法在视频编码中广泛应用,但是计算的光流仍不稠密。3)基于能量的方法,又称为基于频率。在此类方法中,要获得均匀场流的准确速度估计,就必须对输入的图像进行时空滤波处理,对空间和时间的整合,但是会降低光流的时间和空间分辨率,涉及大量的计算。4)基于相位的方法,优点是:对图像序列的适用范围较宽,速度估计也比较精确,问题是:1.有较高的时间复杂性,2,如果需要提高估计精度,需要花费时间,3.对时间混叠比较敏感。5)基于神经动力学的方法,利用神经网络建立的视觉运动的神经动力学模型,是对生物视觉系统功能的模仿。

深度卷积神经网络在人体行为识别上也有重大的作用,将光流作为视频的人工特征,通过构建3维卷积深度神经网络来自动提取行为视频中的空间和时态特征,并用于对人体行为的分类识别。图1给出了设计的基于3维卷积的深度神经网络模型。该网络具有2个3维卷积层(convolution layer),其中的卷积操作同时考虑了空间和时间维度,2个卷积层的特征图数目分别为32和128。由于使用的2个数据集的视频大小不一样,因此采用了不同的卷积核大小,对于MSR-Action3D数据集,卷积核大小分别为5times;5times;7和5times;5times;5,而UTKinect-Action3D数据集卷积核大小分别为5times;5times;5和5times;5times;5。每个卷积层后是池化层(pooling layer),使用的是最大池化(max pooling)技术,池化操作可以实现对提取特征的平移不变性。卷积层和池化层构成该深度神经网络模型的主体部分。然后是向量化层、2个全连接层(full connected layer)和分类层,全连接层神经元个数分别为2 056和512,采用的是传统的前馈式神经网络连接方式;分类层中采用的是Softmax分类器,网络中的激活函数全部为双曲正切函数tanh。和一般的深度网络一样,使用反向传播(BP)算法训练基于3维卷积的深度神经网络。实验时,采用随机梯度下降法(SGD)进行深度学习,训练时的学习速率和权重衰减系数均为1times;10-4,冲量单元为0。

近些年来,深度学习方法由于设计思想简单,识别效果好,因而在计算机视觉类任务中越来越多的得到研究者的关注。受到基于二维卷积的深度神经网络在图像检测、识别中成功应用的启发,以深度视频为研究对象,通过构建基于三维卷积的深度神经网络来自动学习人体行为的时态和空间特征,并用于人体行为的识别。MSR-Action3D和UTKinect-Action3D数据集上的实验结果表明,研究构建的基于3维卷积的深度神经网络模型能对视频中的人体行为进行有效的识别,识别性能与当前主流的方法具有可比性。除此之外,相对于传统基于人工特征的行为识别方法,基于深度卷积神经网络的方法涉及环节少,能自动提取特征,不需要对原始视频进行复杂处理,方法更为简单,更重要的是所提取的特征具有更好的泛化性能,在一个数据集上训练好的模型能够直接应用于其他数据集的分类识别。

参考文献:

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。