基于Kinect的手势动作捕捉及识别文献综述

 2022-11-30 11:11

在以往的人体3D关键点检测的方法中,主要有两种,一种是构造end-to-end的网络,直接实现输入普通图像,输出人体3D关键点;另一种是首先使用2D关键点检测的方法,检测出2D的关键点,然后使用匹配对对齐的方式构造出3D关键点。

Real-time human pose recognition in parts from single depth images[1]这篇文献提出了一种无需使用时间信息并且能够迅速精确地从单深度图像中预测人体关节3D位置的方法。作者采用了一种实物识别方案,设计了一种人体组件中间模型,这种模型能够把高难度的姿势估计问题转化为更简单的逐像素分类问题。其中大量、多种多样的训练数据集保证了分类器能够估计出身体部位而不受姿势、身材和着装等的影响。最后,通过重投影分类结果并建立本地模型,生成几个人体关节的可信3D估计。此系统在消费者硬件上以200帧每秒的速度工作。在无论是合成的抑或真实的测试集上,评价体系中多个训练参数都表明极高的精度。在与相关研究的比较中达到了极高的精度要求,并且比确切全骨架最近邻匹配具有更好的通用性。

A simple yet effective baseline for 3d human pose estimation[2]这篇文献的工作非常简单,但是也非常的有用。其主要工作就是构造一个网络,实现2D人体关键点到3D关键点的映射。实际上,2D关键点到3D关键点的映射,就是一个回归过程,而现在使用神经网络构造回归器是非常容易的,因此很容易想到使用训练一个神经网络,实现回归过程。作者借鉴了Resnet residual结构,具体构造了一个高效的2D转关键点转3D关键点的神经网络。结果发现,利用当前的技术,将地面实况2d联合位置“提升”到3d空间是一项可以用非常低的错误率解决的任务:相对简单的深度前馈网络优于最佳报告结果Human3.6M上约30%,这是最大的公开可用3D姿势估计基准。此外,在现成的最先进的2d探测器的输出上训练此系统(即,使用图像作为输入)产生最先进的结果。结果表明,现代深度三维姿态估计系统的很大一部分误差源于它们的视觉分析,并提出了进一步推进的方向。

随着时间的推移,姿势的时间动态对于基于序列的动作识别至关重要。人类行为可以通过关节骨架的相应运动来表示。基于骨架的动作识别的大多数现有方法基于手工制作的特征来模拟动作的时空演变。卷积神经网络(CNN)作为一种分层自适应滤波器组,在表示学习中表现良好。在Skeleton based action recognition with convolutional neural network[3]这篇文献中,提出了一种用于CNN的基于骨架的动作识别的端到端分层架构。首先,通过连接每个瞬间的关节坐标并按时间顺序排列这些矢量表示来将骨架序列表示为矩阵。然后将矩阵量化为图像并进行归一化以处理可变长度问题。将最终图像输入到CNN模型中进行特征提取和识别。对于这种图像的特定结构,简单最大池对空间特征选择和时间频率调整起着重要作用,可以获得更具辨识力的联合信息。针对不同的行为,同时解决变频问题。实验结果表明,此文的方法以高计算效率实现了最先进的性能,特别是在挑战性的ChaLearn手势识别数据集上超过现有结果15%。

在“Multi-context Attention for Human Pose Estimation [4]这篇文献中, 首先使用stacked Hourglass堆叠沙漏网络的attention map 热点图。然后使用CRF(conditional random field)得到热点图中的相邻关系。然后组合holistic attention model得到全局的个体和part attetntion model得到的人体局部部件。并在此基础上设计了新Hourglass模型HRU(hourglass residual units)增加了感受野变化。 从这整个流程中,可以感受到一些作者在研究尺度全局到局部的变化和两个Model外加感受野的变化力度HRU,这些可以丰富Hourglass网络。所倾向重点是挖掘信息,身体部件的探测上(包括遮挡,扭曲),当然也有构建part connection的方法。此方法在所有身体部位的基准测试中都优于所有现有方法。

在Convolutional Pose Machines[5]这篇文献中使用CNN进行人体姿态估计,它的主要贡献在于使用顺序化的卷积架构来表达空间信息和纹理信息。顺序化的卷积架构表现在网络分为多个阶段,每一个阶段都有监督训练的部分。前面的阶段使用原始图片作为输入,后面阶段使用之前阶段的特征图作为输入,主要是为了融合空间信息,纹理信息和中心约束。另外,对同一个卷积架构同时使用多个尺度处理输入的特征和响应,既能保证精度,又考虑了各部件之间的远近距离关系。

在Stacked hourglass networks for human pose estimation [6]这篇文献中使用全卷积网络解决人体姿态分析问题,截至2016年5月,在MPII姿态分析竞赛中暂列榜首,PCKh(误差小于一半头高的样本比例)达到89.4%。与排名第二的CPM(Convolutiona Pose Machine)1方法相比,思路更明晰,网络更简洁。 作者给出了基于Torch的代码和模型。单显卡,测试时间约130ms,使用cudnn4的训练时间约3天,比CPM方法有显著优势。

在CPM当中,曾经提出过扩大感受野对于人体姿态估计是非常重要的,这一点在本篇文章中也得到了很大的重视。我们可以看到,作者在网络的中间层使用了FE得出的feature map,也就是使用了原图提供的信息 。同时我们还看到作者在中间网络中 使用了remap之后的heat map作为下个stage的参考依据 ,同时还加入了本stage的feature map ,这个是与CPM不同的一点。我认为虽然具体结构和CPM看起来差之甚远,然而实则都反映了在人体姿态上的两个最主要的思路:扩大感受野和使用先前估计的结果Coarse2Fine一个个stage进行优化,这两点对于之后改进网络甚至于重新设计网络都是一个很好的启发,并且可以顺着如此的思路对网络进行改进,并提出自己的解决方法。

Realtime Multi-person 2D Pose Estimation Using Part Affinity Fields[7]这篇文章的亮点在于,融合了PCM和PAF的级联cascade形网络结构,网络设计思想和RefineNet的网络设计思想很像,以及相应条件约束的偶匹配(bipartite matchings)算法。输入一幅图像,然后经过7个stage,得到PCM和PAF。然后根据PAF生成一系列的偶匹配,由于PAF自身的矢量性,使得生成的偶匹配很正确,最终合并为一个人的整体骨架。与已有的方法相比,最大的优势在于检测的速度对人物的数量不敏感,在保持检测精度的情况下大幅提升了速度。

Adversarial PoseNet: A Structure-aware Convolutional Network for Human Pose Estimation [8]这篇文献设计了一种新颖的人体姿态估计网络框架,它考虑了人类关节连接性的几何约束。通过将人体的先验知识整合在一起,可以大大减少因遮挡和杂乱的背景而引起的预测错误。即使网络失败了,网络的输出也更像是“人”的预测而不是“机器”的预测。作者是第一个使用GAN来利用受限的人姿分布来改善人的姿态估计,还设计了一个堆叠的多任务网络,用于预测姿态热图和遮挡热图,以达到更好的效果,结果表明,在LSP Human Pose和MPII Human Pose数据集评估,性能优异。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。