基于生成对抗网络的人体动作迁移合成文献综述

 2022-11-22 04:11

一、文件综述

1、生成对抗网络的发展

生成对抗网络[1]是一个深度学习框架,它通过一个对抗的过程评估生成模型:同时训练两个模型:一个生成模型G来学习某种特征并生成虚假内容,另一个判别模型D来判断样本是来自训练数据集还是G。训练的目标是让G能够生成足以以假乱真的新内容、让D尽可能准确地判断出数据真假。该过程是一个极大极小值的博弈过程,当二者达到零和博弈状态时,训练完成。最初的G和D是在多层感知机定义的情况下训练的,整个系统可以通过反向传播进行训练。然而,这样的GAN存在训练不稳定的问题,条件GAN[2]通过在生成器中引入类别标签这个输入,使GAN从无监督学习走向有监督学习。现如今主流GAN模型大多都采取了引入先验知识这样的思想。DCGAN第一次使用CNN结构实现GAN模型。Pix2Pix[3]实现了图像间转换。这个模型在训练时候需要采用成对的训练数据,并对GAN模型采用了不同的配置。生成模型G采用了“U-net”结构,和以往的网络相比加入了skipconnection;判别器则是作者提出的卷积“PatchGAN”;损失函数上,Pix2Pix使用了PatchGAN和L1的双loss组合。与cGAN不同,Pix2Pix的生成器只要输入一张图片即可,去掉了噪声输入;cGAN判别器的输入为生成内容/真实内容和类别标签,而Pix2Pix判别器的输入为生成内容/真实内容和输入内容。Pix2Pix模型是一种从输入图片到输出图片间映射的通用框架。但是Pix2Pix的局限也很明显,因为使用了skipconnection,导致输入和输出图像的结构几乎完全,生成的图像不可能多样化。

2、视频分析方法的研究现状

早期方法

基于图像到图像的转化研究一直都是关注的热点,但是对于从视频到视频的迁移,人们也一直都在研究。早期的方法侧重于通过操纵现有的视频片段来创建出新的内容。例如,视频重写(VideoRewrite)通过找到嘴部位置与期望语音相匹配的帧,创建一个原来并没有说过某句话的新视频。

经典计算机图形学解决方案:

计算机图形学试图在三维中解决这个问题。自动画角色之间的重定目标问题受到越来越多关注以来,反向动作学解算器和在显著不同的3D骨架之间重定目标的方案都被学者提出。还有几种方法使用校准的多摄像机设置来“扫描”目标演员,并通过目标的三维模型在新视频中操纵他们的动作。为了获得三维信息,Cheung等人提出了一种用来校准个性化的动作学模型、获取三维关节估计值、渲染人类主体执行新动作图像的精细的多视图系统。Xu等人使用多视图捕捉目标对象执行简单动作来创建图像数据库,并通过适合目标的3D骨架和相应的曲面网格传输动作。Casas等人的工作是使用4D视频纹理紧凑地存储扫描目标人的分层纹理表示,并使用它们的时间相干网格和数据表示来渲染目标对象执行新动作的视频。

然而这些都需要在三维空间进行,而且还需要数据校准,无形之中提高了计算量。

基于深度学习的研究:

1.依赖于更详细的输入表示的深度学习模型。

Kim等人[13]将给定合成的渲染图、内部人脸模型和凝视地图作为输入,在实验对象之间传递头部位置和面部表情,并在详细的肖像视频中呈现结果。Martin Brualla等人[14]应用神经重渲染来增强用于VR/AR目的的人体动作捕捉的渲染。这项工作的主要焦点是实时渲染真实的人类,并且类似地使用一个深层网络来合成他们的最终结果,这其中涉及对象之间的动作传递。Villegas等人[15]专注于在装配好的骨骼之间重新定位动作,并在无监督数据的情况下演示3D角色的复活,由于动画角色可以被固定在骨架上,因此他们可以使用骨架来重定动作目标。MoCo GAN[16]采用无监督的对抗性训练来从外观上分离动作,再合成受试者表演新动作或面部表情的视频。这一思想在Dynamics Transfer GAN[17]中得到延续,它将视频中的源对象的面部表情迁移到静态图像中给定的目标人物上。Ma等人和Siarohin等人在其著作中,为此还引入了新的架构和损失。

然而,这些作品并不是专门为动作迁移而设计的。作者提出,应更加注重从大量的个性化视频数据中学习一个已知人的风格,并合成一个他们跳舞的详细的高分辨率视频,而不是由单个输入图像来生成一个以前没见过的人可能的视频。与我们的工作同时进行的还有[1,4,24,40]学习视频之间的映射、演示面部之间以及从姿势到身体的动作迁移。

2.其他方法。

视频可以看做是一组有时间关系的图像序列。因此,一种思路是使用类似pix2pix模型,实现从每一帧图片到图片之间的转化,然后再将图片序列排成视频。然而,pix2pix模型在训练时候需要采用成对的训练数据,我们几乎不可能得到两个表演相同动作的对应图像对来监督这一转化的学习。因为两个实验对象都表演相同的常规动作,由于每个人独特的身体形状和动作方式,要得到一个精确的帧到帧的姿势对应仍然不太可能。

因此,这篇文章[4]就提出了另一种思路。作者发现,基于关键点的姿势可以随着时间的推移保留其动作特征,同时尽可能多地抽离掉身份信息,并且可作为任意两个对象之间的中间表示。因此,作者使用从现成的人体姿势检测器(如OpenPose)获得的姿势棒图形作为帧到帧传输的中间表示。然后,再训练出一个将姿势棒图形转化成目标人图像的模型。

与经典计算机图形学提出的方案相比,该作者提出的方法是为原生视频对象设计的,通过学习合成新的动作而非操纵现有的帧,并且能够使用二维表示(2D姿势棒形图),避免了数据校准和提升到三维空间。Wang等人[11]用更复杂的方法和更大的计算资源获得了与该作者类似质量的结果,也说明其在实现方面也具有可行性。

Everybody Dance Now具体实现方法

[4]作者提出,给定一个来源人和另一个目标人的视频,通过他们的系统就可以生成一个新的目标视频,该视频的动作与源视频相同。为了完成这个任务,作者将该管道分为三个阶段——姿势检测、全局姿势标准化以及从标准化的姿势木棍图形到目标主体的映射。请参见图3以了解我们的管道的概述。在姿势检测阶段,需要使用预先训练的最先进的姿势检测器从源视频中创建给定帧的姿势棍状图形。全局姿势标准化阶段说明了源和目标身体形状以及帧内位置之间的差异。最后,作者设计了一个系统,利用对抗式训练,学习从姿势图到目标图像的映射。接下来将描述系统的每个阶段。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。