基于产生式对抗神经网络的时装图像属性编辑文献综述

 2022-11-26 12:11

1前言

随着电子商务和网上购物的快速发展,时装领域受到了越来越多的关注。这使得很多人尝试将人工智能技术运用到时装领域。对于时装产品,感兴趣的属性与视觉品质有关,例如袖长,颜色和图案,而属性值与确定的标签相对应,例如长袖,红色和朴素的样式。属性编辑涉及根据目标属性对图像进行转换或局部调整,能够编辑图像属性在用户对某些属性不满意等情况下特别有用。最近,有人从图像检索的角度对这项任务进行了研究,涉及在进行属性操作后在数据集中检索目标图像[7]。但是,图像检索方法受到数据集大小和属性数量增加的限制。因此解决此类问题显得非常重要。生成网络也已广泛应用于各种与时装相关的任务,例如虚拟试穿和时装设计、生成。于是我们提出基于生成对抗网络进行属性编辑。

2研究现状及其发展

2.1表征学习

众所周知,机器学习算法的成功与否不仅仅取决于算法本身,也取决于数据的表征。数据的不同表征可能会导致有效信息的隐藏或是曝露,这也决定了算法是不是能直截了当地解决问题。表征学习[2]的目的是对复杂的原始数据化繁为简,把原始数据的无效信息剔除,把有效信息更有效地进行提炼,形成特征,这也应和了机器学习的一大任务——可解释性。也正是因为特征的有效提取,使得今后的机器学习任务简单并且精确许多。在此之前,有一类任务也是提炼数据的,那就是特征工程。与表征学习不同的是,特征工程是人为地处理数据,也是我们常听的“洗数据”。而表征学习是借助算法让机器自动地学习有用的数据和其特征。

在深度学习大幅发展之前,无监督学习是很好的表征学习的工具,通过学习从高维观察到低维表征空间的映射,使得可通过低维的表征近似地重建出原来的观察。无监督学习中的自动编码器、PCA可以用来对数据进行含义转换。树模型可以自动地学习到数据中的特征并同时做出预测。而深度学习是最灵活的表征学习。一般深度神经网络的最后一层都是一个线性分类器,其他层是在给这个线性分类器提供特征,因此最后一层之前的隐藏层可认为是表征学习。其中的网络模型有CNN、RNN、DBN、GCN等,CNN大量地用在图像的研究上,RNN是时间序列数据学习的摇篮。

2.2卷积神经网络——CNN

早在2006年以前,已有人提出一种学习效率很高的深度学习模型-CNN。在20世纪80年代和90年代,一些研究者发表了CNN的相关研究工作,且在几个模式识别领域尤其是手写数字识别中取得了良好的识别效果。然而此时的CNN只适合做小图片的识别,对于大规模数据,识别效果不佳。随着诸如GPU之类硬件的高速发展以及算法的改进,包括网络变深、数据增强、ReLU、Dropout等,如AlexNet、VGG、GoogLeNet等网络结构被逐渐被提出来。但是随着网络层数的增加不可避免的在训练的过程中就会出现梯度弥散或者梯度爆炸这样的现象。一种有效的解决方法就是通过在卷积层之间增加一个skip connection,近几年提出的ResNet以及Dense Net上都是这样操作的。

残差网络ResNet[3]通过增加一个恒等映射,将原始所需要学的函数H(x)转换成H(x)=F(x) x,把当前输出直接传输给下一层网络,相当于走了一个捷径,跳过了本层运算,同时在反向传播过程中,也是将下一层网络的梯度直接传递给上一层网络,使得前馈式/反向传播算法非常顺利进行,在极大程度上,残差网络使得优化较深层模型更为简单。ResNet正是有了这样的Skip Connection,梯度能畅通无阻地通过各个Res blocks,唯一影响深度的就是内存不足,因此只要内存足够,上千层的残差网络也都能实现。

Dense Net[4]的基本思路与ResNet一致,但是它建立的是前面所有层与后面层的密集连接。Dense Net让网络中的每一层都直接与其前面层相连,实现特征的重复利用;同时把网络的每一层设计得特别“窄”,即只学习非常少的特征图最极端情况就是每一层只学习一个特征图,达到降低冗余性的目的。由于密集连接方式,Dense Net提升了梯度的反向传播,使得网络更容易训练,同时该网络参数更小所以计算更高效,又由于特征的重复利用,最后的分类器使用了低级特征。这些特点让DenseNet在参数和计算成本更少的情形下实现比ResNet更优的性能。

卷积神经网络除了不断往深度发展,在宽度上也不断拓展,两者结合起来可以创造出更强大的CNN模型。

2.3生成对抗网络——GAN

生成式对抗模型GAN (Generativeadversarial networks)[9]是Goodfellow等在人2014年提出的一种生成式模型,目前已经成为人工智能学界一个热门的研究方向,著名学者Yann Lecun甚至将其称为“过去十年间机器学习领域最让人激动的点子”。GAN的基本思想源自博弈论的二人零和博弈,由一个生成器和一个判别器构成,通过对抗学习的方式来训练,目的是估测数据样本的潜在分布并生成新的数据样本。在图像和视觉计算、语音和语言处理、信息安全、棋类比赛等领域,GAN正在被广泛研究,具有巨大的应用前景。

自从Goodfellow首次提出生成对抗网络后,由于其强大的生成能力,生成对抗网络被运用到了许多重要的计算机视觉问题上,例如人脸生成[ 15],图像补全[14]以及图像到图像的转换[11]。pix2pix利用pix2pix利用成对的图片作为真值来监督图像到图像的转换。但是很多情况下,不能收集到成对的图片,此时这种无监督的图像转换问题有着更高的难度。J.Y.Zhu 创造性地提出了CycleGAN这种训练框架解决了无监督图像转换问题。CycleGAN提出了cycle consistent损失,将图片从源域转化为目标域再从目标域转化为源域实现循环一致性。但是这些方法能够只能够实现两个域之间的图像转换,对于每两个域的图像转换就要训练一对转换模型,扩展性不强。StarGAN通过在生成对抗网络框架中的判别器中加入辅助分类器,由此判别器不仅用于辨别生成的图片是否真实,还对生成的图片分类,判断该图片属于哪个域,从而用单一模型实现了多域转换。

同时生成对抗网络被运用在了很多的时装领域。FashionGAN[10]被用来根据给定的文字描述生成特定的时装图片。由于时装的每个属性一般都具有多个值,如果采用CycleGAN的方法需要训练很多的编辑模型,所以采用StarGAN的框架解决时装属性编辑问题。虽然StarGAN能够用单一模型实现多域图像的转换,但是StarGAN会对修改一些与域无关的信息,使得转换效果下降。当需要在与属性相关的区域上执行属性编辑而其他区域保持不变时,拥有注意力机制特别有用。Ganimation和SaGAN[13]都引入了一个注意力模块来获得更好的图像转化结果。Ganimation和SaGAN的基本想法类似,都是在生成图像的同时生成一个注意力图,之后通过注意力图来将原图和生成图进行线性变换得到最终的结果。它们的不同点在于Ganimation是通过同一个网络生成图像和注意力图,而SaGAN则额外采用了一个网络分支来生成注意力图。

3、参考文献

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。