Unified Language Model Pre-training for Natural Language Processing文献综述

 2023-08-18 07:08
  1. 选题背景和意义:

自然语言处理(Natural Language Processing, NLP)是人工智能领域的重要方向之一,旨在将人类的语言使用计算机进行处理分析。与传统的语音识别技术不同,NLP更侧重对语言的语义理解与自然表达。随着NLP研究的不断深入,其应用也变得越来越广泛,涉及的任务也变得更加多样,例如文本分类(Text Categorization)、机器翻译(Machine Translation)、信息抽取(Information Extraction)、智能写作(Smart Writing)等都已发展得较为成熟。

为了对语言进行抽象描述,NLP领域内的任务首先采用向量的形式表示一个单词的含义,再将词向量作为模型的输入,投入模型进行训练。

与其他人工智能方向的训练模式相似,NLP模型的训练很大程度上依赖数据集的选择。在NLP领域内,标注数据是非常少的,且大部分标注数据为英语。但是每种语言都存在着极大规模的未标注语料库。这引发学者们探索新的训练模式:大规模预训练(Pre-train) 小规模参数微调(Fine-tune)。即先训练一套参数对模型进行初始化。随着ELMo、GPT和Bert等的出现并对多项任务记录的刷新,这种两阶段训练模式已经逐渐成为NLP领域内的主流。

但由于数据标注需要花费大量资源,很多语言并没有足够的标注数据。对于已经有足够标注数据来完成任务训练的语言模型,可以考虑将其迁移至另一没有足够标注数据语言的同类任务中,提高模型的拓展性。

合适的初始参数可以克服NLP任务中标注数据量较少的问题,显著提高模型在任务上的效果,并极大加快模型训练的收敛速度。模型的迁移对标注数据量少的语言具有很大的意义。

现在的Pre-train模型主要通过卷积神经网络(Convolutional Neural Network, CNN)获得词向量信息。不同的层级常被理解为语言不同层面的代表。底层的网络非常紧密,主要表示语法信息,而顶层网络表示前后关联的信息。针对不同语言间模型的迁移,可以关注Pre-train模型在不同层面的权重因子,找到语言间对应关系,从而提高模型的通用性。

  1. 课题关键问题及难点:

传统的神经网络基本都是基于反向传播(Back Propagation, BP)训练的,即首先对模型的各类参数进行初始化,再利用输出结果和真实结果(Ground Truth, GT)的差别,结合优化算法对参数进行调整。但是神经网络本身十分依赖训练数据,在监督(存在GT)数据有限的情况下,训练出的模型大多精度有限。Pre-train则通过大量无标注的语料库训练语言模型,利用语言的上下文作为标签,学习语义知识,捕捉词和词之间的关系,得到一套模型参数,对模型进行初始化。

NLP领域内标注数据十分稀缺,并不够支撑传统的训练方式,且有标注的数据集主要为英语语料。通过Bert等多种使用两阶段训练方法的模型,结合大量无标注的语料库,基本解决了英语在不同任务上的问题,取得较好效果。然而很多语言只有很少甚至不存在合适任务的标注数据,只有部分未标注的语义库。对于这类语言,任务模型的建立存在更高的要求,对于合适的初始化模型参数有很大需求。

考虑利用不同语言之间的关联信息弥补标签的不足,那么首先要解决的问题就是如何在保证词向量存在在同一语义空间的同时,使Pre-train模型学习到语言之间的对应关系,以完成后续训练。这里需要将单语语料和双语语料合理结合,完成下游任务的训练。

同时由于模型的训练并不是使用与任务完全相同的语言进行的,无监督的单词嵌入方法,在Pre-train以及Fine-tune过程中使用的语言集合与目标任务语言不相合时,会导致模型崩溃。模型的稳健性是跨语言Pre-train模型的重点及难点。同时,Bert为代表的模型体量较大,存在搭建和训练的难度挑战。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。