基于词向量的文本分类文献综述

 2022-08-21 22:49:53

基于词向量的文本分类论文综述

摘要:随着信息技术的日益发展,人类面临的数据量迅速增长。文本分类是文本挖掘领域的重要技术之一,为信息检索和高效管理海量数据提供了便利,具有重要的研究价值和意义。本文主要研究了文本分类的若干关键技术,包括文本预处理、文本表示模型、特征选择算法和分类算法。本文在详细了解和深入研究了上述过程的基础上,还重点研究了geogle开源的基于深度学习的词向量训练工具Word2vec工作原理,并将其应用到传统特征选择算法的改进上。Word2vec利用深度学习的思想,可以从大规模的文本数据中自动学习数据的本质信息.。本文将Word2vec训练得到的词向量应用到传统的特征选择过程中,研究了词向量之间存在的相似性关联,对特征词进行了适当的扩充,以弥补"特征词不完备"的不足。本文还将针对卡方检验特征选择算法存在的"低频词缺陷"问题,结合集中度和分散度概念对其进行了改进。结合集中度和分散度改进后的特征选择算法,实验分类效果也有一定程度的改进

关键词:文本分类;特征选择;词向量;Word2vec;相似度

研究背泉及意义

随着信息技术的迅猛发展,特别是互联网技术的不断普及与完善,数字信息充满了人类生活的每个角落。人们在使用数字信息的同时也在不断地创造数字信息,由于移动互联网、电子商务和社交媒体等的快速发展促使了企业需要面临的数据量成指数级增长。据/DC的研究报告预测,2020年全球新产生的信息量将超过40ZB,而中国的数据量则会在2020年超过8ZB?,数据量的飞速増长带来了大数据技术和服务市场的繁荣发展。在数据量爆发式增长的过程中,文本、音视频等半结构化、非结构后数据约占未来十年数据产生量的90%。人类社会正处于规模空前的信息爆炸时代,如何有效管理、利用这些海量数字信息挖掘其价值成为当前全世界信息技术研究的热点。在种类繁多的数字信息世界里,文本是其中非常重要的组成部分。不论是人们日常生活中阅读的电子新闻,工作中收发的电子邮件,还是数字图书馆里存放的海量电子书籍,文本都是其信息的主要载体。然而传统的人工管理文本信息的方式己经无法适应当今信息爆炸时代的海量数据。随着信息技术的发展,自动文本分类技术作为能够组织和管理海量文本数据的关键技术引起了人们的广泛重视,并产生了众多的研究与应用。

文本分类技术是文本挖掘和信息检索的基础技术之一,在自然语言处理领域有着非常重要的应用,通过将相似、相关的文本集有序的组织起来,可以方便的进行信息的管理和分类。节约了大量的信息处理成本,该技术己经被应用于诸如文本情感分析、微博舆情分析、信息过滤,数字图书馆等领域,具有很高的研究和应用价值。随着互联网资源爆炸式増长,基于词向量模型的文本分类技术已经成为备受关注的领域和研究热点,并且在分类效果和分类灵活性方面都己经取得了一些不错的表现[1]

虽然目前基于词向量模型的文本分类技术发展较为成熟,并且取得了一些令人满意的进展。但是当前互联网中广泛传播的海量文本数据呈现出新的特征,例如分布不均匀、关系繁杂、种类繁多、更新速度快、标注困难等,此外随着微博,微信等社交网络的兴起,短文本等在文本数据中占据的比例也在日益增高,这些新的变化给文本分类带来了严峻的挑战。为了面对这些新的变化和实现对文本数据高效的管理和定为的需求,我们仍然很有必要对文本分类技术进行深入的研究,以适应互联网时代的发展与变化,使得文本分类取得更好的分类效果,并且使其得到更广泛和更有价值的应用。

国内外研究现状

基于词向量模型文本分类技术的研究最早可追溯到二十世纪50年代末,Luhn[2]做出了开创性工作,第一次在文本分类中应用了词频统计的思想,由此打开了文本分类研究的先河。1960年Maron[3]等人发表了文本分类研究领域的第一篇学术论文,随着越来越多研究人员的加入,文本分类技术得到了更多的研究与应用。文本分类技术经历了从基于知识工程向基于词向量模型方法转变的历程。二十世纪90年代之前,文本分类的方法主要以知识工程(knowledge engineering)为主。但由于这种方法需要相应领域的专家参与,人为地制定规则以实现文本分类,因此该方法实现的文本分类效率较低。而且该方法可移植性和通用性很差,一旦分类的领域发生变化,原先专家制定的分类规则将不再适用。文本分类技术发展到二十世纪90年代,基于知识工程的方法逐渐被基于机器学习(machine learning)的方法所取代,并很快成为文本分类领域新的主流技术。基于词向量模型的文本分类技术通过对训练样本的学习,训练得到一个类别区别于其它类别的特征,在归纳这些特征的基础上构建文本分类器。

词向量基本上是一种单词表示形式,它将人类对语言的理解与机器的理解连接起来它允许机器学习和转移学习模型来映射小生境数据集,这些数据集都是用同一种语言编写的,但在语言上仍然不同。例如,法律文件、客户调查响应和新闻文章都是惟一的数据集,需要进行不同的分析。常见垃圾邮件过滤问题的任务之一是采用从一个用户(源分发版)到一个接收到明显不同的电子邮件的新用户(目标分发版)的模型。生成词向量的方法有很多,这些方法都依照一个思想:任一词的含义可以用它的周边词来表示。生成词向量的方式可分为:基于统计的方法和基于语言模型(language model)的方法

目前在文本自动分类领域都能看到经典的机器学习算法的身影,例如支持向量机[4],神经网络[5],朴素贝叶斯[6],K近邻[7]等算法,它们均在文本分类中取得了较好的分类效果。基于机器学习的文本分类研究主要分为三个方面[8]:文本表示,空间维度约减,文本分类器研究。值得注意的是,文本分类中最基础的一步就是文本表示的特征选择,如果文本特征选择的很差,即使再好的分类工具,可能训练得到的分类器都未必能达到更好。因此如何更准确的提取文本特征,成了当前文本分类技术中热口的研究课题。二十一世纪以来,特征学习(feature learning也可称为表示学习)逐渐得到了国外学者的广泛关注,在跨域迁移学习与自然语言处理等领域得到了大量的应用,并且取得了令人满意的效果。词的分布表示(Distributed Representation of words或者称作Word Embedding)最早由Hinton在1986年提出[9]。其基本思想是通过训练将每个词映射成K维实数向量,通过词之间的距离(比如cosine相似度、欧氏距离等)来判断它们之间的语义相似度。2003年Bengio[10]等人首次将词的分布表示应用到统计语言模型中,2008年Collobert[11]等人首次介绍了他们提出的词向量(word embedding)的计算方法。2013年,谷歌Mikolov等对连续词袋的Skip-Gram模型进行了扩展,并开源了基于深度学习的Word2vec词向量学习工具。Word2vec为计算词向量提供了一种有效的连续词袋和Skip-Gram架构实现[12-13]

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。