基于NLP技术的中文文本摘要提取研究文献综述

 2022-03-12 15:26:36

文献综述

随着网络信息技术的迅速发展,文本信息的数量和规模日益扩大。如何从如此海量的数据中快速获取到用户所需要的有效信息,同时对海量文本信息进行相应的概括,成为了目前急需解决的一-大难题。文本摘要提取技术旨在从复杂纷繁的文本信息中,自动提取出文本信息的主要内容,进而解决了人工手动提取摘要难以适应如此海量数据的问题,降低了用户的信息解读工作量。目前,大数据时代的降临使文本摘要提取技术成为国内外学者进行学术研究的热点。[1][2]

基于NLP技术的中文文本摘要提取研究目的就是从文献或其他数据资源中提取简洁有效的信息资源,使用户可以快速得到文章的集中信息进而提高阅读效率。

  1. 中文文本摘要提取得原理与方法

1.基于TF-IDF的文本摘要抽取方法[3]

基于TF-IDF的文本摘要抽取方法是- -种基于统计的方法,首先要将文本进行预处理操作,然后对文本进行关键词提取操作,其根据关键词的权重求出句子的权重,最后对各个句子按权重排序,选取权重高的为摘要句。利用TF-IDF方法进行文本摘要提取

基于TF-IDF的关键词抽取由于本文研究的主要是面向单文本的摘要抽取,因此TF-IDF的结果只与文本中各个词语的词频相关,根据词频计算预处理之后文本中各个词语的TF -IDF值.通过上-一步的计算,得到文本中所有非停用词的词语的TF-IDF值,遍历每个句子中的关键词,根据句子中每个关键词的TF -IDF值,求得关键词的平均TF-IDF值,并将其作为句子的权重。

对所有的句子按照权重进行降序排列,选取结果中权重排名位于前n个的句子来作为摘要句,若ngt;1,需要将摘要句按文本中的顺序排序之后再进行输出,由于本次的测试集的摘要句都是单句,所以本文中选择n=1。

  1. 基于TextRank的文本摘要抽取方法[4][5][6]

结合摘要本身的特点,将篇章框架结构、上下文信息等因素融入到TextRank算法中。摘要是文本主要内容的精准体现,摘要中的句子所体现的核心思想可以从原文文本中的句子中得到体现。首先,本文把文本的篇章框架结构信息、上下文信息等因素加以总结,将能够对摘要的质量起到影响的因素充分考虑其中,例如句子位置、段落位置、特征句子和核心句子等,通过迭代计算和排序,获得所选文章的摘要候选句群。为了避免信息重复,改进相似度计算方法,对得到的摘要候选句群做冗余处理,除去相似度较高的句子,得到自动生成文章摘要,这样的生成的文本摘要既简练又紧贴文章内容,同.时具有低冗余度、高概括性、可读性和连贯性。最后通过实验验证,该算法能够提高生成摘要的准确性,表明了该算法的有效性。

  1. 文本摘要信息抽取模型[7]
  2. 基于word2vec的中文自动摘要提取[8][9]

基于词语特征的传统关键词提取方法的实现效果并不理想,随着深度学习技术的兴起,越来越多的研究人员开始采用深度学习的方法实现对关键词的提取。词向量表征方式是目前自然语言处理领域应用最为广泛的方法,尤其是在处理篇幅较长的文本时,利用word2vecl39.401工具将文本中的词语进行词向量表示,形成一一对应的映射关系。在本文中,利用词向量计算文本中各选定词间的相似性,通过对词语的聚类操作获取文本中关键词。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。