基于预训练模型的中文命名实体识别研究文献综述

 2022-01-08 09:01

全文总字数:6086字

文献综述

文 献 综 述1.1研究背景命名实体识别(named entity recognition,NER) 是信息抽取和信息检索中一项重要的任务,其目的是识别出文本中表示命名实体的成分,并对其进行分类,因此有时也称为命名实体识别和分类(named entity recognition and classification,NERC[1]。

命名实体最初于1996年在第六届信息理解会议上提出的,主要指文本中某些具有特殊意义的文本,这些文本包括人们想要获取的各类信息,如:人名、地名、时间以及一些重要的数据等。

目前,被广泛运用于自然语言处理(Natural Language Processing, NLP)前序任务的命名实体识别的主要任务是对以上所提的信息文本进行识别。

而汉语的命名实体识别相比较于英语,任务更加困难,因为汉语不具有英语中的天然分隔符,因此分词是所有中文NLP任务的开端,也是极端重要的工作[2]。

2003年~2005年,863评测将汉语的分词作为子任务研究;SIGHAN Bakeoff-2006重点研究汉语分词,并提供三组汉语语料(MSRA 、 LDC 和 CITYU),定义了四类命名实体:人名、地名、机构名和地理-政治实体;到Bakeoff-2007将命名实体减少至最常见的三类:人名、地名和机构名[3]。

对汉语语料的分词以及命名实体识别的准确性事关后续对语言的处理效果,针对上述两种语言处理任务,传统方法是采用基于规则和词典[4]的方式进行,其结果完全依赖字典的准确性。

而编纂字典费时费力,且对于未登录词的识别能力极差,因此被人们淘汰。

为了解决歧义与未登陆词的问题,许多学者将研究重点转向了机器学习[5]算法。

近年来,NLP的研究重心也开始向深度学习转移。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。