基于Python的新闻舆情分析文献综述

 2023-08-27 06:08

文献综述(或调研报告):

文本情感分析又称意见挖掘,是自然语言处理领域的一项研究热点,目的在于从具有情感倾向的文本中提取出评论者的情感信息,并对其进行分析、处理、归纳和推理的过程。文本情感分析已经被广泛应用于商品推荐、市场分析、舆论控制等领域,具有很高的商业和社会价值。[1]整个文本的情感分析流程,文本预处理,情感词提取,构建情感词典,根据情感色彩对情感词进行标记距离,建立词向量。

文本预处理技术包括分词、词性标注、句法分析等自然语言处理技术,这些技术相对比较成熟,国内也有若干软件及语言开放平台供研究人员使用。如中国科学院计算技术研究所研制的基于多层隐马模型的汉语词法分析系统ICTCLAS[2](Institute of Computing Technology,Chinese Lexical Analysis System),系统的功能有:中文分词、词性标注、命名实体识别和未登录词识别,分词正确率高达97.58%;哈尔滨工业大学社会计算与信息检索研究中心研制的LPT(Language Technology Platform)开源语言技术平台具有分词、词性标注、命名实体识别、依存句法分析在内的一整套基于XML的中文语言处理模块。这些成熟技术的应用为文本情感分析奠定了良好的基础。

文本情感分析首先需要对文本来源进行处理,对网络文本进行主客观分类。网络文本信息可以广义地分成两种类型:客观性文本和主观性文本。客观性文本就是我们对于实体、事件以及它们属性的客观性陈述;主观性文本通常是我们对于实体、事件以及它们属性的主观性评价,包含着丰富的主观性的意见、情感、观点和态度等。[3]主客观分类从主客观混合的文本中将描述事实的客观性文本与表达意见的主观性文本区分开来,将主观语言的文本抽取出来,过滤掉不带情感色彩的文本,及停用词。这一阶段研究的主要目的是为文本情感极性分析提供主观性文本。

文本情感分析的下一步是对主观性文本的分析,主要包括文本情感极性分析和文本情感极性强度分析。情感极性分析的任务就是识别主观文本的情感极性。情感极性分为两极,即正面(Positive)的赞赏和肯定、负面(Negative)的批评与否定,也有一些学者在正面和负面之间加入了中性(Neutral)。情感极性强度分析就是判定主观文本情感极性强度,比如强烈贬抑、一般贬抑、客观、一般褒扬、强烈褒扬五个类别。

目前主流的情感分析方法可以分为三类,一类是基于情感词典的方法,这类方法主要依赖于情感词典,并通过特定的语义规则进行情感分析[4];第二类是基于传统机器学习的方法,这类方法首先要挖掘文本的特征,再使用支持向量机、朴素贝叶斯、最大熵等模型对文本进行情感分析[5];最后一类为基于深度学习的方法,首先将文本转换为文本向量,然后作为深度学习模型的输入进行训练,最后验证并保存训练好的模型[6][7]。

这里我们主要介绍一下基于情感词典的方法:基于情感词典的方法主要通过情感词典对文本进行情感分析。该方法通常不考虑文本中词与词间的关系,而是将文本看作多个词语或短语的集合。该方法的一般步骤是:首先根据语料等构建情感词典,然后将文本进行分词,再使用构建好的情感词典将文本中的词语进行词性和情感强度标注,最后通过语义规则计算情感得分并得出文本的情感倾向在构建情感词典时需要使用传统情感词典,[8][9]目前传统情感词典主要有:哈佛大学的GI(GeneralInquirer)英文情感词典、普林斯顿大学的WordNet英文情感词典、知网HowNet中文情感词典、国立台湾大学的NTu中文情感词典、大连理工大学的中文情感词汇本体库等。

在构建情感词典时,会经常用到点互信息算法(Pointwise Mutual Info珊ation,PMI)和隐含狄利克雷模型(Latent Dirichlet Allocation,LDA)。PMI可以用来判断词语的情感倾向,而LDA则用来从语料中提取情感词。[11]

语义规则集[10]的分析,中文文本是一个或多个句子的组合。尽管句子是由单词组成的,但是其结构是规则的,因此分析语义规则非常重要。 中文文本中,一个文本由多个复杂句子组成,一个复杂句子由多个单个句子组成。构成复杂句子的单个句子也称为从句。中文文本的语义规则分析主要分析文本中每个句子的句型分析规则和句子间分析规则。

然后对每个单词执行情感字典匹配,并根据情感值的加权总和来计算情感值。 然后,在此基础上,考虑了文本之间的语义规则。从复杂句子到从句,再从从句到单词,计算中文微博的情感价值,得到文本的最终情感价值。 最后,文本分为正面中文文本,中立中文本文和负面中文文本。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。