科技文献题录预处理技术及其软件实现文献综述

 2022-11-29 04:11

科技文献题录预处理系统

1.研究背景及研究意义

1.1 研究背景

随着互联网的发展和大数据时代的到来,面对海量的文献信息,如何降低科研人员的劳动成本,提高研究效率就显得十分重要。

文献计量分析一般包含五个步骤:数据收集、数据预处理、数据挖掘、数据分析和报告撰写,其中数据收集和数据预处理这两个阶段在整个文献计量分析过程中所占的时间最多[1]

并且随着各大科学论文获取平台纷纷推出不同格式的科技文献题录信息,这使得在多平台的文献计量研究中,需要针对不同的数据来源设计不同的数据预处理方案,这大大提高了数据预处理的成本。而数据预处理作为连接数据收集与数据挖掘的中间步骤,其重要性不言而喻。一方面良好的预处理操作能够矫正在数据集中存在的错误、不规范的数据,从而获得整洁、统一的数据集,提高数据集的准确性和可靠性。另一方面,在数据预处理的过程中能够了解数据集的内在特征,为进一步的研究提供帮助。因此如何提高数据预处理的效果和效率,是一个非常关键的问题。

目前,虽然文献计量分析领域存在许多应用比较广泛的科学计量软件,如Bicomb、CiteSpace、HistCite、NetDraw、Pajek、SATI、SPSS、Ucinet、VOSviewer等等。但是使用这些可视化分析软件的前提是将从数据库(如CNKI、SCI、SSCI、A&HCI等)中得到的数据转化成软件所支持的格式,并且在这过程中任然需要如关键词同义词合并、国家机构合并和作者消歧等数据预处理工作,依然需要耗费大量人力。

1.2 研究意义

目前在文献计量领域数据清洗大多以人工清洗或人工干预的半自动清洗为主。人工清洗的结果准确性高,但是工作量大,在小规模数据集上可以采用这种清洗方式;结合人工干预的半自动清洗方式在清洗效率上会大大提升,但这种清洗方式依赖于规则和算法,会出现一部分清洗误差,这部分误差需要通过后期的人工干预进行优化[2]

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。