基于网络爬虫与文本挖掘的中药副作用分析系统文献综述

 2022-03-10 21:54:38

文献综述

一、背景

随着科学技术的飞速发展,各个领域产生的数据量以爆炸式增长,大数据成为当今的一个热点话题,大数据的分析及应用也成为科技界和企业界甚至世界各国政府关注的一个焦点,“大数据时代”已经来临。通过数据挖掘技术并运用计算机软件可以从大数据中提取出有价值的信息。只要分析利用好数据,就可以获得大量信息。[1]尤其是自然语言处理方面的快速发展,使得语言文字类数据的处理分析方面有了很大的进步,以前需要人工处理分析的语言问题可以通过计算机直接分析,得到想要的信息。自然语言处理目前主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。[1][8][12]

在医药方面,药物副作用(AdverseDrugReaction,ADR)引起的死亡已经占医院死亡原因总数的6-7%,成为医院死亡率第五高的原因。[2]在这两年的疫情防控中,中医药发挥了很大的作用,但是由于中医药通常是多种药材混合使用,甚至就算单独一种药材也难以分析具体哪种成分有效等情况,大部分中医药“副作用”一项,都仅仅标注了“尚不明确”因此,通过中医药网站或论坛或社交网络的对应数据进行文本挖掘再用自然语言分析技术处理,可以得到各类中药副作用特点及用药规律,以期为中医药干预提供一个参考数据库,更好的发展中医药,救治更多的病人。

二、数据挖掘原理和步骤

数据挖掘是人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。 [3]

数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。 [3] [11]

三、数据挖掘算法

目前,数据挖掘的算法主要包括神经网络法、决策树法、遗传算法、粗糙集法、模糊集法、关联规则法等。 [4]

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。