基于知识的孤独症表型与基因型关联网络的构建与分析文献综述

 2022-11-03 09:11

文献综述(或调研报告):

摘要:实现精准医学需要我们对疾病表型和基因之间的关系有足够的了解,从而实现对不同患者的个性化医疗。但是面对海量的新增知识,仅靠人工处理这些信息是很难实现的。文本挖掘技术是从海量文本信息中获取潜在有用知识的有效途径。传统的文本挖掘方法由于不能有效运用语义信息而难以达到更高的准确度。本体论为语义信息的合理表示和有效组织提供了理论支持和技术手段。

关键词:文本挖掘,本体,自然语言处理

  1. 背景简介


当前 ,生物医学领域的研究正在飞速发展 ,大量的生物医学知识以非结构化的形式存在于各种形式的文本文件中。国际上生物医学领域的权威数据库MEDLINE(Medical Literature Analysis and Retrieval System Online)的文献总数目前已达到1 600万篇,而且近年来每年发表文献数量还在不断增长。如何从海量的非结构的文本数据中快速的提取其中蕴含的知识就变得越来越重要。现有的方法是通过检索的方法,从大量的文档中找到与检索词相关的文档,但是这样并不能获得文本中的知识本身。因此,找到一种从大规模生物医学文献中自动获取相关知识的方法就成为一项迫在眉睫的任务。


其实在这方面的研究早在十几年前就开始了,这项技术就叫文本挖掘技术。文本挖掘通常包括文本检索、命名实体抽取和关联分析三个步骤。文本检索就是通过搜索引擎或者网络爬虫的方法,来获取相关的文本数据,并依据研究的内容进行数据预处理。命名实体抽取就是通过某些方法将文本中的医学或者其他术语进行提取,从而将不同文本中的词汇统一起来,也使得后续的语义分析成为可能。关联分析就是在文中的术语已经被提取出来的基础上,通过统计学的方法或者机器学习的方法,来分析术语之间的关系,从而在文本的基础上提取其中蕴含的知识,并以一种结构化的方式在存储或进行其他应用。


文本挖掘的在生物医学领域的应用可以提高生物医学信息建设和管理的效率。通过信息抽取技术也可以建设以精准医疗、个性化医疗为目的的表型-基因关系数据库,在未来或许还可以通过分析提取出来的关联数据发现传统实验室方法不能发现的隐含的关系。文本挖掘技术给我们的科研和临床带来了非常大的机遇。

  1. 本体论概述


本体本来是哲学中的一个概念。近年来, 本体论在人工智能领域引起研究人员的兴趣, 并越来越多的应用在Web信息的表示、组织与管理。Gruber在1993年的“概念体系的规范”中给出了本体的定义。1998年Studer等人给出了一个较为明确的解释:“本体是对概念体系的明确的、形式化、可共享的规范说明”。直观地,把本体是“领域知识规范的抽象和描述, 表达、共享、重用知识的方法。”
研究者通过不同的用途对本体进行了分类。在本文中,根据在文本挖掘领域应用的特点,把本体分为常识本体和领域本体两类。常识本体通常从哲学的认识论出发,对一般对象和对象之间的一般关系进行抽象描述,代表性的常识本体有英文的WordNet和中文的《知网》(HowNet)。领域本体专注于解决特定领域内知识的抽象描述,通常根据领域的特点来定义本体的结构并实现一套构建本体的方法,代表性的领域本体有人类表型本体(human phenotype ontology),医学一体化语言系统(Unified Medical Language System)等。

  1. 方法研究


1、基于本体的文本挖掘概述


文本挖掘总体上有两种方法:基于机器学习的方法和基于本体的方法。其中机器学习的方法又分为有指导和无指导。在有指导的方法中,用户需要预先提供一定数量的样本,使用这些样本来对机器学习方法进行训练, 然后用经过训练的自动化方法来处理新的文本。在文本分类中,这个方法已经比较成熟了。在无指导的方法中,根据文本之间的相似性来对文本进行处理,而不需要提供样本。文本聚类是无指导方法的典型例子。而基于本体的方法则完全不同。在基于本体的方法中,用户需要提前定义概念和概念的层级结构,然后将文本中的元数据映射到相应的层级结构中。


以上两种途径各有利弊。机器学习的方法实现代价小,准确度和最终获得的概念层次结构的可理解性都难以达到较高的水平。基于预定义概念层次结构和元数据的方法能够达到更好的效果,但需要人工参与,实现代价高。但基于本体的方法能够在本体的基础上,对文本进行语义分析,从而比单纯的语法分析得到更多的信息,也能够让所得的知识更简单直白。


2、基于常识本体的文本挖掘

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。