基于CLIQUE聚类算法解析柳树动态生长节律转录表达模式文献综述

 2022-04-12 08:04

摘要:目前,生物信息学的不断发展离不开对基因表达谱数据的研究,同样这也是生物信息学研究的一大难点。对于实验中产生的数以千计的实验数据,人们很难用肉眼观察到背后隐藏的信息,通过借助聚类分析,将成千上万的基因进行分类,同一组的基因在某些方面具有相似性或具有同样的功能,不同组的基因之间相似性相差甚远。本论文基于网格和密度的CLIQUE聚类算法对三万多个柳树的基因,在一年中六个不同的时间点,所测量出的各个基因的表达量进行分析研究,从而研究柳树的转录表达模式。CLIQUE算法相比较其他聚类算法而言,其优点是:①能够处理高维数据和大数据集;②对于输入数据不敏感;研究CLIQUE算法,阐明其原理,然后利用CLIQUE算法对基因表达谱数据聚类,并对聚类结果进行分析。

关键词:基因表达谱数据,聚类分析,CLIQUE算法

1.1研究的背景及意义

随着科技的不断发展与进步,我们生活的世界越来越数字化和信息化,人们每天都在与不同的数据打交道,于此同时,我们也在无时无刻地产生各种各样的数字信息,可以说是“形影不离”。我们的日常生活,消费和工作活动都可进行信息化,转换成一个一个数据对象,这些数据对于非专业人士来说,可能只是简简单单的数字,也看不到其中的意义。对于少量数据,专业人士凭借他们的专业知识和经验可能从中看出一些苗头,但是当面对庞大的数据的时候,即使是最专业最富有经验的专家也会束手无策。海量的数据信息存储在数据库中,如若不进行任何地处理,那这些数据也只能是冰冷的数据,对人们来说,毫无意义可言。此时此刻,就需要我们利用现有技术,积极创新技术,去挖掘数据背后的意义,寻找到其中暗藏的“玄机”。

基因表达数据是指通过DNA微阵列实验反映细胞中mRNA丰度的数据,利用这些数据,我们可以分析哪些基因表达发生了变化,基因之间的相关性,以及不同条件下基因的表达量是如何变化的。基因表达数据包含了大量有用的生物学信息,如基因功能、各种实验条件下的基因活性信息、基因之间的关系、细胞当前的生理状态等[1]。目前在生物研究、医学临床诊断、药物疗效诊断、疾病检测机制等各个领域都有应用,这方面的研究也在不断深入。因此,从实验数据中提取基因结构和表达调控信息越来越重要,逐渐成为热门研究对象,但也是生物学领域的重大问题之一。

基因表达谱数据分析过程类似于数据挖掘过程,数据挖掘,也称数据库的知识发现(Knowledge Discover in Database,KDD),它通过将传统的数据分析方法与处理大量数据的复杂算法相结合,很好地解决了海量信息中的知识提取问题[2]。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,作出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,作出正确的决策。知识发现过程由以下三个阶段组成:①数据准备;②数据挖掘;③结果表达和解释。数据挖掘可以与用户或知识库交互[3]。帮助我们从大量原始数据中发掘出隐含的、可用的信息,随着数据挖掘算法不断地完善和科学技术的飞快发展,数据挖掘技术的研究也进入了一个迅速发展的时期。

对基因表达数据进行聚类分析,主要是分析基因表达模式的相似程度,从而将表达模式类似的基因聚为一类,便于观察与分析总体数据模式。聚类算法可以说是数据挖掘的核心算法。但目前对于聚类的定义尚无明确的规定。聚类分析是一种非监督的学习方法,是数据挖掘中进行数据处理的重要分析工具和方法[4]。聚类算法将数据集通过合理地划分,分成有限的类,每个类之间没有交集,使得属于同一类的对象之间的相似度尽可能地大,而隶属于不同类的对象之间的相似度尽可能地小。由于聚类分析的众多优点,致使越来越多的人致力于聚类分析研究相关工作中。随着人们对聚类技术的不断研究和改进,聚类分析在数据挖掘,模式识别,机器学习等方面的运用也是越来越炉火纯青。该领域已成为研究热点,并且是数据分析,模式分类和信息提取的常用工具和重要方法。

1.2国内外研究现状

数据挖掘起始于20世纪下半叶,并在此期间基于多个学科的发展而发展。随着数据库技术的不断发展与应用,数据的积累也在不断地扩大。因此,简单的查询和统计信息已经不再能够满足公司的业务需求。这时就迫切需要一些革命性的技术来获取数据背后所隐藏的信息。同时,计算机领域的人工智能(Artificial Intelligence)在此期间也取得了巨大的进步,进入到了机器学习阶段。因此,人们将两者结合起来,使用数据库管理系统来存储数据,使用计算机来分析数据,并尝试挖掘出数据背后的信息。两者的结合催生了一门新的学科,即数据库知识发现(KDD)。知识发现(KDD)一词第一次出现是在1989年8月举行的第11届国际人工智能联合会议的研讨会上,提出的知识发现(KDD Knowledge Discovery in Database)的概念,其目的就是用机器学习的方法来分析数据库管理系统中存储的数据,发现数据中隐藏的规则与知识,以解决“数据爆炸但知识贫乏”的现象[5]。到目前为止,KDD的重点已从发现方法转移到了实际应用。

基因表达数据反映了每个组织细胞中的基因组的表达信息,记录了细胞的所有基因的表达信息。基因表达数据具有高维度小样本的典型特征,虽然其样本属性之间的关系非常复杂,但从生物信息学的观点来看,少数基因决定了样本的呈现型,同时也是基因表达谱聚类分析的关键基因,也是进行学术研究的关键一步。

聚类分析的算法大体可以分为划分法(Partitioning Methods)、层次法(Hierarchical Methods)、基于密度的方法(Density-based methods)、基于网格的方法(Grid-based methods)、基于模型的方法(Model-Based Methods)。而数据挖掘对于聚类也有如下的要求:

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。