基于CLIQUE聚类算法解析柳树动态生长节律转录表达模式文献综述-文献综述网

摘要：目前，生物信息学的不断发展离不开对基因表达谱数据的研究，同样这也是生物信息学研究的一大难点。对于实验中产生的数以千计的实验数据，人们很难用肉眼观察到背后隐藏的信息，通过借助聚类分析，将成千上万的基因进行分类，同一组的基因在某些方面具有相似性或具有同样的功能，不同组的基因之间相似性相差甚远。本论文基于网格和密度的CLIQUE聚类算法对三万多个柳树的基因，在一年中六个不同的时间点，所测量出的各个基因的表达量进行分析研究，从而研究柳树的转录表达模式。CLIQUE算法相比较其他聚类算法而言，其优点是：①能够处理高维数据和大数据集；②对于输入数据不敏感；研究CLIQUE算法，阐明其原理，然后利用CLIQUE算法对基因表达谱数据聚类，并对聚类结果进行分析。

关键词：基因表达谱数据，聚类分析，CLIQUE算法

1.1研究的背景及意义

随着科技的不断发展与进步，我们生活的世界越来越数字化和信息化，人们每天都在与不同的数据打交道，于此同时，我们也在无时无刻地产生各种各样的数字信息，可以说是“形影不离”。我们的日常生活，消费和工作活动都可进行信息化，转换成一个一个数据对象，这些数据对于非专业人士来说，可能只是简简单单的数字，也看不到其中的意义。对于少量数据，专业人士凭借他们的专业知识和经验可能从中看出一些苗头，但是当面对庞大的数据的时候，即使是最专业最富有经验的专家也会束手无策。海量的数据信息存储在数据库中，如若不进行任何地处理，那这些数据也只能是冰冷的数据，对人们来说，毫无意义可言。此时此刻，就需要我们利用现有技术，积极创新技术，去挖掘数据背后的意义，寻找到其中暗藏的“玄机”。

基因表达数据是指通过DNA微阵列实验反映细胞中mRNA丰度的数据，利用这些数据，我们可以分析哪些基因表达发生了变化，基因之间的相关性，以及不同条件下基因的表达量是如何变化的。基因表达数据包含了大量有用的生物学信息，如基因功能、各种实验条件下的基因活性信息、基因之间的关系、细胞当前的生理状态等^[1]。目前在生物研究、医学临床诊断、药物疗效诊断、疾病检测机制等各个领域都有应用，这方面的研究也在不断深入。因此，从实验数据中提取基因结构和表达调控信息越来越重要，逐渐成为热门研究对象，但也是生物学领域的重大问题之一。

基因表达谱数据分析过程类似于数据挖掘过程，数据挖掘，也称数据库的知识发现（Knowledge Discover in Database，KDD），它通过将传统的数据分析方法与处理大量数据的复杂算法相结合，很好地解决了海量信息中的知识提取问题^[2]。数据挖掘是一种决策支持过程，它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等，高度自动化地分析企业的数据，作出归纳性的推理，从中挖掘出潜在的模式，帮助决策者调整市场策略，减少风险，作出正确的决策。知识发现过程由以下三个阶段组成：①数据准备；②数据挖掘；③结果表达和解释。数据挖掘可以与用户或知识库交互^[3]。帮助我们从大量原始数据中发掘出隐含的、可用的信息，随着数据挖掘算法不断地完善和科学技术的飞快发展，数据挖掘技术的研究也进入了一个迅速发展的时期。

对基因表达数据进行聚类分析，主要是分析基因表达模式的相似程度，从而将表达模式类似的基因聚为一类，便于观察与分析总体数据模式。聚类算法可以说是数据挖掘的核心算法。但目前对于聚类的定义尚无明确的规定。聚类分析是一种非监督的学习方法，是数据挖掘中进行数据处理的重要分析工具和方法^[4]。聚类算法将数据集通过合理地划分，分成有限的类，每个类之间没有交集，使得属于同一类的对象之间的相似度尽可能地大，而隶属于不同类的对象之间的相似度尽可能地小。由于聚类分析的众多优点，致使越来越多的人致力于聚类分析研究相关工作中。随着人们对聚类技术的不断研究和改进，聚类分析在数据挖掘，模式识别，机器学习等方面的运用也是越来越炉火纯青。该领域已成为研究热点，并且是数据分析，模式分类和信息提取的常用工具和重要方法。

1.2国内外研究现状

数据挖掘起始于20世纪下半叶，并在此期间基于多个学科的发展而发展。随着数据库技术的不断发展与应用，数据的积累也在不断地扩大。因此，简单的查询和统计信息已经不再能够满足公司的业务需求。这时就迫切需要一些革命性的技术来获取数据背后所隐藏的信息。同时，计算机领域的人工智能（Artificial Intelligence）在此期间也取得了巨大的进步，进入到了机器学习阶段。因此，人们将两者结合起来，使用数据库管理系统来存储数据，使用计算机来分析数据，并尝试挖掘出数据背后的信息。两者的结合催生了一门新的学科，即数据库知识发现（KDD）。知识发现（KDD）一词第一次出现是在1989年8月举行的第11届国际人工智能联合会议的研讨会上，提出的知识发现(KDD Knowledge Discovery in Database)的概念，其目的就是用机器学习的方法来分析数据库管理系统中存储的数据，发现数据中隐藏的规则与知识，以解决“数据爆炸但知识贫乏”的现象^[5]。到目前为止，KDD的重点已从发现方法转移到了实际应用。

基因表达数据反映了每个组织细胞中的基因组的表达信息，记录了细胞的所有基因的表达信息。基因表达数据具有高维度小样本的典型特征，虽然其样本属性之间的关系非常复杂，但从生物信息学的观点来看，少数基因决定了样本的呈现型，同时也是基因表达谱聚类分析的关键基因，也是进行学术研究的关键一步。

聚类分析的算法大体可以分为划分法（Partitioning Methods）、层次法（Hierarchical Methods）、基于密度的方法（Density-based methods）、基于网格的方法（Grid-based methods）、基于模型的方法（Model-Based Methods）。而数据挖掘对于聚类也有如下的要求：

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

基于CLIQUE聚类算法解析柳树动态生长节律转录表达模式文献综述

1.1研究的背景及意义

1.2国内外研究现状

您可能感兴趣的文章

登录

注册

找回密码

1.1研究的背景及意义

1.2国内外研究现状

您可能感兴趣的文章