基于DBSCAN密度聚类算法解析柳树动态生长节律转录表达模式文献综述

 2022-04-12 08:04

基于DBSCAN密度聚类算法解析柳树动态生长节律转录表达模式

文献综述

摘要: 近年来柳树基因表达谱技术的出现,为柳树生长的研究提供了一种全新的研究手段。文中基于柳树部分组织在六个节点转录组的基因表达量,利用DBSCAN密度聚类算法对两个极端表型的柳树动态生长节律转录表达谱进行聚类分析,解析全基因组范围内基因的转录表达模式,为进一步挖掘与林木生长相关的候选基因提供高效精确的分析工具。

关键词: 聚类分析; DBSCAN算法; 基因表达谱

  1. 研究的目的与意义

随着科技的发展以及互联网的普及,我们在享受互联网的便捷时不难发现在互联网上有着非常庞大的数据量。数据量大的问题非常严重,这些数据若不经过合适的数据处理,会对我们的正常使用产生很大的影响。随着数据的不断积累,新的数据分析方法、技术和理论也逐渐增加。聚类分析是一种将包括对象、数据或特征向量在内的模式以非监督的方式划分到不同簇类的过程。其目的是通过某种相似测度(如欧氏距离、马哈拉诺比斯距离、余弦等)发现存在紧密关系的观测值簇,使得簇内部的对象彼此之间的相似度尽可能大,而不同簇类的对象之间的相似度尽可能地小,甚至不同或不相关[1]

近年来柳树基因表达谱技术的出现,为柳树生长的研究提供了一种全新的研究手段。数据聚类和分类是重要的数据挖掘方法,表达谱基因聚类可以将那些具有相关功能和共调控关系的基因聚在一起,用于推断调控基元、注释基因功能和确立分子标签,为进一步详细研究基因的功能打下基础[2]。对柳树动态生长节律转录表达谱进行聚类分析,解析柳树全基因组范围内基因的转录表达模式,为进一步挖掘与柳树生长相关的候选基因提供了高效精确的分析工具。通过对柳树部分组织在六个不同时间段的基因表达量数据进行聚类分析,可以找到与柳树生长相关基因的规律,为研究与柳树生长相关的候选基因提供帮助。

聚类分析计算方法主要有:基于层次的聚类、基于划分的聚类、基于密度的聚类、基于网格的聚类、基于模型的聚类等。本文采用DBSCAN密度聚类算法来处理柳树基因表达谱数据。DBSCAN密度聚类算法是一种利用高密度连接区域划分簇的密度聚类算法。在这个算法中,簇具有密度相连的点的最大集以及高密度区域等特征。DBSCAN算法不需要提前知道要形成的簇的种类数目,可以发现数据集中的任意形状的类和噪声点。目前,DBSCAN算法已经被应用于交通事故多发点段排查、电子商务等领域,并且在这些领域中发挥出很大的作用。例如,在交通领域中,可以通过对交通事故多发点的数据分析来提高交通事故黑点的排查。在电子商务中,可以将用户分为不同的类,商家来针对不同类型的用户来推出不同的不同的营销方案,可以大大增加用户的体验以及自身的销量。将DBSCAN算法应用在柳树基因表达谱的聚类分析中,可以为我们研究柳树生长的候选基因提供很大的帮助。

  1. 国内外的研究现状

数据挖掘技术是一个新兴的、非常重要的、具有广阔应用前景和富有挑战性的研究领域。作为数据挖掘中常用的一种技术,聚类分析也是十分热门的研究领域。本文采用的DBSCAN算法是基于密度的聚类算法,深受大家的青睐,在国内外都有很多人在研究。DBSCAN算法作为一种经典的基于密度的聚类算法,基于识别任意形状的簇,所以在很多的领域都有应用。但是DBSCAN算法本身也存在缺陷:DBSCAN算法需要输入两个参数,邻域半径Eps和密度阈值MinPts,在没有相应知识的前提下,很难确定这两个参数的值,使用不同的参数,聚类结果差别很大[3]

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

免费ai写开题、写任务书: 免费Ai开题 | 免费Ai任务书 | 降AI率 | 降重复率 | 论文一键排版