基于CURE层次聚类算法解析柳树动态生长节律转录表达模式文献综述

 2022-04-12 08:04

基于CURE层次聚类算法解析柳树动态生长节律转录表达模式文献综述

摘要:

本文在学习基于大数据背景下的聚类算法的原理的基础上,查阅相关的参考文献,对算法的产生、中心思想及代码实现进行了研究。本论文首先描述了聚类算法的产生和划分的类别以及各自的相关知识、然后讲解CURE层次算法的原理,对其算法的相关过程进行分析,如代表点的选择,收缩因子等,对此结果总结出该算法的优缺点,并在该基础上进行代码实现。最后对CURE算法进行实际应用,从柳树生长节律上进行数据集测试,并展示出可视化的结果。

关键词:聚类算法;层次聚类;CURE层次聚类算法

  1. 研究的目的与意义

近年来,生活的信息化使数据增长速度急剧加快,几乎一切事物都与数据相关,上网购物,金融,物流等,这些直接体现大数据普遍存在于我们的生活[1]。在大数据的环境下,怎样从海量、价值密度低为特点的的大数据中挖掘出有意义的信息的问题备受关注。在数据挖掘领域,聚类分析是一个重要的方面,在图形分析、模式识别等领域得到广泛应用。聚类分析与分类不同,聚类分析不需要依赖事先定义的类别和特征的训练实践,是一种无监督学习过程。

随着计算机网络的发展,更多的科研机构和公司开始研究有关大数据的算法。并且,使得聚类算法应用在许多方面。本文主要将聚类算法主要应用在柳树生长上。转录组广义上是指在一个生物体中,所有转录产物的集合,包含信使RNA、核糖体RNA、转运RNA、非编码RNA;狭义上是指所有mRNA的集合。转录组具有时间特异性、组织特异性、空间特异性等特点[2]。我们通常所谈及的转录组测序只能测到mRNA,但是全转录组测序通过构建两个测序文库是可以测到上面提及的4种RNA。基于二代测序技术是目前最常见的转录组测序,可以快速获取某个物种指定器官或组织在某状态下几乎所有的转录本。该方法需要根据实验的目的对RNA样本进行处理,将mRNA,miRNA,IncRNA其中的部分或全部都转录成cDNA文库,再通过高通量测序平台进行测序[3]

本文的选题旨在能更好的理解CURE层次算法对数据的处理,从中获得益处,增长自己知识,提高自己的生活和工作水平。

  1. 国内外的研究概况

近年来,国内外对数据挖掘方面有非常多的研究。互联网上的海量数据信息已经成为每个人必须面临的问题,所以要在网上准确、迅捷地找出自己所需的信息就必须借助数据挖掘。数据挖掘技术广泛应用在事业和企业单位,如:金融行业、政府部门、软件分析等,受到了普遍的关注。知识发现在1989年8月举办的第11届国际联合人工智能学术会议上首次出现,在那以后,数据挖掘和知识发现列为一些相关会议的议题部分[4]

在数据挖掘中,聚类是一种重要方法,并且如今很多常用的聚类算法具有成熟的理论、易实现,特别是层次聚类。但是由于海量数据的复杂性和人们对于目标结果具有过高的期望,所以聚类算法会存在一些问题:

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

免费ai写开题、写任务书: 免费Ai开题 | 免费Ai任务书 | 降AI率 | 降重复率 | 论文一键排版