面向DNA绑定蛋白识别的特征选择及分类算法研究文献综述

 2022-11-09 11:11

文献综述

研究背景:

DNA结合蛋白在各种分子功能中起着关键的作用,如DNA损伤的检测,DNA复制,单链DNA的组合和分离以及转录调控。众所周知,大约6-7%的DNA结合蛋白用于编码人类基因组中的基因。因此寻找更有效的方法和更好地了解DNA结合蛋白具有重要的意义。由于DNA结合蛋白的重要性,亟需鉴定蛋白质类别成员的方法。早期研究中,DNA结合蛋白是通过滤膜结合分析,遗传分析,微阵列上的染色质免疫沉淀和X-射线晶体学等试验方法确定的,但是,实验方法在时间和资源方面是昂贵的。随着DNA测序技术的发展和应用,新蛋白质序列的数量已经爆炸。为了应对蛋白质序列数据的爆炸性增长,研究人员开发了基于机器学习的可以快速预测DNA结合蛋白的方法。

国内外研究现状:

近年来,基于机器学习(ML)算法的计算方法因其令人振奋的性能而备受关注。给定蛋白质序列作为输入,基于ML的方法自动预测蛋白质序列是否与DNA结合。基于ML的方法的预测性能主要取决于它们的特征表示和分类算法。特征表示以数字方式表示查询蛋白质序列的最佳表示形式。在基于ML的预测器中使用的特征表示方法大致分为两组,(1)基于结构的预测因子(即[1,4,5,13,14,34,40-42,50,51])和(2)基于序列的预测因子(即[7,11 ,12,19,25,30-33,35,37,39,43,46-49,52])。

基于结构的预测因子在很大程度上依赖于蛋白质序列的结构信息(即3D结构)。 Ahmad和Sarai 的方法从蛋白质的净电荷,电偶极矩和四极矩张量三个结构角度表示具有62个结构特征的蛋白质。同样,Nimrod 等人计算蛋白质的平均表面静电势,偶极矩和基于簇的氨基酸保守模式的各种结构特征。而其他预测者是基于结构和顺序特征。一个例子是Szilaacute;gyi和Skolnick 的逻辑回归(LR)预测,它基于某些氨基酸的相对比例,某些其他氨基酸的空间分布不对称以及整个分子的偶极矩。然而,基于结构的预测因子并不适用于没有已知结构信息的蛋白质序列。这限制了后基因组时代中基于结构的预测因子的使用,其中包含下一代测序技术产生的大量未表征的基因组和蛋白质组序列。

为了成功预测这些序列,我们需要基于序列的预测变量,这些预测变量没有结构信息。最近开发了来自一级序列(氨基酸序列)的直接特征表示。例如,Cai和Lin 提出了一个40维(40D)的特征向量,代表了来自蛋白质假氨基酸组成(PseAAC)的DNA结合蛋白。LIU等人通过使用缩小字母表方法减少PseAAC矢量的维数,缩短Cai等人算法的计算时间。为了进一步提高PseAAC载体的DNA结合蛋白预测效率,他们还将PseAAC与物理化学距离转化相结合。除了PseAAC外,DNA结合蛋白还有其他常用的基于序列的特征,如物理化学性质,氨基酸组成,自交叉协方差变换,二肽组成和其他混合特征。Kumar等人创新性的将进化信息纳入基于序列的方法。进化信息嵌入到由PSI-BLAST自动生成的序列配置文件中。包含PSI-BLAST概况的进化信息的特征被称为进化特征。Kumar等人将进化和序列特征结合成一个称为DNAbinder的SVM预测器。进化特征显着提高了算法的预测精度,表明进化信息对区分DNA结合蛋白和非DNA结合蛋白是非常重要的。 Ho等人报道了类似的结果。LIU等人提出了一种新的DNA结合蛋白预测方法,称为iDNAPro-PseAAC,它将PSI-BLAST 检索到的进化信息的基于轮廓的表示整合到经典的PseAAC中。有趣的是,他们发现训练模型中的负样本提高了预测性能。Xu等人也提出了一个基于SVM的预测器,通过top-n-gram方法将进化信息合并到普通的PseAAC载体中。最近,Song等人报道,数据集中非DNA结合蛋白的数量远远超过DNA结合蛋白的数量。他们通过一个新颖的集成分类器(imDC)解决了数据不平衡问题。此外,他们将他们的imDC分类器编程在基于188D序列物理化学特征的改进的DNA结合蛋白预测因子中。

课题研究的目的及意义

综上所述,开发将每个蛋白质序列有效编码为特征向量的特征表示算法是具有挑战性的任务。 大多数目前的多角度努力(基于序列和结构)只考虑全局特征,这可能不足以区分DNA结合蛋白和非DNA结合蛋白。 DNA结合蛋白和非DNA结合蛋白的主要区别是前者存在功能结合位点,后者在蛋白质空间的相应局部区域缺乏。 此外,这些区域的蛋白质功能可能在进化上是保守的。 因此,一个完美的分类必须捕获这个局部的功能保存信息,并用一个特征向量进行量化。

课题拟基于现有的预测器,通过提取局部特征,通过RF分类器预测DNA结合蛋白,开发出基于局部-DPP机器学习的方法,用以区分DNA结合蛋白,并将预测结果与目前最先进的预测器进行比较,通过四个常用的评估指标, 灵敏度(SE),特异性(SP),准确度(ACC)和马修相关系数(MCC)进行评估,期望生成优于现有算法的预测器算法。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。