蛋白质序列分类方法设计与实现文献综述

 2022-11-24 09:11

在后基因组时代产生的蛋白质序列的爆炸性增长之后,对蛋白质生物学特性的认识并没有相应地增加,而蛋白质生物学特性对于基础研究和药物开发至关重要。由于通过生物实验对蛋白质进行手动分类既费时又费钱,因此人们致力于利用各种机器学习算法和计算工具实现这一过程的自动化,以便在给定序列信息的情况下快速有效地对蛋白质进行分类[13]。根据文献[1][14],基于蛋白质序列预测蛋白质属性的过程通常包括以下步骤:

(1)构建用于测试和训练机器学习预测因子的基准数据集;

(2)基于与所述属性相关的离散数值模型来形成蛋白质表示预测;

(3)提出一种强大的机器学习方法来进行预测;

(4)根据公平的测试协议评估方法的准确性;

(5)建立一个公众可访问的用户友好的web服务器。

蛋白质样品的表征通常采用两种模型:序贯模型离散模型。最广泛使用的序列模型是基于蛋白质的整个氨基酸序列,用其残基序列表示,每一个都属于20种天然氨基酸类型中的一种:

= (,,, . . . , ,) where isin; = [, ,, . . . , ] .

这种方法的长度随蛋白质结构的变化而变化,不适用于大多数机器学习预测,当查询蛋白质与任何已知属性蛋白质没有显著的序列相似性时,这种方法就失效了。更适合机器学习的是蛋白质离散模型,它分为两大类。第一类包括简单氨基酸组成(AAC)和基于AAC离散模型的方法,如Chou的伪氨基酸组成(PseAAC),这可以说是从蛋白质中提取特征最流行的方法之一。第二类是基于核的蛋白质特征提取方法。

文献[2]致力于提高噬菌体病毒粒子蛋白质的可预测性能和预测质量。首先,引入了一种通用的g-gap二肽组成来制备蛋白质样品。其次,提出了一种强大的特征选择技术amp;方差分析(ANOVA)对特征进行优化。最后,利用支持向量机(SVM)对病毒粒子蛋白进行预测。进行刀切交叉验证以客观评估预测的预期准确性。预测结果表明,该方法是可靠的。为深入了解噬菌体病毒粒子蛋白的组成,进行了特征分析。为了方便大多数实验科学家,基于该方法构建了一个用户友好的web服务器。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。