基于序列信息的蛋白质折叠类型预测文献综述

 2022-11-24 09:11

蛋白质折叠类型的预测是蛋白质结构和功能预测的关键环节。传统的生物实验方法虽然能准确预测出蛋白质的折叠模式,但是成本高而且耗时比较长,近年来,通过机器学习的测定方法成为该领域的研究热点。

为了解决在蛋白质折叠类型预测中使用一对抗多方法引起的“假阳性”问题,Chris H.Q. Ding和Inna Dubchak[1]在2001年提出了唯一一对抗多方法和全对抗全方法。他们在传统一对抗多方法上增设了第二步:在所有取得阳性预测结果的类别之间设置二路分类器,得分最高的分类代表最终预测结果,从而得到了唯一一对抗多方法,多对抗多方法是在此基础上的深化。

Jianlin Cheng和Pierre Baldi[2]在2006年提出了机器学习和信息检索双阶段方法,首先使用校准方法来推导出给定模板的蛋白质对的成对相似性特征,然后对这些特征使用SVM预测给定模板对的结构相关性,连续的相关性得分被用来对模板进行分级。

如何从氨基酸序列中提取出具有高度区分性的特征是一个存在已久的问题,Jian-Yi Yang和Xin Chen[3]在2011年提出了一种名为TAXFOLD的新型基于分类的蛋白质折叠类型预测方法,它广泛地使用了来自PSI-BLAST的序列进化信息和来自PSIPRED的二级结构信息。他们构造了一个同时抓住全局特性和局部特性的包含137个特征的特征集,实验结果表明这一特征集高度有效于蛋白质折叠类型的预测。

以 SCOP 数据库中的 PH domain - like barrel 折叠类型为研究对象,选择序列相似度小于 25% 的 61 个样本为检验集,通过结构特征分析,确定了该折叠类型的模板及其对应的特征参数,利用模板与待测蛋白的空间结构比对信息,孔令强和李晓琴[4]在2012年提出了一个新的折叠类型打分函数Fscore,建立了基于 Fscore 的蛋白质折叠类型分类方法并用于该折叠类型的分类。在前期蛋白质折叠研究中,他们以蛋白质折叠核心的规则结构片段组成、连接和空间排布为依据建立了蛋白质结构类、折叠类型人工分类数据库LIFCA,并在以上基础上建立了基于HMM模型和功能域组分的识别方法,用于蛋白质折叠类型的识别。这一识别方法的成功证明LIFCA数据库的分类规则抓住了折叠类型分类的关键因素,他们以此为基础,进一步提出了新的折叠分类方法Fscore,用于蛋白质折叠类型的自动分类。

Taeho jo和Jianlin Cheng在2014年[5]提出使用随机森林的RF-fold方法来识别蛋白质折叠类型。RF-fold由数以百计的决策树组成,可以以非常庞大的数据库训练。随机森林是一种元学习分类算法,由一系列独立训练的决策树组成,它继承了决策树方法训练简单,预测快速,可解释性强的优点,同时又保障了不错的准确率,并且可以抵抗噪声。

Taeho jo[6]等在2015年提出了用于预测属于同种结构类型的给定蛋白质对的深度学习网络方法DN-Fold,它的输入使用了蛋白质序列的羽干和蛋白质对中提取的结构特征。

James Lyons[7]等在2015年提出使用称为HHblits的轮廓-轮廓序列校准技术来提取HMM轮廓。不同于以前的方法,使用HMM轮廓来提取进化信息可以显著增强蛋白质折叠类型预测准确度。他们提出了一个称为HMMFold的基于模式识别的新型系统,该系统可以更好地提取基于HMM的进化信息和捕捉远端同源性信息。

Leyi Wei和Quan Zou[8]在2016年提出了一些这个领域亟待解决的问题,第一,被用来评估预测器表现的基准数据集仍有一些限制;第二,大多数现有方法,尤其是那些提供网上预测服务的,只能提供最热门的27种蛋白质折叠类型的预测服务;第三,构造信息丰富的高效预测引擎仍是一个挑战。

研究人员已经发现了很多具有高区分能力的特征,然而如何高效结合这些特征来提升预测能力仍是一个问题。Ke Yan等[9]在2019年提出两个算法:MV-fold和MT-fold。MV-fold是一种基于多视角学习模型的用于折叠类型识别的新型计算预测方法。蛋白质的不同特征被视为蛋白质的不同视角,例如进化信息,二级结构信息和物理化学性质。这些不同视角组成了潜在空间。ε-dragging技术被用来增大不同蛋白质折叠类型之间的边缘空白,增加MV-fold的预测效果。MV-fold是两种基于模板的方法的结合:HHblits和HMMER。MT-fold则结合了基于分类的方法和基于模板的方法的优点,是一种系综方法。另外,他们构造了一个基于SCOPe (version 2.07)的严格基准数据集来评估提出的方法的表现。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

免费ai写开题、写任务书: 免费Ai开题 | 免费Ai任务书 | 降AI率 | 降重复率 | 论文一键排版