基于机器学习的药物血浆蛋白结合度的预测文献综述-文献综述网

{title}{title}

开题报告内容：（包括课题意义、国内外进展情况、国内外已有研究方法、研究思路）

研究背景及意义

血浆蛋白结合（Plasma Protein Binding, PPB）是化合物与血浆蛋白的可逆结合。一般来说，血液中的药物一部分会与血浆蛋白结合，另一部分则处于游离状态。到达血液中的药物，会与血浆蛋白的固定位点结合，最终达到动态平衡；而只有未与蛋白结合的游离药物，才能真正到达受体部位发挥作用，才能被机体生物转化、排泄。基于上述机理，研究血浆蛋白结合率的意义主要如下：

（一）减少毒副作用的发生

正常情况下，人体内血浆蛋白结合位点远远超过血液中药物的量，由于动态平衡，游离分数（游离浓度与总浓度之比）往往恒定；但是对于某些特殊药物或者在特殊病理条件下，血液中药物浓度可能会超过蛋白的结合能力从而会引起毒副作用。因此，预测药物的血浆蛋白结合率，可以帮助调整用药剂量，从而减少药物在人体内引起毒副作用的发生^[¹^]。

（二）辅助新型药物设计

药代动力学主要通过数学模型研究体内药量的变化规律，进而计算出一系列如药物吸收速度、生物利用度、血浆蛋白结合率等药代动力学参数，通过对药动参数进行分析可以从新药候选化合物中淘汰药动参数不佳的药物。目前，药物定量构动关系（Quantitative Structure Pharmacokinetic Relationship, QSPKR）与药物定量构效关系（Quantitative Structure-Activity Relationship, QSAR）是药物设计的重要手段，而药物血浆蛋白结合率与药物分子结构之间的关系密不可分，但现在难以清楚地阐释。因此，借助人工智能方法，建立基于数据的血浆蛋白结合率与药物分子结构的定量构效关系，有可能推进创新药物的研发进程^[²^]。血浆蛋白结合率的优化在血液学、肿瘤学、免疫学、心血管学等^[³^]领域的新药发现进程中起到了很大作用。

研究技术及进展

Votano Joseph R等^[⁴^]（2006）使用多元线性回归（MLR）、人工神经网络（ANN）、k邻近（kNN）和支持向量机（SVM）四种模型技术，在以808个化合物作为训练集、200个化合物作为外部测试集的基础上，对模型进行有效训练。在前期数据的处理上，Votano Joseph R等人采用了聚类技术，将化合物分为具有类似结构的小组，并将化合物的实验值与同一聚类小组中其他化合物的实验值相比较，如果误差在30%及以上则舍弃，否则取平均值。Votano Joseph R等人使用ChemSilico软件计算得到了180个分子描述符，并借助MDL QSAR软件，利用层次聚类的方法划分了训练集和测试集数据。四个模型的训练和验证结果如表格1所示：

表格 1 Vontano Joseph R等人的四种模型训练结果

模型	数据量	决定系数（Rsup2;）	平均绝对误差（MAE）	均方根误差（RMSE）	描述符数量
训练集
ANN	808	0.90	7.6	10.8	33
kNN	808	0.62	15.6	20.9	29
MLR	808	0.61	16.2	21.0	30
SVM	808	0.62	16.2	21.7	61
测试集
ANN	200	0.70	14.1	18.6	33
kNN	200	0.59	16.7	21.8	29
MLR	200	0.59	17.2	21.8	30
SVM	200	0.59	18.3	23.3	61

司宏宗等^[²^]（2006）分别利用启发式方法（HM）和支持向量机（SVM）模型建立了70种药物与血浆蛋白结合率的QSAR模型。HM方法主要通过计算分子描述符以得到最佳线性回归方程；SVM模型则是将参数映射到高维特征空间中以构建最优超平面，并采用Gaussian核函数以避免高维空间的复杂运算，提高运算效率。两种模型交互验证的相关系数平方分别为0.80和0.82，均方误差分别为12.24和11.40。数据处理方面，随机选取56种药物作为训练集，其余14种药物作为测试集，利用CODESSA软件计算每个分子的描述符，并对其进行简单预处理。

Chang-Ying Ma等^[⁵^]（2008）建立了基于遗传算法（GA）和共轭梯度算法（CA）的SVM模型。GA应用于SVM建模时的特征选择，CA应用于SVM模型参数优化。最终结果显示，对于血浆蛋白结合率的预测，总共使用了 692 种化合物来培训和检验预测模型。通过5倍交叉验证的预测准确度为86%，独立试验集（161个化合物）的预测准确率为 81%，该准确率要比文献中引用的其他最佳模型高出18%。这些结果表明，参数优化和特征选择对于提高SVM模型的预测准确率是非常重要的。

Haiyan Li等^[⁶^]（2011）将65个结构各异的抗生素类药物分为测试集（49个）和训练集（16个），通过多元线性回归方法建立预测模型。Haiyan Li等使用TSAR 3.3软件计算药物分子内结构参数，这些参数代表药物本身性质；运用Autodock 3.05软件计算药物分子间交互关系描述符，这些参数代表血浆蛋白与药物分子之间的交互关系。经过一系列筛选后，根据相关系数矩阵，17个相对独立地参数被遴选出来用于建立QSAR模型。值得注意的是，疏水性参数（如logP）并没有运用到模型中，因为有研究表明PPB不依赖于同源序列的整体亲脂性。最终结果显示，整体数据集的决定系数（Rsup2;）和交叉验证相关系数（Qsup2;）分别为0.87,0.77，测试集的Rsup2;和Qsup2;分别为0.86和0.72。结果表明参数的选择对于模型预测能力的提高有非常重要的意义。

Varadharajan, S等^[⁷^]（2015）建立SVM模型和RF模型以预测药物在大脑与血浆之间的分布情况，在模型学习的过程中，每10轮进行内部验证并计算决定系数Rsup2;、交叉验证相关系数Qsup2;和均方根误差RMSE，并求得平均值。通过调整描述符集、机器学习模型等参数，得到6个最终模型，并根据其Rsup2;和RMSE选择最优模型。

Yang, M等^[⁸^]（2015）为了实现有效的特征提取方法，建立了两步特征提取方法，其中，遗传算法（GA）用于提取信息量最大的分子描述符，并减少描述符空间维度；贪心前向搜索算法（GFSA）用于为分类器提供最优描述符集。Yang, M等人运用两步特征提取法对18个不同分类器进行比较，最终选择出三个最好的模型：灵活判别分析、支持向量机、随机森林，以及它们的组合模型，这四种模型分别只需要3,9,7和14个描述符，最终达到训练集（1040个化合物）的准确率范围在83.2%-86.7%，测试集（1039个化合物）的准确率在82.3%-85.5%范围内，以及外部验证集（349个化合物）的准确率在77.4%-79.9%之间。

Zhivkova Zvetanka Dobreva^[⁹^]（2017）针对基础药物血浆中药物游离组分负对数的定量结构——药动学关系（QSPkR）进行了研究。数据集包括220种基本药物，化学结构由176个描述符编码。采用了遗传算法、逐步回归和多元线性回归进行变量选择和模型建立。采用留一法交叉验证（LOO-CV）等方法对模型分别进行内部验证和外部验证，以评估模型的预测能力。最终，作者建立了一种简单有效、可预测的QSPkR模型。通过外部验证集可以预测59%的药物，预测相关系数为0.532，几何平均折叠误差（GMFE）为1.94，MAE为0.17。

Sun, L等^[¹⁰^]（2018）考虑到绝大多数现有的模型因缺乏准确、统一的实验数据，其预测能力并不令人满意，因而采用了967个精确、多样的药物数据及PPB分数（f_b）作为训练集，选取了26个分子描述符，并使用了6种机器学习方法进行了训练。此外，作者还将个体学习器结合起来产生一致性预测并提高了预测准确率。模型采用10折交叉验证法对三组外部验证集验证，模型展现出优秀的预测性能，MAE范围在0.126到0.178之间。

Tajimi, T等^[¹¹^]（2018）在构建环状肽的PPB预测模型时提出，由于环肽数据有限，应用多维非线性模型会涉及到过拟合问题，因此可以通过稀疏建模以提高模型的泛化性能，避免过拟合。作者通过ELS和FBS两种枚举算法建立了预测模型，并与传统非线性模型进行比较，结果表明该预测模型对于环肽及其他小分子化合物的预测精度明显高于传统非线性模型。

Watanabe, R等^[¹²^]（2018）采用SVM、RF、ANN、kNN等八种机器学习技术，建立了基于2738个实验值的最大数据集的预测模型，并提高了对低值范围的预测准确率。其中，分类模型对测试集上血浆未结合类分数（f_u,p）的低值显示了高达0.826的真正类率（TPR），回归模型则通过对数变换缓解了f_u,p的强偏倚分布，从而提高了较低值的准确性。

由此可见，近年来科学家们为了实现预测PPB性能更好的模型，在数据量提升、数据处理、模型优化、验证方法优化等方面作出了显著的贡献。但是，在数据集的选择、模型的选择与优化、验证方法的选择等方面没有一个统一的标准，因此，PPB的预测模型仍然形形色色、参差不齐。

研究思路

1. 数据获得

根据Watanabe, R等^[¹²^]提供的化合物及对应血浆蛋白结合率，从PubChem数据库里搜索对应化合物的2D结构，并下载化合物结构文件，将所有化合物文件经过MOE软件计算后，得到分子描述符。

但是由于数据量超过两千条，手动查找并下载文件的工作量巨大，因此可以为服务器安装Selenium Chrome Driver驱动，编写Java程序自动驱动浏览器自动下载文件。此外，还可以根据网站的特点，使用并发式方法爬取数据。

1. 数据处理

首先去掉都为0或者对于90%以上的化合物都具有的相同的描述符值；其次使用GA算法和GFSA算法精炼并提取信息量最大的分子描述符，建立最小且元素相互独立的描述符集^[⁸^]；此外可以比较由不同的描述符集训练出的模型的预测准确率，进行最优选择。

在数据分组方面，可以采用随机分组法，将数据按一定比例分为训练集和测试集，但是经过描述符集的优化，可以进一步使得训练集的数据多元化，从而提高模型的性能。

1. 模型建立与优化

首先建立XGBoost、RF、CNN、SVM等多种学习器进行初步学习，并建立数据的准确率、决定系数、均方误差等评价标准；其次优化数据集，在数据处理的基础上进一步优化模型，并进行比较各类评价指标；还可以根据不同的学习器，使用共轭梯度算法（CA），以调整模型参数，并同时要注意防止出现过拟合的情况，并制定防止过拟合方案；此外，要建立验证方法，综合运用内部验证和外部验证。在不同学习器训练到一定程度后，可以尝试将不同的学习器组合得到新的模型，产生一致预测，从而进一步提升预测准确率^[¹⁰^]。

1. 模型评价

在模型优化的基础上，与已有文献中的模型作比较，发现自己建立模型的优劣。从“数据获得”、“数据处理”、“模型优化”三个角度对模型进行评价，制定提升方案，对模型作进一步改进。

参考文献

[1] 陈冰, 蔡卫民. 游离药物浓度监测及其应用研究进展 [J]. 中国临床药理学杂志, 2008, 03): 255-9.

[2] 司宏宗, 姚小军, 刘焕香, et al. 基于启发式方法和支持向量机方法预测药物与人血浆蛋白结合率 [J]. 化学学报, 2006, 05): 415-22 361.

[3] TONIKA B, LIANG-SHANG G. Plasma protein binding: from discovery to development [J]. Journal of pharmaceutical sciences, 2013, 102(9):

[4] R V J, MARC P, MARK H L, et al. QSAR modeling of human serum protein binding with several modeling techniques utilizing structure-information representation [J]. Journal of Medicinal Chemistry, 2006, 49(24):

[5] MA C-Y, YANG S-Y, ZHANG H, et al. Prediction models of human plasma protein binding rate and oral bioavailability derived by using GA–CG–SVM method [J]. Journal of Pharmaceutical and Biomedical Analysis, 2008, 47(4):

[6] LI H, CHEN Z, XU X, et al. Predicting human plasma protein binding of drugs using plasma protein interaction QSAR analysis (PPI‐QSAR) [J]. 2011, 32(6):

[7] VARADHARAJAN S, WINIWARTER S, CARLSSON L, et al. Exploring in silico prediction of the unbound brain-to-plasma drug concentration ratio: model validation, renewal, and interpretation [J]. Journal of pharmaceutical sciences, 2015, 104(3): 1197-206.

[8] YANG M, CHEN J, SHI X, et al. Development of in Silico Models for Predicting P-Glycoprotein Inhibitors Based on a Two-Step Approach for Feature Selection and Its Application to Chinese Herbal Medicine Screening [J]. Mol Pharm, 2015, 12(10): 3691-713.

[9] DOBREVA Z Z. Quantitative Structure - Pharmacokinetics Relationships for Plasma Protein Binding of Basic Drugs [J]. Journal of pharmacy amp; pharmaceutical sciences : a publication of the Canadian Society for Pharmaceutical Sciences, Societe canadienne des sciences pharmaceutiques, 2017, 20(1):

[10] SUN L, YANG H, LI J, et al. In Silico Prediction of Compounds Binding to Human Plasma Proteins by QSAR Models [J]. ChemMedChem, 2018, 13(6): 572-81.

[11] TAJIMI T, WAKUI N, YANAGISAWA K, et al. Computational prediction of plasma protein binding of cyclic peptides from small molecule experimental data using sparse modeling techniques [J]. BMC Bioinformatics, 2018, 19(Suppl 19): 527.

[12] WATANABE R, ESAKI T, KAWASHIMA H, et al. Predicting Fraction Unbound in Human Plasma from Chemical Structure: Improved Accuracy in the Low Value Ranges [J]. Mol Pharm, 2018, 15(11): 5302-11.

开题报告内容：（包括课题意义、国内外进展情况、国内外已有研究方法、研究思路）

研究背景及意义

（一）减少毒副作用的发生

（二）辅助新型药物设计

研究技术及进展

表格 1 Vontano Joseph R等人的四种模型训练结果

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

基于机器学习的药物血浆蛋白结合度的预测文献综述

研究背景及意义

研究技术及进展

研究思路

参考文献

研究背景及意义

研究技术及进展

您可能感兴趣的文章

登录

注册

找回密码

研究背景及意义

研究技术及进展

研究思路

参考文献

研究背景及意义

研究技术及进展

您可能感兴趣的文章