低数据量的医药深度学习研究文献综述

 2022-12-03 02:12
  1. 课题研究背景

随着人类进入大数据时代,深度学习技术的优势也越发明显,它能自动从大数据量中学习并获取优秀的特征表达,提升模型各方面性能。深度学习已在信号处理、计算机视觉和自然语言处理等诸多领域广泛应用。医药领域的人工智能起步较晚,临床上疾病筛查、诊断、治疗等依赖于医生的水平和经验,主观因素影响大。而传统药物研发的起点是利用分子生物学结合生物信息学相关数据, 分析确定疾病治疗的有效靶点, 再围绕靶点逐步寻找活性药物。其中,确定疾病靶点以及靶点相关基因和蛋白的过程耗时耗力, 严重影响新药研发进程。

然而在现实的医药领域中,往往无法收集到大量样本或者大量标注样本。况且在医学临床判断、新药研究等细分领域中,数据收集更是困难,难以支撑大数据量的深度学习训练。而传统的监督和半监督学习方法,需要大量样本进行训练,样本量过少会产生过拟合的问题,从而导致模型预测准确率下降。在此特殊背景下,小样本的深度学习研究就尤为有意义。

目前,小样本的深度学习在医药领域的应用是研究热点。美国芝加哥大学Huynh等先从小样本乳腺癌图像数据库中找到每个图像中病灶的感兴趣区域 (region of interest, ROI) , 并进行截图标记 (良性或恶性) 作为目标集, 再通过非医学任务预训练的卷积神经网络, 从该小样本医学图像集中提取肿瘤信息, 再借助支持向量机分类器进行特征分类, 之后利用接收器操作特征分析和交叉验证进行模型评估, 最终很好地完成了对乳腺癌的准确诊,并发现潜在的药物作用靶点。

在医学影像方面,哈尔滨工程大学计算机科学与技术学院的董阳等,针对脑肿瘤磁共振成像(MRI)多模态、训练数据少、类别不平衡以及各个私有数据库差异大等导致分割困难的问题,引入小样本分割方法,提出了基于U-net的原型网络模型(PU-net)用以对脑肿瘤MR图像进行分割。所提方法在公开数据集BraTS2018上进行实验,平均Dice系数为0.654,阳性预测率为0.662,灵敏度为0.687,豪斯多夫距离为3.858,平均交并比达到61.4%,与最新的小样本分割方法原型校准网络(PANet)和基于注意力的多上下文引导网络(A-MCG)相比,各项指标均有所提升。

  1. 课题研究目的与意义

在医药领域可使用样本量小的背景下,低数据量的深度学习在医药领域的应用研究越发火热。从没见过大熊猫的幼儿园小朋友,在学习了几张大熊猫的图片后,在动物园见到大熊猫就能与图片联系,识别出大熊猫。从小样本中学习和概括的能力是人类智慧的标志。当计算机也拥有“举一反三”的泛化学习的能力时,将极大降低药物研发成本,提高精准医学和个体化医疗的发展水平。

只有少量有标签的训练集S(也称为支持集)的少样本学习可以概括位N-way、k-shot问题。S包括N种样本,K表示每个类中的样本数。以N-way、one-shot为例,在支持集S中有N个样本xi,每个样本都有不同的标签yi,如下式所示。

少样本学习的任务是对给定的测试样本x*进行分类,即正确地预测x*哪个标签(y1)。将上述one-shot学习模型S中每个类型y1样本数量替换为K个,则变为K-shot学习。在少样本学习中,K通常小于20。

当前小样本深度学习主要有三大类方法——基于模型微调、基于数据增强和基于数据增强。由于基于模型微调的方法,在源数据集和目标数据集分布大致相同时有效,否则会导致过拟合的问题。因此不做过多讨论与探究。本课题旨在研究医药数据的小样本学习算法,进行算法创新,并设计深度模型,编制程序,在医药数据集上进行测试分析。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。