基于Spark的大规模自动化超参调优系统研究与实现文献综述

 2022-10-11 11:13:31

  1. 文献综述(或调研报告):
  2. 自动化机器学习系统

AutoML[1]系统主要关注的领域是自动化模型选择、自动化神经结构搜索、自动化特征工程。现有的AutoML系统比较知名的如Auto-sklearn, Googlersquo;s Cloud, FeatureLab,它们分别在以上三个领域都有着举足轻重的分量。

上文提到的Auto-sklearn[2]基于scikit-learn实现,具有简单的数据预处理功能以及强大的模型选择功能。它通过meta learning技术在短时间内为SMAC(Sequential Model-based Algorithm Configuration)算法找到了较好的初始值,从而大大加快了SMAC算法的收敛速度,通过自动集成技术使得最终的性能比单个模型更准确、鲁棒性更强。它的缺点是目前还不支持回归问题和半监督问题,并且它主要关注的是中小型数据集,在大数据机上计算效率较低。

面向大数据集的自动化机器学习研究相关工作较少,其中比较出名的是TransmogrifAI,它是salesforces的基于Spark MLlib的开源自动化机器学习库。它的优点是自动化特征工程,,其拥有丰富的数据类型,并且为自己的每种数据类型提供了多种编码技术,能够做到自动数据类型识别与特征验证,从而删去无用的特征。它的缺点是它的模型选择的超参调优部分使用的是暴力的网格搜索,效率比较低。

Auto-sklearn的优势是自动化模型选择,但是其不能高效地处理大数据集; TransmogrifAI的优势是自动化特征工程,但是其超参调优方法过于简单,效率比较低,因此需要研究能处理大数据集的性能优良的超参调优技术,这也就是本文的研究课题。

在AutoML领域的优化问题与正常的优化问题相比,存在着三大难题:(1)目标函数形式未知。(2)搜索空间巨大。(3)函数计算代价巨大。目前的主流方案有基础搜索(如网格搜索、随机搜索)、基于采样的方法、基于梯度的方法。

网格和随机搜索则是给定参数空间从而进行简单搜索,网格和随机搜索完全不受过去评估的影响,因此,通常会花费大量时间来评估'坏'超参数。

与基础搜索相比,基于采样的方法(零阶优化)[3]跟踪过去的评估结果,他们使用这些结果形成概率模型,建立目标函数的替代概率模型,找到代理模型上表现较好的超参再将其用于真正的目标函数。零阶优化又有多种,在AutoML领域使用广泛的是基于模型的零阶优化,零阶优化分为贝叶斯优化和基于分类的优化(如RACOS)等,贝叶斯优化的缺点是需要做模型假设,基于分类的优化是为了克服这个缺点提出来的,它在高纬度时表现最佳,它们都有数学上的理论保障。

自动化机器学习未来的方向主要是效率和泛化能力,大部分的研究都是针对自动化机器学习的特定领域进行研究如特征工程、超参调优等,对于整个自动化机器学习流程进行优化的工作较少,本文所研究的也是其中的超参调优部分。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。