基于互近邻的度量学习研究文献综述

 2022-03-14 20:00:32

引言:

距离尺度学习(distance metric learning)是机器学习领域的研究热点之一。在图像检索、基因分类文本聚类等应用中,准确度量样本之间的相似度是分类聚类算法成败与否的关键之一。传统的欧氏距离( Euclidean distance) 将样本的全部特征视为同等重要,已被证明难以胜任于高维空间中的距离度量。因此,自适应的距离尺度学习算法最近几年受到广泛关注[1]

近邻性度量涉及数据挖掘、机器学习、自然语言处理和信息检索等多个领域,是很多学习任务的核心技术。传统的许多分类、聚类、特征选择算法的性能在很大程度上依赖于近邻性度量的选取。常见的欧式距离、汉明距离等都属于相异性度量,因此也被称为近邻性度量;而常见余弦相似度、皮尔森相关系数等都属于相似性度量。近邻性度量和距离在纯数学和应用数学的许多领域己经成为必不可少的工具。文献[1]全面讲述了度量空间以及针对各种应用设计的近邻性度量,被称为距离的百科全书。这些近邻性度量在计算生物学、图像分析、语音识别和信息检索等领域发挥着重要的作用。

一、度量学习(Metric Learning)

1.1简介

度量学习也就是常说的相似度学习。如果需要计算两张图片之间的相似度,如何度量图片之间的相似度使得不同类别的图片相似度小而相同类别的图片相似度大就是度量学习的目标。
例如:如果我们的目标是识别人脸,那么就需要构建一个距离函数去强化合适的特征(如发色,脸型等);而如果我们的目标是识别姿势,那么就需要构建一个捕获姿势相似度的距离函数。为了处理各种各样的特征相似度,我们可以在特定的任务通过选择合适的特征并手动构建距离函数。然而这种方法会需要很大的人工投入,也可能对数据的改变非常不鲁棒。度量学习作为一个理想的替代,可以根据不同的任务来自主学习出针对某个特定任务的度量距离函数。

对于时间序列聚类任务而言,一个有效的距离度量至关重要。为了提高时间序列聚类的性能,考虑借助度量学习方法,从数据中学习一种适用于时序聚类的距离度量。然而,现有的度量学习未注意到时序的特性,且时间序列数据存在成对约束等辅助信息不易获取的问题。提出一种辅助信息自动生成的时间序列距离度量学习(distance metric learning based on side information autogeneration for time series,简称 SIADML)方法。该方法利用动态时间弯曲 (dynamic time warping,简称DTW)距离在捕捉时序特性上的优势,自动生成成对约束信息,使习得的度量尽可能地保持时序之间固有的近邻关系。在一系列时间序列标准数据集上的实验结果表明,采用该方法得到的度量能够有效改善时间序列聚类的性能[8]

1.2方法

机器学习是研究计算机系统如何根据以往经验来改善自身性能的学科,是目前计算机科学中最活跃的学科分支之一。很多机器学习方法的性能都与距离度量密切相关,因此近年来距离度量学习逐渐成为一个热门研究领域。下面就是近年来一些针对距离度量学习提出的方法。
欧几里得度量(Euclidean metric)(也称欧氏距离)是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。欧氏距离能够体现个体数值特征的绝对差异,所以更多的用于需要从维度的数值大小中体现差异的分析,如使用用户行为指标分析用户价值的相似度或差异。
曼哈顿距离(Manhattan Distance)[2]顾名思义,在曼哈顿街区要从一个十字路口开车到另一个十字路口,驾驶距离显然不是两点间的直线距离。这个实际驾驶距离就是“曼哈顿距离”。曼哈顿距离也称为“城市街区距离”(City Block distance)。
马氏距离[3]是基于样本分布的一种距离。物理意义就是在规范化的主成分空间中的欧氏距离。所谓规范化的主成分空间就是利用主成分分析对一些数据进行主成分分解。再对所有主成分分解轴做归一化,形成新的坐标轴。由这些坐标轴张成的空间就是规范化的主成分空间。马氏距离的特点:量纲无关,排除变量之间的相关性的干扰;马氏距离的计算是建立在总体样本的基础上的,如果拿同样的两个样本,放入两个不同的总体中,最后计算得出的两个样本间的马氏距离通常是不相同的,除非这两个总体的协方差矩阵碰巧相同;计算马氏距离过程中,要求总体样本数大于样本的维数,否则得到的总体样本协方差矩阵逆矩阵不存在,这种情况下,用欧式距离计算即可。
海明距离(Hamming Distance)[2]两个等长字符串S1与S2的海明距离为:将其中一个变为另外一个所需要作的最小字符替换次数。海明重量:是字符串相对于同样长度的零字符串的汉明距离,也就是说,它是字符串中非零的元素个数:对于二进制字符串来说,就是1的个数,所以11101的海明重量是4。因此,如果向量空间中的元素a和b之间的海明距离等于它们汉明重量的差a-b。汉明重量分析在包括信息论、编码理论、密码学等领域都有应用。比如在信息编码过程中,为了增强容错性,应使得编码间的最小海明距离尽可能大。但是,如果要比较两个不同长度的字符串,不仅要进行替换,而且要进行插入与删除的运算,在这种场合下,通常使用更加复杂的编辑距离等算法。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。