基于马氏度量的聚类算法设计文献综述

 2022-04-05 09:04

  1. 前言

由于信息技术的进步,数据收集变得越来越容易。 聚类是探索许多领域中使用的数据结构的重要技术,例如客户细分,图像识别,社会科学等。通过聚类去除图像中的无关信息,提取目标图像的中的特征从而进行分析识别在图像分割领域具有重要作用。聚类算法中,K-means算法和模糊C均值算法(FCM)以其原理简单,快速高效,计算量较小在图像分割领域应用十分广泛,但是则两种算法在实际应用中也有其固有的缺点,诸如容易受到初始聚类中心的影响,容易陷入局部最优解等。本文主要介绍国内外研究人员通过各种改进方法应用这两种算法以实现更好的聚类效果

  1. K-means算法应用及改进
    1. K-means算法原理

作为一类无监督学习算法,K-means算法在衡量数据对象间相似度时常常用欧氏距离,数据对象和相似度之间的距离成反比。初始时刻,算法需要指定聚类数目K以及相对应的K的聚类中心。通过计算每个数据对象和聚类中心之间的相似度来迭代更新聚类中心的距离,每次更新都会降低簇的误差平方和。当误差平方和小于某个数值时或目标函数收敛时,聚类算法结束并得到最终结果。

在基于灰度的图像分割方法已经逐渐成熟,但是将基于灰度的图像分割方法应用到彩色图像中,并不能得到理想的分割效果。霍凤财[1]等将K-means算法加以改进应用到彩色图像分割中。考虑到RGB颜色空间是线性空间,颜色分量之间具有线性相关性,不同颜色分量之间相互影响,而在图像处理时通常会将各个颜色分量分别处理,从而将颜色分量之间的颜色相关性忽略了。因此该方法首先将图像的RGB色彩空间中具有高度线性相关性的3个颜色分量经过非线性变换到Lab颜色空间。然后再以马氏距离取代欧氏距离作为度量颜色差异的标准,因此该方法不受量纲的影响,消除了欧氏距离把样本各个属性差异等同看待的缺点,经过改进后的K-means算法相比经典K-means算法在彩色图像分割时呈现出更低的误差概率。

同样的,祁力均[2]等人在解决果树上下冠层体积比测算准确度时也将K-means算法和马氏距离结合改进传统算法大大提高了测算准确度。为解决传统果树上下层体积比测算对于测量果树种植紧密,行列间空隙较少时中成本高,耗时长,且要多点位测量的问题,研究人员为了排除亮度对于分割图像时产生的影响,将采集到的彩色图像的RGB色彩空间转换为Lab色彩空间。再通过计算与人工分割的标准果树图像和实际采集的果树冠层图像中的各个像素点之间的马氏距离得到矩阵M作为相似度的判别标准。经过上面两步处理后,将M矩阵和Lab色彩空间中的a,b矩阵归一化,然后将这三类数据合成新的三维矩阵进行K-means聚类。该方法排除了亮度这一干扰因素的影响,又通过引入马氏距离作为新的相似度判定标准使得图像分割更加准确。

在K-means算法和马氏距离结合来提高聚类算法实际应用效果的例子中,王帅[3]等人提出了一种改进的K-means背景去除方法,这种方法采用马氏距离来作为距离度量算子,该方法避免了传统聚类算法对聚类中心和噪点敏感以及容易陷入局部最优解的问题,有效优化了聚类个数和初始聚类中心的选择问题。在图像分割中,利用适当的颜色空间往往是第一步要考虑的问题,该方法同样将RGB颜色空间变换为Lab空间,将图像的色彩和亮度信息分开存储,再利用马氏距离去除样本间的相关性影响。为了克服传统K-means算法的固有缺点,该算法首先利用中值滤波对图形进行预处理,尽可能去除孤立点和噪声点对后续处理产生的不利影响。在初始聚类中心的选择上,该算法并没有像传统K-means算法一样随机产生聚类中心,而是将样本数据集合中密度最大的数据点作为第一个初始聚类中心点,同样的寻找距离第一个中心点最近的最大的那个点作为第二个初始聚类中心点,最后将离的最近的数据点全部划分到同一个簇。经过这一系列改进,该算法表现出较传统K-means算法和FCM算法更加有效的分割效果。

  1. Fuzzy c-means算法
    1. Fuzzy c-means算法原理

作为一种基于划分的聚类算法,FCM算法(模糊C均值)核心思想就是使得划分到同一类簇的对象之间相似度最大,同时不同类簇之间的相似度最小。模糊C均值算法是普通C均值算法的改进,通过将普通C均值算法对于数据的硬性划分改进为柔性的模糊划分,从而引入了隶属度的概念。隶属度函数即表示一个对象隶属于一个集合程度的函数,其取值范围为[0,1],当隶属度为1时表示该对象完全属于一个集合,反之当隶属度为0时表示该对象完全不属于一个集合,规定每一个对象的隶属度值总和为1。通过模糊划分更加客观的反映了真实世界,从而使得FCM算法成为了聚类算法中的一个主流。但是该算法也有不足之处,若初始给定的C值不合适,会对聚类效果产生不利影响,同时,样本总数过多特征点繁杂的情况下,聚类效果也会受到较大影响,而且由于图像中各个像素点之间的领域关系没有被考虑到,因此该算法易受噪声点的影响。

    1. Fuzzy c-means 算法的应用以及改进

为了测量样本与聚类中心之间的距离,经典FCM算法采用欧氏距离作为两者之间的测度,但欧氏距离在解决高维问题时并未考虑到样本数据集之间的协方差信息,从而使得经典FCM算法对噪声点和集群发散情况非常敏感。吴成茂等人提出了一种彩色图像鲁棒聚类分割快速方法,其为了克服上述缺点通过引入马氏距离,在目标函数中添加了一个协方差矩阵的正则因子从而能够有效利用集群的协方差信息,能更加精确的分割图像。除此之外,吴成茂[4]等人考虑到不同的灰度值会反复出现在图像中,因此利用彩色图像中的RGB三个分量构造了三维的直方图,再统计颜色三元组的出现频率和次数,对灰度级组进行聚类,经过上述步骤,大大减少了重复计算彩色图像中不同位置的颜色三元组的时间消耗。

同样为了解决模糊聚类算法的噪声问题,王燕等人将核函数和马氏距离相结合有效改进了算法的图像分割效果。核函数将原来空间的像素信息映射到高维空间,原本低维度非线性信息通过转换到高维空间变成了线性可分。在常用的核函数中,王燕[5]等人采用了高斯核函数作为算法的核函数。通过将核函数和马氏距离结合,使得模糊聚类的目标函数公式得到了改进,马氏距离的应用能够有效描述两个样本点之间的全局性关系,改善了算法的空间信息和领域信息的利用率。除此之外,为了改进聚类数目和初始聚类中心的选择对算法性能的影响,该算法将图像灰度值信息进行了映射,通过灰度值变化折线图中暗含的变化明显的地方通常是目标或者背景的所在区域的信息,所以计算其中的局部极值可以找到最佳聚类中心,而局部极值的个数即可作为聚类数目。

由于高分遥感图像的具有目标区域像素光谱测度分布呈现分散,不规则以及非对称等新特性,赵泉华[6]等人为了解决传统FCM算法对于上述新特性带来的错误划分现象,提出了一种新型区域化模糊聚类遥感图像分割算法,该算法,通过Voronoi划分技术将图像划分为多个不规则的多边形,并假设多边形类的像素对于同一个聚类有相同的隶属度。然后以划分后的多边形为基本单元再结合马尔可夫随机场模型建模先验概率。在非相似性测度的定义上引入马氏距离,用协方差建模目标和各个聚类之间的差异性,并通过马氏距离规则化项来控制聚类尺度,最后,不断迭代调整多边形中心的位置来拟合各个聚类。该算法有效克服了噪声和异常值对分割结果的影响,有效提高了算法分割精度。但是由于多次迭代调整多边形位置让该算法运行速度比较缓慢。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。