通过解耦的主体和边缘监督改进语义分割文献综述

 2022-11-22 04:11
  1. 简介

语义分割是计算机视觉中的一项基本任务,旨在将对象类标签分配给图像中的每个像素。这是迈向视觉场景理解的关键一步,它具有许多应用,例如自动驾驶、图像生成和医学诊断。现有的语义分割方法要么通过对全局上下文信息建模来提高目标对象的内部一致性,要么通过多尺度特征融合来对目标对象的边界细节进行优化。虽然全卷积网络()在许多主要的语义分割基准线中表现出色,但它仍然存在局限性:首先,的感受野()随着网络深度的增加而缓慢增长(仅线性增长),这种有限的感受野无法完全模拟图像中像素之间的长距离依赖关系。此外,中的下采样操作也会导致模糊的预测,因为与原始图像相比,精化的细节会在显著降低的分辨率中消失,因此很难对其进行分类。

  1. 相关方法

对图像进行像素级的分类,从而解决了语义级别的图像分割()问题。与经典的在卷积层之后使用全连接层得到固定长度的特征向量进行分类(全联接层+输出)不同,可以接受任意尺寸的输入图像,采用反卷积层对最后一个卷积层的进行上采样, 使它恢复到输入图像相同的尺寸,从而可以对每个像素都产生了一个预测, 同时保留了原始输入图像中的空间信息, 最后在上采样的特征图上进行逐像素分类。

简单来说,与的区别在于把最后的全连接层换成卷积层,输出的是一张已经好的图片。

用于解决小样本的简单问题分割,比如医疗影片的分割。它遵循的基本原理与一样:

1.结构:前半部分为多层卷积池化,不断扩大感受野,用于提取特征。后半部分上采样回复图片尺寸。

2.更丰富的信息融合:如灰色剪头,更多的前后层之间的信息融合。这里是把前面层的输出和后面层(串联)到一起,区别于的元素加和。不同串联到一起后,后面接卷积层,可以让卷积核在上自己做出选择。需要注意的是,在串联之前,需要把前层的到和后层一样的大小。

在结构上看,和其实大同小异,都是编码-解码结果。区别在于,没有直接融合不同尺度的层的信息,为了解决信息丢失的问题,使用了带有坐标()的池化。在中,选择最大像素的同时,记录下该像素在的位置。在反池化的时候,根据记录的坐标,把最大值复原到原来对应的位置,其他的位置补零。后面的卷积可以把0的元素给填上。这样一来,就解决了由于多次池化造成的位置信息丢失问题。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。