基于小型局部特征模型的图像分类研究文献综述-文献综述网

文献综述（或调研报告）：

神经网络是实现机器学习的重要方式，图像分类又是机器学习的经典任务。学界在这一领域提出了深度神经网络（DNN）^[1]、卷积神经网络（CNN）^[2]等基本网络，又在此基础上不断提升，提出了AlexNet^[3]、GoogleNet^[4]、VGG^[5]等网络架构应用于图像分类。卷积神经网络（CNN）主要是模拟人的视觉神经系统提出的，它通过学习卷积核权重汇集局部特征，然后进行空间上的池化就能提取出图像的深层语义特征。每一个卷积层都在广泛的特征空间内汇集低层次的信息，在此基础上生成更高级的信息。

网络的深度对模型的性能至关重要，当增加网络层数后，网络可以进行更加复杂的特征模式的提取，所以当模型更深时理论上可以取得更好的结果。然而网络的深度提升不能通过层与层的简单堆叠来实现，由于臭名昭著的梯度消失问题，随着网络的层数更深，其性能趋于饱和，甚至开始迅速下降。有研究者应用了19层的深度卷积神经网络用于大规模图像分类，它使用了极小的3*3卷积滤波器来增加网络的深度^[5]。可以证实VGG-16/19可以很好地推广到大多数图像分类任务，这一研究证明了视觉表示中深度的重要性。上述网络在ImageNet数据集上得到了较高的准确率。

为了解决梯度消失问题与深度CNN模型难训练的问题，同时为了进一步构建深层网络，有学者提出了深度残差网络（ResNet）^[6]， ResNet的核心思想是引入一个所谓的「恒等快捷连接」，直接跳过一个或多个层。ResNet不仅是靠网络深度取胜，还靠架构上的技巧——残差学习。ResNet网络参考了VGG-19网络，在其基础上进行了修改，并通过短路机制加入了残差单元，可以达到152层的深度。

康奈尔大学的研究者提出了另一种新架构密集卷积网络（DenseNet）^[7]，进一步利用快捷连接，将所有层直接连接在一起。在这种新型架构中，每层的输入由所有之前层的特征映射组成，其输出将传输给每个后续层。这些特征映射通过深度级联聚合。DenseNets具有如下优势：减轻了梯度消失问题，加强了特征传播，鼓励了特征重用，明显减少了参数数量。DenseNets可以自然地扩展到几百层，并且没有优化困难。

深度学习的研究者们都相信目前的深度卷积网络能够聚集全局信息，最终产生有用的高级信息，但是有学者的研究表明，限制网络只能从图像的局部获取信息后，由此产生的BagNets^[8]在ImageNet数据集上的准确率不亚于传统的高性能神经网络。这表明深度神经网络（DNN）可能遵循着极为简单的分类策略——不考虑全局空间信息，不考虑空间顺序，基于小型局部特征，仅检查本地统计规律。此外，BagNets还在可解释性上有所突破，改进了困扰DNN已久的不透明决策问题。

尽管DNN在一些视觉任务上性能优于人类，它不透明的决策过程却限制了一些应用，尤其是在高风险情况下。之前的BagNets测试主要针对自然图像，它们有丰富的纹理和色彩信息。荷兰的学者利用BagNets对手绘草图的数据集进行分类，这样的数据集色彩有限且没有纹理信息，最终量化结果。实验证明BagNets能够很好地定位有较明显形状和边缘的对象部分，表现良好，超过了VGG网络，仅仅3%的水平落后于DenseNet和ResNet^[9]。

人们通常认为CNN通过学习物体的形状来识别对象，但有研究表明物体的纹理信息也很重要。研究者用ImageNet预训练ResNet，网络成功分类了一幅印度象的纹理类图像和一只猫的普通图像，但当二者结合为一幅具有印度象纹理的猫图像时，网络错误地将它识别为印度象。VGG-16,GooleNet,AlexNet,ResNet-50这些经典的CNN网络均在一定程度上表现出倾向于纹理而非形状，这与人类的识别过程形成了对比^[10]。

在网络参数方面，有学者系统地评估了imagenet深度卷积网络中架构上不同选择的影响^[11]：非线性（ReLu、ELU、maxout、批处理规范化的兼容性），池化变量（随机，最大，平均，混合），网络宽度，分类器设计（卷积，全连接，SPP），图像预处理hellip;hellip;以及一些学习参数：学习率、批尺寸。这些参数的评估结果有利于网络构架的进一步优化调整。

本课题拟使用ImageNet与Pascal VOC两类图像数据集：

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

基于小型局部特征模型的图像分类研究文献综述

您可能感兴趣的文章

登录

注册

找回密码

您可能感兴趣的文章