基于移动平台的目标检测技术应用文献综述

 2022-03-12 15:29:57

文献综述

目标检测是计算机视觉领域的基本问题之一,其目的是找出输入图像中感兴趣的目标物体,包含物体分类和物体定位两个子任务,即自动识别出目标物体的类别,并返回目标物体在图片中的位置坐标[1]。在实际生活中,目标检测是许多计算机视觉应用的基本步骤,它在人脸识别、视频分析、车辆检测、工业检测等方面中发挥着重要作用。通常情况下,目标检测的准确率不可避免地会受到图片背景复杂,光照,遮挡等多重因素影响,在近年受到广泛关注[2]。

  1. 背景介绍

1959年,Hubel和Wiesel发现人类视觉系统中的可视皮层是采用分层机制处理信息的。受此启发,卷积神经网络(Convolutional Neural Network,简称CNN)的概念由此诞生[2]。

1994年,LeCun等人设计出一种5层的卷积神经网络(LeNet-5)并成功用于手写数字的识别,并在美国的银行中投入了使用[3]。LeNet的实现确立了CNN的结构,现在神经网络中的许多内容在LeNet的网络结构中都能看到,例如卷积层,Pooling层,ReLU层。虽然LeNet早在20世纪90年代就已经提出了,但由于当时缺乏大规模的训练数据,计算机硬件的性能也较低,因此LeNet神经网络在处理复杂问题时效果并不理想[2]。

传统的目标检测算法主要由区域选择、特征向量提取和区域分类三个阶段构成,它的局限性主要在于十分依赖人工提取特征,由于当时缺乏有效的图像表示,人们只能设计出复杂的特征表示及各种加速技术对有限的计算资源物尽其用[1]。

  1. 基于CNN的目标检测

早期的深度学习具有一定的局限性,缺乏大规模的标注训练数据,容易导致过拟合,直到2009年,大规模标注图像数据集ImageNet诞生,才使大规模训练数据训练模型成为可能。而后自2012年AlexNet 获得 ILSVRC 2012 挑战赛冠军后,VGGNet,GoogleNet和ResNet等模型陆续被提出,用 CNN 进行目标检测逐步成为主流 [4][5]。当前的CNN目标检测算法模型主要分为以R-CNN系列为代表的二阶段(two-stage)算法模型和以YOLO、SSD算法为代表的一阶段(one-stage)算法模型 [6]。

2.1二阶段目标检测算法

(1)R-CNN(Region CNN)

2014年,R. Girshick提出了R-CNN检测器,它是深度学习在目标检测领域的里程碑。它背后的设计思想是:将输入图像用选择性搜索算法分割成多个模块,再基于颜色、纹理等相似度对这些模块进行合并,并将每个候选区域传递给卷积神经网络,利用卷积神经网络对其进行特征提取,最后采用SVM分类器对获得特征进行分类,最后精细修正得到候选框的位置。该算法利用了卷积神经网络提取特征,从而相对于传统方法精度有较大的提高,但它的缺点也显而易见:在每个候选区域上进行特征提取会导致大量冗余的计算,导致检测速度极慢。同时,由于需要调整图片的放缩来满足全连接层的输入要求,破坏了目标物的长宽比,也会影响到检测结果[7]。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。