基于深度学习的动态视频目标定位与识别文献综述

 2022-05-30 09:05

文献综述

1.研究背景

实时视频目标识别与定位是图像处理的一种,在深度学习快速发展的带动下得到广泛应用,借助计算机的能力对视频中的目标进行检测、识别并实时获取其位置与类别。现在的神经网络不管是性能还是速度都得到了大幅度优化,但实时目标识别与定位仍然对硬件性能有一定要求。YOLO网络将目标的定位与识别在一个步骤完成,大大地提高了图像处理的速度,是值得深入研究的一个算法。因此,基于深度学习的目标识别与定位具有一定的现实意义。

2.研究现状

传统的目标识别还依赖于滑动窗口或者特征点的匹配,虽然有方案,但硬件性能较低,算法思路较简单,如HOG、DPM等。文献[4]中讲述了基于视觉的目标定位技术分为单目、双目、全视觉三种。单目视觉的定位方法只有单个摄像头,不能够获得足够的信息量,导致定位精度不足。多幅图像的定位方法通过改变摄像机位置获取两幅或者两幅以上的图像,再提取特征点计算得到物体的详细信息。鉴于传统的摄像机视野范围存在局限,不能同时获取周围所有目标的位置,借助全方位的图像将图像分割,再进行目标检测,结合两者结果获得物体的位置。

文献[1]中基于改进型Camshift的动态目标识别跟踪算法对目标工件进行识别跟踪,其中目标识别部分是借助于RGB三通道与形状特征识别算法,经过识别后使用单目视觉空间测距算法进行定位。但却仅限于文本指定的工件,缺乏日常场景的应用。文献[6] 提出了一种基于时间和工件位置的图像去重复算法,无需传送带编码器,降低硬件成本,无需传送带编码器,降低硬件成本,将大量工作移植到软件上。

2017年贾静平在《基于深度学习的视觉跟踪算法研究综述》将传统视觉跟踪致分为生成式和判别式。生成式例如文献[7]中的均值漂移、粒子滤波,或者稀疏编码、在线密度估计等等,这类方法过于关注目标本身而忽视了背景信息,且易产生漂移。判别式把目标跟踪转化为一个二分类问题,常用的算法有HOG、SIFT、SVM等,这些依靠特征的算法不能提取到高级的语义信息,泛化能力较弱,无法扩展到更普遍的情况。基于深度学习的视觉跟踪算法可以解决上述缺点,但是需要适合视觉跟踪的网络模型,也要获取空间和时间的相关性。常用的均值偏移算法相融合的目标跟踪方法有效整合均值偏移算法的快速搜索能力,拥有匹配速度快,在目标扭曲变形的情况下也能识别。该方法依赖于RGB三个空间的信息,若只有灰度图,则很容易受到干扰。文献[7]使用了结合均值偏移与粒子滤波的目标跟踪方法,大大提高了均值偏移算法的稳定性。

2006年Hinton提出了利用深度学习从大数据中获得深层次的语义。2012年AlexNet在ImageNet视觉识别挑战赛中获得了优异成绩,其效果大大地超越了传统识别算法,并逐渐成为了目标检测的主要方法。

卷积神经网络计算模型在上世纪八十年代由Fukushima提出,却受限于计算机硬件与训练模式,直到深度学习应用于其中,现已广泛应用于众多语音图像的识别领域。基于卷积神经网络的目标识别方法主要有两种,一类是基于Region Propoal的两阶段法,包括R-CNN,SPP-Net,Fast R-CNN,Faster R-CNN等。另一类是基于回归的一阶段法,包括YOLOv3、SSD 等。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。