基于深度学习的实时行人检测算法研究文献综述

 2022-11-27 03:11

1 引言

行人检测是包括自动驾驶系统和监控系统在内的许多实际应用中的关键问题,并且需要具有高精度和实时速度。传统上,用滑动窗口扫描图像是目标检测的常见做法。在这个范例中,设计手工提取的特征对于获得最先进的性能至关重要,这仍然是一项艰巨的任务。

除了专注于手工提取特征的早期研究之外,RCNN [1-3]首次将CNN引入目标检测。在RCNN之后,Faster-RCNN [4]提出了区域提名网络(RPN)以在统一框架中生成proposals。除了在通用的目标检测方面取得成功,许多改进的Faster-RCNN检测器被提出并在行人检测上有着更高的准确率[6,7]。然而,当考虑到处理速度时,Faster-RCNN仍然不能令人满意,因为它需要处理两个阶段——proposals生成和ROIpooling特征的分类。另外,作为代表性的单级检测器,单射级多箱检测器(SSD)[5]丢弃Faster-RCNN [4]的第二阶段,直接将默认框回归成检测框。虽然速度更快,但SSD [5]并没有在常见的行人检测基准上达到有竞争力的结果(例如CityPersons [7]和Caltech [8])。因此,如何实现速度与精度的平衡,是我们亟需解决的问题。

2 行人检测现状

通常,基于CNN的通用目标检测可大致分为两类。第一类是两阶段法[1-4,9-10],首先生成合理的区域提名,然后通过另一个子网络进行细化。然而,其速度因重复CNN特征提取和评估而受限。最近,在两阶段框架中,许多方法都试图通过关注网络架构,训练策略,辅助上下文挖掘等等来提高检测性能,然而繁重的计算负担仍然是一个不可避免的问题。第二类[5,11]称为单阶段法,旨在通过去除生成区域提名阶段来加速检测。这些单级检测器直接回归预定义的锚,因此计算效率更高,但得到的结果不如两阶段方法。最近提出的方法中,有一些注重增强CNN的特征表示,其他一些通过提出新的分类策略来解决正负样本不平衡的问题。然而,在单阶段框架中的行人检测工作较少。

在行人检测方面,受RCNN[1-3]的成功驱动,两阶段框架中一系列行人检测器被提出。Hosang等[12]首次利用SCF检测器生成后续输入到RCNN风格网络的proposals。TA-CNN[13]应用ACF检测器生成proposals,然后将行人检测与辅助语义任务联合优化。DeepParts[14]用LDCF检测器生成proposals,然后训练整个CNN来检测不同的部分。与借助传统检测器来生成proposals的上述方法不同,RPN BF调整了Faster-RCNN的RPN来生成proposals,然后基于这些proposals来学习强化森林分类器。对于多尺度检测问题,MS-CNN[15]利用基础网络的不同层生成proposals,后面紧跟一个语境推理辅助的检测网络。SA-FastRCNN [16]根据ACF检测器生成的proposals,共同训练两个网络,分别检测大尺度和小尺度的行人。Brazil等 [17],Du等[18]和Mao等[19]通过组合语义信息进一步提高检测性能。最近,Wang等[20]基于Faster-RCNN [4]为拥挤的行人检测设计了一种新的回归损失,在CityPersons [7]和Caltech [8]基准上实现了最先进的结果。然而,对速度的关注少于准确性。

3 分析the state of the art

当前基于CNN的通用目标检测算法主要分为两类:以Faster R-CNN为代表的两阶段方法和SSD为代表的单阶段方法,其中Faster R-CNN准确率更高,而SSD则速度占优。这一部分主要介绍具有代表性的上述两个算法,以及最新提出的旨在实现速度-精度平衡的ALFNet算法。

3.1 Faster RCNN

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。