基于嵌入式系统的目标检测的研究文献综述

 2021-11-02 21:10:32

毕业论文课题相关文献综述

这篇综述将介绍基于嵌入式的目标检测任务中的理论知识,论述目标检测的常见方法,着重讲yolo算法,并且将yolo算法与其他的one-stage以及two-stage方法进行比较。

目标检测在现实中的应用很广泛,我们需要检测数字图像中的物体位置以及类别,它需要我们构建一个模型,模型的输入一张图片,模型的输出需要圈出图片中所有物体的位置以及物体所属的类别。

在深度学习浪潮到来之前,目标检测精度的进步十分缓慢,靠传统依靠手工特征的方法来提高精度已是相当困难的事。

而ImageNet分类大赛出现的卷积神经网络(CNN)AlexNet[1]所展现的强大性能,吸引着学者们将CNN迁移到了其他的任务,这也包括着目标检测任务,近年来,出现了很多目标检测的方法,包括YOLO[2]-[4],RCNN[5]-[7],SSD[8],RetinaNet[9]系列的方法,其中YOLO,SSD,RetinaNet都是one-stage方法,原始RCNN事multi-stage方法,它的延伸FastRCNN以及FasterRCNN则是two-stage方法。

RCNN系列方法是先生成候选框,然后根据候选框来进行坐标回归预测,而YOLO,SSD,RetinaNet则是直接进行回归生成坐标回归,没有经过候选框这一步。

接下来将详细地叙述YOLO三部曲,先介绍YOLOv1,更好更简单地了解YOLO的原理和思想,然后分别介绍YOLOv2以及YOLOv3,看看这两个模型是使用那些技巧来提升性能。

YOLOv1流程:首先YOLOv1会把图像看成一个ss的栅格,这里的s是等于7,每个栅格预测2个bounding boxes以及栅格含有对象的置信度,同时每个栅格还是预测栅格所属的对象类别,然后通过一些处理方式得到最后的结果,这个处理方式后面会讲到。

架构:YOLOv1由24层卷积层,4个最大池化层和2个全连接层组成,我们关注最后的输出是7x7x30,这里是7x7代表输入图像的7x7栅格,一一对应,30的前十个代表2个bounding boxes的坐标以及对象的置信度,后20个代表VOC数据集的20个类别。

损失函数:首先,这个λ是bounding box坐标损失的权重,外层求和是多少个栅格,内层求和是每个栅格的B个Boxes,这个像一的符号,它代表当前box中是否含有真实标签对象,坐标预测我们只计算有对象的栅格,其他的栅格不进行计算,这个Ci代表当前栅格含有对象的概率,不光要计算含有对象的,也要计算没有含有对象的,最后的类别,只计算含有对象的栅格,没有包含对象的不考虑。

根据这个损失进行反向传播,一步步优化YOLOv1模型。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。