毕业论文课题相关文献综述
这篇综述将介绍基于嵌入式的目标检测任务中的理论知识,论述目标检测的常见方法,着重讲yolo算法,并且将yolo算法与其他的one-stage以及two-stage方法进行比较。
目标检测在现实中的应用很广泛,我们需要检测数字图像中的物体位置以及类别,它需要我们构建一个模型,模型的输入一张图片,模型的输出需要圈出图片中所有物体的位置以及物体所属的类别。
在深度学习浪潮到来之前,目标检测精度的进步十分缓慢,靠传统依靠手工特征的方法来提高精度已是相当困难的事。
而ImageNet分类大赛出现的卷积神经网络(CNN)AlexNet[1]所展现的强大性能,吸引着学者们将CNN迁移到了其他的任务,这也包括着目标检测任务,近年来,出现了很多目标检测的方法,包括YOLO[2]-[4],RCNN[5]-[7],SSD[8],RetinaNet[9]系列的方法,其中YOLO,SSD,RetinaNet都是one-stage方法,原始RCNN事multi-stage方法,它的延伸FastRCNN以及FasterRCNN则是two-stage方法。
RCNN系列方法是先生成候选框,然后根据候选框来进行坐标回归预测,而YOLO,SSD,RetinaNet则是直接进行回归生成坐标回归,没有经过候选框这一步。
接下来将详细地叙述YOLO三部曲,先介绍YOLOv1,更好更简单地了解YOLO的原理和思想,然后分别介绍YOLOv2以及YOLOv3,看看这两个模型是使用那些技巧来提升性能。
YOLOv1流程:首先YOLOv1会把图像看成一个ss的栅格,这里的s是等于7,每个栅格预测2个bounding boxes以及栅格含有对象的置信度,同时每个栅格还是预测栅格所属的对象类别,然后通过一些处理方式得到最后的结果,这个处理方式后面会讲到。
架构:YOLOv1由24层卷积层,4个最大池化层和2个全连接层组成,我们关注最后的输出是7x7x30,这里是7x7代表输入图像的7x7栅格,一一对应,30的前十个代表2个bounding boxes的坐标以及对象的置信度,后20个代表VOC数据集的20个类别。
损失函数:首先,这个λ是bounding box坐标损失的权重,外层求和是多少个栅格,内层求和是每个栅格的B个Boxes,这个像一的符号,它代表当前box中是否含有真实标签对象,坐标预测我们只计算有对象的栅格,其他的栅格不进行计算,这个Ci代表当前栅格含有对象的概率,不光要计算含有对象的,也要计算没有含有对象的,最后的类别,只计算含有对象的栅格,没有包含对象的不考虑。
根据这个损失进行反向传播,一步步优化YOLOv1模型。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。