基于DE10-Nano平台的手写数字识别文献综述

 2022-05-30 09:05

基于DE10-Nano平台的手写数字识别

文献综述

  1. 背景介绍及研究意义

在图像处理与计算机视觉领域中,手写的字符识别系统在日常生产生活中给我们带来了自动化、智能化,发挥着重要的作用。特别是手写数字识别,由于其没有上下文,不存在语义相关性,而一些企业部门对数字的要求又相对较高,如银行、邮政等部门,所以对其识别精度也需要达到更高的水平。因此数字识别有广阔的应用前景和实用价值,并且在文献检索、办公自动化、邮政自动分拣、银行票据自动识别等领域也有重要应用。而如何进行高效、快速的识别成为当下研究的热点之一。

目前,在手写数字识别领域使用最广、效果最好的方法是卷积神经网络(Convolutional Neural Networks, CNN)。卷积神经网络应用于手写数字识别,最明显特点是其可以直接从原始图像中提取训练需要的特征信息,需要的预处理非常少,数字图像可直接作为网络的输入,可以边训练边进行特征的提取学习。卷积神经网络特有的局域感受野和权值共享使得其对数字平移、比例缩放、倾斜扭曲或其他形变具有高度不变性。降采样降低特征图的分辨率,缩少网络规模,从而降低对平移、缩放和扭曲的敏感度。卷积神经网络应用于数字识别,加快了文字信息化的进程,进一步推动了人工智能、模式识别的发展。

在运行平台上,很多研究者都在基于GPU,ASIC,FPGA和SoC等平台设计各种用于实现CNN的加速器,从而提高CNN计算的吞吐率[1]。而现场可编程门阵列(Field Programmable Gate Array, FPGA)凭借其高性能、低功耗、可编程的特点成为了对计算密集型应用进行硬件加速的最高效的实现平台之一。但是,由于CNN计算中涉及多种不同类型的运算,如二维卷积运算、非线性激活函数运算、池化(子采样)操作以及全连接层运算,并且这些运算过程往往涉及大量的数据访问以及中间结果数据的存储,这使得采用 FPGA 实现如此复杂和具有庞大计算量的CNN 仍然是一项具有挑战的工作。

  1. 手写数字识别系统的研究综述
  2. 手写数字识别技术的发展以及国内外研究现状

手写数字识别作为光学字符识别技术(Optical Character Recognition, 即OCR)的一个分支,进过多年发展,主要分为脱机手写数字识别和联机手写数字识别,其中,脱机识别是由终端输入静止的、不可追溯的二维数字点阵图像,计算机处理起来相对复杂,与联机手写数字识别比起来,脱机识别被供给的信息量不多,没有笔画与笔顺概念且忽视了手写数字笔画的时序信息。因此,在OCR领域中脱机手写数字识别本质上是图像识别问题。

在过去的四十年中,人们想出了很多办法获取手写字符的关键特征。这些手段分为两大类全局分析和结构分析。对前者,可以使用模板匹配、像素密度、矩、特征点、数学变换等技术。这类的特征常常和统计分类方法一起使用。对后者,多半需要从字符的轮廓或骨架上提取字符形状的基本特征,包括圈、端点、节点、弧、突起、凹陷、笔画等,与这些结构特征配合使用的往往是句法的分类方法。特征,包括圈、端点、节点、弧、突起、凹陷、笔画等等。一般来说,两类方法各有优势。例如,使用统计特征的分类器易于训练,而且对于使用统计特征的分类器,在给定的训练集上能够得到相对较高的识别率而结构特征的主要优点之一是能描述字符的结构,在识别过程中能有效地结合几何和结构的知识,因此能够得到可靠性较高的识别结果。针对模式特征的不同选择机器判别决策方法的不同,可将模式识别方法大致分为五大类:统计特征法、句法结构法、逻辑特征法、模糊模式法、神经网络法。

国外对字符识别的研究开始较早,中科院自动化所研究院仲季仕于1978年发表的《手写体数字的自动识别》[2]中提到,“在字体限制较少的手写体数字的自动识别方面,日本早在1967年就已获得较好的结果,并开始应用于邮政方面的阅读分拣机。近年来更进一步发展为能识别48种手写字符的计算机输人装置。美国在阅读字体有限制的手写数字方面也早已达到可以实用的程度.如六十年代的IBM一1287,1288,七十年代的Input-3,Input-8等”。国内相对较晚,在 70 年代开始对数字、英文字母及符号的识别进行研究,经过多年的研究与努力,于1974年底完成了能识别字体限制较少的手写阿拉伯数字的实验室系统.在此基础上于1977年8月为我国第一条全自动邮政信函分拣流水线提供了手写体阿拉伯数字识别机样机。其主要采用结构特征识别的方法,其识别率在90%以上,可是局限于当时的集成电路发展水平,一次识别的速度并不是很快。

到了上世纪八十年代,随着神经网络发展的迎来了第二次高潮,基于神经网络的分类识别技术也蓬勃发展。1982年,美国物理学家Hopfield提出了Hopfield神经网络模型,有力地推动了神经网络的研究;1986年,Rumelhart和McCelland等人提出并行分布处理(PDP)的理论,同时提出了多层网络的误差反向传播学习算法,简称BP算法。这种算法根据学习的误差大小,把学习的结果反馈到中间层次的隐单元,改变它们的权系数矩阵,从而达到预期的学习目的,解决了多层网络的学习问题,成了当时研究手写数字识别的最主要方法;1998年,LeCun提出了更加完备的卷积神经网络模型LeNet-5[3],此模型在手写数字识别中取得巨大成功。LeNet提供的利用卷积层堆叠进行特征提取的框架,开启了深度卷积神经网络的发展。到了现在,卷积神经网络因其优势明显,成了图像识别、计算机视觉等领域的主要方法。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

免费ai写开题、写任务书: 免费Ai开题 | 免费Ai任务书 | 降AI率 | 降重复率 | 论文一键排版