面向自然场景下的文本检测文献综述

 2022-05-27 10:05

毕业设计(论文)文献综述

OCR是光学字符识别 Optical Character Recognition的简称,是指对文本资料的图像文件进行分析识别处理,获取文字的过程。现在所说的OCR 通常也指场景文字识别,根据识别场景,可大致将 OCR 分为识别特定场景的专用 OCR 和识别多种场景的通用 OCR。比如车牌识别就是对特定场景的 OCR,而对自然场景中的文字识别则是通用场景 OCR,一般来说,自然场景的文字识别由于环境更加复杂多样,其识别难度相对困难。

与传统的文档文本识别与检测,在自然场景下的文本识别检测有如下的难点与挑战:

  1. 不同于书本上的文本信息,自然场景下的文本具有多样性和可变性。场景文本的实例可以具有不同的语言,颜色,字体,大小,方向和形状。此外,场景文本的纵横比和布局可能会发生很大变化。
  2. 背景的复杂性和干扰是不可预测的。可能存在和文本极其相似的图案引起混淆(树叶、纹理边框、窗户和栅栏等等),还有其他物的遮挡,这些都都会导致特征提取和识别的混乱和错误。
  3. 成像条件不完善。自然场景下,无法保证文本图像和视频的质量,在较差的成像条件下,文本实例可能由于不适当的拍摄距离或角度而具有较低的分辨率和严重的失真,或者由于无法聚焦或晃动而变得模糊,或者由于光线不足而产生噪点,或者由于高光或阴影。

在深度学习兴起之前,传统的文本检测方法主要分为三个步骤:提取文本候选区域、筛选非字符区域、合成文本行。最常见的文本定位方法主要有基于滑动窗口和基于连通域的文本定位。

基于滑动窗口的文本检测方法其采用不用尺寸、比例大小的窗口在图像上面采样、提取特征,并利用classfier分类器对采样的区域分类。其中关键在于设计合适的滑动窗口的尺寸与个数、字符分类器。 常用的特征提取方法有边缘梯度,小波变换,空间变换,分类器主要有支持向量机(SVM),随机森林,贝叶斯模型等等。该类方法针对背景干净、噪声较少的图像有较好的检测精度,但对于复杂背景、纹理较多、对比度不明显的图像检测效果较差,为了得到更多的文本候选区域,检测不同尺寸的文本,需要规定较多个滑动窗口提取候选区域,大大增加了计算搜索的复杂度,不能满足文本检测的实时性需求。并且该类方法主要用于水平方向的文本检查的。

基于连通域的文本检测方法首先通过连通域分析获取文本候选区域,然后利用启发式规则或者分类器筛选非文本区域,最后通过空间位置信息和几何信息合成文本行。连通域分析方法主要有笔画宽度变换和最大稳定极值区域。该种方法原理简单,实现容易并且时间复杂度较低,但是和基于滑动窗口的方法类似,对于复杂背景和纹理较多的图像的鲁棒性不高,精度不够理想。

文字识别通常包含文本检测和文字识别两个阶段。目前文本检测领域的深度学习方法主要包括:基于候选框的文本检测(Proposal-based)、基于分割的文本检测(Segmentation-based)、基于两者方法混合的文本检测(Hybrid-based)、其它方法的文本检测。

对于基于候选框的文本检测,其基本思路是先利用若干个default boxes(也称anchor)产生大量的候选文本框,再经过NMS得到最终的检测结果。对于基于分割的文本检测,其基本思路是通过分割网络结构进行像素级别的语义分割,再基于分割的结果构建文本行。在目前基于分割的自然场景的文本检测和识别方案在准确性上取得了很大的成果,但是在实时性上仍不容乐观。而基于检测的方案在准确性上尚未理想,但能够满足实时检测的要求。

目前主流的解决方案框架上大致分为:one-stage和two-stage。one-stage的算法主要利用FPN的结构预测分割图以及其他辅助的标签,如回归的值等得到文本的区域;two-stage的算法主要利用mask-rcnn辅助一些改进提升文字检测算法的性能。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。