印刷体汉字的识别文献综述

 2021-11-08 22:17:49

毕业论文课题相关文献综述

文 献 综 述

一、选题目的与意义

在我国,汉字已有数千年的历史,是中华民族文化的重要结晶,闪烁着中国人民智慧的光芒,是使用人数及文字数量最多的汉字之一。现如今,汉字印刷材料的大大增加,例如新闻社、图书馆、书籍出版社等专业单位所接触的印刷材料更是不计其数。然而在计算机技术迅猛发展的今天,计算机在各种领域得到广泛的应用,鉴于汉字的非字母化及非拼音化的特点,如何将汉字快速便捷高效地输入计算机,已经成为信息处理的一个关键问题 。同时,也关系着计算机技术能否在我国真正普及的关键问题。众所周知,人工输入汉字不仅速度慢而且劳动强度大,一般使用者每分钟只能输入汉字40~50个汉字,可见效率是比较低的。因此,人工输入的方法不适用于处理大量文字资料的办公自动化文档管理等工作场合。而且伴随着市场劳动力价格的上涨,利用人工方法输入汉字将带来更大的成本。因此。对于处理大量的文档资料,汉字自动识别输入就成为了一个比较好的选择。一方面这种方法快速高效,另一方面也节省了大量人力资源,进而降低了经济成本。就当下的形势而言,汉字识别技术也越来越受到人们的重视,呈现出广泛的应用前景,它主要应用于中文信息处理、办公室自动化、机器翻译、人工智能等高技术领域。汉字识别是模式识别的重要应用领域,也是光学字符识别OCR的重要组成部分 。汉字识别是一门多学科综合的研究课题,它涉及到人工智能、数字信号处理、图像处理、信息论、计算机科学、几何学、统计学、生物学、模糊数学、决策论等诸多学科。一方面个学科的发展给汉字识别的研究提供了工具,另一方面,汉字识别的研究也对其他学科的发展起了一定的促进作用。因此,有着重要的实用价值和理论意义。

二、研究现状

印刷体汉字的识别是文字识别技术的一种。在计算机识别文字方面,1929年陶舍克利用光学模板匹配识别是其历史性的开端。对于当时的技术,陶舍克使用了10块模板对应了10个数字,依次把待识别的数字投影到对应的模板上,基于数字遮挡了模板的透光部分,当模板透过的光达到最小时,数字就被识别成这块模板上的数字。随着计算机的发展,大约在上世纪50年代末60年代初,就已经涌现了诸多关于利用计算机识别数字及英文符号的研究论文。随后,日本对汉字识别进行了研究。大约在20世纪70年代伊始,相继对印刷体汉字、手写印刷体汉字识别以及在线手写汉字识别进行了研究。1980年进行了印刷体汉字识别的公开表演,1980年5月在日本举办的第56界商业展览会上,富士通研究实验室进行了书写印刷体汉字识别的公开表演。1984年日本研制成了多体印刷汉字的识别装置,识别率高达99.98%,识别速度大于100字/秒,代表了印刷汉字识别的最高水平。在最近一些年出现的书写印刷体汉字识别装置,识别率可达90%,识别速度达到5~40字/秒,笔顺可变,比划数不变的联机手写楷书汉字识别装置已有产品出售。相比而言,我国的汉字识别研究比日本晚了大约10年,1988年后才有初步应用的印刷体汉字识别系统问世。

就目前的文字识别技术水平来看,与实际的需求之间还有一定的差距。

三、相关技术及方法实现

印刷汉字的识别其实质在于如何解决文字的分类问题,一般通过特征辨别及特征匹配的方法实现。印刷体汉字识别按字体可分为单体印刷体汉字识别与多体印刷体汉字识别。下图1为印刷体汉字识别流程图

图1 印刷体汉字识别流程图

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。