logo资料库

基于OCR技术的书写文字识别系统设计.pdf

第1页 / 共3页
第2页 / 共3页
第3页 / 共3页
资料共3页,全文预览结束
第 23 卷  第 8 期 2007 年 8 月 甘肃科技 Gansu Science and Technology V ol . 23  N o. 8 A ug.  2007 基于 OCR 技术的书写文字识别系统设计 汪益民1 ,梅  林2 ,张义超3 (1. 安徽农业大学网络中心 、安徽大学计算机科学与技术学院 ,安徽 合肥 230036 ;2. 安徽农业大学成教学院 、 安徽大学计算机科学与技术学院 ,安徽 合肥 230036 ;3. 安徽大学计算机科学与技术学院 ,安徽 合肥 230036) 摘  要 : OCR (Optical Character Recognitio n ,光学字符识别) ,是属于图型识别 ( Pattern Recogni tion ,PR) 的一门学问 。其目的就是要让计算机知道它到底看到了什么 ,尤其是文字资料 。书写文 字识别是人工智能理论在这一领域应用的一个分支 ,它研究的对象是如何利用电子计算机自动辨 认人书写在纸张上的文字 。文章主要是对模式识别的基本原理以及如何利用图像识别技术对书写 文字的识别的研究 ,并给出了模板匹配法识别图像的原理 。 关键词 :OCR 技术 ;模式识别 ;书写文字识别 ;模板匹配 ;判别函数 中图分类号 : TP334 1  基本原理 1. 1  模式识别的基本概念 模式识别就是机器识别 、计算机识别或机器自 动识别 ,目的在于让机器自动识别事物 。如本文所 研究的书写文字识别就是利用属于模式识别的图像 处理技术进行匹配识别 。模式识别研究的内容是利 用计算机对客观物体进行分类 ,在错误概率最小的 条件下 ,使识别的结果尽量与客观物体相符合 。模 式识别是一个不断发展的新学科 ,它的理论基础和 研究范围也在不断发展 。至今 ,在模式识别领域 ,神 经网络方法已经成功地用于书写字符的识别 、汽车 牌照的识别 、指纹识别 、语音识别等方面 。本文将重 点讲述模式识别中的 OCR 光学字符识别在书写文 字系统中的应用 ,主要是指基于模板的文字识别 、标 点符号识别和数字识别 。 (1) 特征值 。对于一个样品来说 ,必须确定一些 与识别有关的因素作为研究的根据 ,每一个因素称 为一个特征 。模式就是样品所具有的特征描述 。模 式的特征集由处于同一个特征空间的特征向量表 示 ,特征向量的每个元素称为特征 ,该向量也因此称 为特征向量 。一般用小写字母 x , y , z 来表示特征 。 如果一个样品 X 有 n 个特征 ,则可把 X 看成一个 n 维列向量 ,该向量称为特征向量 X ,抽取图像特征的 目的是为了进行分类 ,识别图像 。也就是把图像变 成 n 维空间的一个向量 ,实际上就是看成 n 维空间 中的一个点 ,这样有利于从几何上考虑问题 ,计算上 比较方便 。(2) 抽样空间 。在模式识别技术中 ,被观 测的每个对象称为样品 ,例如本文中的每个书写文 字可以作为一个样品 ,共写了 n 个文字 ,所以就有 n 个样品 ( X1 , X2 , X3 , ……Xn ) ,一共有 n 个不同的类 别 。 1. 2  模式识别的评价标准 作为一个识别系统 ,评价其性能主要是三方面 的指标表征系统的性能 : 正确识别率 A = 正确识别样本数/ 全部样本数 100 % 替代率 (误识率) S = 误识样本数/ 全部样本数 100 % 100 % 拒识率 R = 拒识样本数/ 全部样本数 三者的关系是 : A + S + R = 100 % 文字识别的应用中 ,人们往往很关心的一个指 标是“识别精度”,即 :在所有识别的字符中 ,除去拒 识字符 ,正确识别的比例有多大 ,定义为 : 识别精度 P = A/ (A + S) 100 %。 一个理想的系统应是 R , S 尽量小 ,而 P , A 尽 可能大 。而在一个实际系统中 ,S ,R 是相互制约的 , 拒识率 R 的提高总伴随着误识率 S 的下降 ,与此同 时识别率 A 和识别精度 P 的提高 。因此 ,在评价书 写文字识别系统时 ,我们必须综合考虑这几个指标 。 另外 ,由于书写文字的书写风格 、工整程度可以有相 当大的差别 ,因此必须弄清一个指标在怎样的样本 集合下获得的 。 以上多种因素使得不同系统的性能很难做绝对 比较 ,根据作者从文献中所看到的和在科研研究的 较高水平是 : 对自由书写的文字 ,在不拒识时达到 96 %以上的识别率 ;在拒识少于 15 %的样本时 ,误 识率能降到 0. 1 %以下 。
81            甘  肃  科  技                 第 23 卷 2  系统设计 2. 1  书写文字识别技术概况 书写文字识别技术是以模式识别基础 ,它利用 计算机和光学系统来识别计算机看到的图像信息 , 模拟人的视觉 。我们把书写的文字通过扫描成为图 像 ,从信息论的角度来看 ,“图像”所包含的信息量最 大 ,内容极为广泛 。图像识别目的在于用计算机自 动处理某些信息系统 ,以代替人去完成图像分类及 辨识的任务 。对图像识别来说 ,系统针对某一物体 除掉它与其他物体的相同的内容 ,考虑对它进行分 类这一共性来研究的 ,针对这一共性 ,以统一的观点 把同一共性归为一类 ,另一种共性归为另一类 。图 像识别过程分为四步 : (1) 图像预处理 :为了研究图像内容的识别 ,首 先要对获得的图像信息进行预处理 ,滤去干扰 、噪 声 ,当信息微弱无法辨识时 ,还须对图像进行增强处 理 ,几何调整 ,颜色校正等 ,以便人 、机分析 。 (2) 图像分割 :为了从图像中找到需要识别的物 体 ,还要对图像进行分割 ,也就是定位和分离出不同 的待识别的物体 。这一过程输入是一幅图象 ,输出 是像元图像 。 (3) 图像特征抽取 :在需要识别的物体被分割出 来的基础上 ,提取需要的特征 ,并对某些参数进行计 算 、测量 ,根据测量结果进行分类 。这一过程输入是 庞大的信息图像 ,输出则是少量的特征信息 ,而且这 些特征信息仅仅代表物体 ,无法还原回原物体 。 (4) 图像分类 :根据提取的特征值 ,利用模式识 别的方法进行分类 ,确定类别名称 ,以便对图像的重 要信息得到一种理解和解释 。这一过程输入的是特 征信息 ,输出是类别名称 。 图 1  图像识别的主要步骤 2. 2  书写文字识别系统架构 一个典型的模式识别系统如下图所示 ,由数据 获取 、预处理 、特征提取 、分类决策及分类器设计五 部分组成 ,一般分为上下两部分 。上半部分完成未 知类别模式的分类 ;下半部分属于设计分类器的训 练过程 ,利用样品进行训练 ,确定分类器的具体参 数 ,完成分类器的设计 。而分类决策在识别过程中 起作用 ,对待识别的样品进行分类决策 。 图 2  模式识别系统构架 书写文字识别系统组成单元功能介绍如下 。 (1) 数据获取 。用计算机可以运算的符号来表 示所研究的对象即二维的文字图像 (2) 预处理 。对输入测量仪器或其他因素所造 成的退化现象进行复原 、去噪声 、提取有用信息 。 (3) 特征提取 。对原始数据进行变换 ,得到最能 反映分类本质的特征 。将维数较高的测量空间转变 为维数较低的特征空间 。 (4) 分类决策 。在特征空间中用模式识别方法 把被识别的对象归为某一类 。 (5) 分类器设计 。基本做法是收集样品训练集 , 在此基础上确定判别函数 ,改进判别函数和误差检 验 。 3  理论与实现 在图象识别技术中 ,模板匹配是比较简单的方 法 。模板匹配就是把未知图像和一个标准的图像比 较 ,看它们是否相同或相似 。下面讨论两类别和多 类别的情况 。 3. 1  两类别 设有两个标准书写文字 A 、B ,其特征向量为 d 维向量 : XA = (xA1 ,xA2 , …,xAd ) T ,XB = (xB1 ,xB2 , …, xBd) T 。任何一个待识别的书写文字 X ,它的特征向 量为 X = (x1 ,x2 , …,xd ) T ,当我们判别 X 是 A 还是 B 时可以计算 X 与 A 、B 之间的距离 ,X 与哪个样板 距离近 ,就属于哪个类 ,这就是最小距离算法 。 任意两点 x ,y 之间的距离定义为 : d (x ,y) = [Σ ( xi - yi ) 2 ] 1 2 若 d ( Xi , X) < d ( Xj , d i = 1 X) ,j = 1 ,2 ,L ,M ,i ≠jd ( X , XA ) < d ( X , XB ) 则 X 属 于 A 类 ,反之属于 B 类 。 3. 2  多类别 设有 M 个类别 :ω1 ,ω2 , …,ωm 每类有 wi 个向 量表示 ,则有 :
第 8 期           汪益民等 :基于 OCR 技术的书写文字识别系统设计 91 Xi xi1 xi2 xi3 … xin 对于任意书写文字 X  X = x1 x2 x3 … xn 基本形式如图 5 所示 : 计算距离 d ( Xi , X) ,若存在某一个 i ,使 d ( Xi , X) < d ( Xj ,X) ,j = 1 ,2 ,L ,M ,i ≠j  则 X 属于 wi 类 。 系统设计的第一部分为标准样品输入 、特征提 取 、样品库建立和保存 ,这一部分是学习过程 ;第二 部分为用户书写输入一个文字及识别功能 。设计流 程如图设计流程图 3 所示 : 图 5  判别函数构成的多类分类器 对于线性情况 ,判别函数形式为 d ( X) =ω1 x1 +ω2 x2 + …+ωn xn +ωn + 1 = W T 0 + ωn + 1 = W T X 其中 , X = ( x1 , x2 , x3 , …, xn ) T , W (ω1 ,ω2 , …, ωn + 1 ) T 。 4  展望 本文重点论述了模式识别原理 ,以及如何使用 OCR 图像识别技术应用到书写文字系统识别的一 些基本理论和相关技术 ,书写文字识别在学科上属 于模式识别和人工智能的范畴 。对于书写文字识别 手段分两大类 :全局分析和结构分析 。对前者 ,我们 可以使用模板匹配 、象素密度 、矩 、特征点 、数学变换 等技术 。这类的特征常常和统计分类方法一起使 用 。对后者 ,多半需要从字符的轮廓或骨架上提取 字符形状的基本特征 ,与这些结构特征配合使用的 往往是句法的分类方法 。 字符识别处理的信息可分为两大类 :一类是文 字信息 ,处理的主要是用各国家 、各民族的文字 (如 : 文字 ,英文等) 书写或印刷的文本信息 ,目前在印刷 体和联机书写方面技术已趋向成熟 ,并推出了很多 应用系统 ;另一类是数据信息 ,主要是由阿拉伯文字 及少量特殊符号组成的各种编号和统计数据 ,处理 这类信息的核心技术是书写文字识别 。应用系统的 性能的关键与瓶颈仍然在于书写文字识别核心算法 性能上 ,最终目标是研究零误识率和低拒识率的高 速识别算法 。 参考文献 : [ 1 ]  张烯中. 汉字识别技术 [ M ]. 北京 :清华大学出版社 , 1992. 9 [ 2 ]  朱学芳. 计算机图像处理导论 [ M ]. 北京 :科学技术文 献出版社 2003. 6 图 3  设计流程图 3. 3  判别函数的设计 (1) 二类情况 对于只有简单的两类情况 ,判别函数形式如图 4 所示 ,根据计算结果的符号将 X 分类 。 图 4  两类分类器形式 Xn 假定判别函数 d ( X) 是 X 的线性函数 ,d ( X) = W T X + W0 ,用矢量 X = (x1 ,x2 ,x3 , …,xn ) T 来表示模式 ,一般的线 性判别函数形式为 : d ( X) =ω1 x1 +ω2 x2 + …+ωn xn +ωn + 1 式中 W0 = (ω1 ,ω2 , …,ωn ) T 称为权矢量或参数 矢量 。 (2) 多类情况 对于多类别问题 ,假如有 M 类模式ω1 ,ω2 , …, [ 3 ]  边肇棋 ,张学工. 模式识别[ M ]. 北京 :清华大学出版社 [ 4 ]  周长乐. 手写汉字的机器识别 [ M ]. 北京 :科学出版社 ωm ,它们对应于 M 类图像 。 1997 对于 M 个类别 ,就要给出 M 个判别函数 : d1 ( X) ,d2 ( X) , …dM ( X) ,各个判别函数构成分类器 , [ 5 ]  沈庭芝 ,方子文. 数字图像处理及模式识别北京 :北京 理工大学出版社. 19 98 . 8
分享到:
收藏