logo资料库

深度学习文字识别论文综述.docx

第1页 / 共11页
第2页 / 共11页
第3页 / 共11页
第4页 / 共11页
第5页 / 共11页
第6页 / 共11页
第7页 / 共11页
第8页 / 共11页
资料共11页,剩余部分请下载后查看
深度学习文字识别论文综述
深度学习用于文字定位
深度学习用于文字识别
深度学习文字识别论文综述 深度学习文字识别论文综述 深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进 行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。 深度学习是无监督学习的一种,深度学习采用了神经网络的分层结构,系统包括 输入层、隐层(多层)、输出层组成的多层网络,只有相邻的节点之间有连接, 同一层以及跨层节点之间相互无连接。深度学习通过建立类似于人脑的分层模型 结构,对输入数据逐级提取从底层到高层的特征,从而能很好地建立从底层信号 到高层语义的映射关系。近年来,谷歌、微软、百度等拥有大数据的高科技公司 相继投入大量资源进行深度学习技术研发,在语音、图像、自然语言、在线广告 等领域取得显著进展。从对实际应用的贡献来说,深度学习可能是机器学习领域 最近这十年来最成功的研究方向。深度学习模型不仅大幅提高了图像识别的精度, 同时也避免了需要消耗大量的时间进行人工特征提取的工作,使得在线运算效率 大大提升。 深度学习用于文字定位 论文 Thai Text Localization in Natural Scene Images using Convolutional Neural Network 主要采用 CNN 的方法进行自然场景中的文本分类,并根据泰字的特点进 行分类后的后处理,得到更加精确的定位效果。如图 1 所示为 CNN 网络模型, CNN 网络由一个输入层,两个卷积层和两个下采样层以及一个全连接层组成,输 出为一个二分类向量,即文本和非文本。
图 1 CNN 网络模型 该文主要思路为将图像切块后进行训练,采用人工标注样本的方法,使得网 络具有识别文本和非文本的能力。由于样本数量较少,文中采用了根据已有字体 生成训练数据集的方法,包括对字体随机添加背景、调整字体风格以及应用滤 波器。如图 2 为生成的泰字样本,文中在标签的过程中将半个字或者整个字都标 记为文本,增加了网络对文字的识别率。 图 2 训练样本集 在使用生成好的网络进行文字定位的过程中,论文采用的编组方法结合了泰 字的特点,如图 3 为对图像文字的初步定位,其中被标记的区域被网络识别为文 字。 图 3 图像文字的初步定位
论文后期对标记的矩形小框区域进行了整合,结合了泰字本身的特点,如图 图 4 所示为原始图像文字,图 5 为对识别结果进行的后处理,其中 a,b,c 将文字 分为上、中、下三个部分。文中指出泰字一般的最高不超过中心线 b 的 50%,采 用这个规律进行了文字编组,得到如图 6 的编组结果,其中白色区域为编组结果。 图 4 原始文本图像 图 5 后处理结果 图 6 编组结果 同时论文也考虑了泰字的其他特点,如中心线与上边界和下边界的夹角不超 过 45 度,根据这个规律又对编组结果进行调整。如图 7 所示,当超过夹角限制 是进行了微调。如图 8 与图 9 为论文的最终定位结果。 图 7 泰字编组调整
图 8 定位结果 图 9 定位结果 论文 Reading Numbers in Natural Scene Images with Convolutional Neural Networks 结合隐马尔可夫模型 (Hidden Markov Model,HMM)和深度学习方法 来实现对自然场景中的数字进行定位和识别。首先采用 CNN 方法对原始的数字 图像进行特征提取,将提取的结果输入至 HMM 模型进而得到数字的识别结果。 如图 10 为论文提出的识别方法模型。
图 10 文字识别模型 论文为了实现直接在原始的图像上进行识别,采用了动态窗口滑动的方法, 提取一系列的图像块。如图 11 为论文采用的 CNN 结构,包括 4 个卷积层,其中 3 个卷积层都有相邻的下采样层,每个卷积层都包含一个本地归一化,共 2 个全 连接层。网络的训练首先通过滑动窗口提取图像的骨架,然后采用主成分分析 PCA 方法进行降维,然后将得到的主要特征作为 GMM-HMM 模型的输入,采用 Viterbi 译码对 GMM-HMM 的输出进行处理,最后采用 CNN 对生成的数据进行训 练,数据的标签自动生成不需要人工参与。 图 11 CNN 网络结构模型 论文首先采用 CNN 对数字进行分类,其中分类数为 11 即数字 0,1,2,3,4,5,6,7,8,9,以及标签 10 代表非数字,论文采用 HMM 模型对分类的
结果进行可能性分析,如图 12 为 HMM 模型结构图。 图 12 HMM 模型结构图 图 13 为论文的识别结果图,与其他方法不同的是,论文直接在原始图像实 现了多个数字的识别,由于场景的复杂性和字符的多样性,存在部分的错误。论 文得到的单个数字准确率最高为 91.4%。 图 13 实验结果图 论 文 A Robust Hierarchical Detection Method for Scene Text Based on Convolutional Neural Networks 提出了一种结合卷积神经网络和随机森林统计算 法对字符进行编组的算法。该论文的主要创新点为利用了卷积神经网络对字符 进行二分类,根据随机森林分类文本行特征以及文本行的一致性属性对文本进 行编组实现。如图 14 为论文提出的方法框架。
图 14 论文方法实现框架 CNN 网络的输入为输入图像的部分区域,CNN 网络输出文本行信息作为随机 森林分类器的输入,进而实现不同文本不同尺度的文字编组。在 CNN 网络基础 上,论文增加了候选字符的笔画特征,对于不同语言的文本是普适的。该方法 的一个依据在于统一的文本基本具有统一的笔画宽度,实质上就是对于每个可 能属于文字部分的像素点和它最有可能所属的笔画建立联系,如果他们属于同 一笔画,进一步形成了文字区域。由于自然场景中存在干扰,如电线杆、线化背 景和区域干扰等,通过设置阈值控制区域笔画的宽度,将不符合要求的剔除掉, 同时单独的字符通常不出现在图像中,也被剔除掉。如图 15 为论文实现的部分 结果,从左到右依次为输入图像、字符特征提取、字符区域扩展和文本行编组结 果。 图 15 算法实现部分结果 如图 16 为论文的实现结果,从图中可以看到,在复杂的自然场景中,论文 提出的方法获得了较为理想的效果,论文的算法在 ICDAR 数据集上的优势也较为 明显,该方法主要的创新为利用了随机森林和字符的笔画特征对 CNN 分类结果 进行了编组,充分利用了 CNN 的特征提取和字符的笔画特征和文本行的属性特 征。
图 16 论文结果 深度学习用于文字识别 论文 Handwritten Digits Recognition Base on Improved LeNet5 主要采用 CNN 和 SVM 结合的方法实现手写字符识别,在 LeNet5 卷积神经网络的基础上,将最后 的输出层和卷积层用 SVM 替换。主要思想为,采用 CNN 来提取特征向量,然后 利 用 SVM 对 特 征 向 量 进 行 分 类 。 论 文 中 还 采 用 了 最 优 化 算 法 中 的 Levenberg-Marquardt 算法来加速 CNN 的训练过程,改进的 LeNet5 网络如下图 17 所示。LeNet5 共有七个网络层:三个卷积层,两个下采样层,一个全连接层 和一个输出层,输入图像大小为 32x32,卷积核心大小为 5。 论文中指出,采用单一的 SVM 方法对 MNIST 手写数据库进行测试,错误率 图 17 改进的 LeNet5 网络结构
分享到:
收藏