logo资料库

视频图像中的文字提取技术研究.pdf

第1页 / 共70页
第2页 / 共70页
第3页 / 共70页
第4页 / 共70页
第5页 / 共70页
第6页 / 共70页
第7页 / 共70页
第8页 / 共70页
资料共70页,剩余部分请下载后查看
封面
文摘
英文文摘
声明
第一章 绪论
第二章 视频文字提取的主要方法
第三章 基于线条分类的视频文字检测
第四章 基于单帧图像的文字分割与识别
第五章 总结与展望
参考文献
致谢
攻读硕士学位期间发表的学术论文
上海交通大学硕士学位论文视频图像中的文字提取技术研究姓名:彭媛申请学位级别:硕士专业:信号与信息处理指导教师:周军20090101
上海交通大学硕士学位论文 摘要 I 视频图像中的文字提取技术研究 摘 要 视频中的文本为描述视频内容提供了十分有用的信息,对于构建基于内容的多媒体检索系统具有重要作用。因此,有效地提取和识别这些文字对于图像理解、视频内容分析、基于内容的图像和视频检索等领域具有重要意义。 目前商业的OCR技术对于二值图像中文字的提取识别已经趋于成熟,但视频中的文字具有分辨率低、背景复杂、文字形态差异大等特点,这给视频中文字的有效提取带来了极大的挑战,限制了OCR技术的成功应用。针对这些问题,本文主要围绕如何充分利用文字的各种特性,更鲁棒地从复杂背景图像中提取出文字进行了研究,具体研究了文字区域检测、文字恢复、文字分割这三部分的算法。 在视频文字检测方面,本文提出了一种基于线条分类的视频文字检测算法。首先利用Canny算子对图像进行边缘检测,然后根据文字边缘线条的特征,过滤非字符的边缘线条,并利用文字线条区域的相似性,设置综合阈值,得到最终的文字区域。该算法在边缘检测的基础上,有效地利用了文字本身的结构特征和文字笔画的线条特征对文字区域进行判别,在获得较高查全率的同时大大降低了虚警,而且对不规则排列及发生形变的文字也能够准确定位,并对光照、阴影等条
上海交通大学硕士学位论文 摘要 II 件不敏感。 在文字分割方面,本文提出了一种融合多种处理方法的文字区域二值化算法。首先对发生了射影形变的文字进行文字恢复,消除了射影形变对文字识别的影响,然后通过综合局部二值化,文字极性判断和连通分量分析等方法有效地过滤了文字区域中的背景,使文字区域二值化效果得到较大的提高,对具有复杂背景、受光照和阴影影响及发生了射影形变的文字都能够有效地识别出来。 本文针对所提出的算法选取了四种不同类型的视频中的关键帧,并从网上收集了包括各种类型文字的图片,构建了一个实验数据集合,并对这个测试集合进行了详细而全面的实验。实验结果表明本文算法具有较高的检测和识别性能,能够比较有效地检测和识别出各种不同类型的文字。 关键词:文字检测,文字分割,文字识别,线条分类,视频检索
上海交通大学硕士学位论文 ABSTRACT III RESEARCH ON TEXT EXTRACTION TECHNIQUE IN VIDEO FRAMES AND IMAGES ABSTRACT Text in digital video provides rich information for video content, therefore the technology of text extraction is very important for image understanding and content-based information retrieval systems. Nowadays, many commercial OCR systems make a great success and the technology of text extraction and recognition from binary image tends to mature. However, most embedded text is surrounded by complex background and sometimes accompanied by high noises. These factors have restricted the application of OCR and posed great challenges to text extraction from images and video frames. In this thesis, we present our work on several aspects of the video text information extraction which includes text detection, refinement, and segmentation. In text detection, we propose a novel method based on lines classification to detect text from images effectively. First, edges are detected by a Canny edge detector. Then, a line-feature vector graph is generated based on the edge map and stroke information is extracted.
上海交通大学硕士学位论文 ABSTRACT IV Finally text regions are generated and filtered according to line features. Experimental results show that, the proposed method can reduce the false detection noticeably, which effectively overcomes the difficulty faced with classic edge-based methods. And it is robust with respect to the font size, style, color, orientation, shadow and highlight. In text segmentation, we come up with a text region binary method that integrates multiple processing methods, including text refinement, adaptive threshold, effective text polar judging and connected component analysis. The integration of these methods effectively removed the impact of text refinement and filtered the background area in the text region, thus improving the binary result much. Our experimental results show that the algorithms proposed in this thesis can achieve high performance both efficiently and effectively. And it can be applied for a variety of different types of text extraction. Keywords: text detection, text segmentation, text recognition, lines classification, video indexing
上海交通大学硕士学位论文 第一章 绪论 1 第一章 绪论 20世纪80年代以来,多媒体技术和互联网的飞速发展将世界带入了一个崭新的信息时代。以图像、声音和视频为主的多媒体信息成为信息交换的主流,大大改变了人们的生活方式。在Internet上,纯文本页面正逐渐被加入多幅图像,相当数量的文字信息正越来越多地以图像和视频形式出现,因此,图像和视频中的文字检测和识别就是一个十分有意义的研究方向。本文以几种典型的文字提取方法为基础,对文字检测方法、特征分析和文字分割等关键问题进行了探讨,尤其是对文字检测和文字分割问题进行了深入细致的研究。 1.1 文字提取研究的意义 近年来,随着计算机和网络技术的发展,网页上的数字化图像和视频呈现爆炸式增长。而随着移动数码摄像设备的普及,用户也可以方便地使用移动设备拍摄自然场景中的数字化图像。同时,传统的图书馆为了满足用户对多媒体内容的查询需求,也开始收藏图像和音视频等内容。多样的信息给人们的生产和生活带来了巨大便利的同时,也使如何能让用户准确迅速地找到自己所需的多媒体内容成为日益突出和紧迫的需求,因而也需要有效的方法来组织和检索这些多媒体内容。传统的基于关键字的检索方式一方面由于信息量急剧膨胀使得抽取关键字变得繁琐而低效,另一方面单纯依靠关键词的检索结果不完整,不能满足用户的需要,因而基于内容的检索技术应运而生并代之成为主流[1]。 在传统的文本检索方面,自从Google等知名搜索引擎的出现,全文检索和Web Crawler等相关技术己经得到长足发展,人们可以很方便地用关键词去查找所需内容的网页、文档以及用文字标注好的图像和音视频等。对于文档图像,即对普通文档用扫描仪扫描后得到的图像,已经有较为成熟的光学字符识别技术(Optical Character Recognition, OCR),能够将这些图像识别成为文字,从而利用传统的基于关键字的方法对这些文档进行检索和过滤。 而在多媒体检索方面,由于图像、音视频的内容是非结构化的,如何抽取和描述其内容遇到很大的困难。早期的多媒体检索系统主要依据图像和视频的低层特征,如颜色、纹理结构、形状以及时序变化等,这些是机器能够直接感知和容易提取的,也称为感知内容。然而,用户的查询需求通常以语义形式描述,难以与感知内容相映射,如何从低层特征中抽取出高级语义内容现阶段还存在着根本性的困难,这个鸿沟是目前基于内容的图像和视频检索技术的关键难点之一[2]。 在各种图像和视频中,往往可以见到各种各样的文字,这些文字概括或者补充了关于图像和视频内容的信息,即在一定程度上反映了这些图像和视频的语
分享到:
收藏