logo资料库

文件双层PDF的制作.pdf

第1页 / 共3页
第2页 / 共3页
第3页 / 共3页
资料共3页,全文预览结束
295 编 辑 学 报 ACTA EDITOLOGICA 采用双层 PDF 形式将方正书版文件 制作为可检索式 PDF 文件 周 雪 莹 2012-12 ) 6 24 ( 烟台大学学报( 自然科学与工程版) 《 》 编辑部, 264005 ,山东烟台 摘 要 以方正书版文件转换所得的几类常见的 PDF 文件为 素材,基于 OCR 技术和 PDF 文件编辑技术,探索出 2 类制作可 检索式双层 PDF 文件的方法。用 Readiris 法制作的 Image-Text 型双层 PDF 操作简便、文件很小、可生成 索 引 书 签; 用 Foxit PDF Editor 法制作的 Graphic-Text 型双层 PDF 清晰度高、文本 精准。这 2 种双层 PDF 文件均可以很好地满足网络期刊文献 检索的需要。 关键 词 双 层 PDF 文 件; 检 索; PDF Editor OCR 技 术; Readiris Foxit ; Making searchable network periodicals from Founder Bookmaker documents in the form of double-layer PDF ∥ ZHOU Xueying Abstract Using different types of PDF documents converted by Founder Bookmaker documents , two methods of making searchable double-layer PDF documents are explored based on OCR and PDF editing techniques. The Image-Text double-layer PDF made by Readiris is fairly small in size , the process is simple and convenient , and index bookmarks can be created simultaneously. The resolution of Graphics-Text double-layer PDF made by Foxit PDF Editor is exceedingly high , and the correctness of the text is perfect. Both of the two kinds of double-layer PDF can satisfy document indexing of network periodicals. Key words double-layer PDF document ; ; search ; OCR ; Readiris Foxit PDF Editor Author's address Editorial Department of Journal of Yantai , ) , Natural Science and Engineering Edition 264005 ( University , Yantai China 目前网络期刊所提供的文献格式大都为 ,而 期刊编辑部广泛使用的方正书版排版软件无法直接生 成 文件或不适 于检索,或版面显示效果不佳,不宜作为网络期刊的文 献资源,这就极大地制约了网络期刊的发展 文件,由各类软件转换生成的 PDF PDF PDF 本文基于 技术和 OCR PDF 出将方正书版文件制作为可检索式 PDF 方法,以期对网络期刊建设提供技术参考 。 文件编辑技术,探索 类 文件的 2 。 1 双层 PDF 文件简介 又称为 双层 “ ) 或 PDF” 透明文字 PDF “ PDF” 可检索式 ( “ PDF” ,一般将其定义为 searchable 底层是扫 “ 。 Text Image ) 层的 ) 层,上层是透明文字( 描图像( PDF ],阅读时看到的是与纸样一致的底层扫描图 文件 [ 1 ” 像,搜索或用光标选取时又可直接对上层文字进行操 因其具有文字可检索的性质,可以在网络上进行在 作 线检索,并通过建立索引数据库进行科学的管理,所以 万方和维普期刊数据库对用方 非常适用于网络期刊 正书版排版的期刊就是将样刊扫描后,经 识别生 成 ( 图像 文本) 型双层 - 本文所讲的双层 。 不仅包含了上述定义,还将 其范围进行了扩展,即底层除了为光栅模式的图像以 也就是说,除了人 外,还可以是矢量模式的曲线图形 们广泛接触的 还包括 。 外,双层 文件以供下载 Image-Text OCR PDF PDF 。 PDF Image-Text 型 ( 图形文本) 型 PDF Graphics-Text 2 常用的书版文件转 PDF 方法的优缺点 。 。 双层 制作是在已有的单层 文件基础上进 的方法进 PDF PDF PDF PDF Creator PS、S2、S72、PS2、EPS PDF 的文件素材 PDF 行加工,因此,需要对常用的书版文件转 行分析,以筛选出适于用来制作双层 2. 1 书版文件直接转换为 Text 型矢量 PDF 2. 1. 1 方正 PDF Creator 法 方正 可将方正书版生成的 换为 都是全角形式,而文献检索时对英文 软件 等文件转 ,版面效果非常好,文本可复制; 但所有文本 数字的检索都是 、 码的半角形式,所以无法检索其中的英文和数 软件 ,文本正确率高; 但 数字也是全角形式,无法检索,且其字库不是方 、 字库,使得页面显示效果欠佳,如字体 CID 英文及符号之间间距不均,加之页面尺寸与 、 ,不宜用来作为网络 ASCII 字,大大影响了文献检索的命中率 2. 1. 2 PS22PDF 法 ccyt 可将方正书版大样文件转换成 英文 正特有的 发生改变 文本字号都比原文件增大约 期刊的文献资源 2. 1. 3 S2toPDF / PStoPDF 法 Nooog 和 换成 极高 是不能用于检索的全角形式; S2toPDF 文件转 文件的文本正确率均 文件中英文和数字也 文 软件分别可将方正大样文件和 文件,二者生成的 ( 长城云天) PS22PDF 生成的 生成的 PDF 但 ( 龙谷) PStoPDF S2toPDF 30% PDF PDF PDF PS 。 。 。 PStoPDF PDF
第 6 期 周雪莹: 采用双层 PDF 形式将方正书版文件制作为可检索式 文件 PDF 395 。 PS 件中原方正仿宋变为了宋体,原斜体字符变为了正体, 不能完美地反映排版效果 2. 2 文杰打印机虚拟打印生成 Graphics 型矢量 PDF 利用方正文杰系列打印机将方正书版文件虚拟打印 转换 为标准 ],清晰度高,版面效果与 生成 印刷版完全一致,适于校对和出片印刷; 但其中的文字 为转曲的图形,虽能用光标选中却不能提取文本,无法 用于检索 2. 3 PSPPRO 虚拟打印法生成 Image 型光栅 PDF 利用方正 文件,再用 型矢量 的虚拟打印功能,通过 Adobe Acrobat GSviewer [ PDF Graphics 或 。 2-3 pdfFactory、 PSPPRO 或 FinePrint 型光栅 清晰度不如矢量 PDF 将方正大样文件转换成 Adobe PDF 文件[ Image ],其版面效果虽忠实于印刷版,但 4-5 ,文本也无法提取,不能进行检索 。 PDF 3 双层 PDF 的制作方法 3. 1 Image-Text 型 PDF 的制作 由 和 2. 文件版面效果与印刷版完全一 PDF 方法进行文本识别,可生成底层为光 2. 1. 1、2. 2 节所生成的单层 3 致,可对其用 栅图像 OCR 上层为透明文字的 、 ) 利用 1 以上版本 该软件可识别 ABBYY Finereader Image-Text ( 简称 型双层 ABBYY 和 882 的各类 行光栅化处理 2. 1. 1、2. 2 2. 3 。 文件,在打开文件的同时就将矢量 页面 界面中,选择 PDF 在 。 ABBYY PDF。 ) 9. 0. 0. 节生成 进 文 PDF 的 “ ” 为 简体中文; 英文 ,打开单层 ” 档语言 始逐页进行文本识别选择转换识别,点击 对图像分辨率进行选择或设定,一般默认为 识别结束后将文件另存为 文档 PDF “ 文件,即开 , 编辑图像 ” 300 dpi。 ,即为双层 ” “PDF / A PDF 文件 。 ) 利用 ) 2 10 PDF ( 简称 300 dpi Readiris Graphics 的双层 文件和 。Readiris Readiris Corperate PDF 底层图像为 识别向导 中文版本 文识别准确,可处理光栅 以上 中文版带有亚洲识别模块,对中 型矢量 文件,在对后者进行识别时将其光栅化,得到的是 字符 ,语言为 ” 英语( 美 文 图 像 - ,即生成 制 ,便会随文件生成用页码和标题作为索引的 ,次要语言为 “ 发 送 到 文件,点击 格式 打开软件,将 图像文件 和 ,格 式 输 出 为 打开单层 文件 “ 国) 本 双层 作书签 书签,便于查找文中内容 Acrobat / Reader 保存 中的图像来源选择为 ” 中文( 简体) 英式英语 + 选项 中勾取 PDF 在 PDF。 “PDF 识别 PDF ”。 的 ” “ “ ” ” “ ” “ “ ” 。 “ ” ” “ ) 利用 上版本具有 3 Adobe Acrobat 8. 0 以上版本 功能,但只能处理光栅 OCR Acrobat 使用 “ OCR 上述 3 中打开 后选择 文档 PDF “ ”—“OCR 识别文本 种方法各有其特点,从近期 ,保存或另存即生成双层 ” 。Acrobat 8. 0 文件 PDF 。 文本识别 以 在 ”— PDF。 烟台大学学 篇文章进行效果 《 中抽取 》 15 报( 自然科学与工程版) 测试,结果见表 1。 。 “ 表 1 “ ” 3 种基于 OCR 的制作方法比较 方法 可使用的单层 范围* PDF ABBYY Text 型 Graphics 型 ; 光栅模式 PDF PDF ; PDF 型 ; 光栅模式 PDF Readiris Acrobat Graphics 光栅模式 PDF PDF 识别前后的 型 ( 识别前 Text PDF 477 kb PDF ) 文件平均大小( 以 Graphics ( 识别前 型 PDF ) 291 kb 300 dpi 为例) 光栅 ( 识别前 / kb PDF 1 499 kb 2 838 — — 2 124 194 — 3 851 268 2 420 ) 转换 速度 较慢 快 快 文本识别 准确率 高 高 较低 表中 型 Text * PDF、Graphics 型 PDF 和光栅模式 PDF 分别对应方正 PDFCreator 法 文杰打印机虚拟打印法和 、 PSPPRO 虚拟打印法 。 3 1 PDF 由表 Readiris 。ABBYY 可知,这 可识别的 种方法中,只有 处理后 的文件比处理前大大减小,其他方法处理后文件均增 文件范围最广,文本识别 大 准确性高,可满足检索的需要,但转换速度较慢 生成 、 的双层 文件范 围最小,而且文本识别准确性较低,不适于用来检索; 文件很小,文本 Readiris 识别准确率也很高,而且可以生成索引书签,最适用于 双层 转换速度快,不仅生成的 对于平时使用方正 文件的制作 文件偏大; 可识别的 Acrobat PDF PDF PDF PDF 。 法的编辑部,可在日常校对和出片印刷时使用 生成的单层 PDF 文件,在制作网络期刊时可考 PDF 法或 Readiris Creator 虑使用 。 3. 2 Graphics-Text 型 PDF 的制作 由上文可知, 的文本准确率高,而且 PStoPDF 法制作双层 法生成的 ABBYY 文件 PDF PDF Text 型 tor Graphics 英文和数字均可检索,但字体显示效果不佳; 而文杰打 ,其版面显示佳 印机虚拟打印生成的 且清晰度高,但不含有文本信息: 因此,可采用 编 在一起,即提 辑软件将这 取 型 类各具优点的 中的文本,以隐藏形式覆盖在 型 PDF 上,得到 Graphics 本文利用 PDF“ 合成 PDF PDF Text 型 ” 2 PDF Foxit PDF Editor Graphics-Text 软件来进行 型双层 合成 “ 中打开 ” PDF。 ,具体步骤如下 型 Text PDF 。 ,点击 Foxit PDF Editor 全部选择 ” ,即选中当前页的文本; 分号等横线, 、 以将其从选中的文本中排除( 因横线不能隐藏) ,点击 并用鼠标单击半字线 Ctrl 2 复制 “ ; ” ) 在 3 Foxit PDF Editor 翻至相应页面, “ 粘贴 PDF ,即可将复制的文本覆盖在其上; ” Graphics 中再打开 型 , ) 在 1 编辑 ”—“ ) 按住 PDF Crea- “
495 编 辑 学 报 ACTA EDITOLOGICA 创立医学期刊会议品牌的实践 ———以《中华消化外科杂志》为例 陈 敏 张玉琳 张 昊 陶 东 邹迎芬 董家鸿 2012-12 ) 6 24 ( 第三军医大学西南医院 中华消化外科杂志 《 》 编辑部, 400038 ,重庆 摘 要 基于价值链的理论在当前期刊界竞争日渐激烈的情 况下,充分挖掘期刊品牌的市场价值,才可以形成无限延伸的 市场价值链,带动更多的价值创造。品牌作为期刊的一项重要 的无形资产,反映了期刊发展的潜力,决定了期刊的长期竞争 力。以《中华消化外科杂志》编委会和编辑部主办的系列高端 会议、年度精品会议和额外增补会议为例,探讨医学期刊会议 的差异化经营及其带来的效益。 关键词 期刊; 会议; 第三次售卖 Creation of the conference brand of a medical scientific : journal based on the practice of Chinese Journal of Digestive , , , , ZHANG Yulin ZHANG Hao TAO Dong Surgery∥CHEN Min ZOU Yingfen DONG Jiahong , Abstract In an era with fierce competition among the journals , unlimited extension of the market value of the journal brand can be , formed only through digging the market value of the journal brand and thus driving creation of more value. As an important intangible asset of the journal , brand reflects the development potential of the , journal and determines the long-term competitiveness of the journal. This paper investigates the benefits brought by series of high-end conferences organized by the editorial board and editorial department of Chinese Journal of Digestive Surgery. Key words journal ; ; meeting third sale Authors' address , Digestive Surgery 400038 , Chongqing , China Editorial Department of Chinese Journal of 。 。 而期刊遵循的是 次售卖,其很大程度受到第 价值链的理论最早是由美国战略管理学家波特提 他认为: 企业的每项生产活动都是创造价值 出的[ ] 1 的经济活动 次 次售卖的影响,因 和第 的核心就是基于期刊的品牌和资源 为 。 品牌作为期刊的一项重要的无形资产,反映了期刊发 展的潜力,决定了期刊的长期竞争力[ 会议为期刊 在当前期刊界竞争日渐激烈的 的终端品牌价值之一 第三次售卖 次售卖 对于第 。 “ ” 。 ] 2 3 1 2 3 。 檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼 ) 用光标将粘贴进来的文本区域移动至与下层 选择使用 。 4 相应文字重合; ) 点击右侧属性栏的 ,将 文本模式 选为 5 “Text” 没有填充和笔画的文本( 不可见) “ ,上层文本即隐藏; ” ) 重复以上步骤,将文章逐页处理,保存即得到 ” “ 5 参考文献 ] 桂花 [ 双层 . 1 ( ) : 2011 3 PDF [ 1 大作战[ ] : J / OL ] . 微型计算机 , · Geek 2011-10-25 . http ∥www. dooland. com / mag- azine / article_119167. html [ ] 陈永杰,邢宝山,张祥合,等 2 . 利用 格式 文 件 的 转 换[ PDF Adobe Acrobat 7. 0 ( 编 辑 学 报, , 2006 18 J 〗. 实现 ) : 6 437-438 [ ] 周雪莹 3 . 向 PDF 应用 文件的转换[ J Ghostscript ] . GSview 和 编辑学报, 实现方正书版 文件 PS ( , 22 5 ) : 2010 454-456 [ ] 熊水斌,胡新宇,马敏峰,等 4 文档的一种快捷方法[ ] J . ( ) : 1 86-88 ] 李德华 [ 利用方正小样与 5 . 校对[ ] 编辑学报, . J [ ] 李宗红 利用 6 2008 . 科技期刊方正大样转为 . 中国科技期刊研究, PDF , 17 2006 PDF , ( 20 6 文件的无缝对接实现远程 ) : 545-547 软件实现图 Adobe Acrobat Professional 8. 0 ] 文件的转换[ 中国科技 J . 文件到文本型 ) : 69-70 方正书版大样转双层 文件的 武汉理工大学学报: 信息与管理工程版, , 21 PDF PDF ( . 片型 期刊研究, PDF 1 [ ] 艾红,徐泽智,章丽萍 7 2010 实现方法[ ] J . ) : ( , 33 2011 2 214-216 ( 2012-07-20 收稿; 2012-09-09 修回) 6 将 Graphics-Text 3. 1 PDF。 型双层 节 中 抽 取 的 型双层 PDF Graphics-Text 为 Readiris 网络期刊还是很便利的 ,虽比 728 kb 。 4 结束语 以双层 篇 文 章 依 此 法制 作 为 15 ,计算得到文件大小平均值 文件偏大,但用于 法所得 PDF 型双层 PDF 文件作为文献资源,可以轻松地实现 网络期刊的在线实时检索,这对促进学术期刊数字化 网络化发展具有积极的意义 法制作 用 。 Readiris Im- ,操作简便,文件很小,可生成索 型双 种方法各有所 Graphic-Text 这 法制作 。 2 Foxit PDF Editor PDF age-Text 引书签; 用 层 长,均比前人报道的方法[ 文件 PDF 6-7 ,清晰度高,文本识别精准 PDF 各期刊编辑部在制作网络期刊时可视具体情况 ]更适宜制作可检索式 。 通信作者 
分享到:
收藏