295
编 辑 学 报
ACTA EDITOLOGICA
采用双层 PDF 形式将方正书版文件
制作为可检索式 PDF 文件
周 雪 莹
2012-12
)
6
24
(
烟台大学学报( 自然科学与工程版)
《
》
编辑部,
264005
,山东烟台
摘 要 以方正书版文件转换所得的几类常见的 PDF 文件为
素材,基于 OCR 技术和 PDF 文件编辑技术,探索出 2 类制作可
检索式双层 PDF 文件的方法。用 Readiris 法制作的 Image-Text
型双层 PDF 操作简便、文件很小、可生成 索 引 书 签; 用 Foxit
PDF Editor 法制作的 Graphic-Text 型双层 PDF 清晰度高、文本
精准。这 2 种双层 PDF 文件均可以很好地满足网络期刊文献
检索的需要。
关键 词 双 层 PDF 文 件; 检 索;
PDF Editor
OCR 技 术;
Readiris
Foxit
;
Making
searchable
network
periodicals
from Founder
Bookmaker documents in the form of double-layer PDF ∥
ZHOU Xueying
Abstract Using different types of PDF documents converted by
Founder Bookmaker documents
,
two methods of making searchable
double-layer PDF documents are explored based on OCR and PDF
editing techniques. The Image-Text double-layer PDF made by
Readiris is fairly small
in size
,
the process
is
simple and
convenient
,
and index bookmarks can be created simultaneously.
The resolution of Graphics-Text double-layer PDF made by Foxit
PDF Editor is exceedingly high
,
and the correctness of the text is
perfect. Both of
the two kinds of double-layer PDF can satisfy
document indexing of network periodicals.
Key words
double-layer PDF document
;
;
search
;
OCR
;
Readiris
Foxit PDF Editor
Author's address
Editorial Department of Journal of Yantai
,
) ,
Natural Science and Engineering Edition
264005
(
University
,
Yantai
China
目前网络期刊所提供的文献格式大都为
,而
期刊编辑部广泛使用的方正书版排版软件无法直接生
成
文件或不适
于检索,或版面显示效果不佳,不宜作为网络期刊的文
献资源,这就极大地制约了网络期刊的发展
文件,由各类软件转换生成的
PDF
PDF
PDF
本文基于
技术和
OCR
PDF
出将方正书版文件制作为可检索式
PDF
方法,以期对网络期刊建设提供技术参考
。
文件编辑技术,探索
类
文件的
2
。
1 双层 PDF 文件简介
又称为
双层
“
) 或
PDF”
透明文字
PDF
“
PDF”
可检索式
(
“
PDF”
,一般将其定义为
searchable
底层是扫
“
。
Text
Image
) 层的
) 层,上层是透明文字(
描图像(
PDF
],阅读时看到的是与纸样一致的底层扫描图
文件
[
1
”
像,搜索或用光标选取时又可直接对上层文字进行操
因其具有文字可检索的性质,可以在网络上进行在
作
线检索,并通过建立索引数据库进行科学的管理,所以
万方和维普期刊数据库对用方
非常适用于网络期刊
正书版排版的期刊就是将样刊扫描后,经
识别生
成
( 图像
文本) 型双层
-
本文所讲的双层
。
不仅包含了上述定义,还将
其范围进行了扩展,即底层除了为光栅模式的图像以
也就是说,除了人
外,还可以是矢量模式的曲线图形
们广泛接触的
还包括
。
外,双层
文件以供下载
Image-Text
OCR
PDF
PDF
。
PDF
Image-Text
型
( 图形文本) 型
PDF
Graphics-Text
2 常用的书版文件转 PDF 方法的优缺点
。
。
双层
制作是在已有的单层
文件基础上进
的方法进
PDF
PDF
PDF
PDF Creator
PS、S2、S72、PS2、EPS
PDF
的文件素材
PDF
行加工,因此,需要对常用的书版文件转
行分析,以筛选出适于用来制作双层
2. 1 书版文件直接转换为 Text 型矢量 PDF
2. 1. 1 方正 PDF Creator 法 方正
可将方正书版生成的
换为
都是全角形式,而文献检索时对英文
软件
等文件转
,版面效果非常好,文本可复制; 但所有文本
数字的检索都是
、
码的半角形式,所以无法检索其中的英文和数
软件
,文本正确率高; 但
数字也是全角形式,无法检索,且其字库不是方
、
字库,使得页面显示效果欠佳,如字体
CID
英文及符号之间间距不均,加之页面尺寸与
、
,不宜用来作为网络
ASCII
字,大大影响了文献检索的命中率
2. 1. 2 PS22PDF 法 ccyt
可将方正书版大样文件转换成
英文
正特有的
发生改变
文本字号都比原文件增大约
期刊的文献资源
2. 1. 3 S2toPDF / PStoPDF 法 Nooog
和
换成
极高
是不能用于检索的全角形式;
S2toPDF
文件转
文件的文本正确率均
文件中英文和数字也
文
软件分别可将方正大样文件和
文件,二者生成的
( 长城云天)
PS22PDF
生成的
生成的
PDF
但
( 龙谷)
PStoPDF
S2toPDF
30%
PDF
PDF
PDF
PS
。
。
。
PStoPDF
PDF
第
6
期
周雪莹: 采用双层
PDF
形式将方正书版文件制作为可检索式
文件
PDF
395
。
PS
件中原方正仿宋变为了宋体,原斜体字符变为了正体,
不能完美地反映排版效果
2. 2 文杰打印机虚拟打印生成 Graphics 型矢量 PDF
利用方正文杰系列打印机将方正书版文件虚拟打印
转换
为标准
],清晰度高,版面效果与
生成
印刷版完全一致,适于校对和出片印刷; 但其中的文字
为转曲的图形,虽能用光标选中却不能提取文本,无法
用于检索
2. 3 PSPPRO 虚拟打印法生成 Image 型光栅 PDF
利用方正
文件,再用
型矢量
的虚拟打印功能,通过
Adobe Acrobat
GSviewer
[
PDF
Graphics
或
。
2-3
pdfFactory、
PSPPRO
或
FinePrint
型光栅
清晰度不如矢量
PDF
将方正大样文件转换成
Adobe PDF
文件[
Image
],其版面效果虽忠实于印刷版,但
4-5
,文本也无法提取,不能进行检索
。
PDF
3 双层 PDF 的制作方法
3. 1
Image-Text 型 PDF 的制作 由
和
2.
文件版面效果与印刷版完全一
PDF
方法进行文本识别,可生成底层为光
2. 1. 1、2. 2
节所生成的单层
3
致,可对其用
栅图像
OCR
上层为透明文字的
、
) 利用
1
以上版本
该软件可识别
ABBYY Finereader
Image-Text
( 简称
型双层
ABBYY
和
882
的各类
行光栅化处理
2. 1. 1、2. 2
2. 3
。
文件,在打开文件的同时就将矢量
页面
界面中,选择
PDF
在
。
ABBYY
PDF。
)
9. 0. 0.
节生成
进
文
PDF
的
“
”
为
简体中文; 英文
,打开单层
”
档语言
始逐页进行文本识别选择转换识别,点击
对图像分辨率进行选择或设定,一般默认为
识别结束后将文件另存为
文档
PDF
“
文件,即开
,
编辑图像
”
300 dpi。
,即为双层
”
“PDF / A
PDF
文件
。
) 利用
)
2
10
PDF
( 简称
300 dpi
Readiris
Graphics
的双层
文件和
。Readiris
Readiris Corperate
PDF
底层图像为
识别向导
中文版本
文识别准确,可处理光栅
以上
中文版带有亚洲识别模块,对中
型矢量
文件,在对后者进行识别时将其光栅化,得到的是
字符
,语言为
”
英语( 美
文
图 像
-
,即生成
制
,便会随文件生成用页码和标题作为索引的
,次要语言为
“
发 送 到
文件,点击
格式
打开软件,将
图像文件
和
,格 式 输 出 为
打开单层
文件
“
国)
本
双层
作书签
书签,便于查找文中内容
Acrobat / Reader
保存
中的图像来源选择为
”
中文( 简体)
英式英语
+
选项
中勾取
PDF
在
PDF。
“PDF
识别
PDF
”。
的
”
“
“
”
”
“
”
“
“
”
。
“
”
”
“
) 利用
上版本具有
3
Adobe Acrobat 8. 0
以上版本
功能,但只能处理光栅
OCR
Acrobat
使用
“
OCR
上述
3
中打开
后选择
文档
PDF
“
”—“OCR
识别文本
种方法各有其特点,从近期
,保存或另存即生成双层
”
。Acrobat 8. 0
文件
PDF
。
文本识别
以
在
”—
PDF。
烟台大学学
篇文章进行效果
《
中抽取
》
15
报( 自然科学与工程版)
测试,结果见表
1。
。
“
表 1
“
”
3 种基于 OCR 的制作方法比较
方法
可使用的单层
范围*
PDF
ABBYY
Text
型
Graphics
型
; 光栅模式
PDF
PDF
;
PDF
型
; 光栅模式
PDF
Readiris
Acrobat
Graphics
光栅模式
PDF
PDF
识别前后的
型
( 识别前
Text
PDF
477 kb
PDF
)
文件平均大小( 以
Graphics
( 识别前
型
PDF
)
291 kb
300 dpi
为例)
光栅
( 识别前
/ kb
PDF
1 499 kb
2 838
—
—
2 124
194
—
3 851
268
2 420
)
转换
速度
较慢
快
快
文本识别
准确率
高
高
较低
表中
型
Text
*
PDF、Graphics
型
PDF
和光栅模式
PDF
分别对应方正
PDFCreator
法
文杰打印机虚拟打印法和
、
PSPPRO
虚拟打印法
。
3
1
PDF
由表
Readiris
。ABBYY
可知,这
可识别的
种方法中,只有
处理后
的文件比处理前大大减小,其他方法处理后文件均增
文件范围最广,文本识别
大
准确性高,可满足检索的需要,但转换速度较慢
生成
、
的双层
文件范
围最小,而且文本识别准确性较低,不适于用来检索;
文件很小,文本
Readiris
识别准确率也很高,而且可以生成索引书签,最适用于
双层
转换速度快,不仅生成的
对于平时使用方正
文件的制作
文件偏大;
可识别的
Acrobat
PDF
PDF
PDF
PDF
。
法的编辑部,可在日常校对和出片印刷时使用
生成的单层
PDF
文件,在制作网络期刊时可考
PDF
法或
Readiris
Creator
虑使用
。
3. 2 Graphics-Text 型 PDF 的制作 由上文可知,
的文本准确率高,而且
PStoPDF
法制作双层
法生成的
ABBYY
文件
PDF
PDF
Text
型
tor
Graphics
英文和数字均可检索,但字体显示效果不佳; 而文杰打
,其版面显示佳
印机虚拟打印生成的
且清晰度高,但不含有文本信息: 因此,可采用
编
在一起,即提
辑软件将这
取
型
类各具优点的
中的文本,以隐藏形式覆盖在
型
PDF
上,得到
Graphics
本文利用
PDF“
合成
PDF
PDF
Text
型
”
2
PDF
Foxit PDF Editor
Graphics-Text
软件来进行
型双层
合成
“
中打开
”
PDF。
,具体步骤如下
型
Text
PDF
。
,点击
Foxit PDF Editor
全部选择
”
,即选中当前页的文本;
分号等横线,
、
以将其从选中的文本中排除( 因横线不能隐藏) ,点击
并用鼠标单击半字线
Ctrl
2
复制
“
;
”
) 在
3
Foxit PDF Editor
翻至相应页面,
“
粘贴
PDF
,即可将复制的文本覆盖在其上;
”
Graphics
中再打开
型
,
) 在
1
编辑
”—“
) 按住
PDF Crea-
“
495
编 辑 学 报
ACTA EDITOLOGICA
创立医学期刊会议品牌的实践
———以《中华消化外科杂志》为例
陈 敏 张玉琳 张 昊 陶 东 邹迎芬 董家鸿
2012-12
)
6
24
(
第三军医大学西南医院
中华消化外科杂志
《
》
编辑部,
400038
,重庆
摘 要 基于价值链的理论在当前期刊界竞争日渐激烈的情
况下,充分挖掘期刊品牌的市场价值,才可以形成无限延伸的
市场价值链,带动更多的价值创造。品牌作为期刊的一项重要
的无形资产,反映了期刊发展的潜力,决定了期刊的长期竞争
力。以《中华消化外科杂志》编委会和编辑部主办的系列高端
会议、年度精品会议和额外增补会议为例,探讨医学期刊会议
的差异化经营及其带来的效益。
关键词 期刊; 会议; 第三次售卖
Creation of
the conference brand of a medical scientific
:
journal
based on the practice of Chinese Journal of Digestive
,
,
,
,
ZHANG Yulin
ZHANG Hao
TAO Dong
Surgery∥CHEN Min
ZOU Yingfen
DONG Jiahong
,
Abstract
In an era with fierce competition among the journals
,
unlimited extension of the market value of the journal brand can be
,
formed only through digging the market value of the journal brand
and thus driving creation of more value. As an important intangible
asset of the journal
,
brand reflects the development potential of the
,
journal
and determines the long-term competitiveness of
the
journal. This paper investigates the benefits brought by series of
high-end conferences organized by the editorial board and editorial
department of Chinese Journal of Digestive Surgery.
Key words
journal
;
;
meeting
third sale
Authors' address
,
Digestive Surgery
400038
,
Chongqing
,
China
Editorial Department of Chinese Journal of
。
。
而期刊遵循的是
次售卖,其很大程度受到第
价值链的理论最早是由美国战略管理学家波特提
他认为: 企业的每项生产活动都是创造价值
出的[
]
1
的经济活动
次
次售卖的影响,因
和第
的核心就是基于期刊的品牌和资源
为
。
品牌作为期刊的一项重要的无形资产,反映了期刊发
展的潜力,决定了期刊的长期竞争力[
会议为期刊
在当前期刊界竞争日渐激烈的
的终端品牌价值之一
第三次售卖
次售卖
对于第
。
“
”
。
]
2
3
1
2
3
。
檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼檼
) 用光标将粘贴进来的文本区域移动至与下层
选择使用
。
4
相应文字重合;
) 点击右侧属性栏的
,将
文本模式
选为
5
“Text”
没有填充和笔画的文本( 不可见)
“
,上层文本即隐藏;
”
) 重复以上步骤,将文章逐页处理,保存即得到
”
“
5 参考文献
] 桂花
[
双层
.
1
(
) :
2011
3
PDF
[
1
大作战[
]
:
J / OL
]
.
微型计算机
,
· Geek
2011-10-25
. http
∥www. dooland. com / mag-
azine / article_119167. html
[
] 陈永杰,邢宝山,张祥合,等
2
.
利用
格式 文 件 的 转 换[
PDF
Adobe Acrobat 7. 0
(
编 辑 学 报,
,
2006
18
J 〗.
实现
) :
6
437-438
[
] 周雪莹
3
.
向
PDF
应用
文件的转换[
J
Ghostscript
]
.
GSview
和
编辑学报,
实现方正书版
文件
PS
(
,
22
5
) :
2010
454-456
[
] 熊水斌,胡新宇,马敏峰,等
4
文档的一种快捷方法[
]
J
.
(
) :
1
86-88
] 李德华
[
利用方正小样与
5
.
校对[
]
编辑学报,
.
J
[
] 李宗红
利用
6
2008
.
科技期刊方正大样转为
.
中国科技期刊研究,
PDF
,
17
2006
PDF
,
(
20
6
文件的无缝对接实现远程
) :
545-547
软件实现图
Adobe Acrobat Professional 8. 0
]
文件的转换[
中国科技
J
.
文件到文本型
) :
69-70
方正书版大样转双层
文件的
武汉理工大学学报: 信息与管理工程版,
,
21
PDF
PDF
(
.
片型
期刊研究,
PDF
1
[
] 艾红,徐泽智,章丽萍
7
2010
实现方法[
]
J
.
) :
(
,
33
2011
2
214-216
(
2012-07-20
收稿;
2012-09-09
修回)
6
将
Graphics-Text
3. 1
PDF。
型双层
节 中 抽 取 的
型双层
PDF
Graphics-Text
为
Readiris
网络期刊还是很便利的
,虽比
728 kb
。
4 结束语
以双层
篇 文 章 依 此 法制 作 为
15
,计算得到文件大小平均值
文件偏大,但用于
法所得
PDF
型双层
PDF
文件作为文献资源,可以轻松地实现
网络期刊的在线实时检索,这对促进学术期刊数字化
网络化发展具有积极的意义
法制作
用
。
Readiris
Im-
,操作简便,文件很小,可生成索
型双
种方法各有所
Graphic-Text
这
法制作
。
2
Foxit PDF Editor
PDF
age-Text
引书签; 用
层
长,均比前人报道的方法[
文件
PDF
6-7
,清晰度高,文本识别精准
PDF
各期刊编辑部在制作网络期刊时可视具体情况
]更适宜制作可检索式
。
通信作者