1 信息组织引论
习 题
1、解释下列术语:
、知识经济、文献、信息组织、著录、标引、检索、款目、目录、专指度、网罗度、ISBD、
AACR2。
2、为什么说“失去控制和无组织的信息不再是一种资源”?
3、简述信息组织的原理。
4、简述信息组织的发展沿革。
5、列举网络环境下信息组织的常用方法。
6、试述计算机技术在信息描述与揭示中的应用。
答 案
1、解释下列术语:
知识经济:建立在知识和信息的生产、分配和使用上的经济。
文献:用文字、图形、符号、图像、声频、视频信息记录知识的一切载体,或具有独立、完
整含义的信息集合。
信息组织:即信息序化或信息整序,也就是利用一定的科学规则和方法,通过对信息外在特
征和内容特征的描述和序化,实现无序信息流向有序信息流的转换,从而保证用户对信息的
有效获取和利用及信息的有效流通和组合。
著录:指依据一定的规则,对文献外表形式、物质形态和内容特征进行分析、选择和记录的
过程。
标引:指分析文献的内容属性(特征)及相关外表属性,并用特定语言表达分析出的属性或
特征,从而赋予文献检索标识的过程。
检索:指从信息集合中发现、查出所需信息的活动与过程。
款目:依据一定的方法和规则,对文献外表形式、物质形态和内容特征所作出的客观描述。
目录:将款目按照一定的规则有序地排列起来便形成了目录。
专指度:主题标识与文献主题概要的相符程度。
网罗度:对文献信息内容进行标引的完备程度,具体表现为所标引主题数量的多少。
ISBD:全称是——International Standard Bibliographic Description,译为《国际标准书目著录》。
AACR2:全称是 Anglo-American Cataloging Rules:2,译作《英美编目条例第二版》。
2 信息资源开发的基本内容与环节包括信息的组织、检索和利用。信息组织信息资源开发的
关键性环节,也是信息检索利用的基础。没有它,就不会有信息检索系统,也不会有信息检
索,从而也就谈不上信息的有效利用。因此无序的信息根本不能用于检索和利用,不再是一
种资源。
3 信息组织的原理包括两方面:
(1)信息组织的理论基础
系统论、耗散结构理论和协同论是信息组织的理论基础。
(2)信息组织的方法基础
语言学、逻辑学、知识分类是信息组织的方法基础。
4 信息组织的发展经历了以下几个时期:
(1)清册职能时期:主要通过对信息的记录和登载,如同“信息帐房先生”,告诉人们有什
么信息。
(2)查检职能时期:不仅告诉人们有什么信息,而且告诉人们怎样找到信息。
(3)组织职能时期:不仅可以告诉人们我们这里有什么信息,而且还可告诉人们其他地方
有什么信息;人们不仅可以找到最需要的信息,而且还可以知道什么信息适合于自己;人们
不仅可以利用一种途径获得信息,而且可以多途径、多角度地查检信息。
5 网络环境下信息资源的组织方法:
(1)网络一次信息资源的组织方法
超文本方法;自由文本方法;主页方式
(2)网络二次信息的组织方式
搜索引擎方法;主题树方法;
6(1)自动标引技术
(2)数据挖掘技术
(3)信息推送技术
(4)基于内容的检索技术
2 信息资源组织的分类描述语言
习 题
类号
仿分 分类语言 同位类
复分 体系分类法 上位类 基本大类 八分法 层累制 分面
1、解释下列术语:
类 组配分类法 下位类 组配 分类 类目
基本部类
双位制 借号法
2、文献分类应遵循什么规则?
3、比较体系分类法和组配分类法各自的特点。
4、试述体系分类法的结构体系。
5、简述 UDC、DDC、LCC、CC、《科图法》各自的特点。
6、现有文献分类法在组织网络信息资源方面有哪些优势和不足?应对其如何调整?
7、以 Yahoo!为例,叙述网络自编分类系统的特点。
8、举例说明如何利用网络分类目录查找信息。
答 案
1、解释下列术语:
类:许多具有某种(或某些)共同属性的事物的集合。
组配分类法:组配分类法的构成基于概念的可分析性和可综合性。即一个复杂概念可以分析
为若干简单概念(或概念因素),若干简单概念可以综合为一个复杂概念。
下位类:经过一次划分所形成的一系列概念称为子类或下位类。
组配:利用分类表中已有的表示简单主题概念的类号,按一定规则组合成一个复合类号,用
以表达分类表中没有的复杂概念。
分类:可以用另一种属性作为划分标准(分类标准)来对这一类事物进行划分,即分类。
类目:构造分类法的最基本要素,每个类目代表具有某种共同属性的文献集合。一个类目是
由类号、类名、类级、注释和参照组成的。
类号:是类目的代号,也叫标记符号,决定类目在分类体系中的位置。
仿分:利用相临或相关类目的子目,作为有关类目复分依据的组配编号法。
分类语言:用分类号来表达各种概念,将各种概念按学科性质进行分类和系统排列。
同位类:各子类互称为同位类。
基本部类:对人类全部知识领域或特定知识领域及其文献所作的最概括的区分,但它不是分
类表的类目,不用于类分文献或信息。
复分:将主表中按相同标准划分某些类目所产生的一系列相同子目抽取出来,配以特定号码,
单独编列,供主表有关类目进一步细分的类目。
体系分类法:又称等级分类法、列举式分类法,是一种直接体现知识分类的等级制概念标识
系统。它是对概括文献信息内容及某些外表特征的概念进行逻辑分类(划分与概括)和系统排
列而构成的。
上位类:被划分的类称为母类或上位类。
基本大类:分类表中的第一级类目,它代表着较大的学科或领域。
八分法:又称扩九法,即当某类列的同位类类号标记到 8,且尚有若干同位类待标记时,则
9 本身不用,扩展为 91、92、93……99,为第 9 个及以后的同位类配号。
层累制:根据类目的不同等级,配以相应不同位数号码的编号方法,类目的等级与其号码位
数是相对应的。
分面:指可以描述一类事物某一方面属性或问题的一组简单概念或类目。
双位制:双位制又称百分法,即在某类目下将用于配号的数字 1-9 不直接使用,而是分别
扩展为双位数字标记其下属同位类目的编号法。
借号法:采用层累标记制时为了增加类列的容纳性而采用的借用下位类、上位类、同位类类
号的一种编号方法。
2 分类应遵守下列规则:
(1)唯一性
(2)完整性
(3)科学性
3 组配分类法的分类标识是散组式的,组合的,可以分拆的,其中诸因素可以变换位置的;
而体系分类法的分类标识是定组式的,固定的,不可分拆的,其中诸因素是不可变换位置的。
4 (1)体系分类法的宏观结构
(2)体系分类法的微观结构
类目是构造分类法的最基本要素,每个类目代表具有某种共同属性的文献集合。一个类目是
由类号、类名、类级、注释和参照组成的。
注释和参照
5 UDC 特点:
较早、较全面地采用概念分析与综合原理及冒号组配技术,是世界上第一部半分面分类法。
类目详尽,详本类目多达 15-21 万个。
标记制度灵活,辅助符号多达十几种,表达概念能力强。
DDC 特点:
类目体系完整,覆盖全部知识、文献;类目详尽,等级分明,便于理解使用。
首创以简明的号码标记类目的方法,便于图书排架、目录组织和检索。
首次采用小数标记制。
首次使用了复分和仿分方法。
首创了图书分类法的类目相关索引。
成立了常设管理机构,不断修订更新,保持分类法的长久生命力。
LCC 特点:
类目体系有文献保证,因而实用性强。
列类详细(尤其在人文、社会科学部分),类目超过 23 万个,是世界上类目最多的一部分类
法。
是典型的列举式分类法,较少采用组配方法。没有通用复分表,各大类几乎分别编有地区、
形式、主题等专用复分表,各大类复分表的类目设置和配号均不相同。
类号较简短,容纳概念的能力较强。
有专门机构负责修订,及时反映新的变化。
CC 特点:
可以灵活组配、表达复杂标引对象
设置了较多的基本类目。采用分面结构,将每一主题划分为若干范畴,范畴之下列出具体的
点和面,形成类表。
影响深远,为分类学领域带来了一场动态分类的革命,推动了分类理论及其他相关信息组织
理论的研究,也直接影响了 DDC、UDC 等老牌分类体系的修订,并导致了大量以分面组配
为特征的新型分类语言的产生。
《科图法》特点:
自然科学部分的类目比较详细,科学系统性比较强,能较好地反映当时科学技术的发展水平。
采用了类目交替、参见等方法,使分类法既适合大型综合性图书馆使用,又方便专业图书馆
使用。
只采用阿拉伯数字作基本标记符号,单纯简便,易写易记。
采用顺序制与小数层累制相结合的标记制度,并运用一些灵活的配号方法(八分法、双位制、
借号法),使类号具有较强灵活性、助记性和容纳性。
结构完整,除主表外,有多个通用附表(复分表)及相关索引,主表中还有专类复分表,并
采用了仿分。
文献分类法在组织网络信息中具有的优势:
由于限定了检索范围,可以提高查准率;
分类等级结构可以提供检索词的上下文;
自动索引结构便于用户在查找时进行浏览;
检索目的不明确或检索词不确定时,分类浏览方式更有效率;
以知识分类为基础,以符号为标识,具备成为不同语言转换中介的条件;
非文本信息在网络信息资源中所占比例日渐增大,其内容特征难以用文字表达,分类法的聚
类功能及号码标识为之提供了一条可能途径。
不足:
类目设置缺乏规律性
类目归属存在着不合理现象
同位类排列不能揭示类间关系
横向关系揭示上存在不一致
部分类名不确切
分类规则有待完善
应做出的调整:
将分类法的文献保证扩展到包括 Internet 信息资源,增加必要的新类目;
修订类名,增强其表达性和通用性;
分解和标记类号的组成因素,以识别它所表达的特定主题和主题方面;
不断增加新的术语作为索引词;
扩展分类法与其他受控词汇的联系;
控制使用类目的深度,多数网络分类检索系统只使用分类法的 1-3 级类目。
自编分类系统的特点:
重视以事物为中心设置类目
类目收录范围宽泛
多重列类、重复反映
排列方式简便
直接以语词组织信息
更新迅速
7、Yahoo!将所收录的全部信息分为了 14 个大类,每一个基本类目下会细分为不同层次的
次一级类目,级别越低的类目中的网站其主题越明确。具体体现在以下几方面:
(1)采用宽泛的主题领域建立分类索引
(2)根据上下文进行信息内容的组合
(3)利用冒号标记信息内容
(4)提供不同的路径入口
8. 略
3 信息资源组织的主题描述语言
习 题
1、解释下列术语:
主题法、标题、单元词、叙词、关键词、后控制词表、入口词表、搜索引擎、OCLC、MeSH、
ILAS。
2、列举标题语言的显著特点并分析其原理。
3、比较字面组配和概念组配。
4、叙词语言如何综合多种标引语言的原理和方法?叙词语言由此获得了哪些好的性能?
5、简述叙词表的结构体系。
6、试述《汉语主题词表》主题词参照系统的组成。
7、评述关键词语言的性能并分析其原理。
答 案
1、解释下列术语:
主题法:用语词来表达各种概念,将各种概念不管其相互关系完全按字顺排列。
标题:是主题标目(Subject Heading)的简称,它是直接表达文献主题的标识,大多是对文
献内容所论及事物名称及特征的规范表达。
单元词:指一个个最小、最基本的词汇单位,是能够用来描述文献所论及或涉及的事物──
主题的那些单词。
叙词:以受控的自然语言词汇作标识,主要以标识的概念组配来表达主题概念的一种后组式
主题语言。
关键词:是指那些出现在文献的标题(篇名、章节名)以至摘要、正文中,对描述文献主题
内容具有实质意义的语词,亦即对提示和描述文献主题内容来说是重要的、带关键性的(可
以作为检索“入口”的)那些语词。
后控制词表:只供检索的主导表,这种词表实际上是一种同义词、近义词和相关词的集合。
入口词表:有的叙词表为了大量收录非叙词,就把非叙词单独编成一表,称为入口词表,其
内容包括编表过程中落选的词和标引过程中记录下来的词,每个非叙词都引向正式叙词。
词族索引:它是利用概念的等级关系(概念成族原理)将叙词汇集在一起成为一族,构成一
个从泛指叙词到专指叙词的等级系统,可以从一族中外延最广的叙词(族首词)出发,找到
一系列同族的叙词,并且可以明确它们之间的层层隶属关系。
范畴索引:它是将叙词按其概念所属学科或范畴分成若干大类,在大类之下再分成若干小类,
在小类之下则将叙词按字顺排列,形成一个类似体系分类表的概念分类系统。
搜索引擎:是一种利用网络自动搜索技术,对 Internet 上各种资源进行标引,并为检索者提
供检索的工具。
OCLC:全称(Online Computer Library Center,Inc.),即联机计算机图书馆中心
MeSH:《医学标题表》(Medical Subject Headings)
ILAS:图书馆自动化集成系统
2 标题语言的特点:
① 用受控的自然语言语词作标识,直观地表达主题概念,直接地标引文献。
② 以字顺序列组织标识,提供直接的主题检索途径。有利于进行特性检索。
③ 主要用参照系统间接显示标题所表达的主题概念之间的关系,形成语义网络。能为选用
标题进行标引和检索提供一定方便。
④ 按事物集中文献,而不是按学科、专业集中。因此,标题语言适合于从事物出发的检索,
不适合于从学科出发的检索,不便族性检索。
⑤ 提供先组式的主题标识,标识涵义比较明确,选用标识比较容易。但是,多途径检索的
可能性较小。
标引所用的标题不必都是标题表所列举的现成标题。允许必要时自拟标题表达新的或没有列
出的主题概念,适应能力较强。
3 概念组配与字面组配的区别主要表现在两个方面:
两者的本质不同
概念组配本质上是在概念分析的基础上进行概念综合。字面组配是利用构词法进行词的分拆
和组合,它符合构词规律,但是,不一定符合概念逻辑,字面组配的方法比较简单、直接,
但是,对概念的表达时常不够准确。
两者的词汇单元不同
单元词是字面上不能再分的词汇单元,相对来说,独立表达能力较差。叙词则具有概念特征,
尽可能选用能够表达学科或事物的基本概念的语词,不仅收单词,而且收词组,对主题的表
达能力较强。
4 叙词语言既以单元词语言为直接基础,又综合了多种标引语言的原理和方法,包括:
(1)它保留了单元词法单词组配的基本原理;
(2)采用了组配分类法的概念组配来代替单元词法的字面组配,以及适当采用标题法的预
先组配方法(即采用词组),以克服某些词分拆后再组配时产生意义失真的缺点;
(3)采用了标题法对语词进行严格规范化的方法,以保证词与概念的──对应。这是标题
法的基本方法之一。单元词法对单元词的规范方法也取自标题法;
(4)采用并进一步完善了标题法的参照系统,采用了体系分类法的基本原理编制叙词分类
索引(范畴索引)和等级索引(词族索引),采用了与关键词法类似的方法编制叙词轮排索
引,从多方面显示叙词间的相关关系,以保证准确、全面地选用叙词进行标引和检索。
由于叙词语言综合了多种标引语言的原理和方法,并以概念组配为基本原理,因而具有多种
有益于标引和检索的特点。
(1)叙词语言所采用的概念组配原理,使其避免了语词字面组配可能产生的概念表达误差,
不仅保证了组配语义的准确性,提高查准率,而且也减小了采用复杂句法控制措施的必要性,
简化标引和检索。
(2)叙词语言不仅采用了完善的参照系统,而且还使用了多种其它方法显示概念之间的关
系,从而增加了查词途径及准确理解和选用叙词的依据,有利于提高查全率和查准率。
(3)灵活的叙词组配,使叙词语言具有较强的概念表达能力,能专指、及时地表达各种复
杂、新颖的主题。
(4)叙词语言提供检索同一课题的多条途径,也允许多主题因素检索或增减主题因素进行
检索,在检索上有较大的灵活性。
(5)能同时适用于标识单元方式和文献单元方式的检索系统,兼顾手工检索和计算机检索
的需要,特别有利于发挥计算机检索系统的优越性。
5 叙词表的结构体系一般由一个主表和若干辅表构成。主表是叙词表的主体,包括的内容最
全,对每个叙词的著录也比较完备,所以可独立存在。辅表是为方便叙词表使用而编制的各
种辅助索引,包括的内容不全,著录也比较简略,所以不能独立存在。
6 《汉语主题词表》主题词参照系统如图所示:
7 关键词语言作为标引语言和检索语言来说,质量比较差,其原因在于:
(1)由于关键词法直接采用文献中的自然语词作关键词,对自然语言中大量存在的等同关
系词不加规范统一,也不显示等同关系,使相同主题文献常常因作者用词不同而被分排各处
且无联系,导致漏检的可能性较大。
(2)关键词法不显示关键词之间的等级关系和相关关系,难以进行族性检索,特性检索的
查全率也不高。
(3)为了加速和简化检索工具的编制过程,多限于从文献标题中抽取。由于一些标题对文
献内容的表达不充分或不准确,会使关键词检索有一定的漏检或误检。
(4)在机编索引情况下,由于机械地抽词和轮排,其中有不少关键词款目是不起检索作用
而徒增篇幅的。
尽管关键词语言具有以上那些缺点,但还是得到了广泛的应用,这是因为:
(1)标引时无需主题分析和查看词表,简便易行,因而降低对标引人员的要求,节省大量
人力。
(2)标引和索引编制易于实现自动化,从而显著节省时间,大大缩短检索系统信息组织和
报导的时差,保证信息报导和传递的及时性。
(3)关键词是文献中使用的自然语词,表达主题比较直观、专指,可以保证较高的查准率。
4 标准通用标记语言 SGML 及相关标准
习 题
SGML 有哪些特点?它用什么方法实现描述电子文献的国际标准?
HTML 文档的体系结构如何描述?
列表有哪几类?如何实现不同的列表描述?
如何实现定义列表格式?
如何设置字符的属性?水平线与图像的属性如何描述?
字符样式有几种?如何定义字符样式?
表格的标签与属性有哪些?如何实现特定要求表格的描述?
表单有哪几种?它们如何定义?
超文本链接的基本方法有哪些?如何实现超链接?
在 HTML 文档中如何链接 E-mail 程序?
在因特网上组织信息、发布与获取信息的技术条件是什么??
半结构化数据有何特点?
在 Web 上组织图像信息常用哪些.方法?如何实现?
如何在网上组织声频信息?
在网上组织视频信息常有哪些方法?各有何特点?
答 案
SGML 的主要特点是它的通用性与独立性。所谓通用性是指 SGML 可支持无数的文档结构
类型,例如布告、技术手册、章节目录、设计规范、各种报告、信函和备忘录等;独立性是
它与硬件、软件独立。SGML 可以创建与特定的软硬件无关的文档,因此很容易与使用不同
计算机系统的用户交换文档。标准通用标记语言定义独立于平台和应用的文本文档的格式、
索引和链接信息,为用户提供一种类似于语法的机制,用来定义文档的结构和指示文档结构
的标签(tag)。 其中,markup 的含义是指插入到文档(document)中的标记。标记分成两种,
一种称为程序标记(procedural markup),用来描述文档显示的样式(style)(如字体的大小、黑
体、斜体和颜色等),现在市场上出售的大多数字处理软件都内嵌有标记,而且这种标记几
乎都是针对自己的软件产品而制定的;另一种称为描述标记(descriptive markup),也称为普
通标记(generic markup),用来描述文档中的语句的用途(如篇、章、节或者内容表等),而不
是描述语句所显示的样式。制定 SGML 的基本思想是把文档的内容与样式分开。
一个 HTML 文档通常由文档头(head)、文档名称(title)、表格(table)、段落(paragraph)和列表(list)
等成分构成。为了表达方便,我们把这些成分称为文档元素(element),简称为元素,它们是
文本文档的基本构件,并且使用超文本标记语言(HTML)规定的标签(tag)来标识这些元素。
HTML 支持无编号列表和有序号列表,而且还可以在列表中套列表。 1)
表示标签之间的列表项目是无编号列表(Unnumbered List)。2)
…
表示标签之间
的列表项目是有序号列表(Ordered List)。 3)
:表示标签后面的内容是具体的列表项目
(List Item)。
?定义列表的标签:、- 和
-
①
标签:表示定义列表(Definition Lists)
②- 标签:表示后面的项是定义术语(Definition Term)
③
- 标签:表示后面的项是定义释义(Definition Definition