现代汉语语料库加工规范
——词语切分与词性标注
1999 年 3 月版
北京大学计算语言学研究所
1999 年 3 月 14 日
⒈ 前言
北大计算语言学研究所从 1992 年开始进行汉语语料库的多级加工研究。第一步是对原
始语料进行切分和词性标注。1994 年制订了《现代汉语文本切分与词性标注规范V1.0》。
几年来已完成了约 60 万字语料的切分与标注,并在短语自动识别、树库构建等方向上进行
了探索。在积累了长期的实践经验之后,最近又进行了《人民日报》语料加工的实验。为了
保证大规模语料加工这一项重要的语言工程的顺利进行,北大计算语言学研究所于 1998 年
10 月制订了《现代汉语文本切分与词性标注规范V2.0》(征求意见稿)。因这次加工的任务
超出词语切分与词性标注的范围,故将新版的规范改名为《现代汉语语料库加工规范》。
制订《现代汉语语料库加工规范》的基本思路如下:
⑴ ⑴ 词语的切分规范尽可能同中国国家标准 GB13715“信息处理用现代汉语分词
规范” (以下简称为“分词规范”)保持一致。由于现在词语切分与词性标注是结合起来进
行的,而且又有了一部《现代汉语语法信息词典》(以下有时简称“语法信息词典”或“语
法词典”)可作为词语切分与词性标注的基本参照,这就有必要对“分词规范”作必要的调
整和补充。
⑵ ⑵ 小标记集。词性标注除了使用《现代汉语语法信息词典》中的 26 个词类标记
(名词 n、时间词 t、处所词 s、方位词 f、数词 m、量词 q、区别词 b、代词 r、动词 v、形
容词 a、状态词 z、副词 d、介词 p、连词 c、助词 u、语气词 y、叹词 e、拟声词 o、成语 i、
习用语 l、简称 j、前接成分 h、后接成分 k、语素 g、非语素字 x、标点符号 w)外,增加
了以下 3 类标记:①专有名词的分类标记,即人名 nr,地名 ns,团体机关单位名称 nt,其
他专有名词 nz;②语素的子类标记,即名语素 Ng,动语素 Vg,形容语素 Ag,时语素 Tg,
副语素 Dg 等;③动词和形容词的子类标记,即名动词 vn(具有名词特性的动词),名形词
an(具有名词特性的形容词),副动词 vd(具有副词特性的动词),副形词 ad(具有副词特
性的形容词)。合计约 40 个左右。
⑶ ⑶ 规范的多元性。既要适应语言信息处理与语料库语言学研究的需要,又要能
为传统的语言研究提供充足的素材;既要适合计算机自动处理,又要便于人工校对。
⑷ ⑷ 词组(短语)本位汉语语法体系的指导作用。汉语的词类与句法成分之间不
存在简单的一一对应关系。同一个句法成分可以由不同词性的词来充任;而具有确定词性的
同一个词又可以充当不同的句法成分,形式上可以没有任何不同的标记。《现代汉语语法信
息词典》是在词组本位语法体系的语法思想指导下研制的,其最基本的成果是对数以万计的
词语根据其在实际语料中的语法功能分布,特别是优势功能分布决定了它们的词性(即它们
所属的词类)。在进行词性标注时,应当充分利用《现代汉语语法信息词典》,承接这个基本
成果,避免仅根据词在所在的句子中充当的句子成分来决定其词性。同时考虑到语言学界对
汉语词类的划分存在不同意见,在标记集中增加了名动词 vn,名形词 an,副动词 vd,副形
词 ad。当然,增加这些标记并非只是缓冲不同意见,主要是为了给词的兼类研究提供计量
根据,也
为汉语词的概率语法属性描述作准备。
⑸ 为了对新闻语料中大量存在的专有名词(地名、团体机构名称等)进行研究(从
命名规律到自动识别),在切分与标注的基础上对由若干个词组合而成的短语型专有名词加
上方括号和类型标记(主要是 nt,nz,还有少量的 ns)。
⑹ 不是孤立使用本规范。在使用本规范对语料库进行加工时,将与《现代汉语语法
信息词典》等项研究成果密切配合。当现在的研究和将来的应用(中文信息检索、中文信息
提取、汉外机器翻译等)相衔接时,就可以方便地利用词典中丰富的词语语法属性信息。而
经过切分和词性标注的语料库又可以验证和丰富词典中词语的属性,进而建立词的概率语法
属性描述。经过切分和词性标注的语料库同《现代汉语语法信息词典》结合,形成一个立体
的语言知识库。语料库的进一步深加工(树库,注音,义项标注等)也有了可靠的基础。
⑺ 人机互助的工作方式。以本规范为基准,继续扩充自动加工软件的功能并提高其
精度。人工校对是必要的。需要重视校对人员之间的切磋,要将对学术问题的不同见解统一
到规范的制订与执行上。开发机器辅助编辑和语料库管理软件,保证语料库加工的一致性。
本规范分为三个部分:
① 切分规范
切分规范主要规定现代汉语的切词原则,即什么样的汉字组合可以为一个切分单位。第
2 章中详细介绍对“分词规范”的补充与调整。
② 切分和标注相结合的规范
在汉语中,像“双音节动词+单音节名词”通常构成新的名词,对于这个新的名词,即
使在词典中没有登录,也应该把它们处理为一个切分单位。因此,在本规范中,给出了一些
基于词性描述的构词规律,规定了什么样的组合可以处理为一个切分单位,并给出了新组合
的词的词性标记。这部分内容主要集中在第 3 章中。
③ ③ 标注规范
③-1 一般词性标注
标注规范用以确定切分单位的标记。以 1999 年 2 月份语法词典小组提供的 7 万词表为
基本参照,其含义包括:
a. a. 标记集以 26 个词类标记为基准,名动词、副动词、名形词、副形词和专
有名词的标记是在动词代码 v、形容词代码 a、名词代码 n 后增加一个小写字
母,语素标记是在语素代码 g 前面增加一个大写字母。
b. b. 一个词若在语法词典中已属于某一个或若干个词类,人工标注(校对)
时不要轻易增加词性。如“训练”、“强调”在语法词典中只属于动词,标注时
切勿仅根据其在当前句子的功能就将它们改为名词或副词,可以标注为名动词
vn 或副动词 vd。
c. c. 当语法词典给某个词确定的词性不对或不完备时,当然也要订正或补充。
这时应通知词典小组。
d. d. 即使语法词典中的简称实际上指的是团体、机构、组织名称或地名,标
注时仍标以 j,而不要改为 nt 或 ns。
e. e. “唐朝”、“宋代”等历史朝代名称虽然也是专名,因语法词典已作为时
间词收入,标注时仍标以 t,不改为 nz。
第 4 章集中论述标注规范。
③-2 专有名词标注
这里“专有名词”的含义有了拓展。短语型的地名、团体机构名称及其他专有名称在词
的切分基础上用 ASCII 码的方括号括起来,并在右方括号之后标以相应的 ns、nt、nz,方
括号不嵌套。第 2 章与第 3 章都涉及这部分内容。
⒉ 切分规范
2.1 基本概念
⑴ 切分单位
“分词单位”是中国国家标准“分词规范”中的一个基本概念。它是指信息处理中使用
的、具有确定的语义和语法功能的基本单位。为了同“分词规范”衔接,这里仍沿用“分词
单位”这个概念,不过术语改用“切分单位”,因为“分词”这个术语已在英语语法中长期
使用,大家已经熟悉,而用同一个术语表达同一或邻近学科的多个概念容易引起混乱。
按照“分词规范”对“切分单位”的定义和解释,本切分规范中的“切分单位”主要是
词,也包括了一部分结合紧密、使用稳定的词组。在某些特殊情况下孤立的语素或非语素字
也可能出现在切分序列中,如在动词的离合形式
出/v 了/u 一/m 次/q 差/Ng 。/w
中,“差/Ng”是名语素;又如在
鹧鸪/n 的/u 鹧/x 有/v 什么/r 意思/n 吗/y ?/w
中,“鹧/x”是非语素字。
从字数考虑,对两个字的组合较宽地看作是一个切分单位,三个字的较严,四个字以
上的若不是成语、习惯用语一般不看作是一个切分单位。
⑵ 词典词条
“词典词条”(或“词条”)指《现代汉语语法信息词典》中收录的那些词语。1999 年 2
月提供给本项工程使用的词条的总数约 7 万,这些词语都已归了类,即带有词性标记。
⑶ 切分单位和词条的关系
汉语中,词和词组的界限、成词语素和不成词语素的边界是模糊的。本规范规定,凡收
入语法信息词典的词条(包括:词、词组、成语、习用语、简称乃至标点符号等)一般都是
切分单位。由于语法词典中的词条多达 7 万,对真实文本的覆盖率很高,因此可以保证绝大
多数切分单位和语法词典的词条是一致的,但两者之间还是有差异的。例如 5 个字以上的成
语、习用语是切分单位,但未被收入现在的语法词典。像“一百二十八”、“五分之三”、“百
分之九”、“1998 年”、“10 月 30 日”这样的数词和时间词实际上是无限多的,语法词典不可
能全收,只可能收少量的构成成分。反过来,像“分之”、“百分之”作为助数词收入了语法
词典,但它们并不是切分单位。语法词典中包含的前接成分、后接成分、语素、非语素字不
是切分单位,尽管当它们不能与前后成分组合时也会孤立地出现在切分序列中。
当处理大规模真实文本时,不可避免地会碰到未登录词。第 3 章给出了一些合成词的构
造规则。根据这些规则自动生成的或经校对者确认的切分单位,如果结合稳定,使用频度较
高,以后有可能补充到语法词典中。
2.2 对分词规范的补充和调整
为醒目起见,以下用符号“*”标识那些补充的规定,用“Δ”标识那些调整的规定。
⑴ 人名: nr
① 汉族人及与汉族起名方式相同的非汉族人的姓和名单独切分,并分别标注为
nr。
张/nr 仁伟/nr, 欧阳/nr 修/nr, 阮/nr 志雄/nr, 朴/nr 贞爱/nr
② 姓名后的职务、职称或称呼要分开。
江/nr 主席/n, 小平/nr 同志/n, 江/nr 总书记/n,
张/nr 教授/n, 王/nr 部长/n, 陈/nr 老总/n,
李/nr 大娘/n, 刘/nr 阿姨/n, 龙/nr 姑姑/n
③ 对人的简称、尊称等若为两个字,则合为一个切分单位,并标以 nr。
老张/nr, 大李/nr, 小郝/nr, 郭老/nr, 陈总/nr
④ 明显带排行的亲属称谓要切分开,分不清楚的则不切开。
三/m 哥/n, 大婶/n, 大/a 女儿/n, 大哥/n, 小弟/n, 老爸
/n
* ⑤ 一些著名作者的或不易区分姓和名的笔名通常作为一个切分单位。
鲁迅/nr, 茅盾/nr, 巴金/nr, 三毛/nr, 琼瑶/nr, 白桦/nr
⑥ 外国人或少数民族的译名(包括日本人的姓名)不予切分,标注为 nr。
克林顿/nr, 叶利钦/nr, 才旦卓玛/nr, 小林多喜二/nr,北研二/nr,
华盛顿/nr, 爱因斯坦/nr
Δ 有些西方人的姓名中有小圆点,也不分开。
卡尔·马克思/nr
⑵ 地名: ns
安徽/ns, 深圳/ns, 杭州/ns, 拉萨/ns, 哈尔滨/ns, 呼和浩特
/ns,
乌鲁木齐/ns, 长江/ns, 黄海/ns, 太平洋/ns, 泰山/ns, 华山/ns,
亚洲/ns, 海南岛/ns, 太湖/ns, 白洋淀/ns, 俄罗斯/ns,哈萨克斯坦/ns,
彼得堡/ns, 伏尔加格勒/ns
① 国名不论长短,作为一个切分单位。
中国/ns, 中华人民共和国/ns,日本国/ns, 美利坚合众国/ns, 美国/ns
Δ② 地名后有“省”、“市”、“县”、“区”、“乡”、“镇”、“村”、“旗”、“州”、“都”、
“府”、“道”等单字的行政区划名称时,不切分开,作为一个切分单位。
四川省/ns, 天津市/ns,景德镇市/ns,沙市市/ns, 牡丹江市/ns,正定县/ns,
海淀区/ns, 通州区/ns,东升乡/ns, 双桥镇/ns 南化村/ns,华盛顿州/ns,
俄亥俄州/ns,东京都/ns, 大阪府/ns,北海道/ns, 长野县/ns,开封府/ns,
宣城县/ns
Δ③ 地名后的行政区划有两个以上的汉字,则将地名同行政区划名称切开,不过要将
地名同行政区划名称用方括号括起来,并标以 ns。
[芜湖/ns 专区/n]ns,[宣城/ns 地区/n]ns,[内蒙古/ns 自治区/n]ns,
[宁夏/ns 回族/nz 自治区/n]ns, [深圳/ns 特区/n]ns,
[厦门/ns 经济/n 特区/n]ns, [香港/ns 特别/a 行政区/n]ns,
[香港/ns 特区/n]ns, [华盛顿/ns 特区/n]ns,
[广西/ns 环江/ns 毛南族/nz 自治县/n]ns,
[青海/ns 果洛/ns 藏族/nz 自治州/n]ns
④ 地名后有表示地形地貌的一个字的普通名词,如“江、河、山、洋、海、岛、峰、
湖”等,不予切分。
鸭绿江/ns, 亚马逊河/ns, 喜马拉雅山/ns, 珠穆朗玛峰/ns,地中海/ns,
大西洋/ns, 洞庭湖/ns, 塞普路斯岛/ns
Δ⑤ 地名后接的表示地形地貌的普通名词若有两个以上汉字,则应切开。也要将地名
同该普通名词用方括号括起来,并标以 ns。
[台湾/ns 海峡/n]ns, [华北/ns 平原/n]ns, [帕米尔/ns 高原/n]ns,
[南沙/ns 群岛/n]ns, [京东/ns 大/a 峡谷/n]ns [横断/b 山脉/n]ns
⑥ 地名后有表示自然区划的一个字的普通名词,如“ 街,路,道,巷,里,町,
庄,村,弄,堡”等,不予切分。
中关村/ns, 长安街/ns, 学院路/ns, 景德镇/ns, 吴家堡/ns,
庞各庄/ns, 三元里/ns, 彼得堡/ns, 北菜市巷/ns,
Δ⑦ 地名后接的表示自然区划的普通名词若有两个以上汉字,则应切开。也要将地名
同自然区划名词用方括号括起来,并标以 ns。
[米市/ns 大街/n]ns, [蒋家/nz 胡同/n]ns, [陶然亭/ns 公园/n]ns
⑧ 大小地名相连时的标注方式为:
北京市/ns 海淀区/ns 海淀镇/ns [南/f 大街/n]ns [蒋家/nz 胡同/n]ns 24/m 号
/q
Δ⑶ 团体、机构、组织的专有名称: nt
① 团体、机构、组织的专有名称若作为名词登录在语法词典中,则直接标注为
nt。
联合国/nt, 中共中央/nt, 国务院/nt, 北京大学/nt
② 大多数团体、机构、组织的专有名称一般是短语型的,较长,且含有地名或人
名等专名,不会登录在语法词典中,本规范规定先切分,再组合,加方括号标注
为 nt。
[中国/ns 计算机/n 学会/n]nt, [香港/ns 钟表业/n 总会/n]nt,
[烟台/ns 大学/n]nt, [合肥/ns 师范/n 学院/n]nt,
[北京/ns 图书馆/n]nt, [富士通/nz 株式会社/n]nt,
[香山/ns 植物园/n]nt, [安娜/nz 美容院/n]nt,
[上海/ns 手表/n 厂/n]nt, [永和/nz 烧饼铺/n]nt,
[北京/ns 国安/nz 队/n]nt, 北京队/nt, 雷锋班/nt
注:“北京队”、“雷锋班”作为“词”,“厂”同“手表”切开,而“铺”同“烧饼”合
在一起。这皆符合双音节名词同后面的单音节名词或语素结合的一般规则。见第 4 章。
③ 团体、机构、组织名称的专指性是必要的,孤立的“大学、学院、图书馆、植
物园”等只标为 n,不标为 nt。在一篇文章的开头,团体、机构、组织名称的专
指性是明确的,后文往往使用简称。当省略了专名,只剩下普通名词时,就不再
标 nt。如采访浙江省委书记的报道,记者开始一定会写明“浙江省委”,这时加
工成:
[浙江/ns 省委/n]nt
后文引用省委书记的话时,尽管“省委”指的就是“浙江省委”,但只标注为:
省委/n
也就是说,本次加工只考虑局部的上下文,而不作远程相关的语义分析。同样,
“北京大学校长办公室”应加工为:
[北京大学/nt 校长/n 办公室/n]nt
若句子中只有“校长办公室”,前面没有“北京大学”,则只加工成:
校长/n 办公室/n
尽管在给定的更大的上下文环境中,该“校长办公室”是专指的。
④ 尽管有③的规定,对于在国际或中国范围内的知名的唯一的团体、机构、组织
的名称即使前面没有专名,也标为 nt。
联合国/nt, [国际/n 贸易/n 组织/n]nt,
国务院/nt, 外交部/nt, 财政部/nt, 教育部/nt, 国防部/nt,
[国家/n 教育/vn 委员会/n]nt, [信息/n 产业/n 部/n]nt,
[全国/n 信息/n 技术/n 标准化/vn 委员会/n]nt,
[全国/n 总/b 工会/n]nt, [全国/n 人民/n 代表/n 大会/n]nt
美国的“国务院”,其他国家的“外交部、财政部、教育部”,必须在其所属国的国
名之后出现时,才联合标注为 nt。
[美国/ns 国务院/n]nt, [法国/ns 外交部/n]nt, [美/j 国会/n]nt
日本有些政府机构名称很特别,无论是否出现在“日本”国名之后都标为 nt。
[日本/ns 外务省/nt]nt, [日/j 通产省/nt]nt, [日本国/ns 法务省/nt]nt,
通产省/nt
⑤ 前后相连有上下位关系的团体机构组织名称的处理方式如下:
[联合国/nt 教科文/j 组织/n]nt
[中国/ns 银行/n 北京/ns 分行/n]nt
[河北省/ns 正定县/ns 西平乐乡/ns 南化村/ns 党支部/n]nt
[北京大学/nt 昌平/ns 分校/n]nt
[安徽/ns 人大/j 常委会/j 办公室/n]nt
[北京大学/nt 计算/vn 语言学/n 研究所/n]nt
当下位名称含有专名(如“北京/ns 分行/n”、“南化村/ns 党支部/n”、“昌平
/ns 分校/n”)时,也可脱离前面的上位名称单独标注为 nt。
[中国/ns 银行/n]nt [北京/ns 分行/n]nt
河北省/ns 正定县/ns 西平乐乡/ns [南化村/ns 党支部/n]nt
北京大学/nt [昌平/ns 分校/n]nt
如果下位名称不含有专名,则必须同上位名称捆绑在一起标注。
⑥ 团体、机构、组织名称中用圆括号加注简称时的处理方法示例。
[宝山/ns 钢铁/n (/w 宝钢/j )/w 总/b 公司/n]nt
[宝山/ns 钢铁/n 总/b 公司/n]nt (/w 宝钢/j )/w
Δ⑷ 除人名、国名、地名、团体、机构、组织以外的其他专有名词都标以 nz,具体
规定如下。
① 专有名称后接单音节的语素,如表示民族的“族”、表示语言的“语”,表示文
字的“文”,则不切分,标注为 nz。
满族/nz, 俄罗斯族/nz,哈萨克族/nz, 塞尔维亚族/nz, 高山族/nz,
维吾尔语/nz, 蒙古语/nz, 汉语/nz, 罗马利亚语/nz, 捷克语/nz
中文/nz, 英文/nz, 西班牙文/nz,蒙文/nz,俄文/nz
② 专有名称后接单音节的名词,如表示人种的“人”、表示奖项的“奖”,通常不
切分,标以 nz;也允许切分,分别标注。
满人/nz, 哈萨克人/nz,诺贝尔奖/nz, 茅盾奖/nz,
哈萨克/nz 人/n, 高山族/nz 人/n, 安徽/ns 人/n
③ 包含专有名称(或简称)的交通线,标以 nz;短语型的,使用方括号。
津浦路/nz, 石太线/nz, [京/j 九/j 铁路/n]nz,
[京/j 津/j 高速/b 公路/n]nz, [北京/ns -/w 西雅图/ns 航线
④ 历史上重要事件、运动等专有名称一般是短语型的,按短语型专有名称处理,
标以 nz。
[卢沟桥/ns 事件/n]nz, [西安/ns 事变/n]nz, [五四/t 运动
/n]nz
/n]nz
[明治/nz 维新/n]nz, [甲午/t 战争/n]/nz
⑤ 专有名称后接多音节的名词,如“语言”、“文学”、“文化”、“方式”、“精神”
等,失去专指性,则应切分。
欧洲/ns 语言/n, 法国/ns 文学/n, 西方/ns 文化/n,
贝多芬/nr 交响乐/n, 雷锋/nr 精神/n,
美国/ns 方式/n, 日本/ns 料理/n, 宋朝/t 古董/n
也有人认为“主义”是后接成分,且其后常接另一个后接成分“者”,因此将
“主义”同其前面的专有名称合在一起作为一个切分单位(参见:3.2(2)③之 d)。
马克思主义/n, 马克思列宁主义/n, 杜鲁门主义/n,
马克思主义者/n, 列宁主义者/n, 社会主义者/n
⑥ 商标(包括专名及后接的“牌”、“型”等)是专指的,标以 nz,但其后所接
的商品仍标以普通名词 n。
康师傅/nr 方便面/n, 中华牌/nz 香烟/n, 牡丹 III 型/nz 电视机
/n
/j]nz
/vn
联想/nz 电脑/n, 鳄鱼/nz 衬衣/n, 耐克/nz 鞋/n
⑦ 以序号命名的名称一般不认为是专有名称。
2/m 号/q 国道/n , 十一/m 届/q 三中全会/j
如果前面有专名,合起来作为短语型专名也是可以的。
[中国/ns 101/m 国道/n]nz, [中共/j 十一/m 届/q 三中全会
⑧ 书、报、杂志、文档、报告、协议、合同等的名称通常有书名号加以标识,不
作为专有名词。由于这些名字往往较长,名字本身按常规处理。
《/w 宁波/ns 日报/n 》/w ,《/w 鲁迅/nr 全集/n 》/w,
中华/nz 读书/vn 报/n, 杜甫/nr 诗选/n,
《/w 大众/n 医学/n 》/w, 邓/nr 小平/nr 文选/n
少数收入词典的书名、报刊名等专有名称,则不切分。
红楼梦/nz, 人民日报/nz, 儒林外史/nz
⑨ 当有些专名无法分辨它们是人名还是地名或机构名时,暂标以 nz。
[巴黎/ns 贝尔希/nz 体育馆/n]nt,
其中“贝尔希”只好暂标为 nz。
⑩ 一般的命名活动常用引号表示,也不看作专有名称。
香港/ns 举行/v “/w 庆/Vg 回归/v 公益/n 千万/m 行/Vg ”/w 活动
第三/m 次/q 横田/ns 基地/n 噪音/n 诉讼/vn
食谱上的菜名等通常也是短语型的,若拆开了,意思差别甚远,则不切分,否
则切分。即使不切分,也不看作是专有名词。
宫保肉丁/n, 木樨肉/n, 松鼠鳜鱼/n, 红烧肉/n,
鸡蛋/n 汤/n, 芝麻/n 饼/n, 鸡丝/n 面/n
Δ⑸ 数词与数量词组
① 基数、序数、小数、分数、百分数一律不予切分,为一个切分单位,标注为 m 。
一百二十三/m, 120 万/m, 123.54/m, 一个/m,
第一/m, 第三十五/m, 20%/m, 三分之二/m, 千分之三十/m
“几”和“零”属于基本的系数词(或位数词),因此包含“几”和“零”的
基数、序数、小数、分数、百分数也不切分。
几十/m 人/n, 几十万/m 元/q, 第一百零一/m 个/q
② 约数,前加副词、形容词或后加“来、多、左右”等助数词的应予切分。
约/d 一百/m 多/m 万/m, 仅/d 一百/m 个/q, 四十/m 来/m 个/q,
二十/m 余/m 只/q, 十几/m 个/q, 三十/m 左右/m,
几十/m 人/n, 几十万/m 元/q, 近/a 20/m 年/q 来
/f
两个数词相连的及“成百”、“上千”等则不予切分。
五六/m 年/q, 七八/m 天/q, 十七八/m 岁/q, 成百/m 学生/n,
上千/m 人/n, 成千上万/i 的/u 群众/n
③ 数量词组应切分为数词和量词。
三/m 个/q, 10/m 公斤/q, 一/m 盒/q 花/n
*但少数数量词已是词典的登录单位,则不再切分。
一个/m, 一些/m(“分词规范”中也将“一些”作为一个切分单位)
④ 表序关系的“数+名”结构,应予切分。
如∶二/m 连/n , 三/m 部/n
Δ⑹ 时间词
① 年月日时分秒,按年、月、日、时、分、秒切分,标注为 t 。
1997 年/t 3 月/t 19 日/t, 98 年/t 10 月/t 8 日/t,
3 月/t 10 日/t 下午/t 2 时/t 18 分/t
这里应注意时间词与数量词的区分,例如:“78 年”指“1978 年”时应标注为“78 年
/t”,当指数量“七十八年”时应切分标注为“78/m 年/q”。再如 两/m 个/q 月/n,三/m 天
/q 时间/n 。同样,当“8 日”指一个月当中的第八天时为时间词,不予切分,标注为“8
日/t”;若表示 8 天时,则要分开,标注为“8/m 日/q”。
若数字后无表示时间的“年、月、日、时、分、秒”等的标为数词 m。
中文/n 电脑/n 国际/n 会议/n ’/w 96/m
1998/m 中文/n 信息/n 处理/vn 国际/n 会议/n
*② 历史朝代的名称虽然有专有名词的性质,仍标注为 t。
西周/t, 秦朝/t, 东汉/t, 南北朝/t, 清代/t
“牛年、虎年”等一律不予切分,标注为:
牛年/t、 虎年/t
“甲午年、庚子、戊戌”等也不予切分,标注为:
甲午年/t, 甲午/t 战争/n, 庚子/t 赔款/n, 戊戌/t 变法/n
Δ⑺ 单音节代词“本”、“每”、“各”、“诸”后接单音节名词时,和后接的单音节名
词合为代词;当后接双音节名词时,应予切分。
本报/r, 每人/r, 本社/r, 本/r 地区/n, 各/r 部门/n
△⑻ 区别词
① 一般为切分单位,并标以词性 b。
女/b 司机/n, 金/b 手镯/n, 慢性/b 胃炎/n, 古/b 钱币/n
副/b 主任/n, 总/b 公司/n
② 单音节区别词和单音节名词或名语素组合,作为一个切分单位,并标以名词
词性 n。
雄鸡/n, 雌象/n, 女魔/n, 古币/n
*③ 少数“单音节区别词+双音节词”的结构作为一个词收入了词典,则不再切分。
总书记/n
△⑼ 动词加动词或动词加形容词构成的述补结构
未收入词典的双音节述补结构,若拆开各是一个词,通常作为两个切分单位。
走/v 到/v, 撞/v 上/v , 调/v 好/a, 坐/v 稳/a
若拆开了,其中至少有一个是语素,通常就不切分,作为一个切分单位。
形成/v, 鼓动/v, 说明/v, 震动/v
双音节的述补结构中间插入“得”或“不”一般应予切分,
走/v 得/u 到/v, 走/v 不/d 到/v, 安/v 得/u 上/v,安/v 不/d 上/v
但是如果去掉“得”或“不”后,前后两个字不构成一个词的,则作为一个分词单位。
来得及/v, 来不及/v, 对得起/v, 对不起/v, 说得过去/l, 说不过去
/l
有的去掉“得”或“不”后虽然是一个合成词,但其中至少有一个是语素,拆开了是难以理
解的,仍作为一个切分单位。
形得成/v, 形不成/v
*⑽ 四个字以上的短语,通常应切分。
总结/v 经验/n, 贯彻/v 执行/v, 调查/v 研究/v,
一/m 慢/a 二/m 看/v 三/m 通过/v
但像“生产资料/n ”、 “国民经济/n”、 “生产关系/n”等若作为一个词已收入词典的就
不再切分。
*⑾ 四个字的成语或习惯用语为一个切分单位,并标以词性 i 或 l。
胸有成竹/i, 欣欣向荣/i, 众所周知/i, 由此可见/l, 新春伊始/l
⑿ 超过四个字的习惯用语或成语,一般不予切分,标注为 l 或 i 。
近水楼台先得月/i, 一年之计在于春/i,
不管三七二十一/i, 众人拾柴火焰高/i, 铁公鸡一毛不拔/l
中间用标点符号分开的,则切分。
挂羊头/i ,/w 卖狗肉/i 百尺竿头/i ,/w 更进一步/i
上不着天/i ,/w 下不着地/i
⒀ 表达一个完整概念或集合的缩略语为一个切分单位,并标以 j。
三好/j, 爱委会/j, 教科文/j, 农工牧副渔业/j, 中西方/j
*在有顿号分开的情况下,则切分:
德/j 、/w 意/j 、/w 日/j, 港/j 、/w 澳/j 、/w 台/j,
港/j 、/w 澳/j 同胞/n,
林/j 、/w 牧/j 、/w 副/j 、/w 渔/j 等/u 副业/n
最后一个简称如与后面一个字(语素)可合成一个词的,则不单独切分出来。
农/j 、/w 林/j 、/w 牧/j 、/w 副/j 、/w 渔业/n
国名、地名的简称并列在一起时,即使中间没有顿号也应切分分开。
中/j 美/j 跨/v 国/n 公司/n
[京/j 津/j 唐/j 地区/n]/ns
中/j 日/j 联合/vn 公报/n
港/j 澳/j 台/j 同胞/n
*⒁ 语素和非语素字的处理
除下列特殊情况外,语素和非语素字一般不作为切分单位。
① 某些双音节离合词分开使用,其中一个是语素,可将它标注为语素。
出/v 过/u 两/m 天/q 差/Ng, 理/v 了/u 一/m 次/q 发/Ng,
洗/v 了/u 一个/m 舒舒服服/z 的/u 澡/Vg
② 单字名词或名词性语素后接单纯方位词,通常应合成为一个处所词或时间词,但
为了同“分词规范”保持一致,也为了汉外机器翻译处理的方便,这里采用以下的处理方法:
a. “单字名词 + 单字方位词”的组合,切分为两个单位。
饭/n 前/f, 树/n 上/f, 包/n 里/f, 床/n 下/f
b. b. “单字名词性语素字+单字方位词”的结构,合为一个处所词或时
间词。