CRF++工具包使用介绍
1
工具简介
l CRF++ 是一个可用于分词/连续数据标注的简
单、可定制并且开源的条件随机场(CRFs)工
具。
l CRF++是为了通用目的设计定制 ,并将被用
于自然语言信息处理 (NLP)的各个方面 ,诸如
命名实体识别、信息提取和语块分析。
2
工具简介
l 工具包地址:
http://chasen.org/~taku/software/CRF++/#fea
tures
l 工具包包括Linux环境下的源代码和Windows
下的可执行程序。
l 使用C++编写。
l CRF++-0.54
l CRF++-0.53(源码)
2010-05-15
2009-05-06
3
工具的使用方法
l 1)安装
l 编译环境
l Microsoft Visual Studio C++ 2010
4
工具的使用方法
l 2)使用
l (2.1)训练和测试文件的格式
5
工具的使用方法
l 以BaseNP(基本名词短语识别)为例
l 训练例句如下
l Confidence in the pound is widely expected to take another
sharp dive if trade figures for September , due for release
tomorrow , fail to show a substantial improvement from July
and August 's near-record deficits .
l 测试例句如下
l Rockwell International Corp. 's Tulsa unit said it signed a
tentative agreement extending its contract with Boeing Co.
to provide structural parts for Boeing 's 747 jetliners .
6
工具的使用方法
l 训练和测试文件必须包含多个tokens,每个
token包含多个列。token的定义可根据具体的
任务,如词、词性等。每个token必须写在一
行,且各列之间用空格或制表格间隔。
l 一个token的序列可构成一个sentence,
sentence之间用一个空行间隔。
l 最后一列是CRF用于训练的正确的标注形式。
7
工具的使用方法
l BaseNP训练文件格式
8