logo资料库

CRF++工具包使用介绍.ppt

第1页 / 共31页
第2页 / 共31页
第3页 / 共31页
第4页 / 共31页
第5页 / 共31页
第6页 / 共31页
第7页 / 共31页
第8页 / 共31页
资料共31页,剩余部分请下载后查看
CRF++工具包使用介绍 1
工具简介 l CRF++ 是一个可用于分词/连续数据标注的简 单、可定制并且开源的条件随机场(CRFs)工 具。 l CRF++是为了通用目的设计定制 ,并将被用 于自然语言信息处理 (NLP)的各个方面 ,诸如 命名实体识别、信息提取和语块分析。 2
工具简介 l 工具包地址: http://chasen.org/~taku/software/CRF++/#fea tures l 工具包包括Linux环境下的源代码和Windows 下的可执行程序。 l 使用C++编写。 l CRF++-0.54 l CRF++-0.53(源码) 2010-05-15 2009-05-06 3
工具的使用方法 l 1)安装 l 编译环境 l Microsoft Visual Studio C++ 2010 4
工具的使用方法 l 2)使用 l (2.1)训练和测试文件的格式 5
工具的使用方法 l 以BaseNP(基本名词短语识别)为例 l 训练例句如下 l Confidence in the pound is widely expected to take another sharp dive if trade figures for September , due for release tomorrow , fail to show a substantial improvement from July and August 's near-record deficits . l 测试例句如下 l Rockwell International Corp. 's Tulsa unit said it signed a tentative agreement extending its contract with Boeing Co. to provide structural parts for Boeing 's 747 jetliners . 6
工具的使用方法 l 训练和测试文件必须包含多个tokens,每个 token包含多个列。token的定义可根据具体的 任务,如词、词性等。每个token必须写在一 行,且各列之间用空格或制表格间隔。 l 一个token的序列可构成一个sentence, sentence之间用一个空行间隔。 l 最后一列是CRF用于训练的正确的标注形式。 7
工具的使用方法 l BaseNP训练文件格式 8
分享到:
收藏