Distributional Similarity vs. PU
Learning for Entity Set Expansion
ACL 2010
1
NLP422版权所有
Outline
研究课题介绍
Distributional Similarity
PU算法
Bayesian Sets
对比实验与分析
总结
2
NLP422版权所有
研究课题介绍
针对的课题:实体集扩展
定义:
给定一个实体集合和一个语料(如文本集合),对实
体集进行扩展
涉及步骤:
第一步:从语料中抽取候选实体
第二步:度量候选实体与给定实体集中实体的相似
度,相似则加入
3
NLP422版权所有
研究课题介绍
实体集扩展方法
第一步:侯选选择
常用方法:词性标注方法
本文方法:进行词性标注后,选择NNP,NNPS,CD的
串(以数字开始的CD,不能成为候选)
第二步:相似度计算
Distributional Similarity
Bayesian Sets
分析了这三种方法,并进
行了对比实验
PU Learning
Web环境的方法:wrapper induction (应用在Google
和Boo!Wa!)
4
NLP422版权所有
Outline
研究课题介绍
Distributional Similarity
PU算法
Bayesian Sets
对比实验与分析
总结
5
NLP422版权所有
Distributional Similarity
基本思想:
同一领域的词倾向于出现在相似的上下文中
基本步骤:
向量值的计算
抽取每个种子
实体和候选实
体的上下文
把种子实体集
和每个候选实
体都表示成向
量
计算每个候选
实体向量与中
心向量的相似
度
对候选实体按
相似度大小排
序,前N个为
被扩展实体
相似度的计算
6
NLP422版权所有
Distributional Similarity
向量值的计算方法
TF-IDF
PMI
相似度的计算方法
Cosine
Jaccard
Dice
7
NLP422版权所有
)log(iiidNfw)()(),(log),(ypxpyxpyxIniniiniiiibabayxS11212)/(),(nininiiiiniiiibababayxS111212)/(),(niniiniiiibabayxS111)/(),(
Outline
研究课题介绍
Distributional Similarity
PU算法
Bayesian Sets
对比实验与分析
总结
8
NLP422版权所有