logo资料库

Distrubutional Similarity vs. PU Learning for Entity Set Expansi....pdf

第1页 / 共26页
第2页 / 共26页
第3页 / 共26页
第4页 / 共26页
第5页 / 共26页
第6页 / 共26页
第7页 / 共26页
第8页 / 共26页
资料共26页,剩余部分请下载后查看
Distributional Similarity vs. PU Learning for Entity Set Expansion ACL 2010 1 NLP422版权所有
Outline  研究课题介绍  Distributional Similarity  PU算法  Bayesian Sets  对比实验与分析  总结 2 NLP422版权所有
研究课题介绍  针对的课题:实体集扩展  定义:  给定一个实体集合和一个语料(如文本集合),对实 体集进行扩展  涉及步骤:  第一步:从语料中抽取候选实体  第二步:度量候选实体与给定实体集中实体的相似 度,相似则加入 3 NLP422版权所有
研究课题介绍  实体集扩展方法  第一步:侯选选择  常用方法:词性标注方法  本文方法:进行词性标注后,选择NNP,NNPS,CD的 串(以数字开始的CD,不能成为候选)  第二步:相似度计算  Distributional Similarity  Bayesian Sets 分析了这三种方法,并进 行了对比实验  PU Learning  Web环境的方法:wrapper induction (应用在Google 和Boo!Wa!) 4 NLP422版权所有
Outline  研究课题介绍  Distributional Similarity  PU算法  Bayesian Sets  对比实验与分析  总结 5 NLP422版权所有
Distributional Similarity  基本思想:  同一领域的词倾向于出现在相似的上下文中  基本步骤: 向量值的计算 抽取每个种子 实体和候选实 体的上下文 把种子实体集 和每个候选实 体都表示成向 量 计算每个候选 实体向量与中 心向量的相似 度 对候选实体按 相似度大小排 序,前N个为 被扩展实体 相似度的计算 6 NLP422版权所有
Distributional Similarity  向量值的计算方法  TF-IDF  PMI  相似度的计算方法  Cosine  Jaccard  Dice 7 NLP422版权所有 )log(iiidNfw)()(),(log),(ypxpyxpyxIniniiniiiibabayxS11212)/(),(nininiiiiniiiibababayxS111212)/(),(niniiniiiibabayxS111)/(),(
Outline  研究课题介绍  Distributional Similarity  PU算法  Bayesian Sets  对比实验与分析  总结 8 NLP422版权所有
分享到:
收藏