Python文本挖掘
目录
CONTE
NTS
PART 01
近似度分析
PART 02
文本情感分析
PART 03
协同过滤
PART 04
词云
针对文本相似判定,可以采用余弦相似度和
SimHash两种算法,余弦相似度算法适合于短文本,
而SimHash算法适合于长文本,并且能应用于大数
据环境中。
余弦近似度
余弦近似度
性质:
余弦值的范围在[-1,1]之间,值越趋近于1,代表两个向量的方向越趋近于0°,
他们的方向更加一致,相应的相似度也越高。需要指出的是,在文本相似度判定
中,因为文本特征向量定义的特殊性,其余弦值范围为[0,1],即向量夹角越趋向
于90°,则两向量越不相似。
余弦近似度
向量空间模型
VSM(Vector Space Model)把对文本内容的处理简化为向量空间中的向量运算。
概念:
1)文档(D):泛指文档或文档片段,一般表征一篇文档。
2)词汇(T):文本内容特征的基本语言单位,包含字、词、词组或短语。
3)权重(W):表征词汇T的权重,在文档D中的重要程度。
余弦近似度
余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。余
弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性"。
或
余弦近似度
可以看到,TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的
出现次数成反比。所以,自动提取关键词的算法就很清楚了,就是计算出文档的每个词
的TF-IDF值,然后按降序排列,取排在最前面的几个词。