python文本挖掘.ppt

发布时间：2022-05-30 发布人：admin 分类：说明书资料大小：2.52M 资料格式：ppt 举报版权申诉

juzhong0521-10800037-16359647613874458026.ppt.pdf-第1页.png

第1页 / 共60页

juzhong0521-10800037-16359647613874458026.ppt.pdf-第2页.png

第2页 / 共60页

juzhong0521-10800037-16359647613874458026.ppt.pdf-第3页.png

第3页 / 共60页

juzhong0521-10800037-16359647613874458026.ppt.pdf-第4页.png

第4页 / 共60页

juzhong0521-10800037-16359647613874458026.ppt.pdf-第5页.png

第5页 / 共60页

juzhong0521-10800037-16359647613874458026.ppt.pdf-第6页.png

第6页 / 共60页

juzhong0521-10800037-16359647613874458026.ppt.pdf-第7页.png

第7页 / 共60页

juzhong0521-10800037-16359647613874458026.ppt.pdf-第8页.png

第8页 / 共60页

文本预览

Python文本挖掘

目录 CONTE NTS PART 01 近似度分析 PART 02 文本情感分析 PART 03 协同过滤 PART 04 词云

针对文本相似判定，可以采用余弦相似度和 SimHash两种算法，余弦相似度算法适合于短文本，而SimHash算法适合于长文本，并且能应用于大数据环境中。

余弦近似度

余弦近似度性质：余弦值的范围在[-1,1]之间，值越趋近于1，代表两个向量的方向越趋近于0°，他们的方向更加一致，相应的相似度也越高。需要指出的是，在文本相似度判定中，因为文本特征向量定义的特殊性，其余弦值范围为[0,1]，即向量夹角越趋向于90°，则两向量越不相似。

余弦近似度向量空间模型 VSM（Vector Space Model）把对文本内容的处理简化为向量空间中的向量运算。概念： 1）文档（D）：泛指文档或文档片段，一般表征一篇文档。 2）词汇（T）：文本内容特征的基本语言单位，包含字、词、词组或短语。 3）权重（W）：表征词汇T的权重，在文档D中的重要程度。

余弦近似度余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似，这就叫"余弦相似性"。或

余弦近似度可以看到，TF-IDF与一个词在文档中的出现次数成正比，与该词在整个语言中的出现次数成反比。所以，自动提取关键词的算法就很清楚了，就是计算出文档的每个词的TF-IDF值，然后按降序排列，取排在最前面的几个词。

分享到：

赞收藏

资料库

python文本挖掘.ppt

相关推荐

开发技术

热门标签

最新资料