【Stata大会2019中国】如何运用stata进行文本分析.pdf

发布时间：2022-05-30 发布人：admin 分类：说明书资料大小：1.57M 资料格式：pdf 举报版权申诉

williamanos-12048232-如何运用stata进行文本分析.pdf-第1页.png

第1页 / 共36页

williamanos-12048232-如何运用stata进行文本分析.pdf-第2页.png

第2页 / 共36页

williamanos-12048232-如何运用stata进行文本分析.pdf-第3页.png

第3页 / 共36页

williamanos-12048232-如何运用stata进行文本分析.pdf-第4页.png

第4页 / 共36页

williamanos-12048232-如何运用stata进行文本分析.pdf-第5页.png

第5页 / 共36页

williamanos-12048232-如何运用stata进行文本分析.pdf-第6页.png

第6页 / 共36页

williamanos-12048232-如何运用stata进行文本分析.pdf-第7页.png

第7页 / 共36页

williamanos-12048232-如何运用stata进行文本分析.pdf-第8页.png

第8页 / 共36页

Slide Number 1

一、分词原理

为什么要进行中文分词？

中文分词技术的分类

基于字典、词库匹配的分词方法

正向最大匹配法

逆向最大匹配法

例子

双向匹配法

基于词的频度统计的分词方法

基于知识理解的分词方法

二、分词的实现

Stata自定义分词程序

Stata中文分词系统

Slide Number 18

Stata与python交互调用jieba进行分词

Stata如何调用curl进行BosonNLP分词

三、文本可视化

词云图-剔除停用词

词云图再现

Slide Number 26

寻找地名——文本分析

部分程序

地点词云图

高亮输出文本数据

高亮输出程序

高亮输出结果

四、情感分析及其实现

基于语调词典

Slide Number 36

如何运用stata进行文本分析主讲人：张计宝官方网站 stata-club.github.io

目录 1 2 3 4 分词原理分词的实现文本可视化情感分析及实现爬虫俱乐部 2

一、分词原理  将一个汉字序列切分成一个一个单独的词  This is a book. → ["This", "is", "a", "book", "."]  这是一本书。 → [("这", "pronoun"), ("是 ", "verb"), ("一", "numeral"), ("本", "classifier"), ("书", "noun"), ("。", "punctuation mark")] 爬虫俱乐部 3

为什么要进行中文分词？  词是最小的能够独立运用的语言单位  英文单词之间是以空格作为自然分界符  汉语是以字为基本的书写单位，词语之间没有明显的区分标记，因此，中文词语分析是中文信息处理的基础与关键。  武汉市长江大桥 → 武汉市长江大桥武汉市长江大桥武汉市长江大桥爬虫俱乐部 4

中文分词技术的分类  基于字典、词库匹配的分词方法  基于词频度统计的分词方法  基于知识理解的分词方法。爬虫俱乐部 5

基于字典、词库匹配的分词方法  扫描方向的不同：  正向匹配  逆向匹配  长度优先匹配：  最大（最长）匹配  最小（最短）匹配爬虫俱乐部 6

正向最大匹配法  正向最大匹配法 (Maximum Matching Method）  简称为ＭＭ法  基本思想：假定分词词典中的最长词有i个汉字字符，则用被处理文档的当前字串中的前i个字作为匹配字段，查找字典。若字典中存在这样的一个i字词，则匹配成功，匹配字段被作为一个词切分出来。如果词典中找不到这样的一个i字词，则匹配失败，将匹配字段中的最后一个字去掉，对剩下的字串重新进行匹配处理如此进行下去，直到匹配成功，即切分出一个词或剩余字串的长度为零为止。这样就完成了一轮匹配，然后取下一个i字字串进行匹配处理，直到文档被扫描完为止。  分词字典：爬虫俱乐部全体成员祝 Stata 大会越来越好  被处理文档：爬虫俱乐部全体成员祝 Stata大会越来越好爬虫俱乐部 7

逆向最大匹配法  逆向最大匹配法(Reverse Maximum Matching Method)  简称为ＲＭＭ法  基本原理：逆向最大匹配法从被处理文档的末端开始匹配扫描，每次取最末端的i字字串作为匹配字段，若匹配失败，则去掉匹配字段最前面的一个字，继续匹配。相应地，它使用的分词词典是逆序词典，其中的每个词条都将按逆序方式存放。在实际处理时，先将文档进行倒排处理，生成逆序文档。然后，根据逆序词典，对逆序文档用正向最大匹配法处理即可。  分词字典：爬虫俱乐部全体成员祝 Stata 大会越来越好  被处理文档：爬虫俱乐部全体成员祝 Stata大会越来越好爬虫俱乐部 8

分享到：

赞收藏

资料库

【Stata大会2019中国】如何运用stata进行文本分析.pdf

相关推荐

开发技术

热门标签

最新资料