.
......
R 语言环境下的文本挖掘
刘思喆
@ 上海财经大学
2012 年 11 月 3 日
刘思喆 (统计之都)
R 语言环境下的文本挖掘
2012 年 11 月 3 日
1 / 27
.
.
.
.
.
.
目录
..1 文本挖掘的概述
..2 网页数据抓取的利器 -XML
..3 tm 包及相关应用
..4 应用的实例
刘思喆 (统计之都)
R 语言环境下的文本挖掘
2012 年 11 月 3 日
2 / 27
.
.
.
.
.
.
目录
文本挖掘的概述
..1 文本挖掘的概述
..2 网页数据抓取的利器 -XML
..3 tm 包及相关应用
..4 应用的实例
文本挖掘的处理流程
相关的 R 包
刘思喆 (统计之都)
R 语言环境下的文本挖掘
2012 年 11 月 3 日
3 / 27
.
.
.
.
.
.
文本挖掘的一般流程
文本挖掘的概述 文本挖掘的处理流程
对于文本处理过程首先要拥有分析的语料(text corpus),比如报告、出版物、网页文
章等。而后根据这些语料建立半结构化的文本库(text database),生成包含词频的结
构化的词条 -文档矩阵(term-document matrix)。
Figure: 文本挖掘的处理流程
刘思喆 (统计之都)
R 语言环境下的文本挖掘
2012 年 11 月 3 日
4 / 27
.
.
.
.
.
.
文本挖掘的适用范围
文本挖掘的概述 文本挖掘的处理流程
解析后的结构化数据会被用于后续的分析,比如:
• 语法分析;
• 信息提取和修复;
• 文档信息汇总,比如提取相关有代表性的关键词、句子等。
• 文本分类,比如根据现有的文本分类情况,对未知文本进行归类;
• 其他
刘思喆 (统计之都)
R 语言环境下的文本挖掘
2012 年 11 月 3 日
5 / 27
.
.
.
.
.
.
文本挖掘相关的 R 包
文本挖掘的概述 相关的 R 包
• XML
• tm
• topicmodels
• RWeka, lsa, RTextTools, zipfR, TextRegression, wordcloud
刘思喆 (统计之都)
R 语言环境下的文本挖掘
2012 年 11 月 3 日
6 / 27
.
.
.
.
.
.
网页数据抓取的利器 -XML
目录
..1 文本挖掘的概述
..2 网页数据抓取的利器 -XML
..3 tm 包及相关应用
..4 应用的实例
网页数据的获取函数
实际的例子
刘思喆 (统计之都)
R 语言环境下的文本挖掘
2012 年 11 月 3 日
7 / 27
.
.
.
.
.
.
网页数据抓取的利器 -XML
XML 文件的解析
在 R 中对网页解析(XML、HTML 文件,或包含 XML、HTML 的字符串)有多种方
法,比较成熟的方法是使用 XML 包。这个包能够将 XML、HTML 网页树(tree)解析
成 R 结构数据。
.
解析函数
..
对标准 XML 文件的解析函数 xmlParse ,以及适应性更强的 htmlTreeParse 函数,这
......
些函数都拥有大量的参数来适应解析需要。
刘思喆 (统计之都)
R 语言环境下的文本挖掘
2012 年 11 月 3 日
8 / 27
.
.
.
.
.
.