logo资料库

R语言环境下的文本挖掘.pdf

第1页 / 共30页
第2页 / 共30页
第3页 / 共30页
第4页 / 共30页
第5页 / 共30页
第6页 / 共30页
第7页 / 共30页
第8页 / 共30页
资料共30页,剩余部分请下载后查看
文本挖掘的概述
文本挖掘的处理流程
相关的R包
网页数据抓取的利器-XML
网页数据的获取函数
实际的例子
tm包及相关应用
中文分词
词条-文档关系矩阵
应用的实例
wordcloud
文档识别和聚类
主题模型(topic model)
关键词网络
. ...... R 语言环境下的文本挖掘 刘思喆 @ 上海财经大学 2012 年 11 月 3 日 刘思喆 (统计之都) R 语言环境下的文本挖掘 2012 年 11 月 3 日 1 / 27 . . . . . .
目录 ..1 文本挖掘的概述 ..2 网页数据抓取的利器 -XML ..3 tm 包及相关应用 ..4 应用的实例 刘思喆 (统计之都) R 语言环境下的文本挖掘 2012 年 11 月 3 日 2 / 27 . . . . . .
目录 文本挖掘的概述 ..1 文本挖掘的概述 ..2 网页数据抓取的利器 -XML ..3 tm 包及相关应用 ..4 应用的实例 文本挖掘的处理流程 相关的 R 包 刘思喆 (统计之都) R 语言环境下的文本挖掘 2012 年 11 月 3 日 3 / 27 . . . . . .
文本挖掘的一般流程 文本挖掘的概述 文本挖掘的处理流程 对于文本处理过程首先要拥有分析的语料(text corpus),比如报告、出版物、网页文 章等。而后根据这些语料建立半结构化的文本库(text database),生成包含词频的结 构化的词条 -文档矩阵(term-document matrix)。 Figure: 文本挖掘的处理流程 刘思喆 (统计之都) R 语言环境下的文本挖掘 2012 年 11 月 3 日 4 / 27 . . . . . .
文本挖掘的适用范围 文本挖掘的概述 文本挖掘的处理流程 解析后的结构化数据会被用于后续的分析,比如: • 语法分析; • 信息提取和修复; • 文档信息汇总,比如提取相关有代表性的关键词、句子等。 • 文本分类,比如根据现有的文本分类情况,对未知文本进行归类; • 其他 刘思喆 (统计之都) R 语言环境下的文本挖掘 2012 年 11 月 3 日 5 / 27 . . . . . .
文本挖掘相关的 R 包 文本挖掘的概述 相关的 R 包 • XML • tm • topicmodels • RWeka, lsa, RTextTools, zipfR, TextRegression, wordcloud 刘思喆 (统计之都) R 语言环境下的文本挖掘 2012 年 11 月 3 日 6 / 27 . . . . . .
网页数据抓取的利器 -XML 目录 ..1 文本挖掘的概述 ..2 网页数据抓取的利器 -XML ..3 tm 包及相关应用 ..4 应用的实例 网页数据的获取函数 实际的例子 刘思喆 (统计之都) R 语言环境下的文本挖掘 2012 年 11 月 3 日 7 / 27 . . . . . .
网页数据抓取的利器 -XML XML 文件的解析 在 R 中对网页解析(XML、HTML 文件,或包含 XML、HTML 的字符串)有多种方 法,比较成熟的方法是使用 XML 包。这个包能够将 XML、HTML 网页树(tree)解析 成 R 结构数据。 . 解析函数 .. 对标准 XML 文件的解析函数 xmlParse ,以及适应性更强的 htmlTreeParse 函数,这 ...... 些函数都拥有大量的参数来适应解析需要。 刘思喆 (统计之都) R 语言环境下的文本挖掘 2012 年 11 月 3 日 8 / 27 . . . . . .
分享到:
收藏