logo资料库

WEKA教程完整版(新).pdf

第1页 / 共104页
第2页 / 共104页
第3页 / 共104页
第4页 / 共104页
第5页 / 共104页
第6页 / 共104页
第7页 / 共104页
第8页 / 共104页
资料共104页,剩余部分请下载后查看
在自己的程序中使用Weka
数据格式
数据准备
属性选择
分类预测
关联分析
聚类分析
小结
数据挖掘工具 WEKA教程 广东外语外贸大学 杜剑峰
WEKA教程 1. WEKA简介 2. 数据格式 3. 数据准备 4. 属性选择 5. 可视化分析 6. 分类预测 7. 关联分析 8. 聚类分析 9. 扩展WEKA 课程的总体目标和要求:  熟悉WEKA的基本操作,了 解WEKA的各项功能  掌握数据挖掘实验的流程  准备数据  选择算法和参数运行  评估实验结果  了解或掌握在WEKA中加入 新算法的方法
1、WEKA简介  WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),其源代码可从 http://www.cs.waikato.ac.nz/ml/weka/得到。同时weka 也是新西兰的一种鸟名,而WEKA的主要开发者来自新 西兰。  2005年8月,在第11届ACM SIGKDD国际会议上,怀卡 托大学的WEKA小组荣获了数据挖掘和知识探索领域的 最高服务奖, WEKA系统得到了广泛的认可,被誉为数 据挖掘和机器学习历史上的里程碑,是现今最完备的数 据挖掘工具之一。 WEKA的每月下载次数已超过万次。
1、WEKA简介(续)  作为一个大众化的数据挖掘工作平台, WEKA集成了大 量能承担数据挖掘任务的机器学习算法,包括对数据进 行预处理、分类、回归、聚类、关联分析以及在新的交 互式界面上的可视化等等。通过其接口,可在其基础上 实现自己的数据挖掘算法。 WEKA的界面
2、数据格式  WEKA所用的数据格 式( 跟Excel一样) Explorer界面 Open file… Edit…
2、数据格式(续)  WEKA文件相关术语  表格里的一个横行称作一个实例(Instance),相当于统计 学中的一个样本,或者数据库中的一条记录。竖行称作一个 属性(Attribute),相当于统计学中的一个变量,或者数据 库中的一个字段。这样一个表格,或者叫数据集,在WEKA 看来,呈现了属性之间的一种关系(Relation)。上图中一共 有14个实例,5个属性,关系名称为“weather”。  WEKA存储数据的格式是ARFF(Attribute-Relation File Format)文件,这是一种ASCII文本文件。上图所示的二维 表格存储在如下的ARFF文件中。这也就是WEKA自带的 “weather.arff”文件,在WEKA安装目录的“data”子目录下可 以找到。
2、数据格式(续)  文件内容说明 识别ARFF文件的重要依据是分行,因此不能在这种文 件里随意的断行。空行(或全是空格的行)将被忽略。 以“%”开始的行是注释,WEKA将忽略这些行。如果你 看到的“weather.arff”文件多了或少了些“%”开始的行, 是没有影响的。 除去注释后,整个ARFF文件可以分为两个部分。  第一部分给出了头信息(Head information),包括了对关系 的声明和对属性的声明。  第二部分给出了数据信息(Data information),即数据集中 给出的数据。从“@data”标记开始,后面的就是数据信息了。
分享到:
收藏