数据挖掘工具
WEKA教程
广东外语外贸大学
杜剑峰
WEKA教程
1. WEKA简介
2. 数据格式
3. 数据准备
4. 属性选择
5. 可视化分析
6. 分类预测
7. 关联分析
8. 聚类分析
9. 扩展WEKA
课程的总体目标和要求:
熟悉WEKA的基本操作,了
解WEKA的各项功能
掌握数据挖掘实验的流程
准备数据
选择算法和参数运行
评估实验结果
了解或掌握在WEKA中加入
新算法的方法
1、WEKA简介
WEKA的全名是怀卡托智能分析环境(Waikato
Environment for Knowledge Analysis),其源代码可从
http://www.cs.waikato.ac.nz/ml/weka/得到。同时weka
也是新西兰的一种鸟名,而WEKA的主要开发者来自新
西兰。
2005年8月,在第11届ACM SIGKDD国际会议上,怀卡
托大学的WEKA小组荣获了数据挖掘和知识探索领域的
最高服务奖, WEKA系统得到了广泛的认可,被誉为数
据挖掘和机器学习历史上的里程碑,是现今最完备的数
据挖掘工具之一。 WEKA的每月下载次数已超过万次。
1、WEKA简介(续)
作为一个大众化的数据挖掘工作平台, WEKA集成了大
量能承担数据挖掘任务的机器学习算法,包括对数据进
行预处理、分类、回归、聚类、关联分析以及在新的交
互式界面上的可视化等等。通过其接口,可在其基础上
实现自己的数据挖掘算法。
WEKA的界面
2、数据格式
WEKA所用的数据格
式( 跟Excel一样)
Explorer界面
Open file…
Edit…
2、数据格式(续)
WEKA文件相关术语
表格里的一个横行称作一个实例(Instance),相当于统计
学中的一个样本,或者数据库中的一条记录。竖行称作一个
属性(Attribute),相当于统计学中的一个变量,或者数据
库中的一个字段。这样一个表格,或者叫数据集,在WEKA
看来,呈现了属性之间的一种关系(Relation)。上图中一共
有14个实例,5个属性,关系名称为“weather”。
WEKA存储数据的格式是ARFF(Attribute-Relation File
Format)文件,这是一种ASCII文本文件。上图所示的二维
表格存储在如下的ARFF文件中。这也就是WEKA自带的
“weather.arff”文件,在WEKA安装目录的“data”子目录下可
以找到。
2、数据格式(续)
文件内容说明
识别ARFF文件的重要依据是分行,因此不能在这种文
件里随意的断行。空行(或全是空格的行)将被忽略。
以“%”开始的行是注释,WEKA将忽略这些行。如果你
看到的“weather.arff”文件多了或少了些“%”开始的行,
是没有影响的。
除去注释后,整个ARFF文件可以分为两个部分。
第一部分给出了头信息(Head information),包括了对关系
的声明和对属性的声明。
第二部分给出了数据信息(Data information),即数据集中
给出的数据。从“@data”标记开始,后面的就是数据信息了。