数据挖掘工具--WEKA教程
o WEKA简介…….2
o 数据集……..11
o 数据准备…..24
o 数据预处理…36
o 分类……………63
o 聚类………….184
o 关联规则……225
o 选择属性……244
o 数据可视化…253
o 知识流界面…275
2022-6-17
1
1、WEKA简介
o WEKA的全名是怀卡托智能分析环境
n (Waikato Environment for Knowledge Analysis)
n weka也是新西兰的一种鸟名
o 是新西兰怀卡托大学WEKA小组用Java开发的机器学习/
数据挖掘开源软件。其源代码获取
n http://www.cs.waikato.ac.nz/ml/weka/
n http://prdownloads.sourceforge.net/weka/we
ka-3-6-6jre.exe
o 2005年8月,在第11届ACM SIGKDD国际会议上,怀
卡托大学的WEKA小组荣获了数据挖掘和知识探索领域的
最高服务奖, WEKA系统得到了广泛的认可,被誉为数据
挖掘和机器学习历史上的里程碑,是现今最完备的数据挖
掘工具之一。 WEKA的每月下载次数已超过万次。
2022-6-17
2
WEKA软件
WEKA的界面
o 主要特点
n 它是集数据预处理、学习算法(分类、回归、聚类、关
联分析)和评估方法等为一体的综合性数据挖掘工具。
n 具有交互式可视化界面。
n 提供算法学习比较环境
n 通过其接口,可实现自己的数据挖掘算法
2022-6-17
3
探索环境
算法试验环境
知识流环境
命令行环境
2022-6-17
4
Explorer环境
2022-6-17
5
把“Explorer”界面分成8个区域
o 区域1的几个选项卡是用来切换不同的挖掘任务面板。
n Preprocess(数据预处理):选择和修改要处理的数据。
n Classify(分类):训练和测试分类或回归模型。
n Cluster(聚类):从数据中聚类。
n Associate(关联分析):从数据中学习关联规则。
n Select Attributes(选择属性):选择数据中最相关的属性。
n Visualize(可视化) :查看数据的二维散布图。
o 区域2是一些常用按钮。包括打开、编辑、保存数据及数据转换等功
能。例如,我们可以把文件“bank-data.csv”另存为“bank-
data.arff”。
o 区域3中可以选择(Choose)某个筛选器(Filter),以实现筛选
数据或者对数据进行某种变换。数据预处理主要就利用它来实现。
2022-6-17
6
o 区域4展示了数据集的关系名、属性数和实例数等基本情况。
o 区域5中列出了数据集的所有属性。
n 勾选一些属性并“Remove”就可以删除它们,删除后还可以利
用区域2的“Undo”按钮找回。
n 区域5上方的一排按钮是用来实现快速勾选的。
o 区域6中显示在区域5中选中的当前某个属性的摘要。
n 摘要包括属性名(Name)、属性类型(Type)、缺失值
(Missing)数及比例、不同值(Distinct )数、唯一值
(Unique)数及比例
n 对于数值属性和标称属性,摘要的方式是不一样的。图中显示的
是对数值属性“income”的摘要。
o 数值属性显示最小值(Minimum)、最大值
(Maximum) 、均值(Mean)和标准差(StdDev)
o 标称属性显示每个不同值的计数
2022-6-17
7
o 区域7是区域5中选中属性的直方图。
n 若数据集的最后一个属性(这是分类或回归任务的默认目标
变量)是类标变量(例如“pep” ),直方图中的每个长方
形就会按照该变量的比例分成不同颜色的段。
n 要想换个分段的依据,在区域7上方的下拉框中选个不同的
分类属性就可以了。
n 下拉框里选上“No Class”或者一个数值属性会变成黑白
的直方图。
2022-6-17
8