logo资料库

WEKA中文教程.ppt

第1页 / 共300页
第2页 / 共300页
第3页 / 共300页
第4页 / 共300页
第5页 / 共300页
第6页 / 共300页
第7页 / 共300页
第8页 / 共300页
资料共300页,剩余部分请下载后查看
数据挖掘工具--WEKA教程 o WEKA简介…….2 o 数据集……..11 o 数据准备…..24 o 数据预处理…36 o 分类……………63 o 聚类………….184 o 关联规则……225 o 选择属性……244 o 数据可视化…253 o 知识流界面…275 2022-6-17 1
1、WEKA简介 o WEKA的全名是怀卡托智能分析环境 n (Waikato Environment for Knowledge Analysis) n weka也是新西兰的一种鸟名 o 是新西兰怀卡托大学WEKA小组用Java开发的机器学习/ 数据挖掘开源软件。其源代码获取 n http://www.cs.waikato.ac.nz/ml/weka/ n http://prdownloads.sourceforge.net/weka/we ka-3-6-6jre.exe o 2005年8月,在第11届ACM SIGKDD国际会议上,怀 卡托大学的WEKA小组荣获了数据挖掘和知识探索领域的 最高服务奖, WEKA系统得到了广泛的认可,被誉为数据 挖掘和机器学习历史上的里程碑,是现今最完备的数据挖 掘工具之一。 WEKA的每月下载次数已超过万次。 2022-6-17 2
WEKA软件 WEKA的界面 o 主要特点 n 它是集数据预处理、学习算法(分类、回归、聚类、关 联分析)和评估方法等为一体的综合性数据挖掘工具。 n 具有交互式可视化界面。 n 提供算法学习比较环境 n 通过其接口,可实现自己的数据挖掘算法 2022-6-17 3
探索环境 算法试验环境 知识流环境 命令行环境 2022-6-17 4
Explorer环境 2022-6-17 5
把“Explorer”界面分成8个区域 o 区域1的几个选项卡是用来切换不同的挖掘任务面板。 n Preprocess(数据预处理):选择和修改要处理的数据。 n Classify(分类):训练和测试分类或回归模型。 n Cluster(聚类):从数据中聚类。 n Associate(关联分析):从数据中学习关联规则。 n Select Attributes(选择属性):选择数据中最相关的属性。 n Visualize(可视化) :查看数据的二维散布图。 o 区域2是一些常用按钮。包括打开、编辑、保存数据及数据转换等功 能。例如,我们可以把文件“bank-data.csv”另存为“bank- data.arff”。 o 区域3中可以选择(Choose)某个筛选器(Filter),以实现筛选 数据或者对数据进行某种变换。数据预处理主要就利用它来实现。 2022-6-17 6
o 区域4展示了数据集的关系名、属性数和实例数等基本情况。 o 区域5中列出了数据集的所有属性。 n 勾选一些属性并“Remove”就可以删除它们,删除后还可以利 用区域2的“Undo”按钮找回。 n 区域5上方的一排按钮是用来实现快速勾选的。 o 区域6中显示在区域5中选中的当前某个属性的摘要。 n 摘要包括属性名(Name)、属性类型(Type)、缺失值 (Missing)数及比例、不同值(Distinct )数、唯一值 (Unique)数及比例 n 对于数值属性和标称属性,摘要的方式是不一样的。图中显示的 是对数值属性“income”的摘要。 o 数值属性显示最小值(Minimum)、最大值 (Maximum) 、均值(Mean)和标准差(StdDev) o 标称属性显示每个不同值的计数 2022-6-17 7
o 区域7是区域5中选中属性的直方图。 n 若数据集的最后一个属性(这是分类或回归任务的默认目标 变量)是类标变量(例如“pep” ),直方图中的每个长方 形就会按照该变量的比例分成不同颜色的段。 n 要想换个分段的依据,在区域7上方的下拉框中选个不同的 分类属性就可以了。 n 下拉框里选上“No Class”或者一个数值属性会变成黑白 的直方图。 2022-6-17 8
分享到:
收藏