logo资料库

数据挖掘实验报告.doc

第1页 / 共19页
第2页 / 共19页
第3页 / 共19页
第4页 / 共19页
第5页 / 共19页
第6页 / 共19页
第7页 / 共19页
第8页 / 共19页
资料共19页,剩余部分请下载后查看
《数据挖掘》 Weka 实验报告 姓名 _ 学号_ 指导教师 开课学期 2015 至 2016 学年 2 学期 完成日期 2015 年 6 月 12 日
1.实验目的 基于 http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+WiscOnsin+%28Ori- ginal%29 的数据,使用数据挖掘中的分类算法,运用 Weka 平台的基本功能 对数据集进行分类,对算法结果进行性能比较,画出性能比较图,另外针对不同 数量的训练集进行对比实验,并画出性能比较图训练并测试。 2.实验环境 实验采用 Weka 平台,数据使用来自 http://archive.ics.uci.edu/ml/Datasets/Br- east+Cancer+WiscOnsin+%28Original%29,主要使用其中的 Breast Cancer Wisc- onsin (Original) Data Set 数据。Weka 是怀卡托智能分析系统的缩写,该系统 由新西兰怀卡托大学开发。Weka 使用 Java 写成的,并且限制在 GNU 通用公共 证书的条件下发布。它可以运行于几乎所有操作平台,是一款免费的,非商业化 的机器学习以及数据挖掘软件。Weka 提供了一个统一界面,可结合预处理以及 后处理方法,将许多不同的学习算法应用于任何所给的数据集,并评估由不同的 学习方案所得出的结果。 3.实验步骤 3.1 数据预处理 本实验是针对威斯康辛州(原始)的乳腺癌数据集进行分类,该表含有Sample code number(样本代码),Clump Thickness(丛厚度),Uniformity of Cell Size (均匀的细胞大小), Uniformity of Cell Shape (均匀的细胞形状),Marginal Adhesion(边际粘连),Single Epithelial Cell Size(单一的上皮细胞大小),Bare Nuclei(裸核),Bland Chromatin(平淡的染色质),Normal Nucleoli(正常的 核仁), Mitoses(有丝分裂),Class(分类),其中第二项到第十项取值均为 1-10,分类中2代表良性,4代表恶性。 通过实验,希望能找出患乳腺癌客户各 指标的分布情况。 该数据的数据属性如下: 1. Sample code number(numeric),样本代码; 2. Clump Thickness(numeric),丛厚度; 1
3.Uniformity of Cell Size(numeric)均匀的细胞大小; 4. Uniformity of Cell Shape(numeric),均匀的细胞形状; 5.Marginal Adhesion(numeric),边际粘连; 6.Single Epithelial Cell Size(numeric),单一的上皮细胞大小; 7.Bare Nuclei(numeric),裸核; 8.Bland Chromatin(numeric),平淡的染色质; 9. Normal Nucleoli(numeric),正常的核仁; 10.Mitoses(numeric),有丝分裂; 11.Class(enum),分类。 3.2 数据分析 由 http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+WiscOnsin+%28Ori- ginal%29 得到一组由逗号隔开的数据,复制粘贴至 excel 表中,选择数据— —分列——下一步——逗号——完成,该数据是有关乳腺癌数据集,有 11 个属 性,分别为 Sample code number(样本代码),Clump Thickness(丛厚度),Uniformity of Cell Size(均匀的细胞大小),Uniformity of Cell Shape (均匀的细胞形状), Marginal Adhesion(边际粘连),Single Epithelial Cell Size(单一的上皮细胞大 小),Bare Nuclei(裸核),Bland Chromatin(平淡的染色质),Normal Nucleoli (正常的核仁), Mitoses(有丝分裂),Class(分类),因为复制粘贴过来的 数据没有属性,所以手工添加一行属性名。Weka 分类数据需把 excel 保存为 一个 csv 文件。 3.2.1 .csv -> .arff 将 CSV 转换为 ARFF 最迅捷的办法是使用 WEKA 所带的命令行工具。 打开 weka,之后出现 GUI 界面,如图 1 所示: 2
(图 1) 点击进入“Exploer”模块,要将.csv 格式转换为 .arff 格式,点击 open file..., 打开刚保存的“乳腺癌数据集.csv”,点击“Save...”,将文件保存为“乳腺癌 数据集.csv.arff”如图 2 所示: 图 3 中显示的是使用“Exploer”打开“乳腺癌数据集.csv.arff”的情况. (图 2) 如图 3 所示: 3.2.2 数据预处理 (图 3) 很明显发现,所用的数据都是(numeric)数值型的,需要将数值型离散 化,将“Clump Thickness ”,“Uniformity of Cell Size ”,“Uniformity of Cell Shape”,“ Marginal Adhesion ”,“ Marginal Adhesion ”,“ Bare Nuclei ”, 3
“ Bland Chromatin ”,“Normal Nucleoli ”,“Mitoses”,“Class” 离散 化。我们需要借助 Weka 中名为“Discretize”的 Filter 来完成。在区域 2 中点 “Choose”,出现一棵“Filter 树”,逐级找到“weka.filters.unsupervised.attribute .Discretize”点击,即可得到如下所示的图,如图 4 所示: (图 4) 现在“Choose”旁边的文本框应该显示“Discretize -B 10 -M -0.1 -R first-last”。 如图箭头所示,点击这个文本框会弹出新窗口以修改离散化的参数。我们需将第 1,2,3,4,5,6,7,8,9,10 项离散化,其中第一项为 id,可移除。把 attributeIndices 右边 改成“1,2,3,4,5,6,7,8,9,10”。我们把这两个属性都分成 10 段,于是把“bins” 改成“10”。其它不变。点“OK”回到“Explorer”,可以看到“Clump Thickness ”, “Uniformity of Cell Size ”,“Uniformity of Cell Shape”,“ Marginal Adhesion ”, “ Marginal Adhesion ”,“ Bare Nuclei ”,“ Bland Chromatin ”,“Normal Nucleoli ”,“Mitoses”, 已经被离散化成分类型的属性。经移除后剩 10 项 属性,其中一项如图 5 所示,10 项属性可视化如图 6 所示: 4
(图 5) (图 6) 在进行数据搜集和整理的过程中,我们发现如果属性的类型为数值型的话, 在做关联分析时将不能得到结果,可以比较图 3 和图 5,图 3 是数值型,图 5 是 数据离散化之后的。因为关联分析无法处理数值型数据,因此,我们进行了数据 离散处理后使得需要分析的数据变为分类型,这样就可以关联分析得以顺利进 行。因此通过预处理数据可以提高原数据的质量,清除数据噪声和与挖掘目标无 关的数据,为进一步的挖掘工作莫定可靠的基础。 3.3 数据分类算法 针对这些有关乳腺癌数据集,主要分别采用的分类方法是决策树算法、K 均值算法 、朴素贝叶斯分类算法。由于该数据集有 10 个属性,则下文中 对每个属性进行分类的步骤大致相同,由于篇幅原因,只截取其中两个属 性,现在就所选截屏属性作申明,选第一项 Clump Thickness (丛厚度))和 第九项 Mitoses(有丝分裂)。 3.3.1 决策树分类 用“Explorer”打开刚才得到的“乳腺癌数据集.csv.arff”,并切换到“Class”。 5
点“Choose”按钮选择“tree(weka.classifiers.trees.j48)”,这是 Weka 中实现的决 策树算法。选择 Cross-Validatioin folds=10,选择图中箭头指向选择属性,然后点 击“start”按钮。得到结果如图 7 和图 8 所示: (图 7) 6
(图 8) 这个是针对第一项 Clump Thickness 丛厚度和第九项 Mitoses 有丝分裂项运 用 C4.5 决策算法得到误差分析的结果,分析可知总共有 699 个数据进行分类, Clump Thickness(丛厚度)其中 102 个为正确分类,正确分类率为 26.03726%, 517 个为错误分类,错误分类为 73.9268%。而第九项 Mitoses 有丝分裂项也是分 析 699 个数据,其中正确分类有 579 个数据,正确率为 82.8326%,错误分类的 有 120 个,错误分类的有 17.1674%。根据混淆矩阵,被错误分类实例很多,错 综复杂,如图 9 所示: 3.3.2 贝叶斯分类 (图 9) 在刚才进行决策树分类的的那个页面,点“Choose”按钮选择“bayes”, 再选择 Cross-Validatioin folds=10,同样选择图中箭头指向选择属性,然后点击 “start”按钮:为了与上面决策树作比较,贝叶斯也选择第一项第一项 Clump 7
分享到:
收藏