logo资料库

数据挖掘实验报告.doc

第1页 / 共13页
第2页 / 共13页
第3页 / 共13页
第4页 / 共13页
第5页 / 共13页
第6页 / 共13页
第7页 / 共13页
第8页 / 共13页
资料共13页,剩余部分请下载后查看
数据挖掘实践一:weka 入门实验报告 姓名:林腾晖 班级 :软件 A 班 学号:0825121033 一、实验目的要求:  了解数据挖掘的常用领域和目的;  掌握常用数据挖掘软件 Weka 的基本操作;  熟悉 Weka 输入文件和输出文件的格式。 二、实验内容及其步骤: 1、数据挖掘常用领域: 随着数据库、网络等技术的迅速发展,人们积累的数据越来越多,我 们已经被淹没在数据和信息的汪洋大海中。人们需要有新的、更有效 的方法对各种大量的数据进行分析、提取以挖掘其潜能,数据挖掘正 是在这样的应用需求环境下产生并迅速发展起来的,它的出现为智能 地把海量的数据转化为有用的信息和知识提供了新的思路和手段。数 据挖掘技术是目前人工智能和数据库领域研究的热点问题,它是一种 决策支持过程,自动地分析数据仓库的海量数据,做出归纳性的整理, 从中挖掘出潜在的模式,为决策者预测行为、减少风险,做出正确的 决策。目前数据挖掘技术已经在农业、医学、天文学、金融、零售、 军事、市场营销、Internet 等领域得到广泛应用。 2、数据挖掘的目的与意义: 据挖掘功能的任务是从大量的数据中发现模式,以帮助管理者获得决 策所需的多种知识。在大多数的情况下,用户并不知道数据存在那些 有价值的信息知识,因此,数据挖掘系统的目标应该能够同时搜索发
现多种模式的知识,以满足用户的期望和实际需要。1[⑤]数据挖掘出 来的模式可以分为描述型模式和预测型模式,描述型模式是对数据中 存在的规则作出一种陈述,或者根据数据间的相似性把数据分组,而 预测型模式则能够根据已有的数据集,预测某些未知的数据项的值。 数据挖掘的功能模式主要有关联规则、泛化模式、分类模式、聚类模 式、时间序列模式、孤立点模式等。 公共管理领域也亟待引入数据挖掘技术。公共管理需要大量的数据和 资料,而且公共管理过程中存在很多带有大量不确定因素的半结构化 问题或非结构化问题,由于没有历史数据和相应的统计资料,这些因 素很难科学地计算和评估,只能采用定性和定量相结合的方法确定; 借助常规的分析模型也很难对公共管理进行有效的分析和评价,因此 迫切需要应用数据挖掘等其他技术和分析方法来识别、分析和评价公 共管理行为。 3、概括起来数据挖掘运用的领域: ○1 电子政务领域。 ○2 政府绩效管理领域。 ○3 公共危机管理领域。 4、概括起来数据挖掘意义: ○1 公共管理领域应用数据挖掘技术是政府决策的需要。 ○2 2 公共管理领域应用数据挖掘技术可以为政府信息共享提供技 术支持。
○3 公共管理领域应用数据挖掘技术是政府信息化的重要保障 三、掌握常用数据挖掘软件 Weka 的基本操作: ○1 运行软件 Weka: Weka 试验(Experiment)环境可以让用户创建,运行,修改和分析 算法试验,这也许比单独的分 析各个算法更加方便。例如,用户可创建一次试验,在一系列数据集 上运行多个算法(schemes),然后分析结果以判断是否某个算法比其 他算法(在统计意义下)更好。 Experimenter 有两种模式:一种具有较简单的界面,并提供了 试验所需要的大部分功能,另一种则 提供了一个可以使用 Experimenter 所有功能的界面。你可使用 Experiment Configuration Mode 单选 按钮在这两者间进行选择。 Simple Advanced
2、在 simple 模式下: ○1 点击”NEW”就定义一次实验的默认参数 ○2 Result Destination (结果的目的文件) 一个 ARFF 文件将默认作为结果输出的目的文件。但你也可选择: ARFF file (ARFF 文件) ARFF file 如果文件名为空,将在系统的 TEMP 目录下创建一个临时文件。如果你想显式的指定一个结果 文件, 只需点击 Browse,并选一个文件名,例如 Experiment1.arff。 点击 Save,文件路径将出现在 ARFF file 旁的文本框中。
CSV file (CSV 文件) JDBC database (JDBC 数据库) JDBC database 有了 JDBC,就可以很容易的把结果存储在数据库中。要使用某种特定数据库的 JDBC 功能, 必须 在CLASSPATH 中指定相应的 jar 文件。 把 ARFF file 改成 JDBC database 后,点击 User... 来指定访问数据库的 JDBC URL 和 用户帐号。 在提供了必要的数据并点击 OK 后,主窗口中的 URL将会更新。 注意:这个时候还没有测试数据库连接;启动试验时才会进行连接测试。
JDBC 数据库的优点是可以继续运行那些被中止的或扩展了的试验。它不用重新运行那些已试 验过 的算法/数据集组合,而仅计算还没有被试验的那些 2)Experiment type(试验类型) 用户可选择以下三种不同的类型: Cross-validation (交叉验证) (默认): 根据给定的折数执行分层交叉验证 Train/Test Percentage Split (data randomized) (按比例分割 训练/测试集,随机挑选数据): 把数据打乱顺序并确定层次后,根据给定的百分比把这个数据集 分割成一个训练文件和一个测试 文件 (在 Experimenter 中,不能显式的指定训练文件和测试文 件)
Train/Test Percentage Split (order preserved) (按比例分割训练/ 测试集,按顺序挑选数据) 3)Datasets (数据集) 可以通过绝对路径或相对路径添加数据集文件。后者使得在不同 的机器上运行试验更加方便,因此 你在点击 Add new....之前,应该勾选 Use relative paths (使 用相对路径)。 在这个例子中,打开 data 目录,选择 iris.arff 数据集。
4)Iteration control (迭代控制) Number of repetitions (重复次数): 为了获得统计上有意义的结果,默认的迭代数量是 10。在10折交叉 验证的情形下,这意味着对一 个分类器要进行100次调用——从训练集计算它,并在测试集上测试。 Data sets first/Algorithms first (数据集优先/算法优先): 当存在多个数据集和算法的时候,切换成优先迭代数据集的模式可能 会有用。举个例子,会有人把 结果存储在数据库中,并且想尽早完成某个算法在所有数据集上的结 果。 2.1.6 Algorithms (算法) 可以通过 Add new... 按钮添加新算法。如果是第一次打开这个对话 框,将出现 ZeroR;否则将出 现上次选中的那个。 可以用 Choose 按钮打开 GenericObjectEditor 来选择别的分 类器。
分享到:
收藏