数据挖掘实验报告.doc

发布时间：2022-05-29 发布人：admin 分类：说明书资料大小：0.72M 资料格式：doc 举报版权申诉

pelinter123-4132646-4744300845237591265.doc.pdf-第1页.png

第1页 / 共13页

pelinter123-4132646-4744300845237591265.doc.pdf-第2页.png

第2页 / 共13页

pelinter123-4132646-4744300845237591265.doc.pdf-第3页.png

第3页 / 共13页

pelinter123-4132646-4744300845237591265.doc.pdf-第4页.png

第4页 / 共13页

pelinter123-4132646-4744300845237591265.doc.pdf-第5页.png

第5页 / 共13页

pelinter123-4132646-4744300845237591265.doc.pdf-第6页.png

第6页 / 共13页

pelinter123-4132646-4744300845237591265.doc.pdf-第7页.png

第7页 / 共13页

pelinter123-4132646-4744300845237591265.doc.pdf-第8页.png

第8页 / 共13页

文本预览

数据挖掘实践一：weka 入门实验报告姓名：林腾晖班级：软件 A 班学号：0825121033 一、实验目的要求：  了解数据挖掘的常用领域和目的；  掌握常用数据挖掘软件 Weka 的基本操作；  熟悉 Weka 输入文件和输出文件的格式。二、实验内容及其步骤： 1、数据挖掘常用领域：随着数据库、网络等技术的迅速发展，人们积累的数据越来越多，我们已经被淹没在数据和信息的汪洋大海中。人们需要有新的、更有效的方法对各种大量的数据进行分析、提取以挖掘其潜能，数据挖掘正是在这样的应用需求环境下产生并迅速发展起来的，它的出现为智能地把海量的数据转化为有用的信息和知识提供了新的思路和手段。数据挖掘技术是目前人工智能和数据库领域研究的热点问题，它是一种决策支持过程，自动地分析数据仓库的海量数据，做出归纳性的整理，从中挖掘出潜在的模式，为决策者预测行为、减少风险，做出正确的决策。目前数据挖掘技术已经在农业、医学、天文学、金融、零售、军事、市场营销、Internet 等领域得到广泛应用。 2、数据挖掘的目的与意义：据挖掘功能的任务是从大量的数据中发现模式，以帮助管理者获得决策所需的多种知识。在大多数的情况下，用户并不知道数据存在那些有价值的信息知识，因此，数据挖掘系统的目标应该能够同时搜索发

现多种模式的知识，以满足用户的期望和实际需要。1[⑤]数据挖掘出来的模式可以分为描述型模式和预测型模式，描述型模式是对数据中存在的规则作出一种陈述，或者根据数据间的相似性把数据分组，而预测型模式则能够根据已有的数据集，预测某些未知的数据项的值。数据挖掘的功能模式主要有关联规则、泛化模式、分类模式、聚类模式、时间序列模式、孤立点模式等。公共管理领域也亟待引入数据挖掘技术。公共管理需要大量的数据和资料，而且公共管理过程中存在很多带有大量不确定因素的半结构化问题或非结构化问题，由于没有历史数据和相应的统计资料，这些因素很难科学地计算和评估，只能采用定性和定量相结合的方法确定；借助常规的分析模型也很难对公共管理进行有效的分析和评价，因此迫切需要应用数据挖掘等其他技术和分析方法来识别、分析和评价公共管理行为。 3、概括起来数据挖掘运用的领域： ○1 电子政务领域。 ○2 政府绩效管理领域。 ○3 公共危机管理领域。 4、概括起来数据挖掘意义： ○1 公共管理领域应用数据挖掘技术是政府决策的需要。 ○2 2 公共管理领域应用数据挖掘技术可以为政府信息共享提供技术支持。

○3 公共管理领域应用数据挖掘技术是政府信息化的重要保障三、掌握常用数据挖掘软件 Weka 的基本操作： ○1 运行软件 Weka: Weka 试验（Experiment）环境可以让用户创建，运行，修改和分析算法试验，这也许比单独的分析各个算法更加方便。例如，用户可创建一次试验，在一系列数据集上运行多个算法（schemes），然后分析结果以判断是否某个算法比其他算法（在统计意义下）更好。 Experimenter 有两种模式：一种具有较简单的界面，并提供了试验所需要的大部分功能，另一种则提供了一个可以使用 Experimenter 所有功能的界面。你可使用 Experiment Configuration Mode 单选按钮在这两者间进行选择。 Simple Advanced

2、在 simple 模式下： ○1 点击”NEW”就定义一次实验的默认参数 ○2 Result Destination （结果的目的文件）一个 ARFF 文件将默认作为结果输出的目的文件。但你也可选择： ARFF file （ARFF 文件） ARFF file 如果文件名为空，将在系统的 TEMP 目录下创建一个临时文件。如果你想显式的指定一个结果文件，只需点击 Browse，并选一个文件名，例如 Experiment1.arff。点击 Save，文件路径将出现在 ARFF file 旁的文本框中。

CSV file （CSV 文件） JDBC database （JDBC 数据库） JDBC database 有了 JDBC，就可以很容易的把结果存储在数据库中。要使用某种特定数据库的 JDBC 功能，必须在CLASSPATH 中指定相应的 jar 文件。把 ARFF file 改成 JDBC database 后，点击 User... 来指定访问数据库的 JDBC URL 和用户帐号。在提供了必要的数据并点击 OK 后，主窗口中的 URL将会更新。注意：这个时候还没有测试数据库连接；启动试验时才会进行连接测试。

JDBC 数据库的优点是可以继续运行那些被中止的或扩展了的试验。它不用重新运行那些已试验过的算法/数据集组合，而仅计算还没有被试验的那些 2）Experiment type（试验类型）用户可选择以下三种不同的类型： Cross-validation （交叉验证） (默认)：根据给定的折数执行分层交叉验证 Train/Test Percentage Split (data randomized) （按比例分割训练/测试集，随机挑选数据）：把数据打乱顺序并确定层次后，根据给定的百分比把这个数据集分割成一个训练文件和一个测试文件 (在 Experimenter 中，不能显式的指定训练文件和测试文件)

Train/Test Percentage Split (order preserved) （按比例分割训练/ 测试集，按顺序挑选数据） 3)Datasets （数据集）可以通过绝对路径或相对路径添加数据集文件。后者使得在不同的机器上运行试验更加方便，因此你在点击 Add new....之前，应该勾选 Use relative paths （使用相对路径）。在这个例子中，打开 data 目录，选择 iris.arff 数据集。

4）Iteration control （迭代控制） Number of repetitions （重复次数）：为了获得统计上有意义的结果，默认的迭代数量是 10。在10折交叉验证的情形下，这意味着对一个分类器要进行100次调用——从训练集计算它，并在测试集上测试。 Data sets first/Algorithms first （数据集优先/算法优先）：当存在多个数据集和算法的时候，切换成优先迭代数据集的模式可能会有用。举个例子，会有人把结果存储在数据库中，并且想尽早完成某个算法在所有数据集上的结果。 2.1.6 Algorithms （算法）可以通过 Add new... 按钮添加新算法。如果是第一次打开这个对话框，将出现 ZeroR；否则将出现上次选中的那个。可以用 Choose 按钮打开 GenericObjectEditor 来选择别的分类器。

分享到：

赞收藏

资料库

数据挖掘实验报告.doc

相关推荐

开发技术

热门标签

最新资料