logo资料库

数据挖掘的习题作业+答案.doc

第1页 / 共42页
第2页 / 共42页
第3页 / 共42页
第4页 / 共42页
第5页 / 共42页
第6页 / 共42页
第7页 / 共42页
第8页 / 共42页
资料共42页,剩余部分请下载后查看
关联规则挖掘-市场购物篮分析
如:
Chips--C,Salsa--S,Cookies--K,Crackhers--R,Beer--B,
Spinach--P,Orange--O,Celery--E,Apple--A,Grapes--G,
Frozon Pizza--F,Frozen Cake--N,Milk--M,Butter—T,co
Transaction
Basket
T100
Chips, Salsa, Cookies, Crackers, Coke, Beer
T200
Lettuce, Spinach, Oranges, Celery, Apples, Grapes
T300
Chips, Salsa, Frozen Pizza, Frozen Cake
T400
Lettuce, Spinach, Milk, Butter
T500
Spinach, Oranges, Celery, Apples, Grapes
T600
Chips, Salsa, Frozen Pizza,
T700
Cookies, Crackers, Coke, Beer
T800
Frozen Pizza, Frozen Cake
T900
Chips, Salsa, Cookies, Crackers
T100
Lettuce, Spinach, Oranges
姓名:王燕 学号:109070018 数据挖掘思考和练习题 第一章 1.1 什么是数据挖掘?什么是知识发现?简述 KDD 的主要过程。 答:(1)数据挖掘(Data Mining)是指从大量结构化和非结构化的数据中提取有用的信息和知识的过程, 它是知识发现的有效手段。 (2)知识发现是从大量数据中提取有效的、新颖的、潜在的有用的,以及最终可理解的模式的非平凡 过程。 (3)KDD的过程主要包括: KDD的过程主要由数据整理、数据挖掘、结果的解释评论三部分组成。 可以由模型表示出来: 1.确定挖掘目标:了解应用领域及相关的经验知识,从用户的观点出发确定数据挖掘的目标。这一 步是实现数据挖掘的重要因素,相当于系统分析,需要系统分析员和用户的共同参与。 2.建立目标数据集:从现有的数据中,确定哪些数据是与本次数据分析任务相关的。根据挖掘目标, 从原始数据中选择相关数据集,并将不同数据源中的数据集中起来。在这一阶段需要解决数据挖掘平台、 操作系统和数据源数据类型等不同所产生的数据格式差异。 3.数据清洗和预处理:这一阶段即是将数据转变成“干净”的数据。目标数据集中不可避免地存在着 不完整、不一致、不精确和冗余地数据。数据抽取之后必须利用专业领域地知识对“脏数据”进行清洗。然 后再对它们实施相应的方法,神经网络方法和模糊匹配技术分析多数据源之间联系,然后再对它们实施相 应的处理。 4.数据降维和转换:在对数据库和数据子集进行预处理之后,考虑了数据的不变表示或发现了数据 的不变的表示情况下,减少变量的实际数目,设法将数据转换到一个更易找到了解的空间上。 5.选择挖掘算法 使用合适的数据挖掘算法完成数据分析。确定实现挖掘目标的数据挖掘功能,这些功能方法包括概念 描述、分类、聚类、关联规则。其次选择合适的模式搜索算法,包括模型和参数的确定。 6.模式评价和解释 根据最终用户的决策目的对数据挖掘发现的模式进行评价,将有用的模式或描述有用模式的数据以可视化 技术和知识表示技术展示给用户,让用户能够对模型结果作出解释,评价模式的有效性。结果不能令决策 者满意,需要重复以上数据挖掘过程。 1.2 简述数据挖掘涉及的数据类型以及数据的聚合形式。 答:数据挖掘中涉及的数据类型有:非数值数据,离散数值数据和连续数值数据,结构化数据和非结构化 数据,超文本数据、多媒体数据、空间数据。在聚类处理的数据类型中包括区间标度变量、二元变量、标 1
称型变量等等。时间和日期型数据可以经过适当的函数变换成数值数据后再进行处理。 (1)非数值数据向数值数据的转化:神经网络方法只能处理数值数据,因此需要将非数值数据转为数值数 据。方法是建立非数值型变量的不同状态值和离散数值之间的对照表。 (2)离散数值数据的转化:当变量取一组离散值时,必须对它作某种转化,使得每个离散致值都能产生唯 一的一组神经网络输入值。 数据的聚合形式: 构造数据立方体。 1.3 简述数据挖掘的相关领域及主要的数据挖掘方法。 答:(1)数据挖掘的相关学术应用领域包括:模糊数学方向,数据库,统计学,可视化计算,机器学习, 神经网络,决策树,模式视频,支持向量,基于规则的系统,高性能计算,模糊集,聚簇分类等方向。 (2)数据挖掘的方法: 决策树:决策树方法是利用信息论中的互信息(信息增益)寻找数据库中具有最大信息量的属性字段, 建立决策树的一个结点,再根据改属性字段的不同取之建立树的分支。 神经网络:它是模拟人类的形象思维,在生物神经网络研究的基础上,根据生物神经元和神经网络的 特点,通过简化、归纳、提炼总结出来的一类并行处理网络,利用其非线性映射的思想和并行处理的方法, 用神经网络本身的结构来表示输入和输出的关联知识。 粗糙集:它是研究不精确、不确定性知识的数学工具。它能在缺少先验知识的情况下,对数据进行分 类处理。基于粗糙集的数据挖掘算法实际上就是对大量数据构成的信息系统进行约简,得到一种属性归约 集的过程,最后抽取规则。 遗传算法:一种基于生物自然选择与遗传机理的随机搜索算法。基本思想是基于进化论和遗传学说。 算法从一组随机产生的初始解,称为种群,开始搜索。经过若干代之后,算法收敛,它很可能就是最优解。 概率论与数理统计:它是目前数学中最重要、最活跃的学科之一。 模糊集:基于模糊数学的一种处理方法。模糊集强调本身的含混性,研究的是属于同一类的不同对象 对集合的隶属关系,重在隶属程度。 关联分析:它分为两种:关联规则和时序分析。关联规则即在当前记录的各个特征间寻找内在的联系。 时序分析即在历史数据中寻找具有时间上相关的记录间的规律性。 1.4 如果面对学校数据库,你人为数据挖掘的目标是什么? 答:面对学校数据库,可以挖掘出老师的科研能力,学生的学习情况,教师的人事管理情况,后勤服务情 况等等。例如: 1)通过对每年招收的新生的学习成绩的分类,可以挖掘出哪个省的学生成绩最好,以便今后放大该省的招 生量,获取更好的生源。 2)通过对学生四六级成绩,计算机二三级成绩的挖掘,可以考察出哪个院系的学生英语水平更好。 3)通过教师的论文发表情况,挖掘出老师的科研能力和水平。 4)通过对学校各门学科排课的挖掘,可以合理安排学校的教室。 第二章 2.1 在现实世界的数据中,经常出现元组的某些属性缺少值的现象。有集中解决该问题的 方法? 答:出现属性缺少值的现象时,必须在数据清理中对这些空缺值进行处理,处理方法有: ①忽略该记录;②去掉属性;③手工填写空缺值;④使用默认值;⑤使用属性平均值; 2
⑥使用同类样本平均值;⑦预测最可能的值。 2.2 假设有人要求你创建一个数据仓库,主要分析关于客户的人口统计(收入、家庭人口、 家庭位置和爱好等)。数据仓库的目的在于将特定的产品更新换代推销给合适的潜在的客户 群。这个数据仓库应该从哪些地方获取数据源? 答:数据仓库的数据是从原有的分散的数据库、数据文件和数据段中抽取来的,数据来源可能既有内部数 据又有外部数据。 (1)对于内部数据:可以对原有的数据库中的数据进行提取,筛选出对我们有用的数据。 (2)对于外部数据,可以从人群中获取信息,即可以进行市场调查诸如问卷调查,统计分析各个层次类别 的客户 。因为每一个人都是一个信息源,人们在日常生活中吸引着信息,也在传播着信息。尤其是与选择 项目有关的消费者,同行业从业人员,及相关企业的营销人员,往往能够提供大量的、直接的宝贵信息。 熟 人、亲戚、朋友、老同学、老部下、老战友、老同事、童年的伙伴,现在的邻居、从前的客户、一个俱乐 部的成员等等都是信息源。 (3)从官方或官方服务机构获取信息。 (4)可以从附近的超市,商场及批发零售交易市场、集贸市场直接获得信息。 2.3 假设某数据集包含年龄属性。该属性值(按递增序)如下: 13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35, 35,36,40,45,46,52,70 (1) 设箱的深度为 3,使用按箱平均值平滑数据。解释你的步骤。评论你的结果; (2)怎样确定数据中的孤立点? (3)还有那些其他的数据平滑方法? 答:(1)共有 27 个数据,由于箱子深度为 3,所以箱子个数为 27/3=9 个。 BN1:13,15,16 BN2:16,19,20 BN3:20,21,22 BN4:22,25,25 BN5:25,25,30 BN6:33,33,35 BN7:35,35,35 BN8:36,40,45 BN9:46,52,70 用平均值平滑 14.67,14.67, 14.67 18.34, 18.34, 18.34 21.00, 21.00, 21.00 24.00, 24.00, 24.00 25.67, 25.67, 25.67 33.67, 33.67, 33.67 35.00, 35.00, 35.00 40.34, 40.34, 40.34 56.00, 56.00, 56.00 (2)孤立点是一类特殊的聚类分析。因此有三种方法可以找出:统计学方法、基于偏移的方法、基于距离 的方法。 基于统计的方法需要先假设给定数据集满足某种概率分布,然后根据这种概率分布采用合适的不一致检 验方法来发现孤立点。 基于偏离的孤立点检测通过检查一组对象的主要特征来确定孤立点,如果一个对象与给出的描述发生“偏 离”,则认为该对象是“孤立点”。序列异常技术和 OLAP 数据立方体方法是两种基于偏离的孤立点检测方法。 基于距离的孤立点检测算法可以在未知数据分布状态下对多维数据进行分析。如果数据集 S 中至少有 P 部 分与对象 O 的距离大于 d,那么对象 O 是一个带参数 P 和 d 的基于距离的孤立点。即 DB 孤立点。 下面以基于统计的方法进行孤立点分析: 3
对异常点的检测和把它从数据集中潜在的去除,可以描述为一个从 N 个样本中选 K 个与剩余数据显著不同、 例外或不相一致的样本过程。一维样本异常点检测方法应用统计学,假定值的分布已知,必须找出基本统 计参数,如均值、方差,在这些值和异常点期望的基础上,建立方差函数阈值,所有阈值之外的样本都是 异常点。这种方法主要在于对数据分布的预假设。阈值=均值+或-2*标准差 本 题 中 : 均 值 =(13+15+16+16+19+20+20+21+22+22+25+25+25+25+30+33+33+35+35+35+35+36 , +40+45+46+52+70)/27=30 标准差= 2 ( n  1 ) /  n i ( x i  X 2 ) ≈12.94 所以阈值=(30-2*12.94,30+2*12.94)=(4.12,55.88)所以孤立点为 70 (3)还可以用边界平滑、众数平滑方法等 2.4 属性子集选择的目的是什么?有哪些启发式方法? 答:(1)属性子集选择的目的是找出最小的可以检测并删除不相关、弱相关或冗余的属性或维。使得数据 类的概率分布尽可能地接近使用所有属性得到的原分布。在减小属性集挖掘上,它减少了出现在发现模式 的属性数目,使得模式更易于理解。 (2)对于属性子集选择,通常使用压缩搜索空间的启发式算法。通常,这些方法是贪心算法,其策略是做 局部最优选择,期望由此导致全局最优解。属性子集选择的贪心(启发式)方法有: ①逐步向前选择:该过程由空属性集作为归约集开始,确定原属性集中最好的属性,并将它添加到归约集 中。在其后的每一次迭代步,将剩下的原属性集中最好的属性添加到该集合中。 ②逐步向后删除:该过程由整个属性集开始。在每一步,删除尚在属性集中最差的属性。 ③向前选择和向后删除结合:可以将逐步向前选择和向后删除方法结合在一起,每一步选择一个最好的属 性,并在剩余属性中删除一个最差的属性。 ④判定树归纳:决策树算法,如 ID3、C4.5 和 CART 最初是用于分类的。决策树归纳构造一个类似于流程图 的结构,其中每个内部(非树叶)节点表示一个属性的测试,每个分枝对应于测试的一个输出;每个外部 (树叶)节点表示一个类预测。在每个节点,算法选择“最好”的属性,将数据划分成类。 ⑤基于统计分析的归约。 2.5 比较星型模式、雪花模式和事实星座模式。 图 2-1 属性子集选择的启发式方法 答:星型模式包括事实表和一组小的附属表(维表)。雪花模式是星型模式的变种,不同的是将某些维表规 范化,雪花型模式中数据表易于维护,节省空间,但是在执行查询时需要更多的关联操作,降低了数据仓 库的响应性能,因此,在数据仓库设计中,星型模式更流行。事实星座模式对应多个事实表共享维表。 2.6 假定数据仓库包含三个维:时间、医生和病人,两个度量:病人个数和医生对一位病 4
人的一次诊断收费。 (1)列举三种流行的数据仓库建模模式;(2)使用其中一种模式,画出数据仓库的模式图。 答:(1)三种流行的建模模式为:①星型模型是目前比较流行的,同时也是相当简洁的数据仓库概念模型, 它可以很准确地反映出各实体之间的逻辑关系,并依据实体的重要程度,将这种关系展示出来。 ②雪花模型在星型模型的基础上拓展起来的,它在事实表和维度表的基础上,增加了一类新的表-“详 细类别表,用于对维度表进行解释”。 ③事实星座模型需要更多个事实表共享维度表,因而可以被视为星型模型的结合。 (2)星型模式: Time time_key day month Doctor doctor_key doctor_name doctor_sex Hospital 事实表 time_key doctor_key patient_key Patient patient_key patient_name patient_sex 2.7 数据仓库实现方法是构造一个称为数据立方体的多维数据库。但是,这会产生大的、 稀(Sparse)的多维矩阵。 (1)给出一个例子,解释这种大的、Sparse 的数据立方体; (2)设计一种实现方法,可以很好地克服这种 Sparse 矩阵问题。详细解释你的数据 结构,讨论空间需求量。 答:(1)例如当利用多维数据库存储 OLAP 数据时,不需要将多维数据模型中的维度、层划分和立方体等 概念转换成其他的物理模型,因为多维数组(矩阵)能很好地体现多维数据模型特点。利用数 组实现多维数据模型的优点,在于对数据的快速访问,但同时也会带来存储空间的冗余,即稀 疏矩阵问题,进而导致对存储空间的极大需求。 (2)为了解决稀疏矩阵问题,某些产品提出了稀疏维(Sparse)和密度维(Dense)策略。由稀疏维 产生索引块,由密度维形成数据块。只有当稀疏维的组合在交易事件初次发生时才创建索引块,进而创建 数据块。稀疏维和密度维的引入在一定程度上降低了立方体的存储冗余问题。此外,通过数据压缩技术可 降低数据块的存储空间。 2.8 说明为什么概念分层在数据挖掘中是有用的。 答:通过将属性值域划分为区间,数据离散化技术可以用来减少给定连续属性值的个数。区间的标记可以 替代实际的数据值。用少数区间标记替换连续属性的数值,从而减少和简化了 原来的数据。这导致挖掘结 果的简洁、易于使用的、知识层面的表示。对于给定的数值属性,概念分层定义了该属性的一个离散化。 通过收集较高层的概念(如青年、中年或老年)并用它们替换较低层的概念(如年龄的数值),概念分层可 以用来归约数据。通过这种数据泛化,尽管细节丢失了,但是泛化后的数据更有意义、更容易解释。这有 助于通常需要的多种挖掘任务的数据挖掘结果的一致表示。此外,与对大型未泛化的数据集挖掘相比,对 5
归约的数据进行挖掘所需的 I/O 操作更少,并且更有效。 第三章 设有下表所示有关超市 employee 的数据集。 注:先由学生自己将表中数据随机扩充为 40 人,然后按所学知识,完成上述作业要求。 Num. Name Gende Department years_ age salary Residence 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 r M Jamie Wise worked Clothing 3 21 $20K 3511 MainSt. Richmond Sandy F Shoe Jones Carol Dunch Della Bill Viv Colin Zoe Bruce Tracy Eric Sarah Frank Polly Gary Rachel Harold Sheila Henry F M F M F M F M F M F M F M F M F M Vegetable Clothing Shoe Clothing Rice Wine Vegetable Wine Shoe Meat Clothing Meat Wine Sweet Clothing Wine Meat Vegetable 39 $25K 125 AustinAve ,Burnaby 22 31 39 35 35 39 24 23 26 28 32 38 37 24 22 25 28 29 $21K 351 Austinave, Burnaby $23k $25k $23k $23k $25k $21k $21k $22k $22k $23k $24k $24k $21k $20k $22k $22k $22k 134 Austin Ave, Burnaby 3514 MainSt. Richmond 126AustinAve.,Burnaby 127AustinAve.,Burnaby 3518 MainSt. Richmond 128AustinAve.,Burnaby 3519 MainSt. Richmond 123AustinAve.,Burnaby 3520 MainSt. Richmond 138AustinAve.,Burnaby 3522 MainSt. Richmond 133AustinAve.,Burnaby 3523 MainSt. Richmond 125AustinAve.,Burnaby 3524MainSt. Richmond 136AustinAve.,Burnaby 3526 MainSt. Richmond 20 4 11 19 15 15 19 4 3 5 6 12 18 17 4 1 3 7 8 6 #_of_ children 0 2 0 2 1 2 2 2 0 0 0 1 2 2 2 1 0 0 1 2
21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 Sophia F Sweet Howard M Seafood Susan John Vera Mark Penny Mort Phoebe Oliver Michelle F M F M F M F M F Richard M Molly Robin Joan Scen Hilary Terna Ellen Linda F M F M F M M M Rice Seafood Sweet Rice Clothing Vegetable Meat Vegetable Sweet Milk Vegetable Shoe Milk Milk Sweet Vegetable Meat Meat 12 13 7 6 3 9 18 20 12 14 3 13 3 11 11 15 17 2 8 9 32 33 27 26 23 29 39 40 32 34 23 35 26 33 31 35 37 22 28 29 $23k $23k $22k $22k $21k $22k $25k $25k $23k $23k $21k $23k $22k $23k $23k $23k $23k $20k $22k $22k 176AustinAve.,Burnaby 3561 MainSt. Richmond 140AustinAve.,Burnaby 3581 MainSt. Richmond 139AustinAve.,Burnaby 3591 MainSt. Richmond 152AustinAve.,Burnaby 3593 MainSt. Richmond 186AustinAve.,Burnaby 3525 MainSt. Richmond 115AustinAve.,Burnaby 365 MainSt. Richmond 545AustinAve.,Burnaby 3564 MainSt. Richmond 105 austinAve, Burnaby 561 MainSt. Richmond 169 AustinAve. Burnaby 398 Mainst . Richmond 399 AustinAve Burnaby 365 Mainst. Richmond 2 1 1 1 0 1 2 2 1 1 0 1 1 1 2 2 2 0 1 1 给出下列每个属性的概念层次结构:department, age, years_worked, residence, salary, #_of_children; 应用原理:概念分层就是把低层概念映射到高层概念的映射序列。一般数据分为非数值型 数据和数值型数据。非数值型数据的概念分层比较简单,因为这种数据的取值是离散的, 取值范围是固定的。而对于数值型数据概念分层方法主要有分箱法、聚类分析、基于熵的 离散化。根据原理可以将上述数据进行分层如下: 第一层 第二层 Department Clothing 、Foods Age 小于等于 30 岁(青年)、小于等于 50 岁大于 30 岁(中年) 、大于 50 岁(老年) Years worked 小于 10 年、大于 10 年 7
Residence Richmond、Burnaby Salary 小于$23K(一级),大于$23K 小于$25K(二级) # of children 有孩子、无孩子 2) 挖掘其主泛化关系; gender department Age Years Salary Residence #of Count worked children M M M M M M F F F F F F Clothing Foods Clothing Foods Foods Foods Clothing Clothing Foods Clothing Foods Foods 中年 中年 青年 青年 青年 青年 中年 中年 中年 青年 青年 青年 >10 >10 <10 <10 <10 <10 >10 >10 >10 <10 <10 <10 二级 二级 一级 一级 一级 一级 二级 二级 二级 一级 一级 一级 Burnaby Richmond Richmond Richmond Richmond Burnaby Burnaby Richmond Burnaby Burnaby Burnaby Burnaby 有 有 无 有 无 有 有 有 有 无 有 无 3 7 1 3 6 1 4 1 5 2 3 4 给出泛化关系的 crosstab, bar chart, pie chart 以及逻辑规则(logic rule),要求计 算出 t_weight 和 d_weight; 原理:面向属性归纳产生一个或一组泛化描述,可以用多种不同的形式将描述提供给用户。 面向属性归纳方法产生的泛化描述通常以广义关系形式显示。 描述可以用交叉表显示,泛化的数据可以用图的形式表示,如条形图、饼图、和曲线。同 时广义关系可以用逻辑规则的形式表示。 制作交叉表:首先了解交叉表:交叉表最多可以有三个属性。(由于该超市人员年龄没有大 于 50 岁的,因此员工年龄大于 50 岁部分省去) (交叉表一):该表表示部门、年龄和工资属性。 Age 工资 青年(0-30) $20k Clothing count 2 Foods count 1 6 两部门 count 3 6 工资 $20k $21k 工资 $20k $21k 8
分享到:
收藏