logo资料库

数据仓库与数据挖掘技术期末考试 试题.doc

第1页 / 共4页
第2页 / 共4页
第3页 / 共4页
第4页 / 共4页
资料共4页,全文预览结束
广西财经学院 2007——2008 学年第一学期 《数据仓库与数据挖掘》课程期末考试试卷(A) 卷 适用班级:电商本 0541、0542 考试时间:120 分钟 命题老师签名:郑华 课程开课系:计信系 (开卷机试) 考查课程 教研室主任签名: 注意:本次考试是开卷上机考,请大家独立分析完成。如果发现有相同的答 卷,则二人都为 0 分,请大家自觉! 请 大 家 在 2007 年 12 月 25 日 之 前 把 做 好 的 答 卷 发 送 到 老 师 的 邮 箱:gxhuazheng@yahoo.com.cn,过期不候. 题号 一 二 三 四 五 六 七 八 九 十 应得分 20 30 30 20 总分 100 实得分 评卷人 一、名词解释(每题 4 分,共 20 分) 1、数据仓库 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的 (Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数 据集合,用于支持管理决策。 2、数据挖掘 数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可 理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘” 知识。 3、雪花模型 雪花模式中某些维表是规范化的,因而把数据进一步分解到附加的表中,模式图 形成了类似雪花的形状。通过最大限度地减少数据存储量以及联合较小的维表来 改善查询性能。雪花模型增加了用户必须处理的表数量,增加了某些查询的复杂 性,但同时提高了处理的灵活性,可以回答更多的商业问题,特别适合系统的逐 步建设要求。 4、OLAP OLAP 是联机分析处理,是使分析人员、管理人员或执行人员能够从多角度对信息 第 1 页 共 4 页 2005 级《数据仓库与数据挖掘》卷 级 班 : 号 学 : 名 姓
进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。 它支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。 5、决策树 决策树是将训练集函数表示成树结构,通过它来近似离散值的目标函数。这种树 结构是一种有向树,它以训练集的一个属性作节点,这个属性所对应的一个值作 边。决策树一般都是自上而下的来生成的。 二、简答题(每题 6 分,共 30 分) 1、企业面对海量数据,应如何具体实施数据挖掘,使之转换成可行的结果/模型? 首先进行数据的预处理,主要进行数据的清洗,数据清洗,处理空缺值,数据的 集成,数据的变换和数据规约。 2、请列举您使用过的各种数据仓库工具软件(包括建模工具,ETL 工具,前端 展现工具,OLAP Server、数据库、数据挖掘工具)和熟悉程度。 ETL 工具:Ascential DataStage ,IBM warehouse MANAGER、Informatica 公司 的 PowerCenter、Cognos 公司的 DecisionStream 市场上的主流数据仓库存储层软件有:SQL SERVER、SYBASE、ORACLE、DB2、TERADATA 但是使用过的只有 SQL SERVER 和数据挖掘工具 Analysis Services,而且不大熟 悉。 3、请谈一下你对元数据管理在数据仓库中的运用的理解。 元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持 系统以最有效的方式访问数据。具体来说,在数据仓库系统中,元数据机制主要支 持以下五类系统管理功能:(1)描述哪些数据在数据仓库中;(2)定义要进入 数据仓库中的数据和从数据仓库中产生的数据;(3)记录根据业务事件发生而 随之进行的数据抽取工作时间安排;(4)记录并检测系统数据一致性的要求和 执行情况;(5)衡量数据质量。 4、数据挖掘对聚类的数据要求是什么? (1)可伸缩性(2)处理不同类型属性的能力(3)发现任意形状的聚类(4)使 输入参数的领域知识最小化(5)处理噪声数据的能力(6)对于输入顺序不敏感 (7)高维性(8)基于约束的聚类(9)看解释性和可利用性 5、简述 Apriori 算法的思想,谈谈该算法的应用领域并举例。 思想:其发现关联规则分两步,第一是通过迭代,检索出数据源中所有烦琐项集, 即支持度不低于用户设定的阀值的项即集,第二是利用第一步中检索出的烦琐项 集构造出满足用户最小信任度的规则,其中,第一步即挖掘出所有频繁项集是该 算法的核心,也占整个算法工作量的大部分。 在商务、金融、保险等领域皆有应用。 第 2 页 共 4 页 2005 级《数据仓库与数据挖掘》卷
在建筑陶瓷行业中的交叉销售应用,主要采用了 Apriori 算法 三、翻译分析题(30 分) 1、附件有一名为“Data Mining in Electronic Commerce”的电子文档,请同 学们翻译其中的一段。每位同学翻译的段号以大家学号的最后两位为准,如 10 号同学只需翻译正文的第 10 段,以此类推。 分类则是一个标准的问题,在数据挖掘和在电子商贸的应用-原则下,适当的方 法[随机森林,支持向量机(支持向量机) ,后勤拉索等]有赖于敏锐地在该网 站上,该类型的广告都是可以收集到的资料。在亚马逊商务网站中,该推荐系统 已进入先前购买和书籍进行视察。 这是一个更丰富的信息来源,通过 dictionary.com 可以接入(他们只 知道这个词,有人期待在这次会议上,除非他们有库克-网页) 。一些企业获得 更多的信息,从数据仓库中,如作为 choicepoint 公司,这使得他们的专家来 建立高度个性化的分类规则。 2、通过阅读该文挡,请同学们分析一下数据挖掘在电子商务领域的应用情况(请 深入分析并给出实例,切忌泛泛而谈)。 随着网络技术和数据库技术的成熟,全球传统商务正经历一次重大变革,向电子 商务全速挺进。这种商业电子化的趋势不仅为客户提供了便利的交易方式和广泛 的选择,同时也为商家提供了更加深入地了解客户需求信息和购物行为特征的可 能性。数据挖掘技术作为电子商务的重要应用技术之一,将为正确的商业决策提 供强有力的支持和可靠的保证,是电子商务不可缺少的重要工具。 电子商务的发展促使公司内部收集了大量的数据,并且迫切需要将这些数据转换 成有用的信息和知识,为公司创造更多潜在的利润,数据挖掘概念就是从这样的 商业角度开发出来的。 由于数据挖掘能带来显著的效益,它在电子商务中(特别是业、零售业和电信业) 应用也越来越广泛。 在金融领域,管理者可以通过对客户偿还能力以及信用的分析,进行分类,评出 等级。从而可减少放贷的麻木性,提高资金的使用效率。同时还可发现在偿还中 起决定作用的主导因素,从而制定相应的金融政策。更值得一提的是通过对数据 的分析还可发现洗黑钱以及其它的犯罪活动。 在零售业,数据挖掘可有助于识别顾客购买行为,发现顾客购买模式和趋势,改 进服务质量,取得更好的顾客保持力和满意程度,提高货品销量比率,设计更好 的货品运输与分销策略,减少商业成本。 第 3 页 共 4 页 2005 级《数据仓库与数据挖掘》卷
电信业已经迅速地从单纯的提供市话和长话服务演变为综合电信服务,如语音、 传真、寻呼、移动电话、图像、电子邮件、机和 WEB 数据传输以及其它的数据通 信服务。电信、计算机网络、因特网和各种其它方式的通信和计算的融合是的大 势所趋。而且随着许多国家对电信业的开放和新型计算与通信技术的发展,电信 市场正在迅速扩张并越发竞争激烈。因此,利用数据挖掘技术来帮助理解商业行 为、确定电信模式、捕捉盗用行为、更好的利用资源和提高服务质量是非常有必 要的。分析人员可以对呼叫源、呼叫目标、呼叫量和每天使用模式等信息进行分 析,还可以通过挖掘进行盗用模式分析和异常模式识别,从而可尽早发现盗用, 为公司减少损失。 四、编程题(20 分) 请大家用所学过的 java 语言改写 p192-p194 的 vb 核心源程序 第 4 页 共 4 页 2005 级《数据仓库与数据挖掘》卷
分享到:
收藏