Group 4 Chapter1-3
CH1
1.数据库与数据仓库的本质差别是什么?
答:数据库用于事务处理,数据仓库用来决策分析。
2.从数据库发展到数据仓库的原因是什么?
答:①数据太多,信息贫乏。②异构环境数据的转换和共享。③利用数据进行事务处理转变
为利用数据支持决策。
3.举例说明数据库与数据仓库的不同
答:
数据库(DB)
面向应用
数据是详细的
保持当前数据
数据是可更新的
对数据操作是重复的
操作需求是事先可知的
一个操作存取一个记录
数据非冗余
操作比较频繁
数据仓库(DW)
面向主题
数据是综合的和历史的
保存过去和现在的数据
数据不更新
对数据的操作是启发式的
操作需求是临时决定的
一个操作存取一个集合
数据时常冗余
操作相对不频繁
查询基本是原始数据
查询基本是经过加工的数据
事务处理需要的是当前数据
决策分析需要过去和现在的数据
很少有复杂的计算
支持事务处理
有很多复杂的计算
支持决策分析
4. 答:Oltp 联机事务处理,就是我们通常所说的关系型数据库,记录了实时的增删改查数
据。
Olap 联机分析处理,是数据仓库的核心,是对 oltp 的历史数据进行加工,分析处理,用于
处理商业智能,决策支持等重要的决策信息。
5.答:oltp 是用户数据可以立即传送到计算中心进行处理,并在很短时间内给出处理结果。
它主要用于包括银行业、航空、邮购订单、超级市场和制造业等的输入数据和取回交易数据。
事务处理量大,要求多个并行处理,事务处理内容比较简单切重复率高。大量的数据操作主
要涉及的是一些增删改查询等操作,每次操作的数据量不打且多为当前的数据。Oltp 处理的
数据是高度结构化的,数据访问路径是已知的,至少是固定的。
6. 答:1.oltp 是明细的数据,olap 是汇总数据
2.oltp 记录实时的数据,olap 包含 2-3 年历史数据
3.oltp 可以进行增删改查操作,olap 只支持查询,但周期性刷新。
4.oltp 一次性处理的数据量少,olap 一次处理的数据量大
5.oltp 对响应时间要求高,olap 响应时间合理
6.oltp 面向应用,事务驱动,olap 面向分析,分析驱动
7. 数据库中数据字典包括哪些内容? P4-5
答:数据字典是指对中举的数据项、数据结构、数据流、数据存储、和处理过程
8.元数据的定义是什么? P5
答:元数据为关于数据的数据(data about data)。元数据在数据仓库中式描述数据仓库中数
据及其环境的数据。元数据描述了数据仓库的数据和环境,遍及数据仓库的所有方面,是整
个数据仓库的核心。
9.元数据与数据字典的关系是什么? P5
答:元数据在数据仓库中不仅定义了数据仓库有什么,还指明了数据仓库中信息的内容和位
置,刻画了数据的抽取盒转换规则的说明,存储了与数据仓库主题有关的各种商业信息,而
且整个数据仓库的运行都是基于元数据的,如数据的修改、跟踪、抽取、装入、综合以及使
用等。由于元数据遍及数据仓库的所有方面,因此它已成为整个数据仓库的核心。
10.数据仓库的定义是什么?
W.H.Inmon 对数据仓库的定义:数据仓库是面向主题的、集成的、稳定的、不同时间的数据
集合,用于支持经营管理中决策制定过程。
SAS 软件研究所的观点:数据仓库是一种管理技术,旨在通过通畅、合理、全面的信息管理,
达到有效的决策支持。
11.数据仓库的特点有哪些?
从数据仓库的定义可以看出数据仓库具有如下特点:
(1) 数据仓库是面向主题的
主题是数据归类的标准,每一个主题基本对应一个宏观的分析领域。例如,保险公司的
数据仓库的主题为客户、政策、保险金、索赔等。
(2) 数据仓库是集成的
数据进入数据仓库之前,必须经过加工与集成。对不同的数据来源进行统一数据结构和
编码。统一原始数据中的所有矛盾之处,如字段的同名异义、异名同义、单位不统一、
字长不一致等。总之,将原始数据结构做一个从面向应用到面向主题的大转变。
(3) 数据仓库是稳定的
数据仓库中包括了大量的历史数据。数据经集成进入数据仓库后是极少或根本不更新的。
(4) 数据仓库是随时间变化的
数据仓库内的数据时限在 5~10 年,故数据的键码包含时间项,标明数据的历史时期,
这适合决策分析时进行时间趋势分析。
(5) 数据仓库中的数据量很大
通常的数据仓库的数据量为 10GB 级,相当于一般数据库(约 100MB)的 100 倍,大型
数据仓库是 1TB(1000GB)级数据量。
(6) 数据仓库软硬件要求较高
需要一个巨大的硬件平台和一个并行的数据库系统。
12.说明机器学习如何形成人工智能的学科方向。
学习是人类具有的智能行为,主要目的在于获取知识。机器学习是研究使计算机模拟或
实现人类的学习行为,即让计算机通过算法自动获取知识。
20 世纪 60 年代开始了机器学习的研究。比较典型的成果有:Rosenblate 的感知机,它
是最早用神经网络进行模式识别的方法;Sammel 的西洋跳棋程序,它用线性表达式的启发
式方法,通过多次人机对弈,自动修改表达式中的系数,使程序逐渐聪明,该程序竟然取得
了胜过作者和州冠军的成绩。
20 世纪 80 年代,机器学习取得了较大的成果。Michelski 等人的 AQ11 系统(1980),
能从大量病例中归纳出大豆病症的判断规则。AQ11 是一个很成功的归纳学习方法;Quiulan
的 ID3(1983)决策树方法影响很大,实用性很强;Langley 等人的 BACON 系统(1987)能
重新发现物理学的大量规律;Rumelhart 等人研制的反向传播神经网络 BP 模型(1985)为
神经网络的学习开创了一个新阶段。
这些显著成果的出现,使“机器学习”逐渐形成了人工智能的主要学科方向之一。
1-13.
数据库中每个数据记录的内含代表了该记录的信息。而数据挖掘是从数据库中所有数据记录
中归纳总结出知识。知识的数量大大少于数据记录量。这些知识代表了数据库中数据信息的
规律,即用少量知识能够覆盖数据库中所有的记录。
1-14.
OLAP 的典型应用例子:
OLAP 平时需要查询大量的日常商业活动信息,如每周的布匹购买量、每周布匹的内部库存
以及布匹的销售量等。OLAP 更需要查询商业活动的变化情况,如每周布匹购买量的变化值、
衣服生产量的变化值、衣服销售价格的变化等。这些变化值对经理们制定决策更重要。
经理们往往从查询出的变化值中,通过 OLAP 追踪查询找出存在的原因。例如,经理看到利
润小于预计值的时候,他可能会深入到各个国家,于是他自然就会查看这些国家中不同产品
组的利润情况,总的目标就是寻找一些比较异常的数据来解释某种现象。经过一番观察之后,
就会发现非直接成本在这些国家明显偏高。进一步对这些非直接成本进行分析,可以发现近
期对于某些产品的赋税明显增加,从而明显影响了最终利润。
1-15.
OLAP 是在带层次的维度和跨维度进行多维数据分析的。数据挖掘则不同,它是以变量和记
录为基础进行分析的。数据挖掘任务在于聚类(如神经网络聚类)、分类(如决策树分类)、
预测等。这些是带有探索性的建模功能。数据挖掘在于寻找不平常的且有用的商业运作模型。
数据挖掘用在产生假设,OLAP 则用于查证假设。简单来说,OLAP 是由使用者所主导,使用
者先有一些假设,然后利用 OLAP 来查证假设是否成立;而数据挖掘则是用来帮助使用者产
生假设。所以在使用 OLAP 或其它 Query 的工具时,使用者是自己在做探索(Exploration),
但数据挖掘是用工具在帮助做探索。
数据挖掘常能挖掘出超越归纳范围的关系,但 OLAP 仅能利用人工查询及可视化的报表来确
认某些关系,是以数据挖掘此种自动找出甚至不会被怀疑过的数据模型与关系的特性,事实
上已超越了我们经验、教育、想象力的限制,OLAP 可以和数据挖掘互补,但这项特性是数
据挖掘无法被 OLAP 取代的。
总之,数据挖掘是智能化的 OLAP。
16.举例说明统计学的价值。
答:统计学不仅仅限于学术上的研究,他对于国家发展,经济,政治,自然等等都有它独特
的作用。如工业统计学、农业统计学、生物统计学、医药统计学、人口统计学、空间统计学
等,都发挥着重要的作用。例如,实验中研究某种实验结果的可靠性,需要用统计学知识来
处理实验数据;统计学应用于农业实验的设计和分析中来研究各种品种的中医的增产效果;
在医药学中,关于吸烟与肺癌发病率联系的分析、关于某种新药效果的研究,都普遍使用到
了统计学的知识。
例 1:在医药学中,关于吸烟与肺癌发病率联系的分析、关于某种新药效果的研究,都普遍
使用统计方法;19 世纪中叶基因学说的创立,也是依赖于统计推断技术
例 2:2005 年 3 月 16 日上证的平均指数中 30 支股票的市盈率是 21.08。东方电子集团有限
公司的市盈率是 17.92。这时,市盈率方面的统计信息显示:与上证指数股票的平均收入相
比,东方电子集团有限公司的股票价格较低。因此,投资顾问可以得出结论:东方电子集团
有限公司的现行价格低估了。这一点以及其他有关东方电子集团有限公司的信息有助于投资
顾问做出买入、卖出还是持股的建议。
例 3:零售付账柜台使用电子扫描仪收集数据,可供各种营销研究应用。市场调查公司或营
销专家需要的各种数据,都可以从零售商店购买销售点的扫描记录中获得,他们经过处理后,
会把这些数据的统计汇总信息卖给制造商。产品公司经理们可以检查并评论扫描得到的数据
以及促销活动的相关数字,从而更好地理解销售与促销活动之间的关系。
17.说明统计学应用于数据挖掘中所包含的内容。
答:(1)常用统计
在大量数据中求最大值、最小值、总和、平均值等。
(2)相关分析
通过求变量间的相关系数来确定变量间的相关程度。
(3)回归分析
建立回归方程以表示变量间的数量关系,并利用其来进行预测。
(4)假设检验
在总体存在某种不确定情况是,为推断总体的某些性质,提出关于总体的某些假设,对此假
设利用置信区间来检验。
(5)聚类分析
对样本或变量进行聚类的方法。
(6)判别分析
建立一个或多个判别函数,并确定一个判别标准。
(7)主成分分析
把多个变量化为少数的几个综合变量,而这几个综合变量可以反映原来多个变量的大量信息。
18.说明统计学与数据挖掘的不同。
答:①统计学主要是对数量数据或连续值数据进行数值计算的定量分析,得到数量信息;
数据挖掘主要对离散数据进行定性分析,得到规则知识。
②统计学和数据挖掘中聚类分析和判别分析采用的标准不一样。统计学的聚类采用的“距离”
是欧式距离;而数据挖掘的聚类采用的“距离”是汉明距离。
19 区别:
数据仓库在数据库的基础上发展起来的。它将大量的数据库数据按决策需求进行重新
组织,以数据仓库的形式进行存储,为用户提供辅助决策的随机查询、综合信息以及随时间
变化的趋势分析信息等。
数据仓库是一种存储技术,其数据存储量是数据库 100 倍,包含大量的历史数据、当
前的详细数据以及综合数据。它能适用不同用户对不同决策需要提供所需的数据和信息。
数据挖掘从人工智能机器学习中发展起来。研究各种方法和技术,从大量数据中挖掘
出有用的信息和知识。数据挖掘采用统计分析法。神经网络方法和机器学习中研究的方法。
联系:
都是决策支持新技术,可以结合起来以帮助决策用户挖掘数据仓库数据中隐含的规律性。
数据挖掘用于数据仓库实现决策支持,具体表现为:
(1)预测客户购买倾向;
(2)进行客户利润度贡献分析;
(3)分析欺诈行为;
(4)进行销售渠道优化分析等。
20
数据库是一个长期存储在计算机内的、有组织的、有共享的、统一管理的数据集合。数
据仓库,是决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从
数据库中获取信息的问题。
数据挖掘的兴起是针对数据库的。
数据仓库与数据库在数据存储等方面有诸多不同。数据仓库数据存储按决策分析需求,
这种需求是以决策主题为对象的,从而给予数据仓库的数据挖掘更加面向主体化,更适合应
用与决策分析。
数据仓库数据存储量比数据库大很多,按决策主题组织,保留大量历史数据,更适合于
预测分析,并且对近期基本数据进行了轻度、高度综合,使得分析效率更高,更便于提取有
用数据。
数据库使用关系型二维存储格式,数据仓库采用多为超立方体结构存储,相较于二维存
储可以挖掘多维数据知识。
21
数据挖掘从数据仓库中挖掘的信息:
(1)哪些商品仪器销售好?
(2)偏爱某类商品的客户特征是什么?
(3)还有那些客户具有向上述特征?
(4)那些商业事务处理可能有欺诈性?
(5)高价值客户的共同点是什么?
22.数据仓库对数据挖掘提出了哪些新要求?
答:1)数据挖掘需要可扩展性:
数据挖掘对数据仓库的应用一般使用的数据是详细数据,不用综合数据,因为综合
数据“平滑”了数据间的差别,从而无法发现单个数据项目之间的微妙相关性。
数据仓库中的数据随着时间的推移逐渐增长。这样,数据挖掘方法就应该具有可扩
展性,能够处理递增的数据量。
2)数据挖掘方法需要挖掘多维知识:
数据仓库中的数据模型是多维数据知识,它不同于数据库的二维数据组织。数据挖
掘应用到数据仓库时需要能挖掘多维数据知识。
23.数据仓库与联机分析处理、数据挖掘在决策支持方面有什么不同?
答:联机分析处理专门用于支持复杂的分析操作,侧重对分析人员和高层管理人员的决策支
持,可以应分析人员的要求快速、灵活地进行大数据量的复杂处理,并且以一种直观易懂的
形式将查询结果提供给决策指定人。联机分析处理可以使决策者从多方面和多角度,以多维
的形式来观察企业的状态和了解企业的变化。联机分析处理的功能和算法包括聚合、分配、
比率、乘积等描述性的建模功能。
数据挖掘在于寻找不平常且有用的商业运作模型。考查数据的不同类型或者找出变量之
间的关系。数据挖掘需要海量数据,主要是详细数据和历史数据。数据挖掘主要进行聚类、
分类、预测等探索性的建模功能。
而数据仓库是一种存储技术。数据仓库中存储着大量辅助决策的数据,它为不同的用户
随时提供各种辅助决策的随机查询、综合信息或趋势分析信息。用户利用这些信息和知识来
指导和帮助决策。
联机分析处理以数据仓库为基础为决策人员提供快速灵活的数据分析;数据挖掘则是利
用各种方法和技术从数据仓库中挖掘出信息和知识,反映数据仓库中数据的规律性。总而言
之,联机分析处理和数据挖掘都是以数据仓库为基础辅助决策,只是方式不同。
24. 基于数据仓库的决策支持系统的组成是什么?
数据仓库(DW)、联机分析处理(OLAP)、数据挖掘(DM)相结合的决策支持系统,
是以数据仓库为基础的决策支持系统。
25. 画出基于数据仓库的决策支持系统的结构图。
26.说明基于数据仓库的决策支持系统与传统决策支持系统有什么区别。
解:基于数据仓库的决策支持系统是数据仓库和联机分析处理及数据挖掘相结合的决策支持
系统,以数据仓库为基础。综合信息与预测信息是可以通过数据仓库获得的辅助决策信息,
而联机分析处理能对数据仓库中的数据进行多维数据分析,即多维数据的切片、切块、旋转、
钻取等,只有通过分析更详细的数据,才能得到更深层中的信息和知识。数据挖掘则能获取
关联知识,时序知识,类聚知识,分类知识等。
传统决策支持系统是基于模型和知识的智能决策支持系统。
27.商业智能概念是什么?
解:商业智能是一种技术,它以数据仓库为基础,通过联机分析处理和数据挖掘技术帮助企
业领导者针对市场变化的环境,做出快速、准确的决策。商业智能所体现的智能行为在于,
能够解决市场环境中随机变化的决策问题,其所提供的智能手段表现为联机分析处理的任意
切片、切块和钻取,以及利用数据挖掘技术所获得的知识。
28、如何理解商业智能与基于数据仓库的决策支持系统的区别和联系?
商业智能以数据仓库为基础,通过联机分析处理和数据挖掘技术帮助企业领导者针对市场变
化的环境,做出快速、准确的决策。商业智能与基于数据仓库的决策支持系统从组成和目标
看来是一致的,但是商业智能是一种技术,基于数据仓库的决策支持系统是解决实际决策问
题的一个系统,即:基于数据仓库的决策支持系统是利用商业智能技术来解决实际决策问题
的系统。
29、商业智能在哪些方面改进企业决策过程?
(1)信息共享。有了商业智能系统就可以实现信息共享,用户可迅速找到所需要的数据,
通过对数据进行钻取分析以达到目标。
(2)实时反馈分析。商业智能的运用能够使员工随时看到工作的进展程度,并且了解一个
特定的行为对现实目标的效用。如果员工能看到自己的行为如何提升或影响了业绩,那么也
就不需要过于复杂的激励体系了。
(3)鼓励用户找到问题的根本原因。根据初步得到的答案而采取的行动可能未必成功,因为
初步的探索往往没有发现根本问题的所在,要找到根本原因就需要对与成功或失败的相关诸
多因素进行深度分析。
(4)使用主动智能。在数据仓库中设定预警机制,一旦出现超过预警条件的数据,就自动
通过各种设备通知用户。
(5)实时智能。
1、画出数据仓库结构图,说明各部分内容。
CH2
数据仓库结构包括当前基本数据、历史基本数据、轻度综合数据、高度综合数据、元数据。
当前基本数据是最近时期的业务数据,是数据仓库用户最感兴趣的部分,数据量大。
当前基本数据随时间的推移,由数据仓库的时间控制机制转为历史基本数据,一般被转存在
介质中,如磁带中。
轻度综合数据是从当前基本数据中提取出来的,设计这层数据结构时会遇到“综合处理数据
的时间段选取,综合数据包含哪些数据属性和内容”等问题。
高度综合数据是最高一层,这层数据十分精炼,是一种准决策数据。
整个数据仓库的组织结构是由元数据来组织的,它不包含任何业务数据库中的实际数据信息。
元数据在数据仓库中扮演着重要的角色,它包括以下信息:(1)数据仓库的目录信息(2)
数据从数据库环境想数据仓库环境转换时对应的说明(3)知道从当前基本数据到综合数据
的综合方式的说明(4)指导用户使用数据仓库。
2、说明数据仓库结构图中包含轻度综合层和高度综合数据层的作用。这些数据为什么不是
临时计算出来的?
在数据仓库中并不采取临时计算的方式得到综合数据,而是在用户提出需要综合数据之前,
就预先将可能需要的综合数据利用数据立方体计算好,存入综合数据层中,这种综合数据层
在用户查询时,能迅速提供给用户。
在数据仓库中存储多种粒度数据时为了提高决策分析效果。为了适应决策需求。
3、说明数据集市与数据仓库的区别和联系。
联系:数据集市是一种更小、更集中的数据仓库,为公司提供了一条分析商业数据的廉价途
径。数据集市是指具有特定应用的数据仓库,主要针对某个具有战略意义的应用或者具体部
门级的应用,支持用户利用已有的数据获得重要的竞争优势或者找到进入新市场的具体解决
方案。
区别:(1)数据仓库是基于整个企业的数据模型建立的,它面向企业范围内的主题。而数据
集市是按照某一特定部门的数据模型建立的,由于每个部门有自己特定的需求,因此对数据
集市的期望也不一样。
(2)部门的主题与企业的主题之间可能出在关联,也可能不存在关联。数据仓库中存储整
个企业内非常详细的数据,而数据集市中数据的详细程度要低一些,包含概要和累加数据要
多一些。
(3)数据集市的数据组织一般采用星型模型。大型数据仓库的数据组织,如 NCR 公司采用
第三范式。
4.说明数据集市的特点。
解:(1)规模是小的;
(2)特定的应用;
(3)面向部门;
(4)由业务部门定义,设计和开发;
(5)由业务部门管理和维护;
(6)快速实现;
(7)价格较低廉;
(8)投资快速回收;
(9)工具集的紧密集成;
(10)更详细的、预先存在的数据仓库的摘要子集;
(11)可升级到完整的数据仓库。
5.画出数据集市的两种结构图,说明它们的不同点。
解:(1)从属数据集市(图 1)
它的数据直接来自于中央数据仓库。这种结构仍能保持和数据仓库的一致性。
一般为那些访问数据仓库十分频繁的关键业务部门建立从属的数据集市,这
样可以很好地提高查询的反应速度。
(2)独立数据集市(图 2)
它的数据直接来源于各生产系统。许多企业在计划实施数据仓库时,往往出