logo资料库

数据仓库设计 (中文)- design of data warehouse.pdf

第1页 / 共221页
第2页 / 共221页
第3页 / 共221页
第4页 / 共221页
第5页 / 共221页
第6页 / 共221页
第7页 / 共221页
第8页 / 共221页
资料共221页,剩余部分请下载后查看
001
第1 章决策支持系统的发展
1.1 演化
1.2 直接存取存储设备的产生
1.3 个人计算机/第四代编程语言技术
1.4 进入抽取程序
1.5 蜘蛛网
1.6 自然演化体系结构的问题
1.6.1 数据缺乏可信性
1.6.2 生产率问题
1.6.3 从数据到信息
1.6.4 方法的变迁
1.7 体系结构设计环境
1.7.1 体系结构设计环境的层次
1.7.2 集成
1.8 用户是谁
1.9 开发生命周期
1.10 硬件利用模式
1.11 建立重建工程的舞台
1.12 监控数据仓库环境
1.13 小结
002
第2 章数据仓库环境
2.1 数据仓库的结构
2.2 面向主题
2.3 第1 天到第n 天的现象
2.4 粒度
2.4.1 粒度的一个例子
2.4.2 粒度的双重级别
2.5 分割问题
2.6 样本数据库
2.7 数据分割
2.8 数据仓库中的数据组织
2.9 数据仓库—标准手册
2.10 审计和数据仓库
2.11 成本合理性
2.12 清理仓库数据
2.13 报表和体系结构设计环境
2.14 机遇性的操作型窗口
2.15 小结
003
第3 章设计数据仓库
3.1 从操作型数据开始
3.2 数据/过程模型和体系结构设计环境
3.3 数据仓库和数据模型
3.3.1 数据模型
3.3.2 中间层数据模型
3.3.3 物理数据模型
3.4 数据模型和反复开发
3.5 规范化/反规范化
3.6 数据仓库中的快照
3.7 元数据
3.8 数据仓库中的管理参照表
3.9 数据周期
3.10 转换和集成的复杂性
3.11 触发数据仓库记录
3.11.1 事件
3.11.2 快照的构成
3.11.3 一些例子
3.12 简要记录
3.13 管理大量数据
3.14 创建多个简要记录
3.15 从数据仓库环境到操作型环境
3.16 正常处理
3.17 数据仓库数据的直接访问
3.18 数据仓库数据的间接访问
3.18.1 航空公司的佣金计算系统
3.18.2 零售个性化系统
3.18.3 信用审核
3.19 数据仓库数据的间接利用
3.20 星型连接
3.21 小结
004
第4 章数据仓库中的粒度
4.1 粗略估算
4.2 粒度划分过程的输入
4.3 双重或单一的粒度?
4.4 确定粒度的级别
4.5 一些反馈循环技巧
4.6 粒度的级别—以银行环境为例
4.7 小结
005
第5 章数据仓库和技术
5.1 管理大量数据
5.2 管理多介质
5.3 索引/监视数据
5.4 多种技术的接口
5.5 程序员/设计者对数据存放位置的控制
5.6 数据的并行存储/管理
5.7 元数据管理
5.8 语言接口
5.9 数据的高效装入
5.10 高效索引的利用
5.11 数据压缩
5.12 复合键码
5.13 变长数据
5.14 加锁管理
5.15 单独索引处理
5.16 快速恢复
5.17 其他的技术特征
5.18 DBMS 类型和数据仓库
5.19 改变DBMS 技术
5.20 多维DBMS 和数据仓库
5.21 双重粒度级
5.22 数据仓库环境中的元数据
5.23 上下文和内容
5.24 上下文信息的三种类型
5.25 捕获和管理上下文信息
5.26 刷新数据仓库
5.27 小结
006
第6 章分布式数据仓库
6.1 引言
6.2 局部数据仓库
6.3 全局数据仓库
6.4 互斥数据
6.5 冗余
6.6 全局数据存取
6.7 分布式环境下其他考虑因素
6.8 管理多个开发项目
6.9 开发项目的性质
6.10 分布式数据仓库
6.10.1 在分布的地理位置间协调开发
6.10.2 企业数据分布式模型
6.10.3 分布式数据仓库中的元数据
6.11 在多种层次上建造数据仓库
6.12 多个小组建立当前细节级
6.12.1 不同层不同需求
6.12.2 其他类型的细节数据
6.12.3 元数据
6.13 公用细节数据采用多种平台
6.14 小结
007
第7 章高级管理人员信息系统和数据仓库
7.1 一个简单例子
7.2 向下探察分析
7.3 支持向下探察处理
7.4 作为EIS 基础的数据仓库
7.5 到哪里取数据
7.6 事件映射
7.7 细节数据和EIS
7.8 在EIS 中只保存汇总数据
7.9 小结
008
第8 章外部数据/非结构化数据与数据仓库
8.1 数据仓库中的外部数据/非结构化数据
8.2 元数据和外部数据
8.3 存储外部数据/非结构化数据
8.4 外部数据/非结构化数据的不同组成部分
8.5 建模与外部数据/非结构化数据
8.6 间接报告
8.7 外部数据归档
8.8 内部数据与外部数据的比较
8.9 小结
009
第9 章迁移到体系结构设计环境
9.1 一种迁移方案
9.2 反馈循环
9.3 策略方面的考虑
9.4 方法和迁移
9.5 一种数据驱动的开发方法
9.6 数据驱动的方法
9.7 系统开发生命周期
9.8 一个哲学上的考虑
9.9 操作型开发/DSS 开发
9.10 小结
010
第10 章数据仓库的设计复查要目
10.1 进行设计复查所涉及的问题
10.1.1 谁负责设计复查
10.1.2 有哪些议事日程
10.1.3 结果
10.1.4 复查管理
10.1.5 典型的数据仓库设计复查
10.2 小结
011
013
附录
A.1 开发操作型系统—方法之一
A.2 开发数据仓库—方法之二
A.3 启发式处理—方法之三
A.4 启发式DSS 开发—方法之四
A.5 总结
A.6 选择的主题
A.6.1 提交
A.6.2 一个提交的线性流程
A.6.3 估计开发需要的资源
A.7 SDLC/CLDS
A.7.1 数据字典
A.7.2 现有系统怎样?
下载 第1章 决策支持系统的发展 信息系统领域是一个“不成熟”的领域。“不成熟”这个词通常具有消极的含义,因而公 开使用这个词不得不多加小心。但是从历史的观点来看的确如此。如果我们将信息处理的历 史与其他技术领域的历史进行比较的话,就没有争议了。我们知道古埃及的象形文字主要是 当时的帐房先生用来表示所欠法老谷子的多少。当漫步在罗马市区,我们就置身于两千多年 前土木工程师所设计的街道与建筑物之间。同样,许多其他的领域也可追溯到远古时代。 因为信息处理领域只是从 6 0年代初期才出现的,所以,历史地来看,信息处理领域是不 成熟的。 信息处理领域的年轻性表现之一就是其倾向于面面俱到。有这样一种说法,如果细节都 正确了,那么我们就可以坐享其成。这就好象是说,若我们知道如何铺水泥、如何钻孔、如 何安装螺母与螺栓,就不必操心桥梁的外型与用途了。如此态度会驱使一个成熟的土木工程 师发疯的。 数据仓库的历史是伴随某种发展过程开始的,在此发展过程中,业界中人士所考虑的是 投入更大的力量。更大规模的体系结构正在被勾勒出来—在这种体系结构中数据仓库处于 中心地位。最好从一种广阔的视角去观察这个体系结构,而不是从某种细节去认识。 1.1 演化 有趣的是,决策支持系统 ( D S S )处理是一个漫长而复杂的演化进程的结果,而且它仍在继 续演化。D S S处理的起源可以追溯到计算机发展的初期。 图1 - 1表明了从 2 0世纪6 0年代初期直到 1 9 8 0年的D S S处理的演化进程。在 6 0年代初期,创 建运行于主文件上的单个应用是计算领域的主要工作。这些应用的特点表现在报表和程序, 常用的是 C O B O L语言。穿孔卡是当时常用的介质。主文件存放在磁带文件上。磁带适合于廉 价地存放大容量数据,但缺点是需要顺序地访问。事实上,我们常说,在磁带文件的一次操 作中, 1 0 0 %的记录都要被访问到,但是只有 5 %或更少的记录是真正需要的。此外,访问整 条磁带的文件可能要花去 2 0 ~ 3 0分钟时间,这取决于文件上是什么数据及当前正在做什么处 理。 大约在 6 0年代中期,主文件和磁带的使用量迅速膨胀。很快,处处都是主文件。随着主 文件数量的增长,出现大量冗余数据。主文件的迅速增长和数据的巨大冗余引出了一些严重 问题: ■ 需要在更新数据时保持数据的一致性。 ■ 程序维护的复杂性。 ■ 开发新程序的复杂性。 ■ 支持所有主文件需要的硬件数量。 简言之,属于介质本身固有缺陷的主文件的问题成为发展的障碍。如果仍然只用磁带作 为存储数据的唯一介质,那么难以想象现在的信息处理领域会是什么样子。
2发展数 据 仓 库 下载 1 9 6 0 1 9 6 5 1 9 7 0 1 9 7 5 1980 主文件,报表 • 复杂性 • 维护 • 开发 • 数据的一致性 • 硬件 数据库—所有处理的 单一数据源 联机高性能事务处理 个人计算机 第四代程序设计语言技术 很多主文件!!! D A S D D B M S tx 处理 M I S / D S S 单一数据库服务于完成所有目的 图1-1 体系化环境的早期演化阶段 如果除了磁带文件以外没有别的东西可以存储大量数据,那么世界上将永远不会有大型、 快速的预定系统, AT M系统,以及其他系统。而事实上,在除磁带文件之外的种种介质上存 储和管理数据的能力,为采用不同的处理方式和更强有力的处理类型开辟了道路,从而把技 术人员和商务人员前所未有地聚集到一起。 1.2 直接存取存储设备的产生 到了1 9 7 0年,一种存储和访问数据的新技术出现了。这就是 2 0世纪7 0年代见到的磁盘存
下载 第1章 决策支持系统的发展发展3 储,或者称之为直接存取存储设备 ( D A S D )。磁盘存储从根本上不同于磁带存储,因为 D A S D 上的数据能够直接存取。 D A S D就不需要经过第 1条记录,第 2条记录……,第 n条记录,才能 得到第 n + 1条记录。一旦知道了第 n + 1条记录的地址,就可以轻而易举地直接访问它。进而, 找到第n + 1条记录需要的时间比起扫描磁带的时间少得多。事实上,在 D A S D上定位记录的时 间是以毫秒 ( m s )来计量的。 随D A S D而来的是称之为数据库管理系统 ( D B M S )的一种新型系统软件。 D B M S的目的是 使程序员在 D A S D上方便地存储和访问数据。另外, D B M S关心的是在 D A S D上存储、索引数 据等任务。随着 D A S D和D B M S的出现,解决主文件系统问题的一种技术解决方案应运而生。 “数据库”的思想就是 D B M S的产物。纵观主文件系统所导致的混乱以及主文件系统累积的大 量冗余数据,就不会奇怪为什么把数据库定义为—所有处理工作的单一数据源。 但这一领域的发展并未在 1 9 7 0年停止。到 7 0年代中期,联机事务处理开始取代数据库。 通过终端和合适的软件,技术人员发现更快速地访问数据是可能的—这就开辟了一种全新 的视野。采用高性能联机事务处理,计算机可用来完成以前无法完成的工作。当今,计算机 可用于建立预定系统、银行柜员系统、工业控制系统,等等。如果仍然滞留在磁带文件系统 时代,那么今天我们认为理所当然的大多数系统就不可能存在了。 1.3 个人计算机/第四代编程语言技术 到了8 0年代,一些更新颖的技术开始涌现出来,比如个人计算机 ( P C )和第四代编程语言 ( 4 G L )。最终用户开始扮演一种以前无法想象的角色— 直接控制数据和系统,这超出了对 传统数据处理人员的界定。随着 P C与4 G L技术的发展,诞生了一种新思想,即除了高性能 联机事务处理之外,对数据可以做更多的处理。管理信息系统 ( M I S )— (早期被如此称呼) 也可能实现了。 M I S如今称为 D S S,是用来产生管理决策的处理过程。以前,数据和技术不 能一并用来导出详细的操作型决策。一种新的思想体系开始出现,即一个单一的数据库既 能用作操作型的高性能事务处理,同时又用作 D S S分析处理。图 1 - 1表明了这种单一数据库 的范例。 1.4 进入抽取程序 大型联机高性能事务处理问世后不久,就开始出现一种称为“抽取”处理的程序(见图 1 - 2),这种程序并不损害已有系统。 抽取程序是所有程序中最简单的程序。它搜索整个文件或数据库,使用某些标准选择合 乎限制的数据,并把数据传到其他文件或数据库中。 抽取程序很快就流行起来,并渗透到信息处理环境中。至少有两个理由可以用来解释它 为什么受到欢迎: ■ 因为用抽取程序能将数据从高性能联机事务处理方式中转移出来,所以在需要总体分 析数据时就与联机事务处理性能不发生冲突。 ■ 当用抽取程序将数据从操作型事务处理范围内移出时,数据的控制方式就发生了转变。 最终用户一旦开始控制数据,他 (她)就最终“拥有”了这些数据。 由于这些原因(以及其他众多原因 ),抽取处理很快就无处不在。到了 9 0年代已有了很多抽 取程序,如图1 - 3所示。
4发展数 据 仓 库 1 9 8 5 下载 抽取程序 从一些参数开始,根据参数条件的满足搜索文 件,然后将数据拖到别处 抽取处理 为什么要进行抽取处理? • 性能 • 控制 图1-2 抽取处理的特性 1.5 蜘蛛网 图1 - 3显示抽取处理的蜘蛛网开始形成。起初只是抽取,随后是抽取之上的抽取,接着是 在此基础上的再次抽取,如此等等。对于一个大公司,每天进行多达 45 000 次的抽取不是没 有听说过的。 贯穿于公司或组织的这种抽取处理模式很常见,以致得到一个专有名称。这种由失控的 抽取过程产生的结构被称为“自然演化体系结构”—当一个组织以放任自流的态度处理整 个硬、软件体系结构时,就会发生这种情况。组织越庞大,越成熟,自然演化体系结构问题 就变得越严重。 从总体上看,抽取程序形成了蜘蛛网,这正是自然演化 (或“传统系统” )体系结构的另一
第1章 决策支持系统的发展发展5 传统系统环境 下载 1 9 9 0 自然演化的体系结构(或称为“蜘蛛网”) 图1-3 抽取处理广泛采用必然是件好事情 个名称。 1.6 自然演化体系结构的问题 与自然演化体系结构相关联的困难到底是什么呢?问题很多,主要有: ■ 数据可信性。 ■ 生产率。 ■ 数据转化为信息的不可行性。 1.6.1 数据缺乏可信性 以上问题之首是数据缺乏可信性,如图 1 - 4所示。两个部门向管理者呈送报表,一个部门 说业绩下降了1 5 %,另一个部门说业绩上升了 1 0 %。两个部门的结论不但不吻合,而且相去甚 远。另外,两个部门的工作也很难协调。除非十分细致地编制了文档,否则对任何应用目的 而言,协调是不可能的。
6发展数 据 仓 库 下载 当管理者收到这两张报表时,他们不知如何是好。管理者面临着根据政策和个人意志做 决定的状况。这是在自然演化体系结构中可信性危机的一个实例。 这种危机很广泛存在,而且是可以预想得到的,为什么?有五个理由可以解释危机的可 预测性(见图1 - 4 ),它们是: ■ 数据无时基。 ■ 数据算法上的差异。 ■ 抽取的多层次。 ■ 外部数据问题。 ■ 无起始公共数据源。 部门A + 1 0 % • 数据无时基 • 数据算法上的差异 • 抽取的多层次 • 外部数据问题 • 无起始公共数据源 部门B-1 5 % 图1-4 在自然演化体系结构中缺乏数据可信性 图1 - 5显示一个部门在星期日晚上提取分析所需的数据,而另一个进行分析的部门在星期 三下午就抽取了数据。有任何理由相信对某一天抽取的数据样本进行的分析与对另一天抽取 的数据样本进行的分析可能相同吗?当然不能!公司内的数据总是在变的。任何在不同时刻 抽取出来用于分析的数据集之间只是大致相同。 在自然演化体系结构中,数据可信性危机具有可预见性的第二个理由是算法上的差异。
下载 第1章 决策支持系统的发展发展7 比如,一个部门选择所有的老帐号作分析。而另一个部门选择所有大帐号作分析。在有老帐 号的顾客和有大帐号的顾客之间存在必要的相关性吗?可能没有。那么分析结果大相径庭就 没有什么可大惊小怪的了。 可信性危机可预见性的第三个理由是前两个理由的扩展。每次新的抽取结束,因为时间 和算法上的差异,抽取结果就可能出现差异。对一个公司而言,从数据进入公司系统到决策 者准备好分析所采用的数据,经过八层或九层抽取不是罕见的。 缺乏可信性的第四个理由是由外部数据引起的问题。利用当今在 P C层次上的技术很容易 从外部数据源取得数据。在图 1 - 5所示的例子中,一个分析人员从《华尔街日报》取得数据放 入分析流中,而另一个分析人员从《商业周刊》中取得数据。分析人员在取得数据之时所做 的第一件事就是从大量外部数据中抽出所需要的部分。数据一旦进入 P C,就不再属于《华尔 街日报》了,而简单地变成了可能出自于任何数据源的普通数据。 并且,从《华尔街日报》取得数据的分析人员对从《商业周刊》中取得的数据是一无所 知的,反之亦然。这就不足为怪,外部数据导致自然演化体系结构中的数据缺乏可信性。 导致数据缺乏可信性的最后一个因素是通常没有一个公共的起始数据源。部门 A的分析工 多层抽取 华尔街 日报 部门A + 1 0 % • 星期日晚 • 老账号 无公共起始数据源 多层抽取 部门B-1 5 % • 星期三下午 • 大账号 商业周刊 • 缺乏一致性 • 没有同输入外部数 据的其他人协调 图1-5 自然演化体系结构中可信性危机可预见性的原因
8发展数 据 仓 库 下载 作源于文件 X Y Z,部门 B的分析工作源于数据库 A B C。不论文件 X Y Z与数据库 A B C之间关系 怎样,都不存在数据同步或数据共享。 有了这些理由,在每一个企业或机构中,如果允许软件、硬件和数据的体系结构自然地 演化为蜘蛛网,那么这种企业或机构中正酝酿着可信性危机就不足为奇了。 1.6.2 生产率问题 但是数据可信性还不是自然演化体系结构中的唯一的主要问题。在自然演化体系结构中, 当需要查询机构范围内的数据时,生产率 (或者说生产率低)是不可预测的。 设想一个机构在商业上已运营了一段时间,并且已经建立起了大型数据集合,如图1 - 6顶部所示。 管理者期望用数年来积累的数据集合和众多文件生成一张企业报表,接受了该任务的设 计者为产生企业报表决定做三件事: ■ 定位报表需要的数据并分析数据。 ■ 为报表编辑数据。 ■ 为完成以上工作,召集程序员 /分析员。 生产率 根据全部数据生成企业报表 定位数据需要浏览大量文件 抽取程序很多,并且每个都是定制的,不得不克服很多技术上的障碍 图1-6 自然演化体系结构不利于生产率的提高
分享到:
收藏