数据仓库设计 (中文)- design of data warehouse.pdf

发布时间：2022-06-09 发布人：admin 分类：说明书资料大小：8.49M 资料格式：pdf 举报版权申诉

woodfairy-1458235-4744300845188429829.pdf-第1页.png

第1页 / 共221页

woodfairy-1458235-4744300845188429829.pdf-第2页.png

第2页 / 共221页

woodfairy-1458235-4744300845188429829.pdf-第3页.png

第3页 / 共221页

woodfairy-1458235-4744300845188429829.pdf-第4页.png

第4页 / 共221页

woodfairy-1458235-4744300845188429829.pdf-第5页.png

第5页 / 共221页

woodfairy-1458235-4744300845188429829.pdf-第6页.png

第6页 / 共221页

woodfairy-1458235-4744300845188429829.pdf-第7页.png

第7页 / 共221页

woodfairy-1458235-4744300845188429829.pdf-第8页.png

第8页 / 共221页

001

第1 章决策支持系统的发展

1.1 演化

1.2 直接存取存储设备的产生

1.3 个人计算机/第四代编程语言技术

1.4 进入抽取程序

1.5 蜘蛛网

1.6 自然演化体系结构的问题

1.6.1 数据缺乏可信性

1.6.2 生产率问题

1.6.3 从数据到信息

1.6.4 方法的变迁

1.7 体系结构设计环境

1.7.1 体系结构设计环境的层次

1.7.2 集成

1.8 用户是谁

1.9 开发生命周期

1.10 硬件利用模式

1.11 建立重建工程的舞台

1.12 监控数据仓库环境

1.13 小结

002

第2 章数据仓库环境

2.1 数据仓库的结构

2.2 面向主题

2.3 第1 天到第n 天的现象

2.4 粒度

2.4.1 粒度的一个例子

2.4.2 粒度的双重级别

2.5 分割问题

2.6 样本数据库

2.7 数据分割

2.8 数据仓库中的数据组织

2.9 数据仓库—标准手册

2.10 审计和数据仓库

2.11 成本合理性

2.12 清理仓库数据

2.13 报表和体系结构设计环境

2.14 机遇性的操作型窗口

2.15 小结

003

第3 章设计数据仓库

3.1 从操作型数据开始

3.2 数据/过程模型和体系结构设计环境

3.3 数据仓库和数据模型

3.3.1 数据模型

3.3.2 中间层数据模型

3.3.3 物理数据模型

3.4 数据模型和反复开发

3.5 规范化/反规范化

3.6 数据仓库中的快照

3.7 元数据

3.8 数据仓库中的管理参照表

3.9 数据周期

3.10 转换和集成的复杂性

3.11 触发数据仓库记录

3.11.1 事件

3.11.2 快照的构成

3.11.3 一些例子

3.12 简要记录

3.13 管理大量数据

3.14 创建多个简要记录

3.15 从数据仓库环境到操作型环境

3.16 正常处理

3.17 数据仓库数据的直接访问

3.18 数据仓库数据的间接访问

3.18.1 航空公司的佣金计算系统

3.18.2 零售个性化系统

3.18.3 信用审核

3.19 数据仓库数据的间接利用

3.20 星型连接

3.21 小结

004

第4 章数据仓库中的粒度

4.1 粗略估算

4.2 粒度划分过程的输入

4.3 双重或单一的粒度？

4.4 确定粒度的级别

4.5 一些反馈循环技巧

4.6 粒度的级别—以银行环境为例

4.7 小结

005

第5 章数据仓库和技术

5.1 管理大量数据

5.2 管理多介质

5.3 索引/监视数据

5.4 多种技术的接口

5.5 程序员/设计者对数据存放位置的控制

5.6 数据的并行存储/管理

5.7 元数据管理

5.8 语言接口

5.9 数据的高效装入

5.10 高效索引的利用

5.11 数据压缩

5.12 复合键码

5.13 变长数据

5.14 加锁管理

5.15 单独索引处理

5.16 快速恢复

5.17 其他的技术特征

5.18 DBMS 类型和数据仓库

5.19 改变DBMS 技术

5.20 多维DBMS 和数据仓库

5.21 双重粒度级

5.22 数据仓库环境中的元数据

5.23 上下文和内容

5.24 上下文信息的三种类型

5.25 捕获和管理上下文信息

5.26 刷新数据仓库

5.27 小结

006

第6 章分布式数据仓库

6.1 引言

6.2 局部数据仓库

6.3 全局数据仓库

6.4 互斥数据

6.5 冗余

6.6 全局数据存取

6.7 分布式环境下其他考虑因素

6.8 管理多个开发项目

6.9 开发项目的性质

6.10 分布式数据仓库

6.10.1 在分布的地理位置间协调开发

6.10.2 企业数据分布式模型

6.10.3 分布式数据仓库中的元数据

6.11 在多种层次上建造数据仓库

6.12 多个小组建立当前细节级

6.12.1 不同层不同需求

6.12.2 其他类型的细节数据

6.12.3 元数据

6.13 公用细节数据采用多种平台

6.14 小结

007

第7 章高级管理人员信息系统和数据仓库

7.1 一个简单例子

7.2 向下探察分析

7.3 支持向下探察处理

7.4 作为EIS 基础的数据仓库

7.5 到哪里取数据

7.6 事件映射

7.7 细节数据和EIS

7.8 在EIS 中只保存汇总数据

7.9 小结

008

第8 章外部数据/非结构化数据与数据仓库

8.1 数据仓库中的外部数据/非结构化数据

8.2 元数据和外部数据

8.3 存储外部数据/非结构化数据

8.4 外部数据/非结构化数据的不同组成部分

8.5 建模与外部数据/非结构化数据

8.6 间接报告

8.7 外部数据归档

8.8 内部数据与外部数据的比较

8.9 小结

009

第9 章迁移到体系结构设计环境

9.1 一种迁移方案

9.2 反馈循环

9.3 策略方面的考虑

9.4 方法和迁移

9.5 一种数据驱动的开发方法

9.6 数据驱动的方法

9.7 系统开发生命周期

9.8 一个哲学上的考虑

9.9 操作型开发/DSS 开发

9.10 小结

010

第10 章数据仓库的设计复查要目

10.1 进行设计复查所涉及的问题

10.1.1 谁负责设计复查

10.1.2 有哪些议事日程

10.1.3 结果

10.1.4 复查管理

10.1.5 典型的数据仓库设计复查

10.2 小结

011

013

附录

A.1 开发操作型系统—方法之一

A.2 开发数据仓库—方法之二

A.3 启发式处理—方法之三

A.4 启发式DSS 开发—方法之四

A.5 总结

A.6 选择的主题

A.6.1 提交

A.6.2 一个提交的线性流程

A.6.3 估计开发需要的资源

A.7 SDLC/CLDS

A.7.1 数据字典

A.7.2 现有系统怎样？

下载第1章决策支持系统的发展信息系统领域是一个“不成熟”的领域。“不成熟”这个词通常具有消极的含义，因而公开使用这个词不得不多加小心。但是从历史的观点来看的确如此。如果我们将信息处理的历史与其他技术领域的历史进行比较的话，就没有争议了。我们知道古埃及的象形文字主要是当时的帐房先生用来表示所欠法老谷子的多少。当漫步在罗马市区，我们就置身于两千多年前土木工程师所设计的街道与建筑物之间。同样，许多其他的领域也可追溯到远古时代。因为信息处理领域只是从 6 0年代初期才出现的，所以，历史地来看，信息处理领域是不成熟的。信息处理领域的年轻性表现之一就是其倾向于面面俱到。有这样一种说法，如果细节都正确了，那么我们就可以坐享其成。这就好象是说，若我们知道如何铺水泥、如何钻孔、如何安装螺母与螺栓，就不必操心桥梁的外型与用途了。如此态度会驱使一个成熟的土木工程师发疯的。数据仓库的历史是伴随某种发展过程开始的，在此发展过程中，业界中人士所考虑的是投入更大的力量。更大规模的体系结构正在被勾勒出来—在这种体系结构中数据仓库处于中心地位。最好从一种广阔的视角去观察这个体系结构，而不是从某种细节去认识。 1.1 演化有趣的是，决策支持系统 ( D S S )处理是一个漫长而复杂的演化进程的结果，而且它仍在继续演化。D S S处理的起源可以追溯到计算机发展的初期。图1 - 1表明了从 2 0世纪6 0年代初期直到 1 9 8 0年的D S S处理的演化进程。在 6 0年代初期，创建运行于主文件上的单个应用是计算领域的主要工作。这些应用的特点表现在报表和程序，常用的是 C O B O L语言。穿孔卡是当时常用的介质。主文件存放在磁带文件上。磁带适合于廉价地存放大容量数据，但缺点是需要顺序地访问。事实上，我们常说，在磁带文件的一次操作中， 1 0 0 %的记录都要被访问到，但是只有 5 %或更少的记录是真正需要的。此外，访问整条磁带的文件可能要花去 2 0 ~ 3 0分钟时间，这取决于文件上是什么数据及当前正在做什么处理。大约在 6 0年代中期，主文件和磁带的使用量迅速膨胀。很快，处处都是主文件。随着主文件数量的增长，出现大量冗余数据。主文件的迅速增长和数据的巨大冗余引出了一些严重问题： ■ 需要在更新数据时保持数据的一致性。 ■ 程序维护的复杂性。 ■ 开发新程序的复杂性。 ■ 支持所有主文件需要的硬件数量。简言之，属于介质本身固有缺陷的主文件的问题成为发展的障碍。如果仍然只用磁带作为存储数据的唯一介质，那么难以想象现在的信息处理领域会是什么样子。

2发展数据仓库下载 1 9 6 0 1 9 6 5 1 9 7 0 1 9 7 5 1980 主文件，报表 • 复杂性 • 维护 • 开发 • 数据的一致性 • 硬件数据库—所有处理的单一数据源联机高性能事务处理个人计算机第四代程序设计语言技术很多主文件！！！ D A S D D B M S tx 处理 M I S / D S S 单一数据库服务于完成所有目的图1-1 体系化环境的早期演化阶段如果除了磁带文件以外没有别的东西可以存储大量数据，那么世界上将永远不会有大型、快速的预定系统， AT M系统，以及其他系统。而事实上，在除磁带文件之外的种种介质上存储和管理数据的能力，为采用不同的处理方式和更强有力的处理类型开辟了道路，从而把技术人员和商务人员前所未有地聚集到一起。 1.2 直接存取存储设备的产生到了1 9 7 0年，一种存储和访问数据的新技术出现了。这就是 2 0世纪7 0年代见到的磁盘存

下载第1章决策支持系统的发展发展3 储，或者称之为直接存取存储设备 ( D A S D )。磁盘存储从根本上不同于磁带存储，因为 D A S D 上的数据能够直接存取。 D A S D就不需要经过第 1条记录，第 2条记录……，第 n条记录，才能得到第 n + 1条记录。一旦知道了第 n + 1条记录的地址，就可以轻而易举地直接访问它。进而，找到第n + 1条记录需要的时间比起扫描磁带的时间少得多。事实上，在 D A S D上定位记录的时间是以毫秒 ( m s )来计量的。随D A S D而来的是称之为数据库管理系统 ( D B M S )的一种新型系统软件。 D B M S的目的是使程序员在 D A S D上方便地存储和访问数据。另外， D B M S关心的是在 D A S D上存储、索引数据等任务。随着 D A S D和D B M S的出现，解决主文件系统问题的一种技术解决方案应运而生。 “数据库”的思想就是 D B M S的产物。纵观主文件系统所导致的混乱以及主文件系统累积的大量冗余数据，就不会奇怪为什么把数据库定义为—所有处理工作的单一数据源。但这一领域的发展并未在 1 9 7 0年停止。到 7 0年代中期，联机事务处理开始取代数据库。通过终端和合适的软件，技术人员发现更快速地访问数据是可能的—这就开辟了一种全新的视野。采用高性能联机事务处理，计算机可用来完成以前无法完成的工作。当今，计算机可用于建立预定系统、银行柜员系统、工业控制系统，等等。如果仍然滞留在磁带文件系统时代，那么今天我们认为理所当然的大多数系统就不可能存在了。 1.3 个人计算机/第四代编程语言技术到了8 0年代，一些更新颖的技术开始涌现出来，比如个人计算机 ( P C )和第四代编程语言 ( 4 G L )。最终用户开始扮演一种以前无法想象的角色— 直接控制数据和系统，这超出了对传统数据处理人员的界定。随着 P C与4 G L技术的发展，诞生了一种新思想，即除了高性能联机事务处理之外，对数据可以做更多的处理。管理信息系统 ( M I S )— (早期被如此称呼) 也可能实现了。 M I S如今称为 D S S，是用来产生管理决策的处理过程。以前，数据和技术不能一并用来导出详细的操作型决策。一种新的思想体系开始出现，即一个单一的数据库既能用作操作型的高性能事务处理，同时又用作 D S S分析处理。图 1 - 1表明了这种单一数据库的范例。 1.4 进入抽取程序大型联机高性能事务处理问世后不久，就开始出现一种称为“抽取”处理的程序(见图 1 - 2)，这种程序并不损害已有系统。抽取程序是所有程序中最简单的程序。它搜索整个文件或数据库，使用某些标准选择合乎限制的数据，并把数据传到其他文件或数据库中。抽取程序很快就流行起来，并渗透到信息处理环境中。至少有两个理由可以用来解释它为什么受到欢迎： ■ 因为用抽取程序能将数据从高性能联机事务处理方式中转移出来，所以在需要总体分析数据时就与联机事务处理性能不发生冲突。 ■ 当用抽取程序将数据从操作型事务处理范围内移出时，数据的控制方式就发生了转变。最终用户一旦开始控制数据，他 (她)就最终“拥有”了这些数据。由于这些原因(以及其他众多原因 )，抽取处理很快就无处不在。到了 9 0年代已有了很多抽取程序，如图1 - 3所示。

4发展数据仓库 1 9 8 5 下载抽取程序从一些参数开始,根据参数条件的满足搜索文件,然后将数据拖到别处抽取处理为什么要进行抽取处理？ • 性能 • 控制图1-2 抽取处理的特性 1.5 蜘蛛网图1 - 3显示抽取处理的蜘蛛网开始形成。起初只是抽取，随后是抽取之上的抽取，接着是在此基础上的再次抽取，如此等等。对于一个大公司，每天进行多达 45 000 次的抽取不是没有听说过的。贯穿于公司或组织的这种抽取处理模式很常见，以致得到一个专有名称。这种由失控的抽取过程产生的结构被称为“自然演化体系结构”—当一个组织以放任自流的态度处理整个硬、软件体系结构时，就会发生这种情况。组织越庞大，越成熟，自然演化体系结构问题就变得越严重。从总体上看，抽取程序形成了蜘蛛网，这正是自然演化 (或“传统系统” )体系结构的另一

第1章决策支持系统的发展发展5 传统系统环境下载 1 9 9 0 自然演化的体系结构(或称为“蜘蛛网”) 图1-3 抽取处理广泛采用必然是件好事情个名称。 1.6 自然演化体系结构的问题与自然演化体系结构相关联的困难到底是什么呢？问题很多，主要有： ■ 数据可信性。 ■ 生产率。 ■ 数据转化为信息的不可行性。 1.6.1 数据缺乏可信性以上问题之首是数据缺乏可信性，如图 1 - 4所示。两个部门向管理者呈送报表，一个部门说业绩下降了1 5 %，另一个部门说业绩上升了 1 0 %。两个部门的结论不但不吻合，而且相去甚远。另外，两个部门的工作也很难协调。除非十分细致地编制了文档，否则对任何应用目的而言，协调是不可能的。

6发展数据仓库下载当管理者收到这两张报表时，他们不知如何是好。管理者面临着根据政策和个人意志做决定的状况。这是在自然演化体系结构中可信性危机的一个实例。这种危机很广泛存在，而且是可以预想得到的，为什么？有五个理由可以解释危机的可预测性(见图1 - 4 )，它们是： ■ 数据无时基。 ■ 数据算法上的差异。 ■ 抽取的多层次。 ■ 外部数据问题。 ■ 无起始公共数据源。部门Ａ + 1 0 % • 数据无时基 • 数据算法上的差异 • 抽取的多层次 • 外部数据问题 • 无起始公共数据源部门B－1 5 % 图1-4 在自然演化体系结构中缺乏数据可信性图1 - 5显示一个部门在星期日晚上提取分析所需的数据，而另一个进行分析的部门在星期三下午就抽取了数据。有任何理由相信对某一天抽取的数据样本进行的分析与对另一天抽取的数据样本进行的分析可能相同吗？当然不能！公司内的数据总是在变的。任何在不同时刻抽取出来用于分析的数据集之间只是大致相同。在自然演化体系结构中，数据可信性危机具有可预见性的第二个理由是算法上的差异。

下载第1章决策支持系统的发展发展7 比如，一个部门选择所有的老帐号作分析。而另一个部门选择所有大帐号作分析。在有老帐号的顾客和有大帐号的顾客之间存在必要的相关性吗？可能没有。那么分析结果大相径庭就没有什么可大惊小怪的了。可信性危机可预见性的第三个理由是前两个理由的扩展。每次新的抽取结束，因为时间和算法上的差异，抽取结果就可能出现差异。对一个公司而言，从数据进入公司系统到决策者准备好分析所采用的数据，经过八层或九层抽取不是罕见的。缺乏可信性的第四个理由是由外部数据引起的问题。利用当今在 P C层次上的技术很容易从外部数据源取得数据。在图 1 - 5所示的例子中，一个分析人员从《华尔街日报》取得数据放入分析流中，而另一个分析人员从《商业周刊》中取得数据。分析人员在取得数据之时所做的第一件事就是从大量外部数据中抽出所需要的部分。数据一旦进入 P C，就不再属于《华尔街日报》了，而简单地变成了可能出自于任何数据源的普通数据。并且，从《华尔街日报》取得数据的分析人员对从《商业周刊》中取得的数据是一无所知的，反之亦然。这就不足为怪，外部数据导致自然演化体系结构中的数据缺乏可信性。导致数据缺乏可信性的最后一个因素是通常没有一个公共的起始数据源。部门 A的分析工多层抽取华尔街日报部门Ａ + 1 0 % • 星期日晚 • 老账号无公共起始数据源多层抽取部门B－1 5 % • 星期三下午 • 大账号商业周刊 • 缺乏一致性 • 没有同输入外部数据的其他人协调图1-5 自然演化体系结构中可信性危机可预见性的原因

8发展数据仓库下载作源于文件 X Y Z，部门 B的分析工作源于数据库 A B C。不论文件 X Y Z与数据库 A B C之间关系怎样，都不存在数据同步或数据共享。有了这些理由，在每一个企业或机构中，如果允许软件、硬件和数据的体系结构自然地演化为蜘蛛网，那么这种企业或机构中正酝酿着可信性危机就不足为奇了。 1.6.2 生产率问题但是数据可信性还不是自然演化体系结构中的唯一的主要问题。在自然演化体系结构中，当需要查询机构范围内的数据时，生产率 (或者说生产率低)是不可预测的。设想一个机构在商业上已运营了一段时间,并且已经建立起了大型数据集合,如图1 - 6顶部所示。管理者期望用数年来积累的数据集合和众多文件生成一张企业报表，接受了该任务的设计者为产生企业报表决定做三件事： ■ 定位报表需要的数据并分析数据。 ■ 为报表编辑数据。 ■ 为完成以上工作，召集程序员 /分析员。生产率根据全部数据生成企业报表定位数据需要浏览大量文件抽取程序很多，并且每个都是定制的，不得不克服很多技术上的障碍图1-6 自然演化体系结构不利于生产率的提高

分享到：

赞收藏

资料库

数据仓库设计 (中文)- design of data warehouse.pdf

相关推荐

课程资源

热门标签

最新资料