下载
第1章 决策支持系统的发展
信息系统领域是一个“不成熟”的领域。“不成熟”这个词通常具有消极的含义,因而公
开使用这个词不得不多加小心。但是从历史的观点来看的确如此。如果我们将信息处理的历
史与其他技术领域的历史进行比较的话,就没有争议了。我们知道古埃及的象形文字主要是
当时的帐房先生用来表示所欠法老谷子的多少。当漫步在罗马市区,我们就置身于两千多年
前土木工程师所设计的街道与建筑物之间。同样,许多其他的领域也可追溯到远古时代。
因为信息处理领域只是从 6 0年代初期才出现的,所以,历史地来看,信息处理领域是不
成熟的。
信息处理领域的年轻性表现之一就是其倾向于面面俱到。有这样一种说法,如果细节都
正确了,那么我们就可以坐享其成。这就好象是说,若我们知道如何铺水泥、如何钻孔、如
何安装螺母与螺栓,就不必操心桥梁的外型与用途了。如此态度会驱使一个成熟的土木工程
师发疯的。
数据仓库的历史是伴随某种发展过程开始的,在此发展过程中,业界中人士所考虑的是
投入更大的力量。更大规模的体系结构正在被勾勒出来—在这种体系结构中数据仓库处于
中心地位。最好从一种广阔的视角去观察这个体系结构,而不是从某种细节去认识。
1.1 演化
有趣的是,决策支持系统 ( D S S )处理是一个漫长而复杂的演化进程的结果,而且它仍在继
续演化。D S S处理的起源可以追溯到计算机发展的初期。
图1 - 1表明了从 2 0世纪6 0年代初期直到 1 9 8 0年的D S S处理的演化进程。在 6 0年代初期,创
建运行于主文件上的单个应用是计算领域的主要工作。这些应用的特点表现在报表和程序,
常用的是 C O B O L语言。穿孔卡是当时常用的介质。主文件存放在磁带文件上。磁带适合于廉
价地存放大容量数据,但缺点是需要顺序地访问。事实上,我们常说,在磁带文件的一次操
作中, 1 0 0 %的记录都要被访问到,但是只有 5 %或更少的记录是真正需要的。此外,访问整
条磁带的文件可能要花去 2 0 ~ 3 0分钟时间,这取决于文件上是什么数据及当前正在做什么处
理。
大约在 6 0年代中期,主文件和磁带的使用量迅速膨胀。很快,处处都是主文件。随着主
文件数量的增长,出现大量冗余数据。主文件的迅速增长和数据的巨大冗余引出了一些严重
问题:
■ 需要在更新数据时保持数据的一致性。
■ 程序维护的复杂性。
■ 开发新程序的复杂性。
■ 支持所有主文件需要的硬件数量。
简言之,属于介质本身固有缺陷的主文件的问题成为发展的障碍。如果仍然只用磁带作
为存储数据的唯一介质,那么难以想象现在的信息处理领域会是什么样子。
2发展数 据 仓 库
下载
1 9 6 0
1 9 6 5
1 9 7 0
1 9 7 5
1980
主文件,报表
• 复杂性
• 维护
• 开发
• 数据的一致性
• 硬件
数据库—所有处理的
单一数据源
联机高性能事务处理
个人计算机
第四代程序设计语言技术
很多主文件!!!
D A S D
D B M S
tx 处理
M I S / D S S
单一数据库服务于完成所有目的
图1-1 体系化环境的早期演化阶段
如果除了磁带文件以外没有别的东西可以存储大量数据,那么世界上将永远不会有大型、
快速的预定系统, AT M系统,以及其他系统。而事实上,在除磁带文件之外的种种介质上存
储和管理数据的能力,为采用不同的处理方式和更强有力的处理类型开辟了道路,从而把技
术人员和商务人员前所未有地聚集到一起。
1.2 直接存取存储设备的产生
到了1 9 7 0年,一种存储和访问数据的新技术出现了。这就是 2 0世纪7 0年代见到的磁盘存
下载
第1章 决策支持系统的发展发展3
储,或者称之为直接存取存储设备 ( D A S D )。磁盘存储从根本上不同于磁带存储,因为 D A S D
上的数据能够直接存取。 D A S D就不需要经过第 1条记录,第 2条记录……,第 n条记录,才能
得到第 n + 1条记录。一旦知道了第 n + 1条记录的地址,就可以轻而易举地直接访问它。进而,
找到第n + 1条记录需要的时间比起扫描磁带的时间少得多。事实上,在 D A S D上定位记录的时
间是以毫秒 ( m s )来计量的。
随D A S D而来的是称之为数据库管理系统 ( D B M S )的一种新型系统软件。 D B M S的目的是
使程序员在 D A S D上方便地存储和访问数据。另外, D B M S关心的是在 D A S D上存储、索引数
据等任务。随着 D A S D和D B M S的出现,解决主文件系统问题的一种技术解决方案应运而生。
“数据库”的思想就是 D B M S的产物。纵观主文件系统所导致的混乱以及主文件系统累积的大
量冗余数据,就不会奇怪为什么把数据库定义为—所有处理工作的单一数据源。
但这一领域的发展并未在 1 9 7 0年停止。到 7 0年代中期,联机事务处理开始取代数据库。
通过终端和合适的软件,技术人员发现更快速地访问数据是可能的—这就开辟了一种全新
的视野。采用高性能联机事务处理,计算机可用来完成以前无法完成的工作。当今,计算机
可用于建立预定系统、银行柜员系统、工业控制系统,等等。如果仍然滞留在磁带文件系统
时代,那么今天我们认为理所当然的大多数系统就不可能存在了。
1.3 个人计算机/第四代编程语言技术
到了8 0年代,一些更新颖的技术开始涌现出来,比如个人计算机 ( P C )和第四代编程语言
( 4 G L )。最终用户开始扮演一种以前无法想象的角色— 直接控制数据和系统,这超出了对
传统数据处理人员的界定。随着 P C与4 G L技术的发展,诞生了一种新思想,即除了高性能
联机事务处理之外,对数据可以做更多的处理。管理信息系统 ( M I S )— (早期被如此称呼)
也可能实现了。 M I S如今称为 D S S,是用来产生管理决策的处理过程。以前,数据和技术不
能一并用来导出详细的操作型决策。一种新的思想体系开始出现,即一个单一的数据库既
能用作操作型的高性能事务处理,同时又用作 D S S分析处理。图 1 - 1表明了这种单一数据库
的范例。
1.4 进入抽取程序
大型联机高性能事务处理问世后不久,就开始出现一种称为“抽取”处理的程序(见图 1 -
2),这种程序并不损害已有系统。
抽取程序是所有程序中最简单的程序。它搜索整个文件或数据库,使用某些标准选择合
乎限制的数据,并把数据传到其他文件或数据库中。
抽取程序很快就流行起来,并渗透到信息处理环境中。至少有两个理由可以用来解释它
为什么受到欢迎:
■ 因为用抽取程序能将数据从高性能联机事务处理方式中转移出来,所以在需要总体分
析数据时就与联机事务处理性能不发生冲突。
■ 当用抽取程序将数据从操作型事务处理范围内移出时,数据的控制方式就发生了转变。
最终用户一旦开始控制数据,他 (她)就最终“拥有”了这些数据。
由于这些原因(以及其他众多原因 ),抽取处理很快就无处不在。到了 9 0年代已有了很多抽
取程序,如图1 - 3所示。
4发展数 据 仓 库
1 9 8 5
下载
抽取程序
从一些参数开始,根据参数条件的满足搜索文
件,然后将数据拖到别处
抽取处理
为什么要进行抽取处理?
• 性能
• 控制
图1-2 抽取处理的特性
1.5 蜘蛛网
图1 - 3显示抽取处理的蜘蛛网开始形成。起初只是抽取,随后是抽取之上的抽取,接着是
在此基础上的再次抽取,如此等等。对于一个大公司,每天进行多达 45 000 次的抽取不是没
有听说过的。
贯穿于公司或组织的这种抽取处理模式很常见,以致得到一个专有名称。这种由失控的
抽取过程产生的结构被称为“自然演化体系结构”—当一个组织以放任自流的态度处理整
个硬、软件体系结构时,就会发生这种情况。组织越庞大,越成熟,自然演化体系结构问题
就变得越严重。
从总体上看,抽取程序形成了蜘蛛网,这正是自然演化 (或“传统系统” )体系结构的另一
第1章 决策支持系统的发展发展5
传统系统环境
下载
1 9 9 0
自然演化的体系结构(或称为“蜘蛛网”)
图1-3 抽取处理广泛采用必然是件好事情
个名称。
1.6 自然演化体系结构的问题
与自然演化体系结构相关联的困难到底是什么呢?问题很多,主要有:
■ 数据可信性。
■ 生产率。
■ 数据转化为信息的不可行性。
1.6.1 数据缺乏可信性
以上问题之首是数据缺乏可信性,如图 1 - 4所示。两个部门向管理者呈送报表,一个部门
说业绩下降了1 5 %,另一个部门说业绩上升了 1 0 %。两个部门的结论不但不吻合,而且相去甚
远。另外,两个部门的工作也很难协调。除非十分细致地编制了文档,否则对任何应用目的
而言,协调是不可能的。
6发展数 据 仓 库
下载
当管理者收到这两张报表时,他们不知如何是好。管理者面临着根据政策和个人意志做
决定的状况。这是在自然演化体系结构中可信性危机的一个实例。
这种危机很广泛存在,而且是可以预想得到的,为什么?有五个理由可以解释危机的可
预测性(见图1 - 4 ),它们是:
■ 数据无时基。
■ 数据算法上的差异。
■ 抽取的多层次。
■ 外部数据问题。
■ 无起始公共数据源。
部门A + 1 0 %
• 数据无时基
• 数据算法上的差异
• 抽取的多层次
• 外部数据问题
• 无起始公共数据源
部门B-1 5 %
图1-4 在自然演化体系结构中缺乏数据可信性
图1 - 5显示一个部门在星期日晚上提取分析所需的数据,而另一个进行分析的部门在星期
三下午就抽取了数据。有任何理由相信对某一天抽取的数据样本进行的分析与对另一天抽取
的数据样本进行的分析可能相同吗?当然不能!公司内的数据总是在变的。任何在不同时刻
抽取出来用于分析的数据集之间只是大致相同。
在自然演化体系结构中,数据可信性危机具有可预见性的第二个理由是算法上的差异。
下载
第1章 决策支持系统的发展发展7
比如,一个部门选择所有的老帐号作分析。而另一个部门选择所有大帐号作分析。在有老帐
号的顾客和有大帐号的顾客之间存在必要的相关性吗?可能没有。那么分析结果大相径庭就
没有什么可大惊小怪的了。
可信性危机可预见性的第三个理由是前两个理由的扩展。每次新的抽取结束,因为时间
和算法上的差异,抽取结果就可能出现差异。对一个公司而言,从数据进入公司系统到决策
者准备好分析所采用的数据,经过八层或九层抽取不是罕见的。
缺乏可信性的第四个理由是由外部数据引起的问题。利用当今在 P C层次上的技术很容易
从外部数据源取得数据。在图 1 - 5所示的例子中,一个分析人员从《华尔街日报》取得数据放
入分析流中,而另一个分析人员从《商业周刊》中取得数据。分析人员在取得数据之时所做
的第一件事就是从大量外部数据中抽出所需要的部分。数据一旦进入 P C,就不再属于《华尔
街日报》了,而简单地变成了可能出自于任何数据源的普通数据。
并且,从《华尔街日报》取得数据的分析人员对从《商业周刊》中取得的数据是一无所
知的,反之亦然。这就不足为怪,外部数据导致自然演化体系结构中的数据缺乏可信性。
导致数据缺乏可信性的最后一个因素是通常没有一个公共的起始数据源。部门 A的分析工
多层抽取
华尔街
日报
部门A + 1 0 %
• 星期日晚
• 老账号
无公共起始数据源
多层抽取
部门B-1 5 %
• 星期三下午
• 大账号
商业周刊
• 缺乏一致性
• 没有同输入外部数
据的其他人协调
图1-5 自然演化体系结构中可信性危机可预见性的原因
8发展数 据 仓 库
下载
作源于文件 X Y Z,部门 B的分析工作源于数据库 A B C。不论文件 X Y Z与数据库 A B C之间关系
怎样,都不存在数据同步或数据共享。
有了这些理由,在每一个企业或机构中,如果允许软件、硬件和数据的体系结构自然地
演化为蜘蛛网,那么这种企业或机构中正酝酿着可信性危机就不足为奇了。
1.6.2 生产率问题
但是数据可信性还不是自然演化体系结构中的唯一的主要问题。在自然演化体系结构中,
当需要查询机构范围内的数据时,生产率 (或者说生产率低)是不可预测的。
设想一个机构在商业上已运营了一段时间,并且已经建立起了大型数据集合,如图1 - 6顶部所示。
管理者期望用数年来积累的数据集合和众多文件生成一张企业报表,接受了该任务的设
计者为产生企业报表决定做三件事:
■ 定位报表需要的数据并分析数据。
■ 为报表编辑数据。
■ 为完成以上工作,召集程序员 /分析员。
生产率
根据全部数据生成企业报表
定位数据需要浏览大量文件
抽取程序很多,并且每个都是定制的,不得不克服很多技术上的障碍
图1-6 自然演化体系结构不利于生产率的提高