内容简介本书是著名数据仓库畅销书作者ralphkimball的著名作品,在世界各地畅销不衰。这是目前惟一一本从
技术和管理两个角度介绍了使数据仓库项目获得成功所必备的各种知识和经验教训的专著,这些内容都是作者自1982年以来在从事数以百计的数据仓库
安装和咨询任务过程中不断积累总结出来的。书末的两个附录中提供了大量的框架、任务、模板以及生动详实的样例(具体内容见本书配套
光盘),所有这些都使本书别具一格。全书主题广泛,思想深刻,内容详尽,图文并茂。
本书不仅是
现代信息系统开发人员的重要指南,而且是所有面向数据仓库项目的
设计、开发、管理和咨询人员的高级参谋,并且适合信息管理与信息系统、
计算机应用、
电子商务等专业的高校师生作为教学参考用书,还可供从事传统
数据库系统工作的技术人员参考阅读。
图书目录第1章数据仓库的基本组成11.1数据仓库的基本组成要素11.2数据仓库基本过程101.3有关数据仓库的大讨论1.3.1数据仓库建模1.3.2数据集市与数据仓库1.3.3分布式与集中式数据仓库小结第一部分项目管理与需求第2章业务维生命周期2.1生命周期演化2.2生命周期方法2.2.1项目规划2.2.2业务需求定义2.2.3数据轨迹:维度建模2.2.4数据轨迹:
物理设计2.2.5数据轨迹:数据登台设计与开发2.2.6技术轨迹:技术结构设计2.2.7技术轨迹:产品选择与安装2.2.8应用轨迹:最终用户应用
规范2.2.9应用轨迹:最终用户应用开发2.2.10部署2.2.11维护与增长2.2.12项目管理2.3业务维生命周期使用指南2.4业务维生命周期指示标记与浏览帮助小结第3章项目规划与管理3.1项目定义3.1.1建设数据仓库应做的准备工作3.1.2“最后
检验”准备是否就绪3.1.3评价影响准备就绪的因素3.1.4
分析准备状态是否不足的方法3.1.5确定初步范围3.1.6构造业务的合理性证明3.2项目规划3.2.1建立项目标识3.2.2组建项目组3.2.3制定项目计划3.3项目管理3.3.1举行项目小组启动会议3.3.2监控项目状态3.3.3维护项目计划和项目文档3.3.4管理项目范围3.3.5制定有关管理期望的交流计划小结第4章收集项目需求4.1定义项目需求的各种方法4.2访谈准备4.3准备合适的访谈者4.4进行访谈4.5开始访谈4.6结束访谈4.7对访谈结果进行审查4.8准备和发布项目需求规范文档4.9项目需求收集完成后的工作小结第二部分数据设计第5章维度建模的第1课5.1维度建模
案例5.1.1什么是实体-关系建模5.1.2什么是维度建模5.1.3维度建模与实体-关系建模之间的关系5.1.4维度建模的优点5.2利用数据仓库总线结构将各种维度模型组合起来5.2.1规划危机5.2.2带总线结构的数据集市5.2.3一致性维度和
标准事实的定义5.2.4一致性维度的设计5.2.5确保采用一致性维度5.2.6建立一致性事实定义5.2.7数据集市粒度的重要性5.2.8多元数据集市5.2.9拯救不兼容性数据集市5.2.10何时不需要一致性维度5.2.11数据仓库总线5.3基本维度建模技术5.3.1事实表与维度表5.3.2向上和向下探查维度表内情5.3.3建议使用的时间维度5.3.4加法性事实、半加法性事实以及非加法性事实5.3.5设计单个事实表的4步设计方法小结第6章维度建模的研究生课程6.1扩充维度表的设计6.1.1多对多维度6.1.2多对一与一对多陷阱6.1.3维度的不同角色扮演6.1.4组织与其下级部门的层次表示6.1.5不可预知的层次深度6.1.6大型维度中的时间戳变化6.1.7创建审计维度6.1.8维度数是太少了还是太多了6.2扩充事实表的设计6.2.1具有不同粒度的事实及其分配6.2.2以天为单位的维度表6.2.3多种指标单位6.2.4跨国货币情况跟踪6.2.5数值分组报告6.3高级rolap查询和报告6.3.1采用多种技术探查的查询6.3.3市场份额分析小结第7章多维模型的创建7.1开始阶段使用的矩阵方法7.1.1矩阵的创建7.1.2必要的准备7.1.3列出数据集市7.1.4列出各种维度7.1.5标记交叉点7.2用4步法设计各个事实表7.3管理维度建模项目7.3.1数据仓库总线结构矩阵7.3.2事实表图表7.3.3事实表明细图7.3.4维度表明细图7.3.5维度建模小组的创建步骤7.3.6创建初始草图7.3.7跟踪基本事实和派生事实7.3.8让信息系统小组进行输入7.3.9与核心业务用户一起工作7.3.10向业务用户进行介绍7.4管理建模过程中存在的问题7.4.1为每个事实表和维度表确定来源7.4.2候选数据源7.4.3源数据所有权7.4.4数据提供者7.4.5选择数据源的详细准则7.4.6客户匹配与内部成员匹配7.4.7浏览数据内容7.4.8将源数据映射到目标数据7.4.9什么时候才算完成7.4.10为未来做准备7.4.11使用数据建模工具7.4.12估计行数7.4.13聚集设计7.4.14确定聚集的内容小结第三部分数据仓库结构第8章数据仓库结构介绍8.1结构的价值8.2一个结构框架和方法8.2.1定义列8.2.2定义细节级别(行)8.2.3逻辑模型与物理模型8.2.4框架小结8.3技术结构概述8.3.1服务和数据存储8.3.2从源系统到用户桌面的流程8.3.3主要技术结构特性8.3.4数据仓库结构评估小结第9章后台技术结构9.1后台数据存储9.1.1源系统9.1.2数据登台区9.1.3呈现服务器9.2后台服务9.2.1普通数据登台要求9.2.2创建与购买9.2.3提取服务9.2.4数据转换服务9.2.5数据装载服务9.2.6数据登台作业
控制服务9.3后台资产管理9.3.1备份与恢复9.3.2存档与检索9.3.3备份与存档规划9.3.4提取和装载安全性问题9.3.5未来登台服务小结第10章前台结构10.1前台数据存储10.1.1存取工具数据存储10.1.2标准报告数据存储10.1.3下行系统10.2用于数据存取的前台服务10.2.1数据仓库浏览10.2.2存取与安全性服务10.2.3活动监控服务10.2.4查询管理服务10.2.5查询服务位置10.2.6标准报告服务10.2.7未来存取服务10.2.8桌面服务10.2.9建模应用和数据挖掘10.2.10数据存取的web含义10.2.11桌面工具结构方法
小结第11章体系结构与元数据11.1体系结构11.1.1体系结构的驱
动力11.1.2体系结构的演变11.1.3后台体系结构因素11.1.4前台体系结构因素11.1.5连通性与联网因素11.1.6体系结构小结11.2元数据与元数据目录11.2.1什么是元数据11.2.2源系统元数据11.2.3数据登台元数据11.2.4数据库管理系统元数据11.2.5前台元数据11.2.6活动元数据样例11.2.7元数据目录的维护11.2.8元数据小结小结第12章有关互联网和安全性方面的研究生课程12.1组件
软件结构12.1.1互联网对结构的影响12.2安全性的脆弱12.2.1物理资产40912.2.2信息资产:数据、财务资产以及声誉12.2.3软件资产12.2.4执行业务任务的能力12.2.5
网络威胁12.3安全性:解决方案12.3.1路由器与
防火墙12.3.2目录服务器12.3.3加密技术12.4数据仓库环境下的安全性管理12.5在安全性方面应采取的措施12.5.1立即执行的战术性措施12.5.2战略性措施小结第13章创建结构计划与产品选择13.1创建结构13.1.1结构创建过程13.1.2创建技术结构计划13.2选择产品13.2.1集中关注业务需求13.2.2主要数据仓库评估区域13.2.3评估过程13.2.4创建产品评估矩阵13.2.5进行市场研究13.2.6将选择缩减到一份简短清单上13.2.7评估选项13.2.8选择开发一个原型13.2.9产品推荐13.2.10评估捷径13.2.11后台评估13.2.12前台评估13.3安装小结第四部分数据仓库实施第14章有关聚集的研究生课程14.1聚集的目标和风险14.2确定要聚集的内容14.3制定聚集表计划14.4对聚集进行处理14.5对聚集进行管理14.6聚集浏览系统的设计目标14.7聚集浏览算法14.7.1与规划数据相交14.7.2有关min,
max,count,avg的处理14.7.3适用于所有人的聚集小结第15章完成物理设计15.1制定标准15.1.1数据库对象命名标准15.1.2为用户存取的所有表使用同义词15.1.3物理文件位置15.2创建物理数据模型15.2.1饮料商店销售额案例研究15.2.2数据建模工具的使用15.2.3物理
数据结构的设计15.2.4估计最初的开发规模15.3制定最初的索引计划15.3.1索引和查询策略概述15.3.2为事实表创建索引15.3.3为维度表创建索引15.3.4为装载创建索引15.3.5在装载完成后对表和索引进行分析15.3.6索引案例研究15.4设计和创建数据库实例15.4.1内存15.4.2块大小15.4.3磁盘存取样例15.4.4保存数据库创建脚本和参数文件15.5创建物理存储结构15.5.1计算表和索引的大小15.5.2制定分割计划15.5.3建立raid15.6实施使用监控系统15.6.1性能15.6.2用户支持15.6.3市场营销15.6.4规划15.6.5工具小结第16章数据登台16.1数据登台概述16.2做一些预备工作16.2.1良好系统开发实践的重要性16.3进行有效的计划16.3.1步骤1:高级计划16.3.2步骤2:数据登台工具16.3.3步骤3:详细计划16.4维度表登台16.4.1步骤4:装载一个简单的维度表16.4.2静态维度表的转换16.4.3步骤5:实施维度变化逻辑16.4.4步骤6:装载剩余维度表16.5事实表装载与数据仓库操作16.5.1步骤7:装载原子级历史事实16.5.2步骤8:增量式事实表登台16.5.3步骤9:聚集表和多维联机分析处理装载16.5.4步骤10:数据仓库的操作与自动化16.6数据质量与净化16.6.1数据质量改进16.6.2数据质量保证16.7其他问题16.7.1数据登台区中的存档问题16.7.2源系统中的回退段问题16.7.3磁盘空间管理问题小结第17章创建最终用户应用17.1最终用户应用角色17.1.1最终用户应用模板17.1.2生命周期的时间选择17.2应用规范17.2.1确定最初的模板集合17.2.2设计模板浏览方法17.2.3确定模板标准17.2.4详细模板规范17.2.5用户审查17.3最终用户应用开发17.3.1选择一种实现方法17.3.2应用开发17.3.3测试与数据验证17.3.4文档及其展示17.3.5像软件开发管理人员那样思考问题17.3.6应用模板维护小结第五部分数据仓库的部署与增长第18章规划部署18.1确定是否已经准备好桌面安装18.2制定最终用户培训策略18.2.1集成和裁剪培训内容18.2.2开展最终用户培训18.2.3实施最终用户培训18.3制定最终用户支持策略18.3.1确定对组织结构的支持18.3.2参与数据协调方面的支持18.3.3参与最终用户应用支持18.3.4建立交流与反馈支持18.3.5提供支持文档18.4研制部署发布框架18.4.1alpha版本发布18.4.2beta版本发布18.4.3产品发布(又名部署)18.5编制有关部署策略的文档小结第19章数据仓库的维护与增长19.1对现有数据仓库环境的管理19.1.1关注业务用户19.1.2管理数据仓库操作19.1.3数据仓库的成功测度和市场营销19.1.4经常进行交流19.2为数据仓库的增长与演变做准备19.2.1建立数据仓库指导委员会19.2.2优化数据仓库增长与演变的机会19.2.3采用生命周期方法来管理数据仓库的迭代增长与演变小结附录a生命周期项目计划附录b关于本书附带的cd-romb.1项目计划b.2数据仓库总线结构样例b.3模板、检查清单、图形和帮助第2章业务维生命周期第3章项目规划与管理第4章项目需求的收集第7章多维模型的创建第8章数据仓库结构介绍第9章后台技术结构第10章前台结构第11章体系结构与元数据第12章有关互联网和安全性的研究生课程第13章结构计划的创建与产品的选择第15章完成物理设计第16章数据登台第17章创建最终用户应用第18章规划部署b.4cd-rom的使用b.5cd-rom浏览器的用法说明b.6软件要求
序言/前言前言本书的主要读者对象是数据仓库的设计人员、管理人员及其所有者。他们都是在信息系统组织中工作的。无论他们的具体头衔是什么,都会深感创建和维护数据仓库(或是数据仓库的某些部分,即我们通常所说的数据集市)的责任重大。我们通过这本《数据仓库生命周期工具箱》提供了一份领域指南以及一整套工具,主要用于设计、开发和部署大型组织机构的数据仓库和数据集市。我们试图使本书内容非常具体化和可操作,因此,它与其他数据仓库图书完全不同。我们在本书中描述了同完整数据仓库范围完全一致的框架,从关于开发和部署数据仓库的所有详细步骤,到用于规划其下一阶段的最终步骤,可以说贯穿了数据仓库的整个生命周期。数据仓库市场显然已走出了其幼年时期。到本书写作时为止,仅美国就安装有一千多个数据仓库,它们都在发挥着作用。目前,许多数据仓库所有者全都按本书中介绍的“生命周期”观点看待其数据仓库。也许从生命周期观点中得到的最大收获就是:意识到各个数据仓库都在不断发展,处于动态变化之中,各种新的业务要求不断产生。新的管理人员和主管将一些不可预知的要求提交给数据仓库,还可以获得各种新的数据源。或者说,数据仓库至少需要尽量随着组织环境的变化而不断取得进展。稳定型组织会要求数据仓库取得适度进展,而变动较大的动态型组织则可能会使数据仓库任务变得富有挑战性。考虑到数据仓库目前所具有的动态发展特性,我们必须对若干年前基于原始、理想化、静态的观点所提出的数据仓库期望值和相关技术进行调整。我们必须采用那些具有灵活性、可修改的各种技术,还必须同时扮演dba和mba双重角色。我们还需要见机行事地将一些小块数据(比如数据集市)连成大块数据(即数据仓库)。同时,还要求针对数据仓库所做的变化都必须是完美的。完美变化意味着以前的数据和各种应用仍然有效。本书深入探讨了两个主题。第一个主题是业务维生命周期(businessdimensionallifecycle)方法。业务维生命周期始于业务需求,并创建了一系列具有可理解性、高性能的数据集市。这些数据集市全都是星型维度模型。第二个主题是数据仓库总线结构。本书中介绍了如何创建一系列数据集市,使读者能够及时创建一个完整的数据仓库。在发布第一个数据集市之前,利用该方法就可以依据需求轻松地创建一个无所不包的、集中式数据仓库。本书中涵盖了上述这些观点,提供了能够帮助读者完成作业任务的各种有用的技巧和工具,并且通过这种方式来介绍我们所积累的主要观点和价值观念。它们都是我们自1982年以来在从事数以百计的数据仓库安装和咨询任务过程中不断积累起来的。本书特点及适用的读者本书的主要读者对象应该是那些从事数据仓库的创建和管理工作的设计人员或者管理人员。本书还包含了一些介绍性
材料,这些材料对于与数据仓库相关的信息系统专业人员来说也许很有用。熟悉ralphkimball所著的《数据仓库工具箱》(wiley公司1996年出版)一书以后,就会了解数据仓库方面的适当背景知识。本书是建立在前一本书(《数据仓库工具箱》)的“工具箱”概念
基础之上,但本书能提供更深入、更先进的数据仓库开发方法。此外,通过设计和开发一个真实的数据仓库,就能够积累一些数据仓库经验,并形成自己的观点,这是最好的知识背景。没有任何东西可以替代在开发一个有效的数据仓库时所承担的责任。我们都曾有过感到羞辱的经历,那就是将数据仓库介绍给一群要求过分的最终用户的时候。通常令人难以接受的事实是,大多数最终用户的工作与技术毫不相关,他们甚至可能不是特别喜欢技术。但是,如果我们的技术易于使用,并且能为用户提供确有实效的使用价值,最终用户还是会使用我们的技术的。本书略微偏向技术。其中有关数据仓库的设计技术和结构等方面的讨论,将介绍一些未曾遇见过的术语。我们对本书进行了精心梳理,以确保那些倾向于技术方面的主题都是我们认为读者必须懂得的内容,我们不打算因内容本身方面的缘故而陷入细节上的困扰。例如,对篇幅较长的、有关数据仓库安全性的章节内容的处理。有关安全性的讨论中我们尽量避免描述安全技术的精微细节,并注意不占据太大的篇幅。同时确保读者在承担某种安全责任时,能了解足够多的安全性主题。如何有效使用本书我们建议读者在了解感兴趣的章节前,将本书通读一遍,以便获得完整的业务维生命周期知识。各种经验和意见可能会帮助形成这方面的个人观点框架。例如,在读完第2章后,也许会明白在创建数据仓库时必须抓住三条平行线索,即技术结构、数据结构和应用结构。在各章开始部分的那个图形中的“youarehere”处(译者注:即图中加阴影的部分)展示了这三条线索。尽管这三条线索之间显然会相互影响,但它们可以按平行方式或者异步方式发展。由于图书的内容按线性方式进行编排,所以,书中介绍的业务维护生命周期的所有步骤,就像是按某种固定次序发生的那样。因此,在读完本书以后,就能够想像出这些步骤在现实世界中具有更现实、更复杂的各种关系。本书中融合了许多实用技巧,为了便于读者轻松阅读,我们采用了如下的一些标识。建立数据仓库过程特定部分的快照、项目计划任务和电子表格,请按以下标识分别进行查找。这个标识在一些章节后面。它收集了有关数据仓库生命周期各个阶段所起的主要作用,其指示标记是由三根钥匙构成的一个图标。这个标识在一些章节后面。它收集了有关各个处理步骤预计要考虑的各种事项,其指示标记是一个闹钟图标。这个标识在一些章节后面。它收集了有关各种支持性模板的一份清单,其指示标记是一个cd-rom图标。打开cd-rom就可以获得相应的空白模板,然后按提示内容去使用它。在全书中到处都在谈论着各式各样的规划所需帮助、清单以及模板。由于它们会对读者有所帮助,所以,建议使用cd-rom中提供的各种样例。或许读者已经形成了自己的独特风格,或者已经拥有不同于我们的规划框架。无论是哪一种情况,我们所做的目的都是帮助读者尽快上路。本书中给出的规划所需帮助仅提供了一个中等程度而不是详细程度的结构。由于数据仓库的实现是一项巨大的工程,所以,从事这方面工作的任何人都必须是非常好的管理人员。而好的管理人员都应该懂得如何平衡项目管理方法论以及人员和任务管理中的人员和逻辑问题等之间的关系。所以,建议使用本书中给出的结构或者读者自己创建的结构,但不要过分依赖它们。真正要做的工作是首先判断出组织中哪些是必须要做的重要事情,接着与其他人一起工作并完成它。还可以将本书分成一条基本线索和一条“研究生”线索。本书目录中已清楚地标明其中有三章属于研究生课程。因此,在第一次阅读本书时(特别是当大部分材料都是新内容时更是如此),应该跳过那些标明为研究生课程的章节内容,只要了解其大致内容即可。接着,在对整个业务维生命周期掌握得更加得心应手以后,就会发现那些标明为研究生课程的章节内容都是非常有价值的。这些章节内容所介绍的都是这三个领域中的
最新思想。当项目进入到特定阶段时,应该返回到相应的章节,并且非常仔细地阅读其内容。这也正是为什么本书被命名为《数据仓库生命周期工具箱》的真正原因。各章写作目的第1章数据仓库的基本组成在本书撰写时,数据仓库方面许多含义不清的术语四处泛滥,甚至连数据仓库这个概念也失去了其准确含义。一些人甚至尝试将数据仓库定义为一种不可查询的数据资源。本章试图解决术语方面的所有争端,本书中统一使用术语的某种特定含义。本章中以统一的方式简要地定义了数据仓库中使用的一些重要术语。这或许有点儿像在打算下一盘棋之前必须研究所有的棋子及其用法。本书中所给出的术语定义都非常接近于它们的主流定义。第一部分项目管理与需求第2章业务维生命周期本章从非常高的高度对整个业务维生命周期进行了定义,还简要讨论了其中的每一个步骤,并给出了对生命周期的整体看法。第3章项目规划与管理本章对项目进行了定义,探讨了如何在考虑组织环境因素的同时设定项目的范围。此外,还广泛谈论了各种项目中的角色和责任。但大可不必一一调查所有项目的角色,只需要代之以任何可以想像得到的具体项目即可。因此,本章主要是写给管理人员看的。第4章收集项目需求收集有关业务和数据的需求是整个数据仓库项目的基础,或者至少应该这样做。收集项目需求需要一定的技巧,并且它是信息系统组织中最常见的一项活动内容。本章提供了能轻松完成该工作的各种技术,但读者不必在该步骤上花费太多的时间。第二部分数据设计第5章维度建模的第1课本章开头部分积极讨论了维度建模的价值。应该理解本章介绍该方法的深度。在过去的15年中,当我们完成了数以百计的数据仓库设计和安装任务以后,我们认为该方法是能够实现易理解性和性能这两大目标的惟一方法。接着,我们展示了如何将各种多维模型组合到某种一致性模型中的重要秘密。这个秘密就是所谓的一致性维度和一致性事实。我们将该方法称做数据仓库总线结构。计算机中有一个重要部件(即计算机总线),用户可以将所有东西连接到该总线上。同样地,数据仓库中也有一个重要部件,我们称它为数据仓库总线,也可将所有东西连接到它上面。本章的剩余部分全面介绍了有关数据仓库维度建模的知识,这个介绍可以看做ralphkimball先生所著的《数据仓库工具箱》一书中所论及主题的附录。第6章维度建模的研究生课程本章收集了我们所能想到的维度建模方面最艰难的各种情形。其中的大多数例子来自特定的业务情形,比如,如何处理一些奇怪的客户。第7章多维模型的创建本章需要解决的是如何为组织创建一个合适的模型。首先,需要建立一个有关数据集市和维度的矩阵。接着,可以按第5章中所描述的各种技术为每一个数据集市设计各种事实表。本章的后半部分描述了各种现实的管理问题,这些问题都是在应用上述方法以及创建各个数据集市所必需的所有维度模型时遇到的。第三部分数据仓库结构第8章数据仓库结构介绍本章按照中等详细程度介绍了数据仓库技术结构的全部部件,描述了其中的全部情景。本部分剩下的5章探讨了特定领域的细节情况。这方面的讨论可以细分成数据结构、应用结构以及体系结构等部分。在遵循第5章中提出的数据仓库总线结构以后,就能够每次创建一个数据集市,并且最终能够得到一个灵活的、统一的完整数据仓库。但是,这并不意味着很容易就能够完成这件事。第9章后台技术结构本章介绍了后台的各种系统部件,包括源系统、报告实例、数据登台区、基础级数据仓库和业务处理数据集市。本章中将介绍有关操作型数据存储(ods)的情况。还会讨论后台中必须提供的所有服务,利用它们可将数据装载到数据集市呈现服务器中。第10章前台结构前台就是执行发行操作的地方。应该使数据可以获得,并且提供用来满足不同用户需求的一组工具。本章还提供了在前台中必须支持的许多需求的全面性观点。第11章体系结构与元数据体系结构是用来将数据仓库连成一个整体的。本章中包含了体系结构的具体细节情况。在讨论细节情况时,考虑的是每一位数据仓库设计人员和管理人员都必须了解的硬件、软件、
通信等方面的知识,特别是元数据知识。第12章有关互联网和安全性方面的研究生课程尽管互联网已经对数据仓库管理人员的生活产生了极其巨大的潜在影响,但许多数据仓库管理人员不是没有认识到互联网对他们的真实影响,就是避免讨论这方面的问题。本章将展示基于互联网的数据仓库及其安全性等方面问题的现状情况,还提供了用来保护数据仓库安装过程安全的一份行动清单。贯穿本章的各种样例都倾向于揭示数据仓库拥有者必须面对的各种挑战和内幕。第13章创建结构计划与产品选择本章假设读者是一位软件、硬件、体系结构等方面的专家,正准备为组织制定一份具体的结构计划,还负责选择各种具体产品。本章中讨论了产品选择过程以及组合产品策略。但需要记住的是,本书中并不打算讨论某些具体销售商的产品平台情况。第四部分数据仓库实施第14章有关聚集的研究生课程聚集是指创建的预存储概要,主要用于提升数据仓库系统的性能。本章深入探讨了聚集的结构、聚集应用的场合、如何使用聚集以及如何管理聚集等内容。假如其他系统是按数据仓库总线结构进行建造的,则聚集就是用来提升大型数据仓库系统性能的一个性价比最高的途径。第15章完成物理设计尽管不了解读者会选择哪一种数据库管理系统和硬件结构,但我们仍建议读者了解这方面的许多重要思想。本章中讨论了物理数据结构、索引策略等内容,特别是讨论了用于数据仓库的各种专业数据库以及raid存储策略。第16章数据登台一旦安排好了各种主要的系统,则接下来的就是最艰巨、风险最大的处理步骤,即需要从传统系统中取出数据,并将该数据装载到数据集市数据库管理系统中。数据登台区是用来临时存放要进行净化和转换的传统数据的中转地。本章详细讨论了数据登台区中可能会发生哪些情况以及不应该发生哪些情况。第17章创建最终用户应用在数据终于被装载到数据库管理系统以后,还必须安排如何在用户桌面上进行“软着陆”方面的事情。最终用户应用是指各种查询工具、报告写作程序和数据挖掘系统,其主要功能是从数据库管理系统中提取数据并实现一些有用的功能。本章描述的是用于起步阶段的一组最终用户应用,它们都是你在数据集市实施的起始阶段所必须提供的各种应用。第五部分数据仓库的部署与增长第18章规划部署在一切准备就绪以后,应该暂时抛开该系统,并且像商业软件销售商那样采取行动。必须做的事情包括:安装软件、培训用户、收集错误报告、征求反馈意见和响应各种新需求。还必须小心翼翼地制定各种计划,以便能按设定的期望值交付该系统。第19章数据仓库的维护与增长最后,当整个数据集市建立起来并运转以后,还必须回过头来再做一遍。但正如先前所说过的那样,与其说数据仓库是一个过程,还不如说数据仓库是一个项目。当本章能为读者留下这样一种有价值的最后印象时(即“所做的事情永远不会完毕!”),说明它最适合做本书的结束部分。各种支持工具附录a附录a中总结了在业务维生命周期的某个地方或者用某种格式需要用到的整个项目计划。其中列出了全部项目的任务和角色。附录b附录b是本书附带的cd-rom的一份内容导游图。还遍历了如何使用数据仓库总线结构样例设计。cd-rom本书附带的cd-rom中包含了大量实用的检查清单、模板以及可用于数据仓库开发的各种表格,其中还包括用来描述数据仓库总线结构的样例设计。数据仓库的目标组织中最重要的资产就是它所拥有的信息。这种信息资产通常保存成以下两种形式,即操作型记录系统和数据仓库。简言之,操作型记录系统是指存放数据的地方,而数据仓库是指能从其中取出数据的地方。《数据仓库工具箱》一书中曾经详细描述过这种二分法。在本书写作时,似乎没有必要再让人确信整个世界的确只存在两类系统,或者经常只存在两类系统。目前能被广泛接受的一种观点就是,数据仓库要比操作型记录系统具有更多的需求、客户、结构和节奏。最后还需要暂时撇开数据仓库的实现和建模等方面的细节情况,并且要牢记到底什么是数据仓库的基本目标。数据仓库具有以下特点。使组织信息变得可存取数据仓库的内容都是可理解、可浏览的,数据仓库的存取表现为快速的性能。这些方面的要求既无边界,也没有明确的限制。“可理解”意味着需要为其内容加上正确的标签,使之显而易见。“可浏览”意味着需要认识到数据仓库的终极目的地是用户屏幕,用户只需要单击一下就可以浏览相关内容。“快速的性能”意味着零等待时间。其他事情都意味着某种折中,所以必须在某些方面有所改进。使组织信息具有一致性来自组织中某一部分的信息必须与另一部分的信息相匹配。当组织中的两种指标方法名称相同时,它们肯定是指同一件事。反之,当它们不是指同一件事时,其标识也应该不一样。信息的一致性意味着信息的高质量,还意味着所有信息都是可以证明的完整信息。其他事情都意味着某种折中,所以必须在某些方面有所改进。它是一种自适应的、有弹性的信息源数据仓库被设计用于持续变化环境。当提交有关数据仓库的各种新问题时,现有的数据和技术都不会发生变化或者遭到破坏。当新数据被添加到数据仓库时,现有的数据和技术都不会发生变化或者遭到破坏。由于多个数据集市可以组成一个数据仓库,所以对单个数据集市的设计必须采用分布式和增量式设计。其他事情都意味着某种折中,所以必须在某些方面有所改进。它是能保护信息资产安全的安全堡垒数据仓库不仅能有效地控制数据的存取,而且能为其所有者提供非常大的可见度,使后者能够了解数据的使用和误用情况,即使在它已离开数据仓库以后也能够实现这一点。其他事情都意味着某种折中,所以必须在某些方面有所改进。它是决策的基础数据仓库拥有用于支持决策活动的合适数据。从数据仓库中只有一种真实的输出(即用于决策)。在数据仓库提供了相关证据以后,就可以做出决策。数据仓库的最初标签是“决策支持系统”,它仍然最适合用来描述我们正在试图创建的东西。本书的写作目的当本书继续获得成功以后,大型数据仓库的设计人员和管理人员就能够更快地实现其目标。他们将会创建各种高效的数据仓库,这些数据仓库的目标与本书前面章节中所概述的数据仓库目标能够很好地匹配,同时在该过程中所犯的错误也会更少。幸好不必重新回头,并且发现“先前所拥有的”各种真理。本书试图尽可能多地从技术角度去探讨数据仓库这样一个大主题,而不被面向特定产品销售商的具体细节所纠缠。对于从事数据仓库市场营销工作的人员来说,他们的一个兴趣点肯定是在理解所有数据仓库职责时所必需的知识宽度上。我们非常强烈地感觉到在这方面有必要保持较宽泛的观点,主要是因为数据仓库具有不断进化的特征。即使数据仓库已经超越了文本和数字数据这些基础概念,或者依靠关系型数据库技术,本书中所提及的大多数原则仍然适用,因为数据仓库项目组的使命从字面意义上看,最重要的就是要创建一个决策支持系统。在拥有适量的结构和规范时,就可以为创建复杂的大型数据仓库提供很大帮助。因此,我们打算通过本书介绍这些结构和规范,希望读者能够理解和参与整个业务维生命周期法,同时还将这种观点灌输给整个组织。数据仓库在许多方面体现了信息系统中的一个重要思想,即收集组织信息,并使之变得更加有用。“生命周期”这种思想意味着它是一个永无止境的过程,数据仓库也会经历发芽、开花,最后走向消亡等阶段,它只能被另一个新的数据仓库所替代,而新的数据仓库又是基于前一代数据仓库遗留下来的观点进行创建的。本书中尝试捕获这些观点,帮助读者组织创建新的数据仓库。访问相关web站点本书可以看做是数据仓库产业的一个静态快照,并提供了很重要的方法论。在了解有关这些问题的最新动态观点时,必须访问本书的网站(网址是www.wiley.com/compbooks/kimball),或者登录其镜像站点(网址是www.lifecycle-toolkit.com)。我们作为本书的作者,打算亲自维护该web站点,使之成为对数据仓库专业人员有用的一种资源。