本书内容足够权威, 从项目规划、需求收集到系统架构、维度建模、ETL、BI分析等, 涵盖数据仓库和BI生命周期的各个核心阶段。全书共15章, 具体内容如下: 数据仓库与BI概述、项目前期的准备工作、项目/程序的规划、需求定义、数据架构、维度建模基础、维度建模任务于责权划分、事实表、维度表、维度模式与考虑事项、ETL与数据质量、技术架构上的考量、BI应用、维护与成长性分析、终极工具等。
在《数据仓库与商业智能宝典(第2版)成功设计、部署和维护DW/BI系统》中,我们以连贯的方式组织了所有这些文章。不过本书并不仅仅是过去的杂志文章和DesignTip一字不变的集合。我们已经精简了多余的内容,确保所有文章都以一致词汇来编写,并且更新了许多图片。本书中的文章都进行了重新编辑和改进。一些术语自其被引入以来已经发生了变化,我们已经以追溯的方式使用被广泛采用的当前术语替换了老的术语。
●人造键现在被称为代理键。
●数据集市已经被替
●数据暂存现在被称为提取、转换和加载。
●终端用户应用程序已经被商业智能应用程序所替代。
●帮助表现在被称为桥接表。
由于大多数人都不会从头到尾一页不漏地阅读本书,因此我们需要事先介绍一些常用的缩写词:
●DW/BI是端到端数据仓库/商业智能系统的英文缩写。这个缩写对于简约性来说很有用,不过它也明确地将数据仓库和商业智能链接为一个共存体。最后,它反映出从数据仓库本身作为终点到商业智能(BI)的重心转换推动我们所做的一切事情。毕竟,数据仓库是所有形式BI的平台。
●本书中的许多图片都包含DD(degeneratedimension)、FK(foreignkey)和PK(primarykey)缩写,它们分别代表退化维度、外键和主键。
●ETL的意思是提取、转换和加载,这是获取数据并且让数据准备好暴露给BI工具的标准范式。
●ER(entity-relationship)指的是实体关系。我们会在探讨第三范式(3NF)或者与维度数据模型相反的标准化数据模型时频繁使用ER。
●OLAP代表在线分析处理,通常用于将在多维数据库或多维数据集中捕获的维度模型与被称为星型模式的关系型DBMS中的维度模型区分开来。这些关系型星型模式有时也被称为ROLAP。
●SCD(slowlychangingdimension)是渐变维度的缩写,指的是所确立的用于处理维度属性变更的技术。
KimballGroup的文章和DesignTip归档文件一直都是我们网站(www.kimballgroup.com)上浏览量最大的。回顾20年前Ralph最初于1995年发表的DBMS杂志文章,这些归档文件探究了超过250个主题,有时比我们的书籍或课程探究的程度还要深。
在《数据仓库与商业智能宝典(第2版)成功设计、部署和维护DW/BI系统》中,我们以连贯的方式组织了所有这些文章。不过本书并不仅仅是过去的杂志文章和DesignTip一字不变的集合。我们已经精简了多余的内容,确保所有文章都以一致词汇来编写,并且更新了许多图片。本书中的文章都进行了重新编辑和改进。
经过慎重的讨论之后,我们决定更新整本书中的时间基准以及内容,以便提供2015的视角,而不是将旧日期或者过时的概念留在这些文章中。因此,2007年所写的文章可能会在一个示例中使用2015年这一时间!当出现涉及过去多少年的文章时,我们已经将这些时间基准更新为相对于2015年而言。例如,如果一篇2005年的文章最初描述“在过去5年之间”,那么该文章现在就会描述为“在过去15年之间”。在提及关于我们多年来的经验、售出的图书量、编写的文章或者教过的学生时,这些也都被更新为2015年的描述。最后,我们偶尔会将像“调制解调器”这样过时技术的引用变更为更加现代的技术,尤其是“互联网”。我们相信,这些变更不会造成误导或引起混淆,相反,它们会让本书的阅读体验变得更好。
本书读者对象和目标
本书的主要读者是正在交付数据仓库以便为商业智能提供支持的分析师、设计者、建模者或者管理者。本书中的文章描绘了DW/BI系统开发的整个生命周期,从最初的业务需求收集直到最后的部署。我们相信,这一系列文章会充当DW/BI系统开发过程中出现的数以百计的问题和情况具有深度的极佳参考。
这些文章的范围涵盖了对于高度技术性重点的关注,在所有情况下,这些文章的基调都力求提供咨询。在过去的20年中,这些文章在KimballGroup网站上每天都会被访问数千次,因此我们确信它们是有用的。通过组织这些归档文件以及系统地编辑这些文章以便确保其一致性和相关性,为本书增加了重要价值。
内容预览
本书的内容组织对于《数据仓库生命周期工具箱(第二版)》(Wiley出版社于2008年出版)的读者来说看起来会有些熟悉,因为我们是根据对应于数据仓库/商业智能(DW/BI)实现的主要里程碑的主题来组织这些文章的。鉴于“Kimball”一词差不多就是维度建模的代名词,所以不足为奇的是,本书的大部分内容都会专注于该主题。
●第1章:读本概览。我们会以Ralph几年前为DMReview杂志所写的一系列文章作为本书的开始。这一系列文章以连贯内聚的方式简洁地封装了Kimball方法,因此这些文章为本书提供了绝佳的概述,类似于克利夫笔记。
●第2章:深入研究之前。Ralph文章的长期读者会发现,该章充满了对于旧日的记忆,因为这些文章中的许多内容都具有重要历史意义。有些让人惊讶的是,尽管这些文章中的大多数都写于20世纪90年代,但其内容仍然具有相关性。
●第3章:项目/程序规划。在了解了概述和历史的经验教训之后,第3章会继续推进从而启动DW/BI程序和项目。我们会思考项目团队和主办干系人的职责,然后深入研究Kimball生命周期方法。
●第4章:需求定义。要在缺乏业务需求的情况下取得DW/BI的成功是很难的。该章将为有效获得业务需求提供具体的建议。它强调了围绕业务过程来组织需求调研结果的重要性,并且提供了就恰当的后续步骤达成组织共识的策略建议。
●第5章:数据架构。切实理解了业务需求之后,我们会将注意力转向数据(第11章同样也会继续关注数据)。该章首先会论证维度建模的正确性。然后会描述企业数据仓库总线架构、探讨敏捷开发方法以便支持数据仓库,为必不可少的集成和管理工作提供合理化机制,然后将Kimball架构与企业信息工厂的中枢辐射模型作对比。
●第6章:维度建模基础。该章将介绍维度建模的基础知识,首先探讨事实与维度的区别,以及在数据仓库中向下钻取、横向钻取和处理时间的核心活动。我们还会探究大家熟悉的关于维度模型的传言。
●第7章:维度建模任务和职责。第6章涵盖了围绕维度建模的根本性“内容和原因”,专注于“如何、谁和何时”。第7章描述了维度建模过程和任务,以便组织起一支有效的团队,不管是全新开始还是重新考虑已有模型。
●第8章:事实表核心概念。第8章的主题可以被描述为“仅仅着眼于事实”。我们首先会探讨事实表的粒度性和三种基本类型,然后将我们的注意力转向事实表键和退化维度。该章将以常用的事实表模式集锦作为结尾,其中包括空值、文本和稀疏填充的指标,以及非常类似于维度属性的事实。
●第9章:维度表核心概念。在第9章中我们会将注意力转向维度表,从对代理键和无处不在的时间(或日期)维度的探讨开始。然后将探究角色扮演、杂项和因果性维度模式,随后将探讨对于渐变维度的全面处理,其中包括四种新的高级维度类型。
●第10章:更多的维度模式和注意事项。第10章将用更丰富的维度表范围来补充前一章的内容。我们会描述星型模式和外支架,以及一节关于桥接的被大幅更新过的内容,以便应对多值维度属性和不规则的多变层次结构。我们会探讨顾客维度中经常会遇到的细微差别以及国际化问题。该章会以一系列案例研究作为结束,其中涵盖了保险、航程和网络、人力资源、金融、电子商务、文本搜索以及零售。我们鼓励每个人都仔细研读这些描述,因为这些模式和推荐做法超出了行业或应用程序边界。
●第11章:后台ETL和数据质量。在第11章中,我们要将话题切换到设计目标维度模型以便填充它。预先警告:这是篇幅很长的一章,正如根据该主题你可以预见到的一样。本书在该章中提供了大量的新素材。我们首先会描述提取、转换和加载(ETL)数据所需的34个子系统,以及使用商业化ETL工具的优缺点。基于此,我们会深入研究数据质量的注意事项,为构建事实表和维度表提供具体指导,并且探讨实时ETL的影响。
●第12章:技术架构注意事项。直到第12章,我们才开始探讨围绕技术架构的问题,首先会介绍面向服务架构(serverorientedarchitecture,SOA)、主数据管理(masterdatamanagement,MDM)以及打包分析。关于大数据的新的一节内容刊载了Ralph编写的两份重要白皮书。该章的最后几节内容会专注于展示服务器,其中包括聚合导航和在线分析处理(onlineanalyticalprocessing,OLAP)、用户界面设计、元数据、基础设施和安全性的作用。
●第13章:前台商业智能应用程序。在第13章中,我们开始介绍DW/BI系统的前台,其中业务用户会与数据进行交互。我们描述了一个典型业务分析的生命周期,从历史绩效的审查开始,但并不会止步于此。之后我们会将注意力转向标准化BI报告,然后深入探究数据挖掘和预测式分析。该章会以探究用于业务分析的SQL限制作为结束。
●第14章:维护和发展的注意事项。在倒数第2章中,我们为成功部署DW/BI系统以及保持其健康以便持续取得成功提供了建议。
●第15章:最后的思考。该章总结了来自每个KimballGroup原则的关于数据仓库和商业智能的最终观点。这些见解涵盖了我们已经获得的最重要的来之不易的经验教训,以及所能预见到的一些未来数据仓库可能具有的特性。
导航标识
鉴于《数据仓库与商业智能宝典(第2版)成功设计、部署和维护DW/BI系统》中文章的广度和深度,我们非常审慎地找出了20多篇文章作为“Kimball经典”,因为它们涵盖了非常有效的概念,我们和行业中的许多人在过去20年中反复地引用了这些文章。这些经典的文章使用如下特殊图标作为区分:
我们期望大多数人以某种随机的顺序阅读这些文章,而不是从前到后地阅读本书。因此,我们特别强调此读本的索引,因为我们期望许多读者会通过搜索特定技术或建模情形的索引来深入进行探究。
术语说明
引以为荣的是,Ralph确立的词汇表如此经久不衰并且被广泛采用,包括维度、事实、渐变维度、代理键、事实表粒度、非事实型事实表以及退化维度在内的Kimball“特征词”,在整个行业中已经持续使用20多年了。不过尽管我们充满了善意,但一些术语自其被引入以来已经发生了变化。我们已经以追溯的方式使用被广泛采用的当前术语替换了老的术语。
●人造键现在被称为代理键。
●数据集市已经被替换成业务过程维度模型、业务过程主题领域或者主题领域,这取决于上下文。
●数据暂存现在被称为提取、转换和加载。
●终端用户应用程序已经被商业智能应用程序所替代。
●帮助表现在被称为桥接表。
由于大多数人都不会从头到尾一页不漏地阅读本书,因此我们需要事先介绍一些常用的缩写词:
●DW/BI是端到端数据仓库/商业智能系统的英文缩写。这个缩写对于简约性来说很有用,不过它也明确地将数据仓库和商业智能链接为一个共存体。最后,它反映出从数据仓库本身作为终点到商业智能(BI)的重心转换推动我们所做的一切事情。毕竟,数据仓库是所有形式BI的平台。
●本书中的许多图片都包含DD(degeneratedimension)、FK(foreignkey)和PK(primarykey)缩写,它们分别代表退化维度、外键和主键。
●ETL的意思是提取、转换和加载,这是获取数据并且让数据准备好暴露给BI工具的标准范式。
●ER(entity-relationship)指的是实体关系。我们会在探讨第三范式(3NF)或者与维度数据模型相反的标准化数据模型时频繁使用ER。
●OLAP代表在线分析处理,通常用于将在多维数据库或多维数据集中捕获的维度模型与被称为星型模式的关系型DBMS中的维度模型区分开来。这些关系型星型模式有时也被称为ROLAP。
●SCD(slowlychangingdimension)是渐变维度的缩写,指的是所确立的用于处理维度属性变更的技术。
RalphKimball创立了KimballGroup。自20世纪80年代中期开始,他就一直是DW/BI行业关于维度化方法的思想领袖,并且已经培训了超过20000名IT专家。在任职于Metaphor和创立RedBrickSystems之前,Ralph在施乐帕克研究中心(XeroxPARC)参与创建了Star工作站。Ralph拥有斯坦福大学电子工程专业的博士学位。
MargyRoss是KimballGroup和DecisionWorksConsulting的董事长。她从1982年开始就专注于数据仓库和商业智能。截止现在,Margy已经为数百个客户提供过咨询服务,并且向数万人讲解过DW/BI的实践。在任职于Metaphor和联合创办DecisionWorksConsulting之前,她毕业于美国西北大学,并且获得了工业工程专业的学士学位。