本书是“大数据技术”丛书的首册,编译自Yang Y. Lee、Leo L.Pipino、James D. Funk和Richard Y. Wang合作编著的《Journey to Data Quality》,四位作者都是国际数据质量研究的先驱,该书堪称数据质量领域的经典之作。
本书汇集了作者和本领域众多学者的研究成果,也包括他们在政府和相关行业实践工作中累积的经验。本书尝试将分别来自于学术期刊和学术实践性会议中的诸多观点、概念予以总结和升华,向读者展现这些观点和概念是如何被许多组织采纳并用作数据质量管理和实践的原则、政策和技术工具的。进一步地,作者将通过具体的现实例子和来自行业的案例对本书中的理论观点和方法加以讨论。
本书的读者群主要是企业的管理层、从事数据质量工作的人员、数据质量领域的研究者和学生。对于业界人员,本书有助于深入理解他们所从事工作的理论基础,为将来更好地解决问题并付诸实践做好准备。研究人员能够通过本书了解数据质量理论是怎样被应用到实践中的,进而有助于更加专注于未来的研究领域。而对于学生来说,本书能够提供对于这个领域的宏观认知,为今后在这一领域的学习和研究奠定坚实基础。管理层人员则可能会对本书的前几章和第11章(数据质量政策)更感兴趣并得以裨益。
第1章 引言
1.1 信息可以被共享吗
1.2 新系统不是解决办法
1.3 开启数据质量之旅
1.4 成功开始的故事
1.5 CEO领导的旅程
1.6 数据质量之旅面临的挑战
1.7 数据质量为什么重要
1.8 本书概览
第2章 成本一效益分析
2.1 挑战性
2.2 成本一收益的权衡
2.3 -个案例
2.4 高级成本一效益分析技术
2.5 本章小结
第3章 数据质量评估(一)
3.1 评估技术和相关方法
3.2 实际中的评价方法
3.3 差距分析技术
3.4 数据完整性评价
3.5 本章小结
附录 数据质量评价调查(IQA)问卷
第4章 数据质量评估(二)
4.1 科德完整性约束
4.2 数据质量指标
4.3 自动化的测量方法
4.4 嵌入过程的数据整体性方法
4.5 本章小结
第5章 保证数据质量的抽样方法
5.1 基本概念
5.2 选择抽样过程
5.3 确定样本量
5.4 交易数据库的抽样
5.5 环境扩展:分布式数据库和数据仓库
5.6 本章小结
第6章 数据质量问题及其模式剖析
6.1 数据质量问题的十大根源
6.2 数据质量问题的表现
6.3 数据质量问题的转换
6.4 本章小结
第7章 识别数据质量问题的根本原因——一个医疗保健组织案例
7.1 案例:好感觉健康系统公司
7.2 识别问题
7.3 组建跨部门的团队
7.4 采用一种框架:建立并测试假设
7.5 关键信息
7.6 找出数据质量问题的诱因
7.7 本章小结
第8章 数据的产品化管理
8.1 数据产品
8.2 四个案例
8.3 四个原则
8.4 把数据当成副产品来管理是无效的
8.5 本章小结
第9章 开发数据产品地图
9.1 数据产品地图的概念、定义和符号
9.2 绘制数据产品地图的步骤
9.3 建立数据产品地图的一个案例
9.4 本章小结
附录 基于IPMAP的图形化编辑软件
第10章 数据质量实践——一家大型教学医院的案例
10.1 LTH健康系统案例研究
10.2 提交数据质量改进项目
10.3 数据产品地图
10.4 改进方案:当前的处理过程和未来计划
10.5 本章小结
第11章 数据质量政策
11.1 十大政策指引
11.2 本章小结
附录1 数据质量岗位介绍
附录2 来自全球制造公司的数据架构政策示例
附录3 数据质量实践与产品评估工具
第12章 旅途结束了吗
12.1 要点回顾
12.2 面临的挑战和威胁
12.3 对数据质量特征的规范定义
12.4 公司家族化
12.5 数据挖掘
12.6 数据集成
12.7 安全性
12.8 有线和无线的世界
12.9 后记
附录一 种基于期望失验理论的信息质量评估指标体系
F.1 引言
F.2 文献回顾
F.3 信息质量的概念
F.4 信息质量的指标体系
F.5 讨论
参考文献
编译者后记