定 价:58 元
丛书名:大数据类专业规划教材 , 大数据技术与应用丛书
- 作者:黑马程序员 著
- 出版时间:2020/4/1
- ISBN:9787302550877
- 出 版 社:清华大学出版社
- 中图法分类:TP274
- 页码:394
- 纸张:胶版纸
- 版次:1
- 开本:16开
数据清洗是大数据预处理的关键环节。面对错综复杂的数据,传统的清洗“脏”数据工作单调且异常辛苦,如果能利用正确的工具和方法,可以让数据清洗工作变得事半功倍。
《数据清洗》讲解数据清洗的理论知识和实际应用,《数据清洗》共8章:第1章主要带领大家简单认识数据清洗;第2章主要讲解ETL技术相关的知识;第3章讲解Kettle工具的基本使用;第4章主要讲解数据清洗的一步——数据抽取;第5章主要讲解数据清洗与检验;第6章主要讲解数据转换相关的知识;第7章主要讲解数据加载相关的知识;第8章利用前面章节所学的知识构建一个DVD租赁商店数据仓库,目的是实现定期从源数据库sakila中抽取增量数据,转换成F合DVD租赁业务的数据,最后加载到DVD租赁商店数据仓库中,便于后续在线DVD租赁商店的决策者对数据进行分析得出商业决策。
《数据清洗》附有配套视频、源代码、习题、教学设计、教学课件等资源。同时,为了帮助初学者更好地学习《数据清洗》中的内容,还提供了在线答疑,欢迎读者关注。
《数据清洗》可作为高等院校本专科计算机、信息管理等相关专业的大数据课程教材,也可供相关技术人员参考,是一本适合广大计算机编程爱好者的优秀读物。
近年来,大数据技术掀起了计算机领域的一个新浪潮,无论是数据挖掘、数据分析、数据可视化,还是机器学习、人工智能,它们都绕不开“数据”这个主题。从统计学家到软件开发人员,再到图形设计师,越来越多的人对数据科学产生了兴趣,廉价的硬件、可靠的数据处理工具和数据可视化工具以及海量的数据,这些资源使我们能够轻松地、精确地发现趋势、预测未来。
由于海量数据的来源是广泛的,数据类型也是多而繁杂的,因此数据中会夹杂着不完整的、重复的以及错误的数据,如果直接使用这些原始数据,会严重影响数据决策的效率。因此,对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。
本书共分为8章,各章内容介绍如下:
第1章主要是带领大家简单认识数据清洗的背景、定义、原理、基本流程、清洗策略以及常见的数据清洗方法。通过本章的学习,读者可以对数据清洗有基本的认识,便于后续章节的学习。
第2章主要讲解ETL技术相关的知识,即基于ETL的数据清洗(ETL的概念、体系结构)、ETL关键技术(抽取数据的技术、数据清洗转换的技术以及数据加载的技术)和ETL常见工具。通过本章的学习,读者可以认识ETL,并熟悉ETL的关键技术和ETL常见的工具。
第3章主要讲解数据清洗工具Kettle的相关知识,即Kettle的概述、设计原则、下载安装以及基本概念和基本功能。通过本章的学习,读者可以使用Kettle工具对ETL数据进行相关处理(抽取、清洗转换以及加载)。
第4章主要讲解数据清洗的第一步——数据抽取,即抽取文本数据、Web数据以及数据库数据的相关知识。通过本章的学习,读者可以掌握抽取各种形式的数据并保存至数据库中,便于后续对数据进行相关清洗转换和分析。
第5章主要讲解数据的清洗与检验相关的知识,即数据去重、缺失值处理、异常值处理以及数据检验知识。通过本章的学习,读者可以掌握对重复数据、缺失值数据、异常值数据的处理,也可以掌握对数据进行检验的操作。
第6章主要讲解数据转换相关的知识,即多数据源合并、不一致数据转换、数据粒度的转换、数据的商务规则计算的知识。通过本章的学习,读者可以掌握数据转换操作,实现将企业中的数据进行规范化处理。
第1章 数据清洗概述
1.1 数据清洗的背景
1.1.1 数据质量概述
1.1.2 数据质量的评价指标
1.1.3 数据质量的问题分类
1.2 数据清洗的定义
1.3 数据清洗的原理
1.4 数据清洗的基本流程
1.5 数据清洗的策略
1.6 常见的数据清洗方法
1.7 本章小结
1.8 本章习题
第2章 初识ETL
2.1 基于ETL的数据清洗
2.1.1 ETL的概念
2.1.2 ETL的体系结构
2.2 ETL关键技术
2.2.1 数据的抽取
2.2.2 数据的清洗转换
2.2.3 数据的加载
2.3 ETL常见工具介绍
2.4 本章小结
2.5 本章习题
第3章 Kettle工具的基本使用
3.1 Kettle简介
3.1.1 Kettle概述
3.1.2 Kettle的设计原则
3.2 Kettle的下载安装
3.3 Kettle的基本概念
3.3.1 转换
3.3.2 作业
3.4 Kettle的基本功能
3.4.1 转换管理
3.4.2 作业管理
3.4.3 数据库连接
3.5 本章小结
3.6 本章习题
第4章 数据抽取
4.1 抽取文本数据
4.1.1 TSV文件的抽取
4.1.2 CSV文件的抽取
4.2 抽取Web数据
4.2.1 HTML网页的数据抽取
4.2.2 XML文件的数据抽取
4.2.3 JSON文件的数据抽取
4.3 抽取数据库数据
4.3.1 抽取关系型数据库的数据
4.3.2 抽取非关系型数据库的数据
4.4 本章小结
4.5 本章习题
……
第5章 数据的清洗与检验
第6章 数据转换
第7章 数据加载
第8章 综合案例——构建DVD租赁商店数据仓库