讨论大数据技术时,首先需要了解大数据的基本处理流程,主要包括数据采集、存储、分析和结果呈现等环节。数据无处不在,互联网网站、政务系统、零售系统、办公系统、自动化生产系统、监控摄像头、传感器等,每时每刻都在不断产生数据。这些分散在各处的数据,需要采用相应的设备或软件进行采集。采集到的数据通常无法直接用于后续的数据分析,因为对于来源众多、类型多样的数据而言,数据缺失和语义模糊等问题是不可避免的,因而必须采取相应的措施有效解决这些问题,这就需要一个被称为数据预处理的过程,把数据变成一个可用的状态。数据预处理以后,会被存放到文件系统或数据库系统中进行存储与管理,然后采用数据挖掘工具对数据进行处理分析,最后采用可视化工具为用户呈现结果。在整个数据处理过程中,还必须注意隐私保护和数据安全等问题。
因此,从数据分析全流程的角度,大数据技术主要包括数据采集与预处理、数据存储和管理、数据处理与分析、数据安全和隐私保护等几个层面的内容。
第1章 Hadoop大数据分布式计算框架概述
1.1 大数据基础
1.2 Hadoop概述
1.3 Hadoop关键技术
1.4 Hadoop的优势与不足
1.5 本章小结
本章习题
本章主要参考文献
第2章 Hadoop大数据分布式环境
2.1 大数据Linux基础
2.2 Hadoop系统部署方式
2.3 Hadoop3.x环境搭建
2.4 本章小结
本章习题
本章主要参考文献
第3章 Hadoop分布式文件系统原理
3.1 集群与分布式文件系统
3.2 HDFS架构和组件
3.3 HDFS的高可用机制
3.4 HDFS的数据读写
3.5 HDFS联邦机制
3.6 本章小结
本章习题
本章主要参考文献
第4章 分布式调度系统YARN
4.1 YARN分布式资源管理
4.2 YARN体系结构
4.3 YARN作业调度
4.4 YARN高级特性
4.5 YARN的应用实践
4.6 本章小结
本章习题
本章主要参考文献
第5章 MapReduce分布式计算框架
5.1 MapReduce概述
5.2 MapReduce工作原理
5.3 Shuffle过程
5.4 MapReduce设计模式
5.5 MapReduce的应用实践
5.6 MapReduce优化
5.7 本章小结
本章习题
本章主要参考文献
第6章 分布式大数据分析项目案例
6.1 项目背景
6.2 功能需求
6.3 系统设计
6.4 项目实施
6.5 本章小结
本章习题