本书从初学者易于理解的角度,以通俗易懂的语言、丰富的实例和简洁的图表,将大数据的基本概念、大数据的数据结构、大数据的特征、大数据的关键技术、大数据的计算模式、大数据的采集与存储、大数据的管理、大数据的分析与处理、大数据的可视化、大数据的应用、大数据的发展与展望等进行了系统化的讲解。从基础开始,通过逐步深入的方式,对大数据的核心技术和未来发展趋势进行了详细介绍。书中每章都设有练习题,以便于巩固所学内容。 本书注重实用性,围绕大数据这一主题,采用深入浅出、图文并茂的方式,简明扼要地阐述了大数据关键技术的基本理论及应用,尽可能希望通过理论与实际案例相结合,寻找合适的切入点,让读者对理论知识的掌握更直接、更快速。 本书适合作为本科和职业院校计算机类专业大数据导论课程的教材,也适合对大数据感兴趣的读者和有关技术人员参考使用。
本书系统地讲解了大数据基本概念,尽可能希望通过理论与实际案例相结合,寻找合适的切入点,让读者对理论知识的掌握更直接、更快速。可以作为培养应用型人才的课程教材,也适用于大数据初学者对大数据基础理论有需求的广大读者。
大数据概论是了解和学习大数据的基础。本书系统地讲解了大数据的基本概念、大数据的数据结构、大数据的特征、大数据的关键技术、大数据的计算模式、大数据的采集与存储、大数据的管理、大数据的分析与处理、大数据的可视化、大数据的应用、大数据的发展与展望。本书以易学、全面和实用为目的,从基础到应用,系统地介绍了大数据的关键技术和应用。本书共分为8章,主要内容如下。
第1章介绍大数据的基本知识,包括大数据的定义、大数据的结构类型、大数据的特征、大数据的关键技术、大数据的计算模式、大数据的应用、大数据的发展、大数据的意义。
第2章介绍Hadoop分布式架构,包括Hadoop的由来、Hadoop的优势、Hadoop的特性、Hadoop的应用现状、Hadoop的架构元素、Hadoop的集群系统、Hadoop的开源实现、Hadoop的信息安全、Hadoop的应用领域。
第3章介绍大数据采集与存储,包括大数据采集概述、大数据采集的数据来源、大数据的采集方法、分布式存储系统、分布式文件系统、HDFS概述、云存储、数据仓库。
第4章介绍大数据管理,包括数据管理概述、数据模型的管理、主数据的管理、元数据的管理、数据质量的管理、数据安全的管理。
第5章介绍大数据分析与处理,包括数据分析的概念、数据分析常用工具、数据分析的技术、数据分析的类型、数据分析的流程、数据分析的算法、大数据分析的数据类型、大数据分析的方法、大数据分析的总体框架、大数据分析的应用、大数据处理。
第6章介绍大数据可视化,包括数据可视化的概念、数据可视化的类型、数据可视化的目标与作用、数据可视化的主要技术、数据可视化的流程、大数据可视化的方法、大数据可视化的工具、大数据可视化的应用。
第7章介绍大数据应用,包括大数据在教育领域的应用、大数据在互联网领域的应用、大数据在金融领域的应用、大数据在通信领域的应用、大数据应用的未来发展趋势。第8章介绍大数据的发展与展望,包括大数据与云计算、大数据与人工智能、大数据与区块链、大数据安全与隐私保护技术发展前景、大数据未来展望。
为了便于教学,本书提供的PPT课件等教学资源可以从清华大学出版社网站(http://www.tup.com.cn)的下载区免费下载。
由于编者水平有限,书中难免存在疏漏,敬请读者批评、指正。
大数据概论
编者2021年2月
龙虎,河南信阳人,计算机科学与技术专业副教授,黔东南州大数据智库专家,主持大数据相关省部级项目1项,地厅级项目4项,校级项目6项,发表大数据相关论文13篇,2012年8月至今,凯里学院大数据工程学院教师。
第1章大数据概述1
1.1大数据的概念1
1.1.1数据与信息2
1.1.2大数据的定义3
1.2大数据的结构类型4
1.3大数据的特征5
1.4大数据的关键技术7
1.5大数据的计算模式16
1.5.1批处理计算17
1.5.2流式计算17
1.5.3迭代计算17
1.5.4交互式计算18
1.6大数据的应用18
1.7大数据的发展19
1.8大数据的意义21
练习题22
第2章Hadoop分布式架构23
2.1Hadoop概述23
2.1.1简介24
2.1.2Hadoop的由来25
2.1.3Hadoop的优势25
2.1.4Hadoop的特性26
2.1.5Hadoop的应用现状26
2.2Hadoop的架构元素27
2.3Hadoop的集群系统32
2.4Hadoop的开源实现36
2.5Hadoop的信息安全36
2.6Hadoop的应用领域36
练习题37第3章大数据采集与存储39
3.1大数据采集概述39
3.2大数据采集的数据来源40
3.3大数据的采集方法40
3.3.1系统日志采集方法41
3.3.2网络大数据采集方法42
3.3.3教育大数据采集方法43
3.4分布式存储系统44
3.5分布式文件系统45
3.5.1计算机集群结构45
3.5.2分布式文件系统的结构45
3.5.3分布式文件系统的设计需求46
3.6HDFS概述46
3.6.1HDFS相关概念46
3.6.2HDFS的特点48
3.6.3HDFS的体系结构49
3.6.4HDFS的工作原理50
3.6.5HDFS的相关技术50
3.6.6HDFS的源代码结构51
3.6.7HDFS的接口52
3.7云存储52
3.8数据仓库53
练习题61
第4章大数据管理62
4.1数据管理概述62
4.2数据模型的管理63
4.3主数据的管理65
4.4元数据的管理65
4.5数据质量的管理68
4.6数据安全的管理70
练习题73
第5章大数据分析与处理75
5.1数据分析概述75
5.1.1数据分析的概念76
5.1.2数据分析常用工具76
5.1.3数据分析的技术86
5.1.4数据分析的类型88
5.1.5数据分析的流程89
5.1.6数据分析的算法89
5.2大数据分析92
5.2.1大数据分析的数据类型92
5.2.2大数据分析的方法92
5.2.3大数据分析的总体框架94
5.2.4大数据分析的应用94
5.3大数据处理95
5.3.1大数据处理方法95
5.3.2大数据处理模式96
5.3.3大数据处理基本过程97
5.3.4大数据处理架构97
5.3.5大数据处理系统99
练习题99
第6章大数据可视化101
6.1数据可视化102
6.1.1数据可视化的概念102
6.1.2数据可视化的类型104
6.1.3数据可视化的目标与作用106
6.1.4数据可视化的主要技术106
6.1.5数据可视化的流程107
6.2大数据可视化的方法108
6.3大数据可视化的工具111
6.4大数据可视化的应用117
练习题119
第7章大数据应用121
7.1大数据在教育领域的应用122
7.1.1基于大数据的深度学习模型构建123
7.1.2基于大数据技术的混合教学模式构建125
7.1.3大数据技术下的数据驱动教学范式127
7.1.4基于大数据的智慧教育云平台128
7.2大数据在互联网领域的应用134
7.2.1智能推荐系统135
7.2.2协同过滤136
7.3大数据在金融领域的应用137
7.4大数据在通信领域的应用141
7.5大数据应用的未来发展趋势141
练习题142
第8章大数据的发展与展望143
8.1大数据与云计算143
8.1.1云计算的概念144
8.1.2云计算的特点145
8.1.3云计算的体系结构145
8.1.4云计算的关键技术146
8.1.5云计算的服务模式147
8.1.6云计算服务体系结构148
8.1.7云计算的部署模式149
8.1.8大数据与云计算的关系150
8.2大数据与人工智能150
8.2.1人工智能的概念150
8.2.2人工智能的关键技术151
8.2.3人工智能的应用154
8.2.4大数据与人工智能的关系156
8.3大数据与区块链157
8.4大数据安全与隐私保护技术发展前景158
8.5大数据未来展望163
练习题164
参考文献166