项目1
初识电商产品数据的处理与
分析 1
项目导言 1
项目导图 1
知识目标 1
技能目标 2
素养目标 2
任务1-1 电商产品数据背景及数据
分析概述 2
任务描述 2
素质拓展 2
任务技能 2
技能点1 电商产品数据背景 2
技能点2 大数据分析概念 4
技能点3 大数据分析应用场景 5
技能点4 大数据分析指标 9
任务1-2 电商产品数据处理与分析
项目准备 12
任务描述 12
素质拓展 12
任务技能 12
技能点1 大数据分析工具简介 12
技能点2 大数据分析组件 15
技能点3 大数据分析流程 19
技能点4 大数据分析企业级应用 20
任务实施 22
项目小结 26
课后习题 26
自我评价 27
项目2
电商产品数据分布式存储 28
项目导言 28
项目导图 28
知识目标 28
技能目标 29
素养目标 29
任务2-1 使用HDFS Shell管理
电商产品数据 29
任务描述 29
素质拓展 29
任务技能 29
技能点1 什么是HDFS 29
技能点2 HDFS存储架构 30
技能点3 HDFS文件存取机制 32
技能点4 HDFS Shell基础命令 36
技能点5 HDFS Shell管理命令 38
任务实施 40
任务2-2 使用HDFS库管理电商
产品数据 44
任务描述 44
素质拓展 44
任务技能 44
技能点1 HDFS库简介 44
技能点2 HDFS库方法 44
任务实施 48
项目小结 51
课后习题 51
自我评价 52
项目3
电商产品数据分布式处理 53
项目导言 53
项目导图 53
知识目标 53
技能目标 53
素养目标 54
任务3-1 使用正则表达式匹配电商
产品数据 54
任务描述 54
素质拓展 54
任务技能 54
技能点1 MapReduce简介 54
技能点2 YARN简介 56
技能点3 正则表达式 59
任务实施 61
任务3-2 使用Hadoop Streaming
处理电商产品数据 64
任务描述 64
素质拓展 64
任务技能 64
技能点1 Hadoop Streaming简介 64
技能点2 Hadoop Streaming的使用
方法 64
任务实施 65
项目小结 71
课后习题 71
自我评价 72
项目4
电商产品数据离线分析 73
项目导言 73
项目导图 73
知识目标 73
技能目标 74
素养目标 74
任务4-1 使用Hive创建电商产品
数据库 74
任务描述 74
素质拓展 74
任务技能 74
技能点1 Hive数据库操作 74
技能点2 Hive表操作 76
技能点3 Hive数据操作 78
任务实施 80
任务4-2 使用Hive对电商产品数据
进行统计 84
任务描述 84
素质拓展 84
任务技能 84
技能点1 算术运算 84
技能点2 数据查询 85
任务实施 88
任务4-3 使用Spark创建基于电商
产品数据的分布式数据
容器 95
任务描述 95
素质拓展 95
任务技能 95
技能点1 Spark SQL简介 95
技能点2 DataFrame简介 97
技能点3 DataFrame创建 98
任务实施 102
任务4-4 使用Spark SQL完成电商
产品数据分析 103
任务描述 103
素质拓展 103
任务技能 104
技能点1 数据查看 104
技能点2 数据过滤 105
技能点3 数据处理 105
技能点4 数据存储 107
任务实施 108
项目小结 111
课后习题 111
自我评价 112
项目5
电商产品数据实时分析 113
项目导言 113
项目导图 113
知识目标 113
技能目标 113
素养目标 114
任务5-1 创建数据流 114
任务描述 114
素质拓展 114
任务技能 114
技能点1 流式计算简介 114
技能点2 Spark Streaming简介 116
技能点3 DStream简介 117
技能点4 DStream的创建 118
任务实施 120
任务5-2 使用Spark Streaming
对电商产品数据进行实时
数据分析 122
任务描述 122
素质拓展 122
任务技能 122
技能点1 DStream转换操作 122
技能点2 DStream窗口操作 124
技能点3 DStream输出操作 125
技能点4 Spark Streaming启动与
停止 126
任务实施 127
项目小结 134
课后习题 134
自我评价 135
项目6
电商产品数据挖掘 136
项目导言 136
项目导图 136
知识目标 136
技能目标 137
素养目标 137
任务6-1 处理电商产品数据 137
任务描述 137
素质拓展 137
任务技能 137
技能点1 Spark MLlib概述 137
技能点2 Spark MLlib数据类型 138
技能点3 特征提取与数据处理 140
任务实施 144
任务6-2 使用Spark MLlib对电商
产品定价 151
任务描述 151
素质拓展 152
任务技能 152
技能点1 分类算法 152
技能点2 回归算法 154
技能点3 推荐算法 156
技能点4 算法评估 157
任务实施 159
项目小结 162
课后习题 162
自我评价 163
项目7
电商产品数据迁移 164
项目导言 164
项目导图 164
知识目标 164
技能目标 164
素养目标 165
任务7-1 根据电商产品数据统计结果
创建数据表并查看 165
任务描述 165
素质拓展 165
任务技能 165
技能点1 Sqoop架构 165
技能点2 Sqoop连接器 167
技能点3 Sqoop配置数据库密码
方式 167
技能点4 列出所有数据库 168
技能点5 列出数据库中的所有表 169
任务实施 169
任务7-2 使用Sqoop将Hive中
电商产品数据统计结果
导出 172
任务描述 172
素质拓展 172
任务技能 173
技能点1 Sqoop数据导入与
导出 173
技能点2 其他常用命令 176
任务实施 178
项目小结 183
课后习题 183
自我评价 184