Python+Superset:商业智能数据分析与实战
定 价:79 元
- 作者:王国平
- 出版时间:2022/2/1
- ISBN:9787121428654
- 出 版 社:电子工业出版社
- 中图法分类:TP311.561
- 页码:248
- 纸张:
- 版次:01
- 开本:16开
本书通过实际案例深入介绍了基于Python的开源商业智能工具Apache Superset。本书立足于为企业建立一套开源免费的BI(商业智能)数据分析平台,实现自助数据处理、数据分析、数据可视化,概述了该系统的基本情况、总体需求、解决方案和业务理解等。本书从企业BI系统建设的实际需求出发,详细阐述了商业智能系统开发的概念、流程及相关技术,同时结合实际案例介绍了基于Apache Superset的最新且常用的商业智能技术,包括Redis、Hive、Presto、Vertica、ClickHouse、TiDB、Dremio等。
王国平:具有十余年金融、电力、互联网等行业从业经历,现已出版十余部专著。擅长数据分析、数据可视化、机器学习等,精通Python、SPSS、Tableau、Power BI等数据分析工具,熟悉MySQL、SQL Server等数据库,以及Hadoop、Hive、Zeppelin、Spark等大数据分析及可视化工具。
第1章 商业智能概述 1
1.1 商业智能简介 1
1.1.1 商业智能的发展 1
1.1.2 商业智能的价值 3
1.1.3 商业智能的流程 4
1.2 商业智能技术 4
1.2.1 数据仓库技术 4
1.2.2 ETL技术 6
1.2.3 数据可视化技术 6
1.3 几个概念的比较 10
1.3.1 商业智能与报表工具 10
1.3.2 商业智能与数据分析 11
1.3.3 商业智能与数据可视化 11
第2章 系统开发需求分析 12
2.1 项目背景概述 12
2.1.1 项目意义与需求 12
2.1.2 项目目标、系统设计与阶段划分 16
2.2 平台总体需求 18
2.2.1 平台总体规划 19
2.2.2 平台用户角色 20
2.3 解决方案概述 21
2.3.1 BI平台功能简介 21
2.3.2 BI平台总体架构 22
2.4 业务数据理解 23
2.4.1 表及其字段含义 24
2.4.2 重要需求点阐述 28
第3章 系统开发相关技术 31
3.1 系统主要软件 31
3.1.1 Hadoop 31
3.1.2 Python 34
3.1.3 Apache Superset 35
3.2 数据仓库技术 37
3.2.1 数据仓库构建过程 37
3.2.2 数据仓库拉链算法 38
3.3 Apache Superset的安装 39
3.3.1 在Docker中部署Apache Superset 39
3.3.2 在Windows下安装Apache Superset 44
第4章 Apache Superset连接数据源 47
4.1 读取本地数据 47
4.1.1 读取CSV文件 47
4.1.2 读取TXT文件 51
4.2 连接关系型数据库 51
4.2.1 安装驱动程序 52
4.2.2 配置连接参数 53
4.2.3 添加数据库表 58
第5章 Apache Superset基础操作 61
5.1 Apache Superset可视化分析 61
5.1.1 SQL Lab提取数据 61
5.1.2 制作报表与看板 64
5.2 Apache Superset用户管理 68
5.2.1 创建新的系统用户 68
5.2.2 删除已有系统用户 70
5.2.3 查看用户日志记录 71
5.3 Apache Superset角色管理 72
5.3.1 设置用户角色类型 73
5.3.2 创建新的用户角色 73
5.3.3 修改用户角色类型 75
5.4 Apache Superset看板设置与编辑 77
5.4.1 Apache Superset看板设置 77
5.4.2 Apache Superset看板编辑 81
第6章 Apache Superset前端集成开发 84
6.1 前端开发概述 84
6.1.1 HTML及其应用案例 84
6.1.2 JavaScript及其特点 88
6.2 系统参数设置 89
6.3 Apache Superset前端集成实战 90
6.3.1 报表嵌入Web页面 90
6.3.2 看板嵌入Web页面 97
第7章 Apache Superset系统性能优化 100
7.1 系统性能优化 100
7.2 搭建开发环境 102
7.2.1 Redis缓存概述 102
7.2.2 配置Redis环境 104
7.3 集成开发实战 106
7.3.1 测试集成前看板 106
7.3.2 刷新集成后看板 108
第8章 Apache Superset与数据仓库 109
8.1 数据仓库概述 109
8.1.1 传统数据仓库 109
8.1.2 大数据数据仓库 111
8.2 Apache Superset集成Hive 113
8.2.1 Hive数据仓库概述 113
8.2.2 搭建Hive开发环境 115
8.3 物流配送影响因素分析 117
第9章 Apache Superset与实时计算引擎 121
9.1 实时计算引擎概述 121
9.1.1 实时计算应用场景 121
9.1.2 实时计算重要架构 123
9.2 Apache Superset集成Presto 126
9.2.1 Presto计算引擎概述 126
9.2.2 搭建Presto开发环境 128
9.3 网购退货原因分析 132
9.3.1 网购退货主要原因 132
9.3.2 个人原因退货分析 134
第10章 Apache Superset与列式存储引擎 136
10.1 列式存储引擎 136
10.2 Apache Superset集成Vertica 138
10.2.1 Vertica存储引擎概述 138
10.2.2 搭建Vertica开发环境 140
10.3 客户流失原因分析 144
10.3.1 客户流失主要原因 144
10.3.2 客户流失服务因素分析 145
第11章 Apache Superset与联机分析处理 147
11.1 联机分析处理概述 147
11.1.1 联机分析处理特性 147
11.1.2 联机分析处理操作 149
11.2 Apache Superset集成ClickHouse 150
11.2.1 ClickHouse存储引擎概述 151
11.2.2 搭建ClickHouse开发环境 152
13.3 商家物流运营分析 155
11.3.1 物流运营主要模式 156
11.3.2 商家交货周期分析 157
第12章 Apache Superset与混合事务分析处理 159
12.1 混合事务分析处理 159
12.1.1 混合事务分析处理概述 159
12.1.2 混合事务分析处理操作 161
12.2 Apache Superset集成TiDB 163
12.2.1 TiDB存储引擎概述 163
12.2.2 搭建TiDB开发环境 166
12.3 物流配送沟通性 168
12.3.1 物流配送沟通性概述 169
12.3.2 物流配送沟通性分析 169
第13章 Apache Superset与数据湖引擎 172
13.1 数据湖引擎 172
13.1.1 数据湖引擎概述 172
13.1.2 数据湖与数据仓库 173
13.2 Apache Superset集成Dremio 174
13.2.1 Dremio引擎概述 175
13.2.2 搭建Dremio开发环境 176
13.3 客户流失价格因素 182
13.3.1 客户流失价格因素概述 182
13.3.2 客户流失价格因素分析 182
第14章 客户细分主题分析 184
14.1 客户细分的价值及其方法 184
14.1.1 客户细分的概念 184
14.1.2 客户细分的目的 185
14.1.3 客户细分的方法 185
14.2 基于客户属性的客户细分 187
14.2.1 提取SQL数据库数据 187
14.2.2 制作可视化分析报表 188
14.2.3 基于属性的细分看板 192
14.3 基于客户价值的客户细分 193
14.3.1 提取SQL数据库数据 193
14.3.2 制作可视化分析报表 194
14.3.3 基于价值的细分看板 198
14.4 基于消费行为的客户细分 199
14.4.1 RFM模型及客户价值类型 199
14.4.2 提取与清洗SQL数据 200
14.4.3 制作可视化分析报表 204
14.4.4 基于行为的细分看板 208
14.5 对细分客户进行营销 208
第15章 客户满意度主题分析 211
15.1 客户满意度概述 211
15.2 客户满意信赖度分析 214
15.3 客户满意专业度分析 215
15.4 客户满意有形度分析 217
15.5 客户满意同理度分析 218
15.6 客户满意反应度分析 220
15.7 提升客户满意度 221
附录A 安装Python 3.10.0 224
附录B 集群各节点的参数配置 228
B.1 Hadoop的参数配置 228
B.2 Hive的参数配置 231
B.3 集群的启动与关闭 233
附录C 数据源及其连接方式 234