7大数据陷阱的干货总结与避坑锦囊,教会数据工作者如何在数据陷阱中迅速恢复,避免踩雷
数据陷阱无处不在,任何处理过数据的人都会在不知不觉中多次陷入其中。我们大多数人都还没有学会如何使用现代工具和所掌握的数据类型,从而导致了一些本可以轻易避免的常见的错误。
在本书中,作者为我们展示了以下七种在数据处理过程中常见的数据陷阱:
陷阱 1:认知误差——我们如何看待数据;
陷阱 2:技术陷阱——我们如何对数据进行处理;
陷阱 3:数学失误——我们如何对数据进行计算;
陷阱 4:统计疏忽——我们如何对数据进行比较;
陷阱 5:分析偏差——我们如何对数据进行分析;
陷阱 6:绘图乌龙——我们如何对数据进行可视化;
陷阱 7:设计风险——我们如何对数据进行修饰。
同时也向我们展示了这些数据陷阱是如何产生、如何变得如此常见的,指导我们如何从一开始就避免它们,并针对上述数据陷阱,提供了与之相对应的真实示例,以及数据可视化的实用指导。阅读本书,你将:
·深入了解随着我们对数据的依赖而增长的“数据与现实的差距”;
·了解如何使用正确的工具简化可视化过程;
·避免数据分析、可视化和演示中的常见错误;
·创建并呈现清晰、准确、有效的数据可视化。
◆ 作者简介
本·琼斯
Data Literacy公司创始人兼首席执行官,在华盛顿大学连续学院教授数据可视化。著有《用Tableau交流数据》(Communicating Data with Tableau)和《数据素养的17个关键特征》(17 Key Traits of Data Literacy)。凭借20多年的机械工程师、持续改进项目负责人和导师以及商业智能营销人员的工作经验,他学到很多关于处理数据时应该做什么和不应该做什么的知识。
◆ 译者简介
陈天皓
工商管理和信息技术双硕士,项目管理专业人士。曾译有《商业仪表盘可视化解决方案》《人类未来进化史》等书,长期关注科技发展趋势与数据应用领域。
段力鲡
香港城市大学统计学硕士,深耕大数据挖掘与分析领域,曾分别于英国保诚(亚洲总部)、平安寿险总部担任数据科学家。现就职于沃尔玛中国,担任商业分析经理。
步凡
北京大学数学科学学院本科,美国杜克大学统计学博士。现任美国加州大学洛杉矶分校(UCLA)博士后研究员。主要研究方向为贝叶斯统计、随机过程模型、传染病动力模型等。
第1章 七类数据陷阱 / 1
七种特定类型的数据陷阱 / 5
避免七种数据陷阱 / 9
“我掉进陷阱里,爬不出来了” / 10
第2章 陷阱 1: 认知误差 / 13
我们如何看待数据 / 15
陷阱 1A:数据与现实的差距 / 16
陷阱 1B:过度依赖手工的数据 / 26
陷阱 1C:前后矛盾的评分 / 34
陷阱 1D:黑天鹅陷阱 / 42
陷阱 1E:可证伪性与上帝陷阱 / 45
避免天鹅陷阱和上帝陷阱 / 47
第3章 陷阱 2:技术陷阱 / 51
我们如何对数据进行处理 / 53
陷阱 2A:脏数据 / 54
陷阱 2B:糟糕的混合和连接 / 73
第4章 陷阱 3:数学失误 / 77
我们如何对数据进行计算 / 79
陷阱 3A:多重汇总 / 80
陷阱 3B:缺失值 / 86
陷阱 3C:汇总数 / 91
陷阱 3D:荒谬的百分比 / 96
陷阱 3E:不匹配的单位 / 102
第5章 陷阱 4:统计疏忽 / 107
我们如何对数据进行比较 / 109
陷阱 4A:描述性错误 / 111
陷阱 4B:推断陷阱 / 131
陷阱 4C:狡猾的抽样 / 135
陷阱 4D:对样本量不敏感 / 142
第6章 陷阱 5:分析偏差 / 147
我们如何对数据进行分析 / 149
陷阱 5A:错误地认为直觉和分析相互对立 / 150
陷阱 5B:浮夸的外推 / 158
陷阱 5C:欠考虑的插值 / 163
陷阱 5D:不靠谱的预测 / 166
陷阱 5E:不过脑子的衡量指标 / 168
第7章 陷阱 6:绘图乌龙 / 175
我们如何对数据进行可视化 / 177
陷阱 6A:棘手的图表 / 179
陷阱 6B:数据教条主义 / 204
陷阱 6C:错误地认为“最优”和“满意”相互对立 / 209
第8章 陷阱 7:设计风险 / 215
我们如何对数据进行修饰 / 217
陷阱 7A:令人困惑的颜色 / 219
陷阱 7B:遗漏的机会 / 224
陷阱 7C:可用性 / 230
第9章 结语 / 239
避免陷入数据陷阱的检查单 / 245
“未被听见的声音”陷阱 / 247
译者后记 / 251