数据运营是指通过数据来分析和解决问题,利用各种数据科学技术挖掘数据价值,帮助企业优化业务管理和提升决策效率。随着我国数字化转型的深入,传统基于项目、人工处理的各类数据运营活动已经无法满足业务发展要求。集合了敏捷开发、精益制造以及DevOps理念的DataOps因此顺势而生,并且受到了业界的广泛关注。
《DataOps实践手册:敏捷精益的数据运营》总结了作者25年的行业经验和对DataOps的认知,从当前数据科学交付面临哪些挑战、什么是DataOps、通过哪些手段可以建立对数据的信任,以及如何实现DataOps目标和成功实施DataOps几个方面进行了系统的阐述。
《DataOps实践手册:敏捷精益的数据运营》适合参与数字化转型的各类角色人员学习,尤其有助于数据科学高级管理岗位的专业人士开拓视野、提升领导力。
译者序
前言
第1部分 入门
第1章 数据科学中的问题
有问题吗?
现实
数据价值
技术、软件和算法
数据科学家
数据科学过程
组织文化
知识鸿沟
数据科学家的知识鸿沟
IT知识鸿沟
技术知识鸿沟
领导力知识鸿沟
数据素养鸿沟
缺乏支持
教育和文化
不明确的目标
留给数据科学家来弄清楚
总结
尾注
第2章 数据战略
我们为什么需要新的数据战略
数据已不再属于IT
数据战略的范围
战略时间跨度
战略发起人
从识别现状开始
组织方面
人员方面
技术方面
流程方面
数据资产方面
识别分析用例
使命、愿景和KPI
构思——我们能做些什么?
数据生命周期的基准能力
差距分析——需要改变什么?
定义数据战略目标——我们需要
从哪里开始?
交付数据战略
定义数据战略举措——我们如何
实现目标?
制定执行和度量计划——如何
知道进度?
总结
尾注
第2部分 迈向数据运营
第3章 精益思维
精益思维简介
丰田的起源
精益软件开发
精益产品开发
精益思维和数据分析
识别浪费
价值流图
快速交付
拉动式系统
看到整体
根因分析
总结
尾注
第4章 敏捷协作
为什么选择敏捷?
瀑布式项目管理
敏捷价值观
敏捷框架
Scrum
XP及 Scrum/XP 混合
看板方法
Scrumban
大规模敏捷
SoS
规范敏捷交付
规模化敏捷框架
DataOps的敏捷
DataOps宣言
DataOps原则
数据科学生命周期
敏捷DataOps 实践
构思
准备
研发
过渡/生产
总结
尾注
第5章 构建反馈和度量
系统思维
持续改进
反馈循环
团队健康
回顾
健康检查
海星回顾
帆船回顾
事前检验
服务交付
服务交付审查会议
改进服务交付
产品健康
数据产品监控的KPI
监控
概念漂移
产品效益
效益度量
效益度量的挑战
A/B测试和度量的替代方案
指标的挑战
总结
尾注
第3部分 进一步措施
第6章 建立信任
信任拥有数据和系统的人
访问和供应数据
数据安全和隐私
资源利用率监控
人们可以信任数据
元数据
加标签
采集过程中的信任
数据质量评估
数据清理
数据血缘
数据发现
数据治理
总结
尾注
第7章 面向 DataOps 的 DevOps
开发和运营
冲突
打破螺旋
持续交付的快速流程
可重现的环境
部署管道
持续集成
自动化测试
部署和发布流程
自动部署
发布流程
DevOps 度量
审核流程
数据分析的DevOps
数据冲突
数据管道环境
数据管道编排
数据管道持续集成
简化和重用
MLOps 和 AIOps
机器学习模型开发
机器学习模型投产
总结
尾注
第8章 DataOps 组织
团队结构
面向职能的团队
面向领域的团队
新技能矩阵
核心角色
支持角色
团队不需要“I型人”
优化团队
沟通渠道和团队规模
产品型而非项目型
办公位置
汇报关系
数据平台管理
跨职能角色
总结
尾注
第4部分 自服务组织
第9章 DataOps 技术
基于DataOps的价值和原则选择
工具
调整脊椎模型
对实践和工具的影响
DataOps技术生态系统
流水线
数据集成
数据准备
流处理
数据管理
可重复性、部署、编排和监控
计算基础设施和查询执行引擎
数据存储
DataOps平台
数据分析工具
挑战
建造vs购买
扩展
内部构建
购买或租赁现成产品
借用开源软件
扩建、构建、购买、出租或借用
云原生架构
不断发展的技术栈
Wardley地图
使用Wardley地图
技术雷达
总结
尾注
第10章 DataOps工厂
第一步
从数据战略开始
领导力
小可行的DataOps
第一个方案
度量
第一个DataOps团队
跨团队扩展
达到临界点
团队协调
文化
数据治理
扩展
成功的组织
集中化平台
全局自动化
提供自助服务
总结
尾注