大数据系列丛书大数据导论周苏王文编著清华大学出版社北京内容简介这是一个大数据爆发的时代。面对信息的激流、多元化数据的涌现,大数据已经为个人生活、企业经营,甚至国家与社会的发展都带来了机遇和挑战,大数据已经成为IT信息产业中*具潜力的蓝海。
“大数据导论”是一门理论性和实践性都很强的课程。本教材针对信息管理、经济管理和其他相关专业学生的发展需求,系统、全面地介绍了关于大数据技术与应用的基本知识和技能,详细介绍了大数据与大数据时代、大数据的可视化、大数据的商业规则、大数据时代的思维变革、大数据促进医疗与健康、大数据激发创造力、大数据预测分析、大数据促进学习、大数据在云端、支撑大数据的技术、数据科学与数据科学家和大数据的未来等内容,具有较强的系统性、可读性和实用性。
本书是为高等院校相关专业“大数据基础”“大数据导论”等课程全新设计编写,具有丰富实践特色的主教材,也可供有一定实践经验的软件开发人员、管理人员参考和作为继续教育的教材。
“大数据系列丛书”由多本既独立又有丰富内在联系的大数据时代思维、技术与应用的教材组成。《大数据导论》是其中的一本,也是入门篇。
2012年以来,由于互联网和信息行业的快速发展,大数据越来越引起人们的关注,已经引发自云计算、互联网之后IT行业的又一大颠覆性技术革命。人们用大数据来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。企业内部的经营信息、互联网世界中的商品物流信息,互联网世界中人与人的交互信息、位置信息等,数据量将远远*越现有企业的IT架构和基础设施的承载能力,实时性要求也将大大*越现有的计算能力。盘活这些数据资产,使其为国家治理、企业决策乃至个人生活服务,是大数据的核心议题,也是云计算内在的灵魂和必然的升级方向。
本书系统、全面地介绍大数据的基本知识,包括大数据与大数据时代、大数据的可视化、大数据的商业规则、大数据时代的思维变革、大数据促进医疗与健康、大数据激发创造力、大数据预测分析、大数据促进学习、大数据在云端、支撑大数据的技术、数据科学与数据科学家以及大数据的未来等内容,具有较强的系统性、可读性和实用性。
人类正在迅速进入大数据时代,大数据的理念、技术与应用是理论性和实践性都很强的“必修”课程。本书为高等院校相关专业,尤其是信息管理、经济管理类专业开设“大数据”相关课程全新设计编写,是具有丰富实践特色的主教材。全书理论联系实际,结合一系列了解和熟悉大数据理念、技术与应用的学习和实践活动,把大数据的相关概念、基础知识和技术技巧融入实践中,使学生保持浓厚的学习热情,提高学习兴趣,加深对大数据技术的认识、理解和掌握。
大数据导论
数据与大数据时代1
1.1什么是大数据2
1.1.1天文学——信息爆炸的起源3
1.1.2大数据的定义6
1.1.3用3V描述大数据特征7
1.1.4广义的大数据9
1.2大数据变革思维9
1.3大数据的结构类型10
1.4大数据的发展11
1.4.1硬件性价比提高与软件技术进步11
1.4.2云计算的普及12
1.4.3大数据作为BI的进化形式12
1.4.4从交易数据分析到交互数据分析13第2章大数据的可视化19
2.1数据与可视化21
2.1.1数据的可变性22
2.1.2数据的不确定性23
2.1.3数据所依存的背景信息24
2.1.4打造最好的可视化效果25
2.2数据与图形25
2.2.1数据与走势26
2.2.2视觉信息的科学解释28
2.2.3图片和分享的力量29
2.3公共数据集30
2.4实时可视化31
2.5挑战图像的多变性32
2.6数据可视化的运用332.6.1可视化对认知的帮助34
2.6.27个数据类型35
2.6.37个基本任务36
2.6.4数据可视化的挑战38第3章大数据的商业规则45
3.1大数据的跨界年度46
3.2谷歌的大数据行动47
3.3亚马逊的大数据行动49
3.4将信息变成一种竞争优势50
3.4.1数据价格下降,数据需求上升51
3.4.2大数据应用程序的兴起52
3.4.3实时响应,大数据用户的新要求53
3.4.4企业构建大数据战略53
3.5大数据营销54
3.5.1像媒体公司一样思考54
3.5.2营销面对新的机遇与挑战55
3.5.3自动化营销56
3.5.4为营销创建高容量和高价值的内容57
3.5.5内容营销57
3.5.6内容创作与众包58
3.5.7用投资回报率评价营销效果59第4章大数据时代的思维变革65
4.1大数据时代的大挑战67
4.2转变之一: 样本=总体68
4.2.1小数据时代的随机采样68
4.2.2大数据与乔布斯的癌症治疗71
4.2.3全数据模式: 样本=总体72
4.3转变之二: 接受数据的混杂性74
4.3.1允许不精确74
4.3.2大数据的简单算法与小数据的复杂算法76
4.3.3纷繁的数据越多越好77
4.3.4混杂性是标准途径78
4.3.5新的数据库设计79
4.3.65%的数字数据与95%的非结构化数据81
4.4转变之三: 数据的相关关系81
4.4.1关联物,预测的关键81
4.4.2“是什么”,而不是“为什么”84
4.4.3通过因果关系了解世界84
4.4.4通过相关关系了解世界86第5章大数据促进医疗与健康93
5.1大数据与循证医学95
5.2大数据带来的医疗新突破96
5.2.1量化自我,关注个人健康97
5.2.2可穿戴的个人健康设备98
5.2.3大数据时代的医疗信息99
5.2.4CellMiner——对抗癌症的新工具100
5.3医疗信息数字化102
5.4搜索: 超级大数据的最佳伙伴104
5.5数据决策的成功崛起105
5.5.1数据辅助诊断106
5.5.2你考虑过……了吗106
5.5.3大数据分析使数据决策崛起107第6章大数据激发创造力112
6.1大数据帮助改善设计114
6.1.1少而精是设计的核心115
6.1.2与玩家共同设计游戏116
6.1.3以人为本的汽车设计理念116
6.1.4寻找最佳音响效果118
6.1.5建筑,数据取代直觉119
6.2大数据操作回路119
6.2.1信号与噪声120
6.2.2大数据反馈回路120
6.2.3最小数据规模121
6.2.4大数据应用程序的优势与作用121
6.3大数据资产的崛起122
6.3.1大数据催生崭新的应用程序122
6.3.2寻找大数据“空白”,提取最大价值122第7章大数据预测分析126
7.1什么是预测分析130
7.1.1预测分析的作用130
7.1.2行业应用举例131
7.2数据情感和情感数据132
7.2.1从博客观察集体情感132
7.2.2预测分析博客中的情绪133
7.2.3影响情绪的重要因素——金钱135
7.3数据具有内在预测性136
7.4情感的因果关系137
7.4.1焦虑指数与标普500指数137
7.4.2验证情感和被验证的情感138
7.4.3情绪指标影响金融市场139第8章大数据促进学习149
8.1打造网络教育体系152
8.1.1典型的网络教育形式152
8.1.2未来的教育: 线上线下结合153
8.1.3跟踪教学效果154
8.1.4形成学习能力155
8.2机器学习及其研究155
8.2.1什么是人工智能156
8.2.2什么是机器学习157
8.2.3基本结构159
8.2.4研究领域160
8.3机器学习的分类160
8.3.1基于学习策略的分类160
8.3.2基于所获取知识的表示形式分类161
8.3.3按应用领域分类162
8.3.4按学习形式分类162第9章大数据在云端171
9.1云端大数据173
9.1.1什么是云计算173
9.1.2云计算的服务形式174
9.1.3云计算与大数据175
9.1.4云基础设施176
9.2计算虚拟化176
9.3大数据存储177
9.3.1传统存储系统时代178
9.3.2大数据时代的新挑战178
9.3.3分布式存储180
9.3.4云存储180
9.3.5大数据存储的其他需求181
9.4网络虚拟化182
9.4.1网卡虚拟化182
9.4.2虚拟交换机183
9.4.3接入层的虚拟化184
9.4.4覆盖网络虚拟化184
9.4.5软件定义的网络184
9.4.6对大数据处理的意义185
9.5数据即服务185
9.5.1数据应用185
9.5.2数据清理185
9.5.3数据保密186
9.6云的挑战186第10章支撑大数据的技术193
10.1开源技术的商业支援195
10.2大数据的技术架构196
10.3什么是Hadoop197
10.3.1什么是分布式系统197
10.3.2Hadoop的由来199
10.3.3Hadoop的优势200
10.3.4Hadoop的发行版本200
10.4大数据的数据处理基础202
10.4.1Hadoop与NoSQL203
10.4.2NoSQL与RDBMS的主要区别204
10.4.3NewSQL206
10.5相关的大数据技术207
10.5.1神经网络207
10.5.2自然语言处理208
10.5.3语义检索209
10.5.4链接挖掘210
10.5.5A/B测试210第11章数据科学与数据科学家217
11.1什么是数据科学218
11.2数据分析生命周期模型219
11.3数据科学家221
11.3.1大数据生态系统中的关键角色222
11.3.2数据科学家所需的技能223
11.3.3数据科学家所需的素质226
11.3.4数据科学家的学习内容227
11.4数据科学的重要技能229
11.4.1数据科学技能和熟练程度230
11.4.2重要数据科学技能230
11.4.3因职业角色而异的十大技能231
11.4.4职业角色的重要技能233第12章大数据的未来240
12.1消费者的隐私权242
12.2连接开放数据244
12.2.1LOD运动244
12.2.2对政府公开的影响245
12.2.3利用开放数据的创业型公司247
12.3数据市场的兴起247
12.3.1Factual248
12.3.2Windows Azure Marketplace248
12.3.3Infochimps248
12.3.4Public Data Sets On AWS249
12.3.5不同的商业模式249
12.4将原创数据变为增值数据250
12.5大数据未来展望251
12.5.1大数据存储和管理252
12.5.2传统IT系统到大数据系统的过渡252
12.5.3大数据分析253
12.5.4大数据安全254
12.5.5数据科学254
参考文献266