本书作为CDA三级认证教材,打破了传统的学院派知识整合模式,从业务应用场景出发来组织内容,旨在更加贴近业务需求,而非单纯罗列算法。经过多年的打磨,本书精选了在行业应用中价值最大的九类场景,并提供不同场景下构建数据应用的最佳实践。本书涉及的算法不仅涵盖传统的统计学习,还结合企业实际需求,解构了机器学习、深度学习的前沿方法
Spark是业界主流的大数据计算框架,拥有强大的分布式计算能力,能够充分利用大量的廉价机器进行大数据的处理工作,同时又具备较高的性能,这使得它在各大互联网企业中有着广泛的应用。本书通过一系列通俗易懂的数据处理实例展开,详细阐述Spark大数据平台与环境搭建、SparkRDD离线数据计算、SparkSQL离线数据处理、S
本书为了符合学生学习知识的一般规律,以一张控制流程图为切入点,首先介绍了识图方法,之后阐述了自动检测、自动控制、自动联锁报警等过程控制系统,然后分三章介绍了变量检测及仪表、过程控制仪表及计算机控制系统等过程控制工具,最后是控制系统的应用——典型过程单元的控制方案及控制系统的操作。将实验与实践内容单独列为一章,在这一章不
本书按照工学结合、理实一体化要求编写,从基础知识着手,根据中职学校的教学内容,以电气类专业为主,结合机电、自动化、计算机等多个专业的教学内容设计了汽车衡无人值守称重实训装置、配料称重控制实训装置和定量装车控制实训装置等三个实训子系统,力图解决课堂教学中理论与实际脱节、学生普遍缺乏实际应用能力的问题。本书根据中职学生的学
大数据应用蓝皮书由中国管理科学学会大数据管理专委会组织编撰,始自2017年,是国内首本研究大数据应用的蓝皮书。蓝皮书旨在描述在当前新技术及政策背景下,大数据在相关行业、领域及典型场景的应用状况,分析当前大数据应用中存在的问题和制约其发展的因素,并根据当前大数据应用的实际情况,对其发展趋势做出研判。2025年度报告建议:
本书内容包括数据预处理、数据的邻近度、可视化、线性回归及其它回归方法、k近邻、朴素贝叶斯、决策树、支持向量机、装袋方法、提升方法、常见的原型聚类、密度聚类、层次聚类算法以及模型预测能力和模型复杂度的指标。书中每个章节配有习题,电子资源提供习题答案和模型训练的代码。本书对概念、模型的描述力求循序渐进、简明易懂,精选的例题
本书立足“共生理论”,围绕“公共数据开放”这一研究对象,从共生状态演进视角界定并量化各利益主体在不同共生阶段的共生关系概念和竞合程度评判依据,进而识别出共生主体在不同阶段行为变化的共生关键因素。面向公共数据开放各方阶段性需求变化,对其行为、利益进行再配置,从时序上建立起公共数据开放运行初期、中期和后期不同共生模式对应的
大数据开启了一次重大的时代转型,云计算为大数据提供了技术支撑。本书是大数据与云计算领域的入门教材,内容上尽量做到系统而完整地涵盖大数据及云计算的多个方面,理论与实际相结合。在基础理论方面介绍大数据计算范式、云计算、虚拟化技术与分布式一致性算法;并基于此,围绕大数据的存储、管理、处理和分析需求,讲述大数据处理的开源平台H
本书系统介绍数据科学核心理论与技术,融合了数学、统计学和计算机科学等多学科知识,旨在构建完整的数据科学知识体系。全书共15章,主要内容包括数据预处理、经典机器学习模型(回归、分类、聚类、集成)、关联规则挖掘、特征工程(降维与特征选择)、最大期望算法、概率图模型、深度学习、文本分析、图与网络分析以及分布式计算等核心模块。
本书深入探讨了数据流通如何释放价值,包括企业数据的价值实现、企业数据定位的变化以及企业数据流通方式的演进,为读者奠定了坚实的价值认知基础。接着,详细分析了数据流通面临的世界级难题,如数据要素的独特性、数据主体的利益保障和风险控制,以及世界主要经济体的应对战略及举措,使读者对数据流通的挑战有清晰的认识。随后,重点介绍了数