Flink 原理、实战与性能优化_张利兵_9787111623533

这是一部以实战为导向，能指导读者零基础掌握Flink并快速完成进阶的著作，从功能、原理、实战和调优等4个维度循序渐进地讲解了如何利用Flink进行分布式流式应用开发。作者是该领域的资深专家，现就职于第四范式，曾就职于明略数据。

全书一共10章，逻辑上可以分为三个部分：

*部分（第1~2章）

主要介绍了Flink的核心概念、特性、应用场景、基本架构，开发环境的搭建和配置，以及源代码的编译。

第二部分（第3~9章）

详细讲解了Flink的编程范式，各种编程接口的功能、应用场景和使用方法，以及核心模块和组件的原理和使用。

第三部分（第10章）

重点讲解了Flink的监控和优化，参数调优，以及对反压、Checkpoint和内存的优化。

为什么要写这本书

记得在几年前刚开始做流式计算相关的项目时，发觉项目对实时性和数据量的要求很高，无奈求助于Flink开源社区（后文简称社区），在社区中发现可以使用的流式框架有很多，例如比较主流的框架Apache Storm、Spark Streaming等，Apache Flink（简称Flink）也在其中。于是笔者开始对各种流式框架进行详细研究，最后发现能同时支持低延迟、高吞吐、Excactly-once的框架只有Apache Flink，从那时起笔者就对Flink这套框架充满兴趣，不管是其架构还是接口，都可以发现其中包含了非常优秀的设计思想。虽然当时Flink在社区的成熟度并不是很高，但笔者还是决定将Flink应用在自己的项目中，自此开启了Flink分布式计算技术应用之旅。

刚开始学习Flink，对于没有分布式处理技术和流式计算经验的人来说会相对比较困难，因为其很难理解有状态计算、数据一致性保障等概念。尤其在相关中文资源比较匮乏的情况下，需要用户在官网以及国外的技术网站中翻阅大量的外文资料，这在一定程度上对学习和应用Flink造成了阻碍。笔者在2018年参加了一场由Flink中文社区组织的线下交流活动，当时听了很多领域内专家将Flink应用在不同业务场景中的分享，发现Flink这项技术虽然优秀，但是国内尚未有一本能够全面介绍Flink的中文书籍，于是笔者决定结合自己的实际项目经验来完成一本Flink中文书籍，以帮助他人学习和使用Flink这项优秀的分布式处理技术。

阿里巴巴在2018年1月开源了其内部Flink的分支项目Blink，并推动社区将Blink中优秀的特性合并到Flink主干版本中，一时间Flink在国内的发展被推向了高潮，成为很多公司想去尝试使用的新技术。因此笔者相信未来会有更多的开发者参与到Flink社区中来，Flink也将在未来的大数据生态中占据举足轻重的位置。

读者对象

本书从多个方面对Flink进行了深入介绍，包括原理、多种抽象接口的使用，以及Flink的性能监控与调优等方面，因此本书比较适合以下类型的读者。

流计算开发工程师

大数据架构工程师

大数据开发工程师

数据挖掘工程师

高校研究生以及高年级本科生

如何阅读本书

本书共分为10章，各章节间具有一定的先后关系，对于刚入门的读者，建议从第1章开始循序渐进地学习。

对于有一定经验的读者可以自行选择章节开始学习。如果想使用Flink开发流式应用，则可以直接阅读第4章、第5章，以及第7章之后的内容；如果想使用Flink开发批计算应用，则可以选择阅读第5章以及第7章之后的内容。

勘误和支持

除封面署名外，参加本书编写工作的还有：张再胜、尚越、程龙、姚远等。由于笔者水平有限，编写时间仓促，书中难免会出现一些错误或者不准确的地方，恳请读者批评指正。由于Flink技术的参考资料相对较少，因此书中有些地方参考了Flink官方文档，读者也可以结合Flink官网来学习。书中的全部源文件可以从GitHub网站下载，地址为https://github.com/zhanglibing1990/learning-flink。同时笔者也会将相应的功能及时更新。如果你有更多宝贵的意见可以通过QQ群686656574或电子邮箱zhanglibing1990@126.com联系笔者，期待能够得到你们的真挚反馈。

致谢

在本书的写作过程中，得到了很多朋友及同事的帮助和支持，在此表示衷心感谢！

感谢我的女朋友，因为有你的支持，我才能坚持将本书顺利完成，谢谢你一直陪伴在我的身边，不断鼓励我前行。

感谢机械工业出版社华章公司的编辑杨福川和张锡鹏，在这半年多的时间中始终支持我的写作，你们的鼓励和帮助引导我顺利完成全部书稿。

谨以此书献给我最亲爱的家人，以及众多热爱Flink的朋友！

总结

本书最开始介绍Flink的发展历史，然后对Flink批数据和流数据的不同处理接口进行介绍，再对Flink的部署与实施、性能优化等方面进行全面讲解。经过系统完整地了解和学习Flink分布式处理技术之后，可以发现Flink有很多非常先进的概念，以及非常完善的接口设计，这些都能让用户更加有效地处理大数据，特别是流式数据处理。随着大数据技术的不断发展，Flink也在大数据的浪潮中奋勇前行。越来越多的用户也参与到Flink社区的开发中，尤其是近年来随着阿里巴巴的推进，Blink的开源在一定程度上推动了Flink在国内大规模的落地。相信在不久的将来，Flink会逐渐成为国内乃至全球不可或缺的分布式处理引擎，笔者也相信Flink在流式数据处理领域会有新的突破，能够改变目前大部分基于批处理的模式，让分布式数据处理变得更加高效，使得数据处理成本不断降低。

张利兵　　

2019年　　

你还可能感兴趣

我要评论