《Streaming Systems》第三章 水位线
到目前为止,我们是从用户或数据科学家的角度来看待流式系统的。在这一章,我们会从流式系统底层实现的角度来看待同样的问题。我们会讨论水位线如何在数据到达时创建、怎样在数据处理的 pipeline 中传播,以及怎样影响着输出的时间戳。
到目前为止,我们是从用户或数据科学家的角度来看待流式系统的。在这一章,我们会从流式系统底层实现的角度来看待同样的问题。我们会讨论水位线如何在数据到达时创建、怎样在数据处理的 pipeline 中传播,以及怎样影响着输出的时间戳。
第二章中通过一些具体的例子更详细地介绍了第一章中提到的数据处理模式。这一章涉及了提供可靠的乱序数据处理所需要的核心原则和概念,也就是能够推断时间的一系列工具。
Streaming 101 的标题来自于作者曾经发表的两篇博客文章:”Streaming 101“ 和 “Streaming 102”。
第一章包括了对流处理中基本概念的描述,讨论了流式系统的能力、两种重要的时间概念,以及一些常见的数据处理模式。
《Streaming Systems》一书在网上得到了一致的好评与推荐,我最近也刚开始读。该书目前还没有中文翻译版本,我打算按照书中章节的顺序,对每章的内容进行相关整理,方便后续的总结与回顾。因为有很多名词可能暂时无法准确地翻译成中文,因此在整理过程中可能会出现很多中英文夹杂的情况。希望读完这本书后可以对流处理的设计、发展和存在的关键问题等方面有一个更高以及更深层次的认识。
“并发处理的广泛应用是使得Amdahl定律代替摩尔定律成为计算机性能发展源动力的根本原因,也是人类“压榨”计算机运算能力的最有力武器。“
——周志明《深入理解Java虚拟机:JVM高级特性与最佳实践(第2版)》