apache-spark - Kinesis Spark Streaming Receiver的检查点如何工作-6ren

apache-spark - Kinesis Spark Streaming Receiver的检查点如何工作

转载作者：行者123 更新时间：2023-12-04 08:54:56

我们正在使用连接到AWS Kinesis流的Spark Streaming来(每分钟)汇总接收到的指标并将指标写入influxdb，以使其可用于实时仪表板。

一切工作正常，但是我们现在正在考虑如何管理部署的暂停和系统的最终故障。

文档说Kinesis集成库已经为故障，检查点等做好了准备，但是我想澄清一下检查点在那里如何工作。

The Kinesis receiver creates an input DStream using the Kinesis Client Library (KCL) provided by Amazon under the Amazon Software License (ASL). The KCL builds on top of the Apache 2.0 licensed AWS Java SDK and provides load-balancing, fault-tolerance, checkpointing through the concepts of Workers, Checkpoints, and Shard Leases.

我们可以定义运动学的检查点间隔，但是据我所知，这只是用来标记直到消耗了度量的流的哪一点为止。因此，我们仍然需要使用Spark Streaming中的检查点功能，对吗？

当我们每分钟汇总一次数据时，批处理间隔为60秒，但在这60秒内，我们不断从流中接收数据。

这是我的问题:

当我执行JavaStreamingContext.stop(...)(以部署作业的新版本)时，接收器将停止并且检查点将在最后更新吗？

Spark 流检查点何时发生？每次执行工作后？前？

假设我们两个检查点都在工作，那么在出现故障的情况下如何保证一致性？似乎每次发生流检查点时，都需要同时检查运动点，否则我们可以再次结束读取相同的数据。我们该如何处理呢？

如果基础服务(在本例中为influxdb)关闭，我该怎么办？实现重试机制？如果是这样，它需要在一段时间后停止重试，否则我们将耗尽内存。

提前致谢!

最佳答案

由于检查点解决方案是一个非常复杂的组件，并且每个子问题在SO中都可能需要一个单独的问题，因此不能百分百地确定这将是您问题的完整答案。不过，也许这会为该过程提供一些线索:

检查点可以在DStream级别上工作，因此这意味着您可以在管道的不同阶段执行检查点。这可能是Spark通过接收方生成的块创建第一个RDD的时候，也可以是转换后的RDD，您可以在计算指标后的下一个阶段使用它。因此，当您调用stop(如果您优雅地停止它)时，将在接收方停止在管道

中选择的点后，处理最后一个RDD的检查点状态

检查点由名为JobGenerator的Spark组件触发。在运行作业之前，它将生成将计算RDD的DStream。在这一步上，如果配置了检查点，则该DStream的每个RDD都会另外创建检查点元数据，并且RDD将标记为需要检查点的元数据。然后，SparkContext将运行生成的作业，最后将调用doCheckpoint方法，该方法会将检查点数据持久保存到配置的位置。 JobGenerator将为此创建一个单独的作业，因此您期望实际的作业完成与检查点持久性之间存在一些延迟

每次Spark将运行您的应用程序时，它将从您的检查点数据创建流上下文。所以可以说，如果您的指标处于状态7，例如在停止Kenesis接收器后最后一次Spark关闭时，那么当您的流上下文恢复时，它将再次处于状态7，并且只有下一个批次是根据新的Kenesis数据生成的将其置于状态8

很好，这取决于您如何设计产品。可能只有在依赖项成功处理了数据之后才进行检查点设置(原因是，我建议您应用重试机制以避免短期连接问题)。但是，那是很少的信息，无法为您提供关于

的完整答案

关于apache-spark - Kinesis Spark Streaming Receiver的检查点如何工作，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35925580/

文章推荐： apache - 如何以图形方式表示和操作 apache avro 架构

文章推荐： magento - Magento-产品创建时的默认值

文章推荐： xcode - xcode 7.2.1 中的 Po 命令错误

Java flatmap Iterator, Stream>> 到 Pair, Stream>
我正在尝试实现具有以下签名的方法: public static Pair, Stream> flatten(Iterator, Stream>> iterator); 该方法的目标是将每种流类型展平

stream - flutter : stream two Streams into a single screen?
我有两个流从两个不同的 api 获取。 Stream get monthOutStream => monthOutController.stream; Stream get resultOutStre

java - Stream.of(int[]) 返回 Stream 而 Stream.of(String[]) 返回 Stream 为什么？
Stream.of(int[])返回 Stream ，而 Stream.of(String[])返回 Stream . 为什么这两种方法的行为不同？两者都应该返回 Stream和 Stream或 St

dart - 将 Stream> 转换为 Stream
我正在使用 rxdart在 dart 中处理流的包。我被困在处理一个特殊的问题上。请看一下这个虚拟代码: final userId = BehaviorSubject(); Stream getSt

stream - Streaming 在 Streaming SIMD Extensions (SSE) 中代表什么？
我到处都找遍了，还是没弄明白。我知道你可以用流建立两个关联: 用于支持数据存储的包装器意味着作为消费者和供应商之间的抽象层数据随着时间的推移变得可用，而不是一次全部 SIMD 代表单指令，多数据；在

java - 创建 Stream 后更改 Stream 源时 Stream 的行为
考虑下面的代码: List l=new ArrayList<>(); l.add(23);l.add(45);l.add(90); Stream str=l.stream

webpack - ./node_modules/stream-browserify/node_modules/readable-stream/lib/internal/streams/stream-browser.js 错误 : Can't resolve 'events'
我有一个大型主干/requirejs 应用程序，我想迁移到 webpack，最新的“webpack”:“^4.27.1”，但我遇到了一个我无法解决的错误。我一直在阅读 https://webpack

java.io.EOFException : no more data available - expected end tag to close start tag 异常
我正在使用 xmpp 开发聊天应用程序，根据我们的要求，我们有三台服务器 Apache Tomcat 7、ejabbered 2.1.11 和 mysql 5.5， to run xmppbot on

scala - 将 java.util.stream.Stream 转换为 Scala Stream
我知道如何使用 Java 库，并且我可以编写一些循环来执行我需要的操作，但问题更多，为什么 scala.collection.JavaConverters 中没有任何内容或scala.collecti

java - 使用 Stream stream = Arrays.stream(words) 过滤唯一字数；
我正在尝试创建一个单一的衬里，它应该计算一个非常长的文本文件中的唯一单词。独特的词例如:márya fëdorovna scarlet-liveried,...所以基本上都是非英语词。我的问题是我的

c# - Stream.Dispose 是否总是调用 Stream.Close(和 Stream.Flush)
如果我有以下情况: StreamWriter MySW = null; try { Stream MyStream = new FileStream("asdf.txt"); MySW =

java-8 - Java 8 Streams : how can i stream another stream. 我如何将代码转换为java8流
有人可以帮我将以下语句转换为 Java8: 我有一个像这样的 HashMap : private Map, List>> someMap; 我想在java8中转换以下逻辑: private Strin

java-8 - Java 8 Streams : how can i stream another stream. 我如何将代码转换为java8流
有人可以帮我将以下语句转换为 Java8: 我有一个像这样的 HashMap : private Map, List>> someMap; 我想在java8中转换以下逻辑: private Strin

java - 为什么具有短路操作的并行 Java Stream 会评估 Stream 的所有元素，而顺序 Stream 则不会？
考虑两种测试方法parallel()和sequential(): @Test public void parallel() throws Exception { System.ou

node.js - NodeJS : Stream. pipe(Stream) 有效但 Stream.read() 无效
我是 NodeJS 的新手，我基本上想做的是通过 HTTP 将 .pdf 上传到我的服务器。我正在使用 POST rquest 来处理 Content-Type multipart/form-data

c# - MemoryStream.WriteTo(Stream destinationStream) 与 Stream.CopyTo(Stream destinationStream)
哪个更好:MemoryStream.WriteTo(Stream destinationStream) 或 Stream.CopyTo(Stream destinationStream)？？我正在谈

stream - 延迟 Tokio Stream
给定一个 Stream，我想创建一个新的 Stream，其中的元素在它们之间有时间延迟。我尝试使用 tokio_core::reactor::Timeout 和 Stream 的 and_then

Spring Cloud Stream Kafka Streams Binder KafkaException : Could not start stream: 'listener' cannot be null
我是 Kafka Streams 和 Spring Cloud Stream 的新手，但在将集成相关代码移动到属性文件方面已经阅读了有关它的好东西，因此开发人员可以主要专注于事物的业务逻辑方面。这里

node.js - utility.pump(streamA, stream) 和 stream.pipe(stream) 有什么区别？
源代码看起来非常相似:pump , pipe .为什么我要使用一个而不是另一个？一个只是另一个的更好版本吗？最佳答案 Stream.pipe 现在显然是自 0.3.x 以来的首选方法，因此尽可能尝试

java - 使用 Java 中的 Streams/Lambda 将 Stream> 转换为 T[][]
我正在寻找是否有更好的方法来解决我不得不使用这些签名的困境(注意:由于 Spock 测试，T[][] 是必需的，我提供 T[][] 作为数据提供商) 我的方法签名是: public T[][] cr

行者123

个人简介
我是一名优秀的程序员,十分优秀！

作者热门文章

html - 出于某种原因，IE8 对我的 Sass 文件中继承的 html5 CSS 不友好？

JMeter 在响应断言中使用 span 标签的问题

html - 在 :hover and :active? 上具有不同效果的 CSS 动画

html - 相对于居中的 html 内容固定的 CSS 重复背景？

滴滴打车优惠券免费领取

全站热门文章

全网最适合入门的面向对象编程教程：56Python字符串与序列化-正则表达式和re模块应用

如何创建免费版本的ABP分离模块？

团队管理的两大入门心法

多Master节点的k8s集群部署-完整版

OpenAI发布适用于.NET库的稳定版本

Windows应急响应-QQ巨盗病毒

浏览器中生成OSS令牌|WebCryptoAPI

（系列五）.net8中使用Dapper搭建底层仓储连接数据库（附源码）

【VMwareVCF】使用SFTP服务器备份VCF核心组件的配置文件。

从零开始学机器学习——网络应用

首页

博学

6Ren·AI

商城

apache-spark - Kinesis Spark Streaming Receiver的检查点如何工作