gpt4 book ai didi

apache-spark - DStream 的 RDD 是否一次性提取为批处理间隔创建的全部数据?

转载 作者:行者123 更新时间:2023-12-03 11:10:57 25 4
gpt4 key购买 nike

我已经经历了this stackoverflow 问题,根据答案,它创建了一个 DStream,批处理间隔只有一个 RDD

例如:

我的批处理间隔是 1 分钟,Spark Streaming 作业正在使用来自 Kafka 主题的数据。

我的问题是,DStream 中可用的 RDD 是否提取/包含最后一分钟的全部数据?我们是否需要设置任何条件或选项来提取最后一分钟创建的所有数据?

如果我有一个包含 3 个分区的 Kafka 主题,并且所有 3 个分区都包含最后一分钟的数据,DStream 是否会拉取/包含所有 Kafka 主题分区中最后一分钟创建的所有数据?

更新:

在哪种情况下 DStream 包含多个 RDD?

最佳答案

Spark Streaming DStream 正在使用分区的 Kafka 主题中的数据,比如 3 个不同的 Kafka 代理上的 3 个分区。

Does the RDD available in DStream pulls/contains the entire data for the last one minute?

不完全是。 RDD only 描述了从提交任务执行时读取数据的偏移量。就像 Spark 中的其他 RDD 一样,它们 (?) 描述提交任务时要做什么以及在何处查找要处理的数据。

但是,如果您以更宽松的方式使用“拉取/包含”来表示在某个时间点将处理记录(来自给定偏移量的分区),是的,您是对的,整分钟都是映射到偏移量,偏移量又映射到 Kafka 移交处理的记录。

in all the Kafka topic partitions?

是的。处理它的 Kafka 不一定是 Spark Streaming/DStream/RDD。从上次查询到现在,DStream 的 RDD 从主题及其每个偏移量的分区请求记录。

Spark Streaming 的分钟数对于 Kafka 可能略有不同,因为 DStream 的 RDD 包含偏移记录而不是每次记录。

In which case DStream contains more than one RDD?

从不。

关于apache-spark - DStream 的 RDD 是否一次性提取为批处理间隔创建的全部数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40570848/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com