gpt4 book ai didi

scala - Spark + Kafka 集成 - Kafka 分区到 RDD 分区的映射

转载 作者:行者123 更新时间:2023-12-04 18:37:12 25 4
gpt4 key购买 nike

我有几个与 Spark Streaming 相关的基本问题

[如果这些问题已在其他帖子中得到解答,请告诉我 - 我找不到任何]:

(i) 在 Spark Streaming 中,默认情况下,RDD 中的分区数是否等于工作线程数?

(ii) 在 Direct Approach对于 Spark-Kafka 集成,创建的 RDD 分区数等于 Kafka 分区数。
假设每个RDD分区i是否正确?将映射到同一个工作节点 j在每批DStream ?即,分区到工作节点的映射是否仅基于分区的索引?例如,是否可以将分区 2 分配给一批中的 worker 1 和另一批中的 worker 3?

提前致谢

最佳答案

i) 默认并行度为核心数(或 8 为 mesos),但分区数取决于输入流实现

ii) 不,分区索引到工作节点的映射是不确定的。如果您在与 Spark 执行程序相同的节点上运行 kafka,则运行任务的首选位置将位于该分区的 kafka 领导者的节点上。但即便如此,任务也可能被安排在另一个节点上。

关于scala - Spark + Kafka 集成 - Kafka 分区到 RDD 分区的映射,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32873345/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com