gpt4 book ai didi

apache-spark - co-located vs. co-partitioned RDD

转载 作者:行者123 更新时间:2023-12-04 04:01:30 25 4
gpt4 key购买 nike

我是 Spark 的新手,我有两个问题:

  • 我有一大堆点,我从中制作了一个 RDD(称为 partitionedData),并根据自定义分区器对其进行分区,以便每个分区最多有一个阈值点数。因为我需要在每个分区中选择一些Points作为leader,并且确保每个分区中对应的leader和points在同一个节点,我mapPartitions partitionedData并设置 preservesPartitioning标记为 true .最后,这个RDD的结果就是我想要的leader RDD。这是我的第一个问题:我知道领导者 RDD 保留了它的父级 RDD 分区(共同分区),但我不确定每个分区中的领导者是否会与其父点(共同-位于)?
  • 如果上述问题的答案是否定的,那么我如何将给定 RDD 的分区与另一个预先分区的 RDD 共存?
  • 最佳答案

    为了让您在同一个位置,能够保证没有洗牌,所有的共同分区都必须在同一个 Action 中完成。

    如果您有中间操作,自定义分区器创建的整数索引可以分配给不同的节点,在这种情况下需要 shuffle。

    关于apache-spark - co-located vs. co-partitioned RDD,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29793784/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com