gpt4 book ai didi

java - 是否需要到处设置分区号? Spark

转载 作者:行者123 更新时间:2023-12-01 09:09:42 25 4
gpt4 key购买 nike

我想知道一旦转换具有 numPartitions 参数,是否应该设置分区编号。例如,当我在代码中创建第一个 RDD 时,我设置了分区号。如果我创建另一个RDD,默认分区号会与第一个RDD相同吗?

最佳答案

默认情况下,spark 会负责将数据集划分为分区。还将处理在初始之上执行的任何操作。

但是,有时您可能需要将所有数据放在一个分区中,以便根据您的功能需求更好地进行分组。那么分区号会有帮助。在此阶段,您还应该验证执行器的内存设置,因为现在所有数据都将位于一个分区中。

另一种情况是,当您执行过滤时。当您执行过滤时,即使大多数记录被过滤掉,内部也会保留相同的分区。这会导致空心隔断。所以在这种情况下,你可以合并。此方法需要 numOfPartitions。

还有 rePartition() 方法,它以 numOfPartitions 作为输入。这涉及到重新洗牌。您可以找到它们here

大家可以根据自己的需要来选择

关于java - 是否需要到处设置分区号? Spark ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40996603/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com