gpt4 book ai didi

apache-spark - Spark Dataframe 需要在像 RDD 这样的过滤器之后重新分区吗?

转载 作者:行者123 更新时间:2023-12-02 17:08:37 27 4
gpt4 key购买 nike

根据这么多好的资源,建议在过滤操作后重新分区一个RDD。因为,现在有可能大部分分区都是空的。我怀疑当前版本是否处理了数据帧,或者我们是否仍需要在过滤操作后对其进行重新分区?

最佳答案

I have a doubt that in case of Data Frames has this been handled in current versions or do we still need to repartition it after a filter operation?

如果你问Spark是否自动重新分区数据,答案是否定的(我希望以后不会改变)

According so many good resources, it is advisable to re-partition a RDD after filter operation. since, there is a possibility that most of the partitions are now empty.

这实际上取决于两个因素:

  • 过滤器的选择性如何(保留记录的预期比例是多少)。
  • 在过滤之前,关于谓词的数据分布是什么。

除非您期望谓词修剪大部分数据或先前的分配会使分区的很大一部分为空,否则重新分区的成本通常超过潜在的 yield ,因此调用 repartition 的主要原因是限制数量的输出文件。

关于apache-spark - Spark Dataframe 需要在像 RDD 这样的过滤器之后重新分区吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50475261/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com