gpt4 book ai didi

join - Spark 中的数据集加入有偏差吗?

转载 作者:行者123 更新时间:2023-12-03 04:22:44 25 4
gpt4 key购买 nike

我正在使用 Spark RDD 连接两个大数据集。一个数据集非常倾斜,因此很少有执行器任务需要很长时间才能完成工作。我该如何解决这种情况?

最佳答案

关于如何做到这一点的非常好的文章:https://datarus.wordpress.com/2015/05/04/fighting-the-skew-in-spark/

简短版本:

  • 向大型 RDD 添加随机元素并用它创建新的连接键
  • 使用explode/flatMap向小型RDD添加随机元素,以增加条目数量并创建新的连接键
  • 使用新的连接键连接 RDD,由于随机播种,该键现在可以更好地分布

关于join - Spark 中的数据集加入有偏差吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40373577/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com