gpt4 book ai didi

apache-spark - Spark : how can evenly distribute my records in all partition

转载 作者:行者123 更新时间:2023-12-03 19:55:29 25 4
gpt4 key购买 nike

我有一个带有 30 条记录的 RDD(键/值对:键是时间戳,值是 JPEG 字节数组)
我正在运行 30 个执行程序。我想将此 RDD 重新分区为 30 个分区,以便每个分区获得一条记录并分配给一个执行程序。

当我使用 rdd.repartition(30)它将我的 rdd 重新分区为 30 个分区,但有些分区获得 2 条记录,有些获得 1 条记录,有些没有获得任何记录。

在 Spark 中有什么方法可以将我的记录均匀地分布到所有分区。

最佳答案

盐渍 可以使用涉及添加新的“假” key 并与当前 key 一起使用以更好地分配数据的技术。

( here is link for salting )

关于apache-spark - Spark : how can evenly distribute my records in all partition,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33768967/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com