gpt4 book ai didi

java - 如何将每个 RDD 分区限制为仅 'n' 条记录?

转载 作者:行者123 更新时间:2023-12-02 00:30:26 25 4
gpt4 key购买 nike

有没有办法可以指定每个 JavRDD 分区只有“n”条记录?

 JavaRDD<String> res = rdd.mapPartitions((Iterator<String> iter) -> {
Iterable<String> iterable = () -> iter;
return StreamSupport.stream(iterable.spliterator(), false)
.map(s -> Dummy.getResponse(s, b))
.iterator();
});

最佳答案

如果您知道有多少条记录,则可以推断出需要保存 n 条记录的分区数,然后使用 rdd.repartition(number of partitions)

引用这里:https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.rdd.RDD@repartition(numPartitions:Int)(implicitord:Ordering[T]):org.apache.spark.rdd.RDD[T]

关于java - 如何将每个 RDD 分区限制为仅 'n' 条记录?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58021885/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com