gpt4 book ai didi

apache-spark - Spark 如何在 RDD 的每个部分中查看数据

转载 作者:行者123 更新时间:2023-12-05 02:06:26 28 4
gpt4 key购买 nike

我现在希望自己测试 repartition()coalesce() 的行为,尤其是在 numsPartion< 不太常见的情况下 保持不变,我希望看到具有相同分区号的重新分区调用仍然会对所有数据进行完全随机播放。然后我意识到我缺乏检查每个分区的确切内容的措施。我只是使用一个瘫痪列表作为我的示例 RDD。有什么方法可以检查每个分区的内容,以便验证我的疑问吗?哦,也许还有其他更新的 API 可以满足这个目标?提前致谢。

最佳答案

您可以使用 RDD.glom() , 哪个

Returns an RDD created by coalescing all elements within each partition into an array.

例如,可以使用以下 8 分区 RDD 进行检查:

val rdd = sc.parallelize(Seq(1,2,3,4,5,6,7,8,9,10))
rdd.glom().collect()

//Result
res3: Array[Array[Int]] = Array(Array(1), Array(2), Array(3), Array(4, 5),
Array(6), Array(7), Array(8), Array(9, 10))

关于apache-spark - Spark 如何在 RDD 的每个部分中查看数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62749575/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com