gpt4 book ai didi

apache-spark - PySpark RDD中,如何使用foreachPartition()打印出每个分区的第一条记录?

转载 作者:行者123 更新时间:2023-12-02 15:08:00 25 4
gpt4 key购买 nike

在 PySpark RDD 中,如何使用 foreachPartition() 打印出每个分区的第一条记录?

最佳答案

你可以这样做:

def f(iterator):
print(iterator.next())

def f(iterator):
print(list(iterator)[0])

然后,您可以将上述功能之一应用于 RDD,如下所示:

rdd1 = sc.parallelize([1, 2, 3, 4, 5])
rdd1.foreachPartition(f)

请注意,这将打印在每个 spark worker 中,因此您应该访问 worker 的日志以查看结果。

有关更多信息,请查看文档 here

关于apache-spark - PySpark RDD中,如何使用foreachPartition()打印出每个分区的第一条记录?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46030123/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com