gpt4 book ai didi

apache-spark - 参加 rdd 并保持 rdd

转载 作者:行者123 更新时间:2023-12-03 17:05:52 27 4
gpt4 key购买 nike

我找不到只参与 rdd 的方法. take看起来很有希望,但它返回 list而不是 rdd .我当然可以将其转换为 rdd ,但这似乎既浪费又丑陋。

 my_rdd = sc.textFile("my_file.csv")
part_of_my_rdd = sc.parallelize(my_rdd.take(10000))

我有更好的方法来做到这一点吗?

最佳答案

是的,确实有更好的方法。您可以使用 sample方法来自 RDD s,它指出:

sample(withReplacement, fraction, seed=None)

Return a sampled subset of this RDD.


quantity = 10000
my_rdd = sc.textFile("my_file.csv")
part_of_my_rdd = my_rdd.sample(False, quantity / my_rdd.count())

关于apache-spark - 参加 rdd 并保持 rdd,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35784263/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com