gpt4 book ai didi

scala - 从 RDD 中随机获取一个元素

转载 作者:行者123 更新时间:2023-12-01 09:19:44 33 4
gpt4 key购买 nike

如何有效地从字符串的 RDD 中随机选择一个元素?

最佳答案

您需要使用 takeSample。示例:

val data = sc.parallelize(Range(1,100))
// data: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[9] at parallelize at <console>:27

data.takeSample(false,1)
// res9: Array[Int] = Array(38)

data.takeSample(false,1)
// res10: Array[Int] = Array(72)

data.takeSample(false,1)
// res11: Array[Int] = Array(93)

如果您想获取相同的“随机”元素,您可以修复种子:

data.takeSample(false, 1, seed = 10L)
// res14: Array[Int] = Array(62)

data.takeSample(false, 1, seed = 10L)
// res15: Array[Int] = Array(62)

关于scala - 从 RDD 中随机获取一个元素,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35596971/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com