gpt4 book ai didi

python - Pyspark 中的随机样本没有重复

转载 作者:太空宇宙 更新时间:2023-11-04 11:18:43 26 4
gpt4 key购买 nike

我有一个 Pyspark DataFrame,我想随机抽样(从整个 df 的任何地方)~100k 唯一 ID。 DF 是基于交易的,所以一个 ID 会出现多次,我想获得 100k 个不同的 ID,然后从 DF 中获取每个 ID 的所有交易记录。

我试过:

sample = df.sample(False, 0.5, 42)
sample = sample.distinct()

然后我不确定如何将它匹配回原来的 Df,还有一些 ID 不干净,我希望能够在示例中添加一些条件,例如 ID 必须是 10 位数字。

最佳答案

df
.where("length(ID) == 10") # only 10 digit ids
.select("ID").distinct() # you want it unique on id
.sample(False, 0.5, 42) # now you take the sample
.join(df, "ID") # and finally join it

实际上并没有那么难,因为您已经指出了所有必要的步骤。

关于python - Pyspark 中的随机样本没有重复,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56456252/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com