gpt4 book ai didi

python - 如何在 pyspark 中创建具有随机值的新列?

转载 作者:太空宇宙 更新时间:2023-11-03 13:07:35 24 4
gpt4 key购买 nike

我尝试在 pandas 中使用随机值初始化新列。我是这样做的

df['business_vertical'] = np.random.choice(['Retail', 'SME', 'Cor'], df.shape[0])

我如何在 pyspark 中执行此操作?

最佳答案

只需生成一个值列表,然后随机提取它们:

from pyspark.sql import functions as F

df.withColumn(
"business_vertical",
F.array(
F.lit("Retail"),
F.lit("SME"),
F.lit("Cor"),
).getItem(
(F.rand()*3).cast("int")
)
)

关于python - 如何在 pyspark 中创建具有随机值的新列?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53517782/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com