gpt4 book ai didi

python-2.7 - 如何在python中使用Spark Dataframe和Group By导出百分位数

转载 作者:行者123 更新时间:2023-12-05 00:18:53 30 4
gpt4 key购买 nike

我有一个 Spark 数据框,它有 Date , GroupPrice列。

我试图推导出 percentile(0.6)Price那一栏
Python 中的数据框。此外,我需要将输出添加为新列。

我试过下面的代码:

perudf = udf(lambda x: x.quantile(.6))
df1 = df.withColumn("Percentile", df.groupBy("group").agg("group"),perudf('price'))

但它抛出以下错误:
assert all(isinstance(c, Column) for c in exprs), "all exprs should be Column"
AssertionError: all exprs should be Column

最佳答案

您可以使用 sql 使用“percentile_approx”。在 pyspark 中创建 UDF 很困难。

有关其他详细信息,请参阅此链接:https://mail-archives.apache.org/mod_mbox/spark-user/201510.mbox/%3CCALte62wQV68D6J87EVq6AD5-T3D0F3fHjuzs+1C5aCHOUUQS8w@mail.gmail.com%3E

关于python-2.7 - 如何在python中使用Spark Dataframe和Group By导出百分位数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37000099/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com