gpt4 book ai didi

apache-spark - 尝试在 PySpark DataFrame 中创建具有最大时间戳的列

转载 作者:行者123 更新时间:2023-12-04 08:37:51 37 4
gpt4 key购买 nike

我对 PySpark 真的很陌生。我想要做的就是找到“日期”列的最大值并在数据框中添加一个新列,该列具有所有行(重复)的最大日期,以便:

A      B                                        C
a timestamp1 timestamp3
b timestamp2 --------------------> timestamp3
c timestamp3 timestamp3
我使用以下代码行:
df.withColumn('dummy_column',f.lit((f.max('date'))).cast('timestamp')).show(9)
但我收到错误:
> AnalysisException: grouping expressions sequence is empty, and
> '`part`' is not an aggregate function. Wrap '(CAST(max(`date`) AS
> TIMESTAMP) AS `new_column`)' in windowing function(s) or wrap '`part`'
> in first() (or first_value) if you don't care which value you get.;;
任何人都可以帮助我理解为什么会出现此错误以及如何解决它?

最佳答案

您可能正在寻找:

import pyspark.sql.functions as f
from pyspark.sql.window import Window

w = Window.rowsBetween(Window.unboundedPreceding, Window.unboundedFollowing)
df.withColumn('dummy_column',f.max('date').over(w).cast('timestamp')).show(9)
聚合函数,如 max使用窗口或分组操作。它们不能单独工作,因为您没有指定聚合函数操作的行范围。

关于apache-spark - 尝试在 PySpark DataFrame 中创建具有最大时间戳的列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64709879/

37 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com