gpt4 book ai didi

python - PySpark:如何按固定日期范围和使用窗口函数计算值列总和的另一列进行分组?

转载 作者:行者123 更新时间:2023-12-01 08:08:59 25 4
gpt4 key购买 nike

我有一个 Spark DataFrame,由三列组成:DateItemValue(类型为 Date),分别是StringDouble。我想按日期范围(其中每个范围的持续时间是从数据帧中的第一个日期开始的 7 天)和项目进行分组,并计算由日期范围(实际上是周数)和项目定义的每个此类组的值总和.

我怀疑 PySpark 的 Window 函数应该在此处的某个时刻用于日期范围,但无法弄清楚在这种情况下如何实现它们。

最佳答案

让我们首先定义方法 -

(a) 为行添加 week_start_date 列(每个日期)

(b) 在分组依据中使用 week_start_date 列(与“item”一起)并计算“值”的总和

生成一些测试数据

from pyspark.sql.types import *

schema = StructType([StructField('date', StringType(),True),
StructField('item', StringType(),True),
StructField('value', DoubleType(),True)
]
)

data = [('2019-01-01','I1',1.1),
('2019-01-02','I1',1.1),
('2019-01-10','I1',1.1),
('2019-01-10','I2',1.1),
('2019-01-11','I2',1.1),
('2019-01-11','I3',1.1)]

df = spark.createDataFrame(data, schema)

生成 week_start_date 的 Python 函数

from datetime import datetime, timedelta

def week_start_date(day):
dt = datetime.strptime(day, '%Y-%m-%d')
start = dt - timedelta(days=dt.weekday())
end = start + timedelta(days=6)
return start.strftime('%Y-%m-%d')

spark.udf.register('week_start_date',week_start_date)

使用函数生成 week_start_date,然后对 week_start_date 和 item 进行分组

 df.selectExpr("week_start_date(date) as start_date","date","item as item","value as value" ).\
groupBy("start_date","item").\
agg(sum('value').alias('value_sum')).\
orderBy("start_date").\
show()

关于python - PySpark:如何按固定日期范围和使用窗口函数计算值列总和的另一列进行分组?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55382006/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com