gpt4 book ai didi

sql - 如何在pyspark中将数据分成几组

转载 作者:行者123 更新时间:2023-12-04 00:20:10 24 4
gpt4 key购买 nike

我需要在时间序列数据中找到组。

数据样本

enter image description here

我需要根据valueday输出列group

我尝试过使用滞后、领先和行号,但结果一无所获。

最佳答案

似乎您想在每次值更改时递增该组。如果是这样,这就是一种间隙和孤岛问题。

这是一种使用 lag() 和累积 sum() 的方法:

select
value,
day,
sum(case when value = lag_value then 0 else 1 end) over(order by day) grp
from (
select t.*, lag(value) over(order by day) lag_value
from mytable t
) t

关于sql - 如何在pyspark中将数据分成几组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61297143/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com