gpt4 book ai didi

apache-spark - 没有 orderBy 的 Spark 窗口函数

转载 作者:行者123 更新时间:2023-12-03 15:51:01 25 4
gpt4 key购买 nike

我有一个带有列的 DataFrame a, b我想通过 a 对数据进行分区使用窗口函数,然后为 b 提供唯一索引

val window_filter = Window.partitionBy($"a").orderBy($"b".desc)
withColumn("uid", row_number().over(window_filter))

但是对于这个用例,按 b 订购是不需要的,而且可能很耗时。如何在不订购的情况下实现这一目标?

最佳答案

row_number() without order by 或 with order by 常量具有非确定性行为,并且由于并行处理,可能会在每次运行中对相同的行产生不同的结果。如果按列的顺序不变,也可能发生同样的情况,行的顺序可能因运行而异,您将得到不同的结果。

关于apache-spark - 没有 orderBy 的 Spark 窗口函数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45530524/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com