gpt4 book ai didi

scala - 对Spark流数据集列进行排名

转载 作者:行者123 更新时间:2023-12-04 23:26:58 25 4
gpt4 key购买 nike

我正在使用Spark 2.3.1的结构化流API。是否可以在Spark Stream数据帧的列中对值进行排名?我尝试使用以下代码在异常消息之后意识到流上下文不可能遍历整个窗口。

.withColumn("rank", row_number().over(Window.orderBy($"transactionTime")))


抛出


org.apache.spark.sql.AnalysisException:流数据帧/数据集不支持基于非时间的窗口


有人可以帮我计算一下排名/百分位数吗?

最佳答案

因此,似乎Spark结构的流式api还不支持窗口操作。
期待Apache Spark即将发布的版本

关于scala - 对Spark流数据集列进行排名,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51207095/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com