作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个包含每天分数的数据框,我想计算每个用户的累积运行分数。我需要在新列上将前一天的累积分数与今天的分数相加,我尝试使用 lag
函数进行计算,但由于某些原因它给出了错误。
这是我试过的代码:
import org.apache.spark.sql.expressions.Window
import org.apache.spark.sql.functions._
val genre = sc.parallelize(List(("Alice", "2016-05-01", "action",0),
("Alice", "2016-05-02", "0",1),
("Alice", "2016-05-03", "comedy",0),
("Alice", "2016-05-04", "action",1),
("Alice", "2016-05-05", "action",0),
("Alice", "2016-05-06", "horror",1),
("Bob", "2016-05-01", "art",0),
("Bob", "2016-05-02", "0",1),
("Bob", "2016-05-03", "0",0),
("Bob", "2016-05-04", "art",0),
("Bob", "2016-05-05", "comedy",1),
("Bob", "2016-05-06", "action",0))).
toDF("name", "date", "genre","score")
val wSpec2 = Window.partitionBy("name","genre").orderBy("date").rowsBetween(Long.MinValue, 0)
genre.withColumn( "CumScore",genre("score")*2+ lag(("CumScore"),1).over(wSpec2)*2 ).show()
数据框:
-----+----------+------+-----+
| name| date| genre|score|
+-----+----------+------+-----+
|Alice|2016-05-01|action| 0|
|Alice|2016-05-02| 0| 1|
|Alice|2016-05-03|comedy| 0|
|Alice|2016-05-04|action| 1|
|Alice|2016-05-05|action| 0|
|Alice|2016-05-06|horror| 1|
| Bob|2016-05-01| art| 0|
| Bob|2016-05-02| 0| 1|
| Bob|2016-05-03| 0| 0|
| Bob|2016-05-04| art| 0|
| Bob|2016-05-05|comedy| 1|
| Bob|2016-05-06|action| 0|
+-----+----------+------+-----+
我得到的错误
org.apache.spark.sql.AnalysisException: Window Frame specifiedwindowframe(RowFrame, unboundedpreceding$(), currentrow$()) must match the required frame specifiedwindowframe(RowFrame, -1, -1);
at org.apa
最佳答案
不需要使用lag
,只需使用一个按用户分区的窗口,然后使用sum
:
val window = Window.partitionBy("name").orderBy("date").rowsBetween(Long.MinValue, 0)
genre.withColumn("CumScore", sum($"score").over(window))
使用问题的输入数据,这将给出:
+-----+----------+------+-----+--------+
| name| date| genre|score|CumScore|
+-----+----------+------+-----+--------+
| Bob|2016-05-01| art| 0| 0|
| Bob|2016-05-02| 0| 1| 1|
| Bob|2016-05-03| 0| 0| 1|
| Bob|2016-05-04| art| 0| 1|
| Bob|2016-05-05|comedy| 1| 2|
| Bob|2016-05-06|action| 0| 2|
|Alice|2016-05-01|action| 0| 0|
|Alice|2016-05-02| 0| 1| 1|
|Alice|2016-05-03|comedy| 0| 1|
|Alice|2016-05-04|action| 1| 2|
|Alice|2016-05-05|action| 0| 2|
|Alice|2016-05-06|horror| 1| 3|
+-----+----------+------+-----+--------+
这里使用 lag
的问题在于,该列在创建它的同一表达式中使用(该列在 withColumn
表达式中使用。即使它是引用的先前值是不允许的。
关于scala - Spark Windowsspec 滞后函数计算累积分数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50383579/
我有一个包含每天分数的数据框,我想计算每个用户的累积运行分数。我需要在新列上将前一天的累积分数与今天的分数相加,我尝试使用 lag 函数进行计算,但由于某些原因它给出了错误。 这是我试过的代码: im
我是一名优秀的程序员,十分优秀!