gpt4 book ai didi

apache-spark - 为什么 Window 函数失败并显示 "Window function X does not take a frame specification"?

转载 作者:行者123 更新时间:2023-12-04 05:18:04 26 4
gpt4 key购买 nike

我正在尝试使用 Spark 1.4 window functions在 pyspark 1.4.1 中

但主要是错误或意外结果。
这是我认为应该工作的一个非常简单的例子:

from pyspark.sql.window import Window
import pyspark.sql.functions as func

l = [(1,101),(2,202),(3,303),(4,404),(5,505)]
df = sqlContext.createDataFrame(l,["a","b"])

wSpec = Window.orderBy(df.a).rowsBetween(-1,1)

df.select(df.a, func.rank().over(wSpec).alias("rank"))
==> Failure org.apache.spark.sql.AnalysisException: Window function rank does not take a frame specification.

df.select(df.a, func.lag(df.b,1).over(wSpec).alias("prev"), df.b, func.lead(df.b,1).over(wSpec).alias("next"))
===> org.apache.spark.sql.AnalysisException: Window function lag does not take a frame specification.;


wSpec = Window.orderBy(df.a)

df.select(df.a, func.rank().over(wSpec).alias("rank"))
===> org.apache.hadoop.hive.ql.exec.UDFArgumentTypeException: One or more arguments are expected.

df.select(df.a, func.lag(df.b,1).over(wSpec).alias("prev"), df.b, func.lead(df.b,1).over(wSpec).alias("next")).collect()

[Row(a=1, prev=None, b=101, next=None), Row(a=2, prev=None, b=202, next=None), Row(a=3, prev=None, b=303, next=None)]

如您所见,如果我添加 rowsBetween框架规范,都不是 rank()也不是 lag/lead()窗口函数识别它:“窗口函数不采用框架规范”。

如果我省略 rowsBetween框架规范至少 lag/lead()不要抛出异常,而是返回意外的(对我来说)结果:总是 None .和 rank()在不同的异常(exception)情况下仍然不起作用。

任何人都可以帮助我获得正确的窗口功能吗?

更新

好吧,这开始看起来像是一个 pyspark 错误。
我已经在纯 Spark(Scala,spark-shell)中准备了相同的测试:
import sqlContext.implicits._
import org.apache.spark.sql._
import org.apache.spark.sql.types._

val l: List[Tuple2[Int,Int]] = List((1,101),(2,202),(3,303),(4,404),(5,505))
val rdd = sc.parallelize(l).map(i => Row(i._1,i._2))
val schemaString = "a b"
val schema = StructType(schemaString.split(" ").map(fieldName => StructField(fieldName, IntegerType, true)))
val df = sqlContext.createDataFrame(rdd, schema)

import org.apache.spark.sql.expressions.Window
import org.apache.spark.sql.functions._

val wSpec = Window.orderBy("a").rowsBetween(-1,1)
df.select(df("a"), rank().over(wSpec).alias("rank"))
==> org.apache.spark.sql.AnalysisException: Window function rank does not take a frame specification.;

df.select(df("a"), lag(df("b"),1).over(wSpec).alias("prev"), df("b"), lead(df("b"),1).over(wSpec).alias("next"))
===> org.apache.spark.sql.AnalysisException: Window function lag does not take a frame specification.;


val wSpec = Window.orderBy("a")
df.select(df("a"), rank().over(wSpec).alias("rank")).collect()
====> res10: Array[org.apache.spark.sql.Row] = Array([1,1], [2,2], [3,3], [4,4], [5,5])

df.select(df("a"), lag(df("b"),1).over(wSpec).alias("prev"), df("b"), lead(df("b"),1).over(wSpec).alias("next"))
====> res12: Array[org.apache.spark.sql.Row] = Array([1,null,101,202], [2,101,202,303], [3,202,303,404], [4,303,404,505], [5,404,505,null])

即使 rowsBetween不能在 Scala 中应用,两者都是 rank()lag()/lead()按我的预期工作 rowsBetween被省略。

最佳答案

据我所知,有两个不同的问题。 Hive 根本不支持窗口框架定义 GenericUDAFRank , GenericUDAFLag GenericUDAFLead 所以你看到的错误是预期的行为。

关于以下 PySpark 代码的问题

wSpec = Window.orderBy(df.a)
df.select(df.a, func.rank().over(wSpec).alias("rank"))

看起来它与我的问题有关 https://stackoverflow.com/q/31948194/1560062并且应该通过 SPARK-9978 解决.到目前为止,您可以通过将窗口定义更改为以下内容来使其工作:
wSpec = Window.partitionBy().orderBy(df.a)

关于apache-spark - 为什么 Window 函数失败并显示 "Window function X does not take a frame specification"?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32376713/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com