gpt4 book ai didi

python - Spark 使用前一行的值向数据帧添加新列

转载 作者:行者123 更新时间:2023-12-02 01:25:38 24 4
gpt4 key购买 nike

我想知道如何在 Spark (Pyspark) 中实现以下目标

初始数据框:

+--+---+
|id|num|
+--+---+
|4 |9.0|
+--+---+
|3 |7.0|
+--+---+
|2 |3.0|
+--+---+
|1 |5.0|
+--+---+

生成的数据框:

+--+---+-------+
|id|num|new_Col|
+--+---+-------+
|4 |9.0| 7.0 |
+--+---+-------+
|3 |7.0| 3.0 |
+--+---+-------+
|2 |3.0| 5.0 |
+--+---+-------+

我通常设法通过使用类似以下内容将新列“附加”到数据框:df.withColumn("new_Col", df.num * 10)

但是,我不知道如何实现新列的“行移位”,以便新列具有前一行的字段值(如示例所示)。我在 API 文档中也找不到有关如何通过索引访问 DF 中的特定行的任何内容。

如有任何帮助,我们将不胜感激。

最佳答案

您可以使用lag窗口函数,如下所示

from pyspark.sql.functions import lag, col
from pyspark.sql.window import Window

df = sc.parallelize([(4, 9.0), (3, 7.0), (2, 3.0), (1, 5.0)]).toDF(["id", "num"])
w = Window().partitionBy().orderBy(col("id"))
df.select("*", lag("num").over(w).alias("new_col")).na.drop().show()

## +---+---+-------+
## | id|num|new_col|
## +---+---+-------|
## | 2|3.0| 5.0|
## | 3|7.0| 3.0|
## | 4|9.0| 7.0|
## +---+---+-------+

但有一些重要的问题:

  1. 如果您需要全局操作(不被其他列分区),那么效率极低。
  2. 您需要一种自然的方式来排序数据。

虽然第二个问题几乎从来都不是问题,但第一个问题可能会破坏交易。如果是这种情况,您只需将 DataFrame 转换为 RDD 并手动计算 lag 即可。参见示例:

其他有用的链接:

关于python - Spark 使用前一行的值向数据帧添加新列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48386996/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com