gpt4 book ai didi

python - Pyspark SQL 查询以获取特定列的 +/- 20% 的行

转载 作者:太空宇宙 更新时间:2023-11-03 14:38:52 24 4
gpt4 key购买 nike

我有以下 pyspark df:

+------------------+--------+-------+
| ID| Assets|Revenue|
+------------------+--------+-------+
|201542399349300619| 1633944| 32850|
|201542399349300629| 3979760| 850914|
|201542399349300634| 3402687|1983568|
|201542399349300724| 1138291|1097553|
|201522369349300122| 1401406|1010828|
|201522369349300137| 16948| 171534|
|201522369349300142|13474056|2285323|
|201522369349300202| 481045| 241788|
|201522369349300207| 700861|1185640|
|201522369349300227| 178479| 267976|
+------------------+--------+-------+

对于每一行,我希望能够获得 Assets 金额的 20% 以内的行。例如,对于第一行 (ID=201542399349300619),我希望能够获取 Assets 在 1,633,944 的 20% +/- 范围内的所有行(因此在 1,307,155 到 1,960,732 之间):

+------------------+--------+-------+
| ID| Assets|Revenue|
+------------------+--------+-------+
|201542399349300619| 1633944| 32850|
|201522369349300122| 1401406|1010828|

使用此子集表,我想获取平均 Assets 并将其添加为新列。所以对于上面的例子,这将是 (1633944+1401406) = 1517675 的平均 Assets

+------------------+--------+-------+---------+
| ID| Assets|Revenue|AvgAssets|
+------------------+--------+-------+---------+
|201542399349300619| 1633944| 32850| 1517675|

最佳答案

假设您的 DataFrame 具有类似于以下的架构(即 AssetsRevenue 是数字):

df.printSchema()
#root
# |-- ID: long (nullable = true)
# |-- Assets: integer (nullable = true)
# |-- Revenue: integer (nullable = true)

您可以 join在您提出的条件下,DataFrame 本身。加入后,您可以通过对 Assets 列取平均值进行分组和聚合。

例如:

from pyspark.sql.functions import avg, expr

df.alias("l")\
.join(
df.alias("r"),
on=expr("r.assets between l.assets*0.8 and l.assets*1.2")
)\
.groupBy("l.ID", "l.Assets", "l.Revenue")\
.agg(avg("r.Assets").alias("AvgAssets"))\
.show()
#+------------------+--------+-------+------------------+
#| ID| Assets|Revenue| AvgAssets|
#+------------------+--------+-------+------------------+
#|201542399349300629| 3979760| 850914| 3691223.5|
#|201522369349300202| 481045| 241788| 481045.0|
#|201522369349300207| 700861|1185640| 700861.0|
#|201522369349300137| 16948| 171534| 16948.0|
#|201522369349300142|13474056|2285323| 1.3474056E7|
#|201522369349300227| 178479| 267976| 178479.0|
#|201542399349300619| 1633944| 32850| 1517675.0|
#|201522369349300122| 1401406|1010828|1391213.6666666667|
#|201542399349300724| 1138291|1097553| 1138291.0|
#|201542399349300634| 3402687|1983568| 3691223.5|
#+------------------+--------+-------+------------------+

由于我们将 DataFrame 连接到自身,我们可以使用别名来引用左表 ("l") 和右表 ("r") .上面的逻辑说加入 lr 条件是 r 中的 Assets 是 l 中 Assets 的 +/20%

有多种方法可以表达 +/20% 条件,但我使用 spark-sql between 表达式来查找 Assets * 0.8 Assets * 1.2

然后我们对左表的所有列 (groupBy) 进行聚合,并对右表中的 Assets 进行平均。

生成的 AvgAssets 列是一个 FloatType 列,但您可以通过添加 .cast( "int").alias("AvgAssets") 之前,如果您喜欢的话。


另见:

关于python - Pyspark SQL 查询以获取特定列的 +/- 20% 的行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55049848/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com