gpt4 book ai didi

python - PySpark bool 枢轴

转载 作者:太空宇宙 更新时间:2023-11-03 13:28:48 26 4
gpt4 key购买 nike

我有一些模仿以下结构的数据:

rdd = sc.parallelize(
[
(0,1),
(0,5),
(0,3),
(1,2),
(1,3),
(2,6)
]
)

df_data = sqlContext.createDataFrame(rdd, ["group","value"])

df_data.show()

+-----+-----+
|group|value|
+-----+-----+
| 0| 1|
| 0| 5|
| 0| 3|
| 1| 2|
| 1| 3|
| 2| 6|
+-----+-----+

我想做的是按组对这些数据进行透视以显示“值”值的存在,如下所示:

+-----+-------+-------+-------+-------+-------+
|group|value_1|value_2|value_3|value_5|value_6|
+-----+-------+-------+-------+-------+-------+
| 0| true| false| true| true| false|
| 1| false| true| true| false| false|
| 2| false| false| false| false| true|
+-----+-------+-------+-------+-------+-------+

有什么方法可以使用 PySpark 实现这一点?

我尝试了 groupby/pivot/agg 的组合,但没有成功。

最佳答案

@Psidom's answer将仅适用于 Spark 2.3 及更高版本,因为 pyspark.sql.DataFrameNaFunctions 在之前的版本中不支持 bool

这是我在 Spark 2.1 中运行该代码时得到的结果:

import pyspark.sql.functions as F

(df_data.withColumn('value', F.concat(F.lit('value_'), df_data.value))
.groupBy('group').pivot('value').agg(F.count('*').isNotNull())
.na.fill(False).show())
#+-----+-------+-------+-------+-------+-------+
#|group|value_1|value_2|value_3|value_5|value_6|
#+-----+-------+-------+-------+-------+-------+
#| 0| true| null| true| true| null|
#| 1| null| true| true| null| null|
#| 2| null| null| null| null| true|
#+-----+-------+-------+-------+-------+-------+

这是一个适用于 Spark 2.2 及更低版本的替代解决方案:

# first pivot and fill nulls with 0
df = df_data.groupBy('group').pivot('value').count().na.fill(0)
df.show()
#+-----+---+---+---+---+---+
#|group| 1| 2| 3| 5| 6|
#+-----+---+---+---+---+---+
#| 0| 1| 0| 1| 1| 0|
#| 1| 0| 1| 1| 0| 0|
#| 2| 0| 0| 0| 0| 1|
#+-----+---+---+---+---+---+

现在使用 select 重命名列并将值从 int 转换为 bool:

df.select(
*[F.col(c) if c == 'group' else F.col(c).cast('boolean').alias('value_'+c)
for c in df.columns]
).show()
+-----+-------+-------+-------+-------+-------+
|group|value_1|value_2|value_3|value_5|value_6|
+-----+-------+-------+-------+-------+-------+
| 0| true| false| true| true| false|
| 1| false| true| true| false| false|
| 2| false| false| false| false| true|
+-----+-------+-------+-------+-------+-------+

关于python - PySpark bool 枢轴,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50749596/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com