gpt4 book ai didi

apache-spark - Pyspark,按列中的唯一值对另一列中的某个值进行分组

转载 作者:行者123 更新时间:2023-12-05 00:13:51 24 4
gpt4 key购买 nike

这个问题在这里已经有了答案:





Reshaping/Pivoting data in Spark RDD and/or Spark DataFrames

(6 个回答)


3年前关闭。




那个标题,太可怕了,对不起。这是我的意思:
这是起始数据集

C1   C2
AA H
AB M
AC M
AA H
AA L
AC L

然后它将变成一个具有 4 列的新数据集:
C1   CH   CM   CL
AA 2 0 1
AB 0 1 0
AC 0 1 1

最佳答案

您可以使用 pivot api 如下 groupByagg和其他功能

from pyspark.sql import functions as F
finaldf = df.groupBy("C1").pivot("C2").agg(F.count("C2").alias("count")).na.fill(0)

你应该有 finaldf作为
+---+---+---+---+
| C1| H| L| M|
+---+---+---+---+
| AA| 2| 1| 0|
| AB| 0| 0| 1|
| AC| 0| 1| 1|
+---+---+---+---+

关于apache-spark - Pyspark,按列中的唯一值对另一列中的某个值进行分组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48064651/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com