gpt4 book ai didi

scala - 如何在 Spark 1.5 中转置数据帧(没有可用的枢轴运算符)?

转载 作者:行者123 更新时间:2023-12-01 12:29:06 25 4
gpt4 key购买 nike

我想使用没有 Pivot 函数的 spark scala 转置下表

我正在使用 Spark 1.5.1,但 1.5.1 不支持 Pivot 功能。请建议合适的方法转置下表:

Customer Day   Sales
1 Mon 12
1 Tue 10
1 Thu 15
1 Fri 2
2 Sun 10
2 Wed 5
2 Thu 4
2 Fri 3

输出表:

Customer Sun Mon Tue Wed Thu Fri
1 0 12 10 0 15 2
2 10 0 0 5 4 3

以下代码无法正常工作,因为我使用的是 Spark 1.5.1,而 Spark 1.6 提供了枢轴函数:

    var Trans = Cust_Sales.groupBy("Customer").Pivot("Day").sum("Sales")

最佳答案

不确定效率如何,但您可以使用 collect 获取所有不同的日期,然后添加这些列,然后使用 groupBysum :

// get distinct days from data (this assumes there are not too many of them):
val days: Array[String] = df.select("Day")
.distinct()
.collect()
.map(_.getAs[String]("Day"))

// add column for each day with the Sale value if days match:
val withDayColumns = days.foldLeft(df) {
case (data, day) => data.selectExpr("*", s"IF(Day = '$day', Sales, 0) AS $day")
}

// wrap it up
val result = withDayColumns
.drop("Day")
.drop("Sales")
.groupBy("Customer")
.sum(days: _*)

result.show()

打印(几乎)您想要的内容:

+--------+--------+--------+--------+--------+--------+--------+
|Customer|sum(Tue)|sum(Thu)|sum(Sun)|sum(Fri)|sum(Mon)|sum(Wed)|
+--------+--------+--------+--------+--------+--------+--------+
| 1| 10| 15| 0| 2| 12| 0|
| 2| 0| 4| 10| 3| 0| 5|
+--------+--------+--------+--------+--------+--------+--------+

如果需要,我会留给您重命名/重新排序列。

关于scala - 如何在 Spark 1.5 中转置数据帧(没有可用的枢轴运算符)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36215755/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com