gpt4 book ai didi

apache-spark - 防止DataFrame.partitionBy()从架构中删除分区列

转载 作者:行者123 更新时间:2023-12-03 20:27:10 24 4
gpt4 key购买 nike

我按如下方式对DataFrame进行分区:

df.write.partitionBy("type", "category").parquet(config.outpath)


该代码给出了预期的结果(即按类型和类别划分的数据)。但是,“类型”和“类别”列已从数据/架构中删除。有没有办法防止这种行为?

最佳答案

我可以想到一个变通办法,虽然相当la脚,但是可以解决。

import spark.implicits._

val duplicated = df.withColumn("_type", $"type").withColumn("_category", $"category")
duplicated.write.partitionBy("_type", "_category").parquet(config.outpath)


我正在回答这个问题,希望有人会比我有更好的答案或解释(如果OP找到了更好的解决方案),因为我有同样的问题。

关于apache-spark - 防止DataFrame.partitionBy()从架构中删除分区列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36164914/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com