gpt4 book ai didi

apache-spark - 具有自定义格式的 Apache Hudi 分区

转载 作者:行者123 更新时间:2023-12-04 10:53:23 24 4
gpt4 key购买 nike

我目前正在使用 spark(scala) 在 Apache Hudi 上进行 POC。

我在使用分区保存数据帧时遇到问题。

Hudi 使用 path/valueOfPartitionCol1/valueOfPartitionCol2.... 保存数据框....使用属性 PARTITIONPATH_FIELD_OPT_KEY

但我的要求是 path/COL1=value/COL2=value.... 类似于 spark 使用 partitionBy() 对数据进行分区的方式。

任何尝试过使用 Hudi 进行自定义分区的人都可以帮助我吗?

最佳答案

这有帮助吗?设置配置 HIVE_STYLE_PARTITIONING_OPT_KEY=true 如下:

  batchDF.write.format("org.apache.hudi")

.option(HIVE_STYLE_PARTITIONING_OPT_KEY, true)

.mode(SaveMode.Append)
.save(bathPath)

关于apache-spark - 具有自定义格式的 Apache Hudi 分区,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59356613/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com