apache-spark - 具有自定义格式的 Apache Hudi 分区-6ren

apache-spark - 具有自定义格式的 Apache Hudi 分区

转载作者：行者123 更新时间：2023-12-04 10:53:23

我目前正在使用 spark(scala) 在 Apache Hudi 上进行 POC。

我在使用分区保存数据帧时遇到问题。

Hudi 使用 path/valueOfPartitionCol1/valueOfPartitionCol2.... 保存数据框....使用属性 PARTITIONPATH_FIELD_OPT_KEY。

但我的要求是 path/COL1=value/COL2=value.... 类似于 spark 使用 partitionBy() 对数据进行分区的方式。

任何尝试过使用 Hudi 进行自定义分区的人都可以帮助我吗？

最佳答案

这有帮助吗？设置配置 HIVE_STYLE_PARTITIONING_OPT_KEY=true 如下:

  batchDF.write.format("org.apache.hudi")

          .option(HIVE_STYLE_PARTITIONING_OPT_KEY, true)

          .mode(SaveMode.Append)
          .save(bathPath)

关于apache-spark - 具有自定义格式的 Apache Hudi 分区，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59356613/

文章推荐： r - View() 键盘快捷键

文章推荐： r - 将双变量绘制为 R 中的多个因子

文章推荐： modelica - Dymola 经常崩溃

apache-spark - 无法使用 Apache Hudi 编写非分区表
我正在使用 Apache Hudi 将非分区表写入 AWS S3 并将其同步到配置单元。这是正在使用的 DataSourceWriteOptions。 val hudiOptions: Map[Str
apache-spark - 具有自定义格式的 Apache Hudi 分区
我目前正在使用 spark(scala) 在 Apache Hudi 上进行 POC。我在使用分区保存数据帧时遇到问题。 Hudi 使用 path/valueOfPartitionCol1/valu
apache-spark - 运行 Apache Hudi deltastreamer 时出错
我试图在 AWS EMR 上运行 Hudi deltastreamer。按照此博客中的步骤操作。 https://cwiki.apache.org/confluence/pages/viewrecen
apache-spark - Spark-Hudi : Save as table to Glue/Hive catalog
场景: 使用 saveAsTable(data frame writer) 存储 Hudi Spark 数据帧方法，使得 Hudi 支持表 org.apache.hudi.hadoop.HoodieP
amazon-web-services - 您可以运行具有多个 EMR 集群的交易数据湖(Hudi、Delta Lake)吗？
我正在研究几种“事务性数据湖”技术，例如 Apache Hudi、Delta Lake、AWS Lake Formation Governed Tables。除了后者，我看不出这些在多集群环境中如何

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

apache-spark - 具有自定义格式的 Apache Hudi 分区