gpt4 book ai didi

apache-spark - 保存到 Parquet 子分区

转载 作者:行者123 更新时间:2023-12-03 07:21:48 26 4
gpt4 key购买 nike

我有一个基于两个分区的目录结构,如下所示:

  People
> surname=Doe
> name=John
> name=Joe
> surname=White
> name=Josh
> name=Julien

我正在读取仅包含所有 Doe 信息的 parquet 文件,因此我直接指定 surname=Doe 作为我的 DataFrame 的输出目录。现在的问题是我尝试在写入时使用 partitionBy("name") 添加基于名称的分区。

df.write.partitionBy("name").parquet(outputDir)

(outputDir 包含 Doe 目录的路径)

这会导致如下错误:

  Caused by: java.lang.AssertionError: assertion failed: Conflicting partition column names detected:
Partition column name list #0: surname, name
Partition column name list #1: surname

有什么解决办法吗?发生这种情况的原因可能是在姓氏目录中创建了 _SUCCESS 文件,当我删除 _SUCCESS_metadata 文件 Spark 时,该文件向 Spark 提供了错误的提示能够毫无问题地读取所有内容。

最佳答案

我已经设法通过解决方法解决了这个问题 - 我认为这不是一个好主意,但我禁用了创建额外的 _SUCCESS 和 _metadata 文件:

sc.hadoopConfiguration.set("mapreduce.fileoutputcommitter.marksuccessfuljobs", "false")
sc.hadoopConfiguration.set("parquet.enable.summary-metadata", "false")

这样 Spark 就不会得到任何关于分区结构的愚蠢想法。

另一个选项是保存到“正确的”目录 - 按姓氏和名字进行人员和分区,但您必须记住,唯一明智的选项是将 SaveMode 设置为 Append 并手动删除您希望覆盖的目录(这确实容易出错):

df.write.mode(SaveMode.Append).partitionBy("surname","name").parquet("/People")

在这种情况下不要使用owerwrite SaveMode - 这将删除所有姓氏导演。

关于apache-spark - 保存到 Parquet 子分区,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32842205/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com