gpt4 book ai didi

java - 在 S3 上覆盖数据帧时 Spark 抛出 FileNotFoundException

转载 作者:行者123 更新时间:2023-12-01 18:04:59 25 4
gpt4 key购买 nike

我已将 Parquet 文件分区存储在 S3 上同一个存储桶的两个位置上:

path1: s3n://bucket/a/
path2: s3n://bucket/b/

数据具有相同的结构。我想从第一个位置读取文件并使用 Spark sql 将它们聚合到第二个位置。这是代码片段:

val df1 = sql.read.parquet(path1)
val df2 = sql.read.parquet(path2)

val df = df1.unionAll(df2)

df.write.mode(SaveMode.Overwrite).parquet(path1)

当我运行这段代码时,出现以下异常:

java.io.FileNotFoundException: No such file or directory 
s3n://a/part-r-00001-file.gz.parquet

我使用的是 Spark 1.6.1 和 scala 2.11。

最佳答案

我没有找到解决此问题的直接解决方案,因此我使用了解决方法:

val df2 = sql.read.parquet(path2)
df2.write.mode(SaveMode.Append).parquet(path1)

val df1 = sql.read.parquet(path1)
df1.write.mode(SaveMode.Overwrite).parquet(path1)

关于java - 在 S3 上覆盖数据帧时 Spark 抛出 FileNotFoundException,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37254681/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com