gpt4 book ai didi

apache-spark - Spark 写入 S3 SaveMode.Append

转载 作者:行者123 更新时间:2023-12-01 01:56:09 25 4
gpt4 key购买 nike

使用预先存在的数据集

s3://data/id=1/file.parquet
s3://data/id=2/file.parquet

和传入的数据帧
/data/id=3/

如果传入的数据是用 SaveMode.Append 写入的
df.write.partitionBy("id").mode(SaveMode.Append).parquet("s3://data/")
如果预先存在的数据集中的任何数据将被复制到创建的临时目录中,该怎么办?

最佳答案

我的 Spark 应用程序中有一个非常相似的用例,但我不确定您的问题到底是什么,所以我将尝试进行一般性解释。

在写入 id=3 的数据时,您建议现有数据的方式将保持不变,数据将附加到 s3://data/id=3 下的 s3://data/。

使用 partitionBy 时,路径是基本路径,因此如果您使用覆盖模式,现有文件 (s3://data/id=1/,s3://data/id=2/) 将被删除。

由于这是附加的,因此没有冲突。

您询问了临时目录..如果您的意思是 _temporary 目录 Hadoop 输出提交者在提交文件之前用于写入文件,那么在写入数据时只有与上次写入相关的文件会在那里,一旦提交,它们将被删除。

关于apache-spark - Spark 写入 S3 SaveMode.Append,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40294152/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com