gpt4 book ai didi

apache-spark - Spark 避免在 S3 中创建 _temporary 目录

转载 作者:行者123 更新时间:2023-12-04 04:08:51 26 4
gpt4 key购买 nike

我需要将数据帧上传到 S3 存储桶,但我对存储桶没有删除权限。有什么办法可以避免在 S3 上创建这个 _temporary 目录?也许在 spark 中以任何方式使用本地 FS 作为 _temporary 目录,然后将最终生成的文件上传到 S3 存储桶或完全避免 _temporary 目录。

提前致谢。

最佳答案

不。

数据写入_temporary/jobAttemptID/taskAttemptID/然后在任务/作业提交期间重命名为 dest 目录。

您可以做的是为您的作业写入 hdfs,然后使用 distcp 进行复制。这有很多优点,尤其是“使用一致的文件系统,您就不会冒因 s3n 或 s3a 连接器丢失数据的风险”

2019-07-11 更新 . Apache Hadoop S3A 提交者让您无需临时文件夹或重命名即可提交工作,即使在不一致的 S3 存储中也能提供性能和正确的结果。这就是您可以安全地提交工作的方式。 Amazon EMR 对自己的工作有自己的重新实现,尽管(目前没有 Spark 期望的完整的失败语义)

关于apache-spark - Spark 避免在 S3 中创建 _temporary 目录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46665299/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com