gpt4 book ai didi

apache-spark - Spark _temporary 创建原因

转载 作者:行者123 更新时间:2023-12-04 04:37:01 34 4
gpt4 key购买 nike

为什么spark在将结果保存到文件系统时,将结果文件上传到_temporary目录,然后将它们移动到输出文件夹而不是直接上传到输出文件夹?

最佳答案

在使用文件系统时,两阶段过程是确保最终结果一致性的最简单方法。

您必须记住,每个执行器线程都独立于其他线程写入其结果集,并且写入可以在不同的时间执行,甚至可以重用相同的资源集。在写入时 Spark 无法确定是否所有写入都会成功。

  • 在失败的情况下,可以通过删除临时目录来回滚更改。
  • 如果成功,可以通过移动临时目录来提交更改。

  • 此模型的另一个好处是明确区分正在进行的写入和最终输出。因此,它可以轻松地与简单的工作流管理工具集成,而无需单独的状态存储或其他同步机制。

    该模型简单、可靠,并且适用于为其设计的文件系统。不幸的是,它在不支持移动的对象存储中表现不佳。

    关于apache-spark - Spark _temporary 创建原因,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46882683/

    34 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com