gpt4 book ai didi

hadoop - 将 _temporary 文件夹的内容移动到最终位置

转载 作者:可可西里 更新时间:2023-11-01 16:28:30 25 4
gpt4 key购买 nike

Spark 将正在进行的处理数据存储在 _temporary 文件夹中。作业完成后,数据将移动到其最终目的地。但是,当有数万个分区时,将文件从一个地方移动到另一个地方需要相当长的时间。问题:如何加快这个 Action ?在裸机 Hadoop 上以 yarn-cluster 模式运行应用程序,而不是在 AWS(没有 S3、EMR 等)上。

更新:我的工作需要大约 1 小时才能在 25000 个分区中生成 2.3T 数据,还需要一个小时才能将数据移出 _temporary。

最佳答案

您可以通过在任务提交期间使用选项 spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version 2 进行移动来加快速度。但是,这意味着如果任务在提交过程中失败,则结果是“未定义的”。您正在用速度换取安全。

关于hadoop - 将 _temporary 文件夹的内容移动到最终位置,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49118110/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com