gpt4 book ai didi

hadoop - distcp和s3distcp之间的临时存储使用

转载 作者:行者123 更新时间:2023-12-02 19:06:51 25 4
gpt4 key购买 nike

我阅读了Amazon's S3DistCp的文档-它说,

"During a copy operation, S3DistCp stages a temporary copy of the output in HDFS on the cluster. There must be sufficient free space in HDFS to stage the data, otherwise the copy operation fails. In addition, if S3DistCp fails, it does not clean the temporary HDFS directory, therefore you must manually purge the temporary files. For example, if you copy 500 GB of data from HDFS to S3, S3DistCp copies the entire 500 GB into a temporary directory in HDFS, then uploads the data to Amazon S3 from the temporary directory".



这并不是无关紧要的,尤其是在具有大型HDFS群集的情况下。有人知道常规的Hadoop DistCp是否具有将文件暂存到临时文件夹中的相同行为吗?

最佳答案

Distcp不使用临时文件夹,而使用distcp Map Map作为内部/内部群集中的文件副本。同样用于HDFS到S3。如果AFAIK distcp由于某种原因失败,则不会使整个文件副本失败。

如果总共需要复制500 GB的文件,并且已经复制了200 GB的文件并且distcp失败,则S3中将有200 GB的数据。当您尝试重新运行distcp作业时,它将跳过已经存在的文件。

有关命令的更多信息,请参见distcp指南here

关于hadoop - distcp和s3distcp之间的临时存储使用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28400968/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com