gpt4 book ai didi

Hadoop 用 Distcp 替换 cp

转载 作者:可可西里 更新时间:2023-11-01 16:38:07 25 4
gpt4 key购买 nike

该过程正在将文件从一个 hdfs 位置复制到 SAME 集群中的另一个位置。这工作正常,但 hadoop -cp 需要时间。对于同一个集群,它可以替换为 distcp 吗?或者是否有更好的解决方案来提高性能。

最佳答案

根据文档,distcp 还可以在集群内以及集群之间复制数据:

https://hadoop.apache.org/docs/current/hadoop-distcp/DistCp.html

DistCp Version 2 (distributed copy) is a tool used for large inter/intra-cluster copying. (...) The most common invocation of DistCp is an inter-cluster copy:

bash$ hadoop distcp hdfs://nn1:8020/foo/bar hdfs://nn2:8020/bar/foo

This will expand the namespace under /foo/bar on nn1 into a temporary file, partition its contents among a set of map tasks, and start a copy on each NodeManager from nn1 to nn2.

关于Hadoop 用 Distcp 替换 cp,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47647717/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com