gpt4 book ai didi

hadoop - hadoop fs -put 和 hadoop distcp 之间的区别

转载 作者:可可西里 更新时间:2023-11-01 14:16:19 25 4
gpt4 key购买 nike

我们将在我们的数据湖项目中进行摄取阶段,在我的 Hadoop 开发人员经验中,我主要使用 hadoop fs -put。那么hadoop distcp有什么区别和使用上的区别呢?

最佳答案

Distcp 是一种用于将数据从一个集群复制到另一个集群的特殊工具。基本上你通常从一个 hdfs 复制到 hdfs,但不是本地文件系统。另一个非常重要的事情是,该过程作为一个 mapreduce 作业完成,具有 0 个 reduce 任务,这使得它由于操作的分布而更快。它将文件和目录列表扩展为映射任务的输入,每个映射任务将复制源列表中指定文件的一个分区

hdfs put - 将数据从本地系统复制到 hdfs。为此在幕后使用 hdfs 客户端,并通过访问 NameNode 和 Datanodes 按顺序完成所有工作。不创建 MapReduce 作业来处理数据。

关于hadoop - hadoop fs -put 和 hadoop distcp 之间的区别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43113525/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com