gpt4 book ai didi

hadoop - 如何将一个Hadoop集群中的数据复制到另一个Hadoop集群中?

转载 作者:可可西里 更新时间:2023-11-01 16:23:21 26 4
gpt4 key购买 nike

我是 Apache Hadoop 的新手。我们有一个 Hadoop 集群 [1],里面装满了一些数据。还有另一个 Hadoop 集群 [2] 没有数据。将数据从 [1] 复制到 [2] 的最简单且最受欢迎的方法是什么?

最佳答案

您可以使用 DistCp(分布式副本),它是一种允许您在集群之间或从/向不同的文件系统(如 S3 或 FTP 服务器)复制数据的工具。

https://hadoop.apache.org/docs/r1.2.1/distcp2.html

必须指定从外部集群复制数据的绝对路径:hdfs://OtherClusterNN:port/path

此工具启动一个 MapReduce 作业,从 Hadoop 文件系统库中可用的任何类型的源并行复制数据,如 HDFS、FTP、S3、AZURE(最新版本等)

要从不同版本的 hadoop 复制数据,而不是使用 HDFS 协议(protocol),您必须使用其中之一的 HftpFileSystem。

关于hadoop - 如何将一个Hadoop集群中的数据复制到另一个Hadoop集群中?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36974358/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com