gpt4 book ai didi

hadoop - 假设不赞成使用FALCON,则在Hadoop群集之间使用增量复制(使用Spark)

转载 作者:行者123 更新时间:2023-12-02 20:23:28 24 4
gpt4 key购买 nike

假设不赞成使用FALCON,并且distcp无法对不在单独的“nice slices”中的数据进行增量复制,那么如何在两个Hadoop集群之间以一种类似的方式复制一份副本?

Spark可以同时附加到2个群集吗?从来没有必要尝试这个。

我可以看到跨 Realm HDFS方面列出的许多问题。

最佳答案

综上所述:

  • 您可以将Cloudera Replication Manager用于HDFS:
  • 用于HDP,CDP和CDH环境。这是基于文件的复制选项。
  • CDH的
  • 您可以针对给定的(一组)表执行此操作。
  • 对于KUDU,没有这样的选项。
  • 您可以通过提供完整的hdfs:// namenode:port / path地址并“自动滚动”逻辑,将Spark App与两个集群一起使用。实际上,这适用于HDFS / Hive和KUDU Storage Manager。
  • 关于hadoop - 假设不赞成使用FALCON,则在Hadoop群集之间使用增量复制(使用Spark),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59116408/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com