gpt4 book ai didi

hadoop - 如何将数据从生产集群传输到数据实验室集群进行实时数据分析?

转载 作者:可可西里 更新时间:2023-11-01 16:28:34 26 4
gpt4 key购买 nike

我们正在使用 mapr 并且我们想要部署一个新的 (datalab) 集群,我想问一下将数据从我们的生产集群传输到 datalab 集群的最佳方法?

我们在两个集群之间使用了镜像,但是有了这个选项,我们的数据实验室中只有读取数据,那么我们如何实时传输数据呢?

最佳答案

您可以使用以下选项:

  • Distcp。但同样支持某些协议(protocol)。 Referhere

  • 如果您正在使用hbase,那么您可以使用快照功能。 Refer here

  • 或者,您可以使用数据库实用程序来创建转储。对于例如,如果您使用的是 mysql,则使用 mysqldump -u [username]-p
    [pass][dbname]| gzip > file.sql.gz
    然后你可以将它移动到其他服务器scp username@<ip>:/<source>/file.sql.gz <destination>/

  • 或者,您可以使用 Apache falcon,它使用 oozie 工作流来复制集群之间的数据。您可以设置一次性工作流程并执行它

关于hadoop - 如何将数据从生产集群传输到数据实验室集群进行实时数据分析?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48188602/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com