gpt4 book ai didi

hadoop - 将单个更改为集群hadoop安装,以保留持久数据

转载 作者:行者123 更新时间:2023-12-02 20:42:11 24 4
gpt4 key购买 nike

我将在生产环境中进行Hadoop POC。 POC包括:
1.收到很多(现实生活中的)事件
2.累积它们以具有足够大小的一组事件
3.将事件集保留在单个文件HDFS中

如果POC成功,则我想安装一个集群环境,但是我需要将数据保留在单个集群安装(POC)中。

然后,问题是:将已经在HDFS单个集群中持久保存的数据迁移到实际集群HDFS环境有多困难?

在此先感谢(对不起我的英语不好)
问候

最佳答案

您不需要迁移任何东西。

如果您正在以Pseudo分布式模式运行Hadoop,那么您所需要做的就是添加指向您现有namenode的datanode,就是这样!

我想指出

Persist the set of events in a single file HDFS



我不确定要制作“单个文件”,但是我建议您进行定期检查。如果流失败了怎么办?您如何捕捉掉落的事件? Spark,Flume,Kafka Connect,NiFi等可以使您做到这一点。

而且,如果您要做的只是流式传输事件,并希望将其存储在可变的时间段内,那么Kafka就是针对该用例而构建的。您不一定需要Hadoop。将事件推送到Kafka,在有意义的情况下使用它们,例如搜索引擎或数据库(Hadoop不是数据库)

关于hadoop - 将单个更改为集群hadoop安装,以保留持久数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49412786/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com