gpt4 book ai didi

hadoop - Cloudera hadoop数据存储到特定节点

转载 作者:可可西里 更新时间:2023-11-01 16:36:46 24 4
gpt4 key购买 nike

我有 10 个 amazon ec2 节点集群用于每天的数据处理,我想将所有 10 个节点用于每天的批处理(仅处理 2 小时),一旦生成报告数据点,我想关闭 5节点,并在一天的其余时间仅使 5 个节点处于事件状态以进行成本优化。

我的复制因子是 3。

在某些情况下,所有 3 个数据 block (实际和复制 block )都存储在我正在关闭的那 5 个节点中。因此我无法正确读取数据。

我能否在 cloudera 管理器中进行一些设置以将特定数据库或特定表持久保存到给定节点中,这样我在只有 5 个事件节点时读取数据时不会有任何问题。

或任何其他建议将不胜感激。

最佳答案

您可以使用机架感知(虚拟地)将您的集群分成 2 个“机架”,并将您定期关闭的 5 个节点放在一个单独的“机架”上。复制策略将要求 NN 将副本放置在单独的机架上(如果已配置)。同样,我在这里指的是虚拟意义上的机架。这应该能让你得到你想要的。

关于hadoop - Cloudera hadoop数据存储到特定节点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50703294/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com