gpt4 book ai didi

hadoop - 1 个大 Hadoop 和 Hbase 集群 vs 1 个 Hadoop 集群 + 1 个 Hbase 集群

转载 作者:可可西里 更新时间:2023-11-01 15:15:41 28 4
gpt4 key购买 nike

Hadoop会跑很多jobs,从Hbase读取数据,写数据到数据库。假设我有 100 个节点,那么有两种方法可以构建我的 Hadoop/Hbase集群:

  1. 100节点hadoop&hbase集群(1个big Hadoop&Hbase)

  2. 分离数据库(Hbase),那么我们有两个集群:60节点Hadoop集群和40节点Hbase集群(1个Hadoop + 1个Hbase)

哪个选项更好?为什么?

谢谢。

最佳答案

我会说选项 2 更好。
我的推理 - 尽管您的要求主要是运行大量 mapreduce 作业以从 hbase 读取和写入数据,但有很多hbase 的幕后工作,以优化您提交的作业的读写。 Hmaster 必须经常进行负载平衡,除非您的区域键是完美平衡的。表热点可以在那里。对于 Regionserver,会有 major-compactions,如果你的 jvm 技能不是那么好,那么偶尔会发生 Stop the World 垃圾收集。所有区域可能同时开始 split 。您的区域服务器可能会宕机等等。
争论点是——调优hbase需要时间。如果您只有一个专用于 hbase 的节点,那么出现上述问题的可能性更高。拥有多个节点总是更好,因此所有的性能压力并不只适用于一个节点。顺便说一下,hbase 的得分点是它天生的分布式特性,你不会想要杀死它。
总而言之,你可以实验一下hadoop和hbase的节点比例——可能是70:30,也可能是80:20。里程可能会根据您的应用要求而有所不同。

关于hadoop - 1 个大 Hadoop 和 Hbase 集群 vs 1 个 Hadoop 集群 + 1 个 Hbase 集群,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23164464/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com