gpt4 book ai didi

Hadoop - Cloudera MRV1 集群规划 - 理想集群的最小节点数是多少,它看起来如何?

转载 作者:可可西里 更新时间:2023-11-01 16:32:58 27 4
gpt4 key购买 nike

我手动安装了一个具有以下配置的三节点集群:

Master/Slave Node 0 - NameNode, Secondary NameNode, JobTracker, HMaster, 
DataNode, TaskTracker, HRegionServer,
Hive MetaStore, Database for Hive/Sqoop, HiveServer2, HCatalog,
Oozie Server,
Zookeeper,
Oozie-client, Hive-client, pig-client, M/R client tools, Sqoop

Slave Node 1 - DataNode, TaskTracker, HRegionServer,
Oozie-client, Hive-client, pig-client, M/R client tools, Sqoop

Slave Node 2 - DataNode, TaskTracker, HRegionServer,
Oozie-client, Hive-client, pig-client, M/R client tools, Sqoop

我希望有一个更现实的集群。我正在考虑使用 12-14 个节点来实现以下目的:

Master 0: Name Node
Master 1: Secondary NameNode
Master 2: JobTracker
Master 3: HMaster

Slave 0: DataNode, TraskTracker, HRegionServer
Slave 1: DataNode, TraskTracker, HRegionServer
Slave 2: DataNode, TraskTracker, HRegionServer

Hive/Catalog Node: Hive MetaStore,
Sqoop MetaStore
MySQL/PostgreSQL Database for Hive/Sqoop,
HCatalog,
HiveServer (Or is it better to break HiveServer into its own node?)
Oozie-Server (Or is it better to break Oozie-server into its own node?)

Zookeeper Ensemble: 3 Nodes with Zookeper installed

客户端节点:Oozie-client、Hive-client、pig-client、M/R客户端工具、Sqoop

或者,以图表格式:

enter image description here

我知道 Cloudera 希望您拥有:

A separate Master Node for each Master Process (NameNode, Secondary NameNode, JobTracker, HMaster)
3 Slave nodes with DataNode, TaskTracker, and HRegionServer
3 Zookeeper Nodes
"The database, the HiveServer process, and the metastore service can all
be on the same host, but running the HiveServer process on a separate host
provides better availability and scalability."

我已经为我的 Hive 数据库和我的 Oozie 数据库使用了相同的 MySQL 实例,并且认为可以再做一次。我还认为 HiveServer 和 Oozie-server 可以与 Hive/Oozie MetaStore 以及 HCatalog 在同一主机上运行。

现在在我的三节点集群上,我已经在每个节点上安装了所有客户端软件,因此我可以从任何节点执行 M/R、Hive、Oozie、HBase、Pig 等客户端调用。这些客户端工具是否应该在与主节点和从节点分开的节点上执行?说到这一点,我一直将我所有的 java/python/pig 代码放在我的三节点集群中的主节点上。这些数据是否也最好放在单独的客户端节点上?

我走的路对吗?制作最小但理想的集群的正确方法是什么?

最佳答案

您的设置在很大程度上看起来很标准。不幸的是,没有一个“理想”的集群,这完全取决于您的工作量。如果您需要大量计算,可能最好在 MapReduce 组件上做更多的工作。如果您只计划将 HBase 用于低延迟访问,那么您可能希望完全放弃 MapReduce。

我会对您的设置提出一些一般性建议。

  1. 您可以将 RegionServers 与 Zookeeper 节点放在一起,只需为 Zookeeper 节点提供自己的磁盘即可。

  2. 请小心将 TaskTracker 和 RegionServer 放在一起,尤其是当您的大部分 HBase 使用是扫描繁重时。这两个进程都非常占用 CPU 和内存,并可能导致资源争用问题。 This page有关于在这种情况下该怎么做的更多详细信息

就代码组织和客户端设置而言,这真的是您的决定。我个人更喜欢设置一些 gateway nodes它具有与 hive、hbase 等通信并从那里运行作业的所有配置,但同样没有完美的答案。

关于Hadoop - Cloudera MRV1 集群规划 - 理想集群的最小节点数是多少,它看起来如何?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20959818/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com