gpt4 book ai didi

hadoop - 运行具有高可用性的 Hadoop 集群的最低系统要求

转载 作者:可可西里 更新时间:2023-11-01 14:22:26 26 4
gpt4 key购买 nike

据我了解,对于 hadoop 中的高可用性,我们需要一个名称节点和一个备用节点,网络共享存储空间(在两个名称节点之间共享),至少 2 个数据节点用于运行 hadoop 集群。

  1. 我们可以在运行名称节点的同一台机器上运行数据节点服务器吗?

  2. Yarn 可以在运行 NameNode 或 dataNode 服务器的机器上运行吗?

如果我缺少生产 hadoop 环境所需的任何其他服务,请提出建议。

名称节点的系统要求应该是什么,因为它只处理元数据(I/O 密集型或 CPU 密集型)。我们处理的数据主要是 I/O 密集型。

最佳答案

对于 Hadoop HA - 你至少需要两台独立的机器来运行 Namenode 和 Namenode HA。所以理论上你可以拥有至少 2 台机器的 Hadoop HA 集群。但这在实际中用处不大。

回答你的另一个问题:1、可以在运行Namenode服务的机器上运行DataNode服务。这是 PoC 集群中的一般情况,您的集群较小(大约 3-7 个节点)注意:作为最佳实践的一部分,您应该在生产中为 Namenode 等主服务使用专用机器。

  1. 是的,您可以在运行 Datanode 或 Namenode 或两者的机器上运行 YARN 服务。事实上,在单节点集群上,所有服务都在一台机器上运行。基本上,所有这些服务,如 Namenode、Datanode、YARN 都是 Java 进程,因此它们在单独的 JVM 上运行。您可以根据需要在同一节点或不同节点上托管所有这些进程。

Namenode 主要需要 RAM,这取决于您的集群数据大小和集群中拥有或预期拥有的 block 数。通常,您的查询(CPU 或 I/O 密集型)不会影响 namenode 系统要求。

更多服务详情请引用:

http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.html

关于hadoop - 运行具有高可用性的 Hadoop 集群的最低系统要求,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32756172/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com