gpt4 book ai didi

architecture - 具有7个服务器的Hadoop架构-平衡连续性和性能

转载 作者:行者123 更新时间:2023-12-02 21:55:09 25 4
gpt4 key购买 nike

我们正在将AWS MapReduce从我们自己的机架上移至Hadoop集群。最初,我们将有7台专用于Hadoop / HDFS的服务器。

我们存储在HDFS上的数据将是关键任务,并且我不希望我们有备份选项(至少不是在使用的第1天),因此,我想尽我所能保证连续性。

我还想充分利用我们的计算能力,因为我们可以轻松地使用两倍于硬件的工作。

  • 我应该在这7个服务器集群中为每个框指定什么用?特别是哪些过程应该重叠(例如,备份namenode应该与任务节点共享一个盒子,并且类似?)
  • 最佳答案

    最后我们要做的是:

    使用LXC(这里的LXC是关键组件),我们在两台服务器上分别为作业管理器,名称节点和其他各种管理部件创建了容器,因为名称节点和作业管理器是最耗费资源的,这两个服务器(每个组件都在其自己的单独LXC容器中)。我们在这两个服务器之间分配了其余组件。

    然后,我们向这两个“管理”服务器中的每一个部署了一个“精简”数据节点和任务跟踪器。我们使用LXC的控制组将CPU和磁盘的优先级赋予管理组件,而以数据/任务节点为代价。我们使用Cloudera Manager的简化配置来轻松地将减少数量的任务插槽部署到这两个盒子上的数据/任务节点。

    这样,我们就充分利用了硬件,其余的盒子都是专用的“正常”数据/任务节点。

    当然,我们有一个备份名称节点与作业跟踪器在同一物理主机上运行,​​而主名称节点位于第二个物理设备上,这为我们提供了备份。我们还在3台工作计算机上的LXC容器中安装了一个使用空间NTFS客户端,并让namenode在此处写出配置的副本作为进一步的备份。

    我们确实将namenode松动到一次硬件故障(磁盘),并且能够从辅助节点成功恢复它。

    关于architecture - 具有7个服务器的Hadoop架构-平衡连续性和性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15376459/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com