gpt4 book ai didi

configuration - Hadoop节点&核心分配策略

转载 作者:可可西里 更新时间:2023-11-01 15:19:06 26 4
gpt4 key购买 nike

我有一个有 50 个节点的集群,每个节点有 8 个计算核心。如果我的工作计划使用 200 个 reducer ,为了获得更好的性能,什么是好的计算资源分配策略?

我的意思是,是为每个节点分配 50 个节点和 4 个核心,还是为每个节点分配 25 个节点和 8 个核心?在什么情况下哪个更好?

最佳答案

要回答您的问题,这取决于几件事。在我看来,50 个节点总体上会更好:

  • 如果您要从磁盘读取大量数据,50 个节点会更好,因为您将从磁盘上并行加载 2 倍。
  • 如果您要计算和处理大量数据,50 个节点会更好,因为核心数量不会与处理成 1:1 比例(即,2 倍的核心数并不完全是 2 倍的速度...... . 同时,更多处理器的比例确实接近 1:1)。
  • Hadoop 必须在这些节点上运行诸如 TaskTracker 和 DataNode 进程之类的东西,以及操作系统层的东西。那些“占用”核心。

但是,如果您主要关心的是网络,那么拥有 50 个节点的一些缺点如下:

  • 50 个节点可能分布在两个机架上。他们是在一个平面网络上还是你必须处理 iter-rack 通信?您必须相应地设置 Hadoop;
  • 支持 50 个节点的网络交换机比支持 25 个节点的网络交换机要贵;
  • map 和 reduce 之间的网络 shuffle 会导致 50 节点集群的交换机工作量增加一些,但仍会通过网络传递大约相同数量的数据。

即使存在这些网络问题,我认为您还是会发现 50 个节点更好,因为节点的值(value)不仅仅是内核的数量。您必须主要考虑您有多少磁盘。

关于configuration - Hadoop节点&核心分配策略,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7708589/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com