gpt4 book ai didi

具有无盘计算节点的 hadoop (HDFS)

转载 作者:可可西里 更新时间:2023-11-01 15:33:35 27 4
gpt4 key购买 nike

我有一个小型集群,其中一个节点具有 RAID 存储,以及几个功能强大的无盘计算节点,这些节点通过 PXE 启动。所有节点都通过 InfiniBand 连接(以及用于引导的 1G 以太网)。

我需要在这个集群上部署 Hadoop。

请建议最佳配置据我所知,默认配置意味着所有计算节点都有自己的小存储,但在我的情况下(如果我有 NFS 共享)它会通过网络制作太多副本。我找到了有关将 Hadoop 与 Lustre 结合使用的资源,但我不明白如何配置它

最佳答案

您所描述的可能是可行的,但您没有使用 Hadoop 功能,而是试图找到解决它们的方法。

  1. 移动计算比移动数据便宜 - 数据局部性 是 Hadoop 的基石之一,这就是为什么集群中的所有工作节点也是存储节点。 Hadoop 尝试在处理 block 所在的节点上进行尽可能多的计算,以避免网络拥塞。

    https://developer.yahoo.com/hadoop/tutorial/module1.html

    The Hadoop framework then schedules these processes in proximity to the location of data/records using knowledge from the distributed file system. Since files are spread across the distributed file system as chunks, each compute process running on a node operates on a subset of the data. Which data operated on by a node is chosen based on its locality to the node: most data is read from the local disk straight into the CPU, alleviating strain on network bandwidth and preventing unnecessary network transfers. This strategy of moving computation to the data, instead of moving the data to the computation allows Hadoop to achieve high data locality which in turn results in high performance.

  2. MapReduce 往往会生成大量临时文件,因此每个节点 15 GB 的存储空间根本不够。

关于具有无盘计算节点的 hadoop (HDFS),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28970433/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com