gpt4 book ai didi

Hadoop全分布式模式

转载 作者:可可西里 更新时间:2023-11-01 16:34:47 26 4
gpt4 key购买 nike

我是 Hadoop 的新手。我设法开发了一个简单的 Map/Reduce 应用程序,它在“伪分布式模式”下运行良好。我想在“完全分布式模式”下测试它。我对此没有什么疑问;

  1. 处理 1-10GB 的文件需要多少台机器(节点)(最低和推荐)?
  2. 硬件要求是什么(主要是我想知道内核数、内存空间和磁盘空间)?

最佳答案

我会查看 Cloudera 的硬件建议:http://www.cloudera.com/blog/2010/03/clouderas-support-team-shares-some-basic-hardware-recommendations/

该页面的一个片段

针对不同工作负载的各种硬件配置,包括我们最初的“基本”建议:

  • 光处理配置(1U/machine): 两个四核 CPU,8GB内存和 4 个磁盘驱动器(1TB 或2TB)。注意 CPU 密集型工作比如自然语言处理涉及将大型模型加载到RAM 在处理数据之前应该配置 2GB RAM/内核而不是 1GB 内存/内核。
  • 平衡计算配置(1U/机器):两个四核 CPU、16 至 24GB 内存和 4 个磁盘驱动器(1TB 或 2TB),使用主板 Controller 直接连接。这些通常以双胞胎的形式提供,在一个 2U 机柜中有两个主板和 8 个驱动器。
  • 存储重载配置(2U/机器):两个四核 CPU、16 至 24GB 内存和 12 个磁盘驱动器(1TB 或 2TB)。这类机器的功耗在空闲状态下约为 200W,在事件时可高达 350W。
  • 计算密集型配置(2U/机器):两个四核 CPU、48-72GB 内存和 8 个磁盘驱动器(1TB 或 2TB)。当需要大型内存模型和大量引用数据缓存的组合时,通常会使用这些。

关于Hadoop全分布式模式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6231600/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com