gpt4 book ai didi

Hadoop 集群要求软件/硬件

转载 作者:可可西里 更新时间:2023-11-01 14:54:50 27 4
gpt4 key购买 nike

您好,我正在尝试设置 hadoop 环境。简而言之,我要解决的问题涉及数十亿个大小为几 MB 的 XML 文件,使用 HIVE 从中提取相关信息,并对这些信息进行一些分析工作。我知道这在 hadoop 世界中是一个微不足道的问题,但如果 Hadoop 解决方案对我来说效果很好,那么我将要处理的文件的大小和数量将以几何级数形式增加。

我通过引用各种书籍(如“Hadoop - 权威指南”、“Hadoop 实战”)进行了研究。 yahoo 和 hortonworks 提供的文档等资源。我无法弄清楚建立 hadoop 环境的硬件/软件规范。到目前为止,在我提到的资源中,我找到了一些标准的解决方案,比如

  1. Namenode/JobTracker(2 个 1Gb/s 以太网、16GB 内存、4 个 CPU、100GB 磁盘)
  2. Datanode(2 个 1Gb/s 以太网,8 GB 内存,4 个 CPU,多个磁盘总量
    超过 500 GB)

但如果有人能提供一些建议,那就太好了。谢谢

最佳答案

首先,我建议您考虑:您需要什么更多的处理能力 + 一些存储或相反,并从这个角度选择硬件。你的情况听起来比存储更多的是处理。
我会为 hadoop 指定一些不同的标准硬件
NameNode:镜像中的高质量磁盘,16 GB HDD。
数据节点:16-24 GB RAM、双四核或双六核 CPU、4 至 6 个 1-2-3 SATA TB 驱动器。

我也会考虑 10 GBit 选项。我认为如果它不增加超过 15% 的集群价格 - 这是有道理的。 15% 来自粗略估计,数据从映射器传输到缩减器大约需要 15% 的工作时间。
在你的情况下,我更愿意牺牲磁盘大小来省钱,而不是 CPU/内存/驱动器数量。

关于Hadoop 集群要求软件/硬件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15204286/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com