gpt4 book ai didi

hadoop - Hadoop机器配置

转载 作者:行者123 更新时间:2023-12-02 21:28:00 28 4
gpt4 key购买 nike

我想分析7TB的数据并将输出存储在数据库中,例如HBase。
我的每月增量为500GB,但是要分析500GB数据,则无需再次处理7TB数据。

目前,我正在考虑将Hadoop与Hive结合使用来分析数据,并且
带有MapReducer和HBase的Hadoop,用于处理和存储数据。

目前,我有5台具有以下配置的机器:

数据节点服务器配置:2-2.5 GHz六核CPU,48 GB RAM,1 TB -7200 RPM(X 8)

数据节点数:5

名称节点服务器:企业级服务器配置(X 2)(辅助服务器另加1个)

我想知道上述过程是否足以满足要求,以及是否有人有任何建议。

最佳答案

调整
Hortonworks提供了一个公式来计算您的尺码

((初始大小+同比增长+中间数据大小)*代表数量* 1.2)/比较比率

假设默认变量

repl_count == 3(默认)
comp_ration = 3-4(默认)
中间数据大小=原始数据大小的30%-50%.-
1,2因子-临时空间

因此,对于您的第一年,您将需要16.9 TB。您有8TB * 5 ==40。所以空间不是主题。

性能
5个数据节点。在单个驱动器上读取1 TB平均需要2.5个小时(来源Hadoop-权威指南)。一个驱动器600 GB将需要1.5个小时。估计您已复制,因此可以并行使用所有5个节点,这意味着使用5个节点读取整个数据最多需要18分钟。

您可能需要增加一些时间,具体取决于您对查询进行的操作以及如何配置数据处理。

内存消耗

48 GB并不多。许多数据节点的默认RAM从128 GB开始。如果仅将集群用于处理,则可能会解决。还取决于一点,如何配置群集以及用于处理的技术。如果您具有并发访问权限,则很可能会遇到堆错误。

总结一下:

这很大程度上取决于您要对群集执行的操作以及查询的复杂程度。还请记住,并发访问可能会造成问题。

如果对600 GB数据的处理时间为18分钟(作为基线-实际值取决于未知因素回答该问题的许多因素)就足够了,而您没有并发访问权限,那就去吧。

关于hadoop - Hadoop机器配置,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35222487/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com