gpt4 book ai didi

高内存机器上的Hadoop单节点配置

转载 作者:可可西里 更新时间:2023-11-01 15:18:15 25 4
gpt4 key购买 nike

我有一个 Apache Hadoop 1.1.1 的单节点实例,其默认参数值(参见例如 [1] [2] )在具有大量 RAM 和非常有限的可用磁盘空间大小的机器上。然后,我注意到这个 Hadoop 实例在映射任务期间浪费了大量磁盘空间。为了利用高 RAM 容量并减少磁盘空间使用,我应该注意哪些配置参数?

最佳答案

您可以使用多个 mapred.* 参数来压缩映射输出,这将大大减少存储映射器输出所需的磁盘空间量。参见 this question一些好的指示。

请注意,不同的压缩编解码器会有不同的问题(即 GZip 比 LZO 需要更多的 CPU,但你必须自己安装 LZO)。 This page对 Hadoop 中的压缩问题进行了很好的讨论,尽管它有点过时了。

您需要的 RAM 量取决于您在 map-reduce 作业中所做的事情,尽管您可以在以下方面增加堆大小:

conf/mapred-site.xml mapred.map.child.java.opts     

参见 cluster setup有关这方面的更多详细信息。

关于高内存机器上的Hadoop单节点配置,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13771458/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com