gpt4 book ai didi

hadoop - 在 HDFS 中遇到大量文件时,实际理想的 NameNode 内存大小是多少

转载 作者:可可西里 更新时间:2023-11-01 14:22:00 25 4
gpt4 key购买 nike

我的 HDFS 集群中将有 2 亿个文件,我们知道每个文件将在 NameNode 内存中占用 150 个字节,加上 3 个 block ,因此在 NN 中总共有 600 个字节。所以我将我的 NN 内存设置为 250GB 以很好地处理 2 亿个文件。我的问题是250GB这么大的内存,会不会对GC造成太大的压力?为NN创建250GB内存是否可行。

Can someone just say something, why no body answer??

最佳答案

理想的名称节点内存大小约为数据元使用的总空间 + 操作系统 + 守护进程的大小以及处理相关数据的 20-30% 空间。

您还应该考虑数据进入集群的速率。如果您有 1TB/天的数据传入,那么您必须考虑更大的内存驱动器,否则您很快就会耗尽内存。

始终建议在任何时间至少留有 20% 的可用内存。这将有助于避免名称节点进入完整的垃圾收集。正如 Marco 之前指定的那样,您可以引用 NameNode Garbage Collection Configuration: Best Practices and Rationale用于 GC 配置。

在您的情况下,如果您不打算获取大量数据并且不打算对现有数据进行大量操作,那么 256 看起来不错。

引用:How to Plan Capacity for Hadoop Cluster?

另请参阅:Select the Right Hardware for Your New Hadoop Cluster

关于hadoop - 在 HDFS 中遇到大量文件时,实际理想的 NameNode 内存大小是多少,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37511278/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com