gpt4 book ai didi

hadoop - 极大 MAX_FILESIZE 的缺点

转载 作者:可可西里 更新时间:2023-11-01 14:23:03 26 4
gpt4 key购买 nike

我们的一个 HBase 表已经扩展到 1000 多个区域。我们通过将表的 MAX_FILESIZE 属性从默认的 256MB 更改为 10GB 来减少这个。现在我们减少到大约 70 个区域。

我想知道此更改的副作用是什么?也就是说,增加一个表的MAX_FILESIZE有什么坏处呢?如果我们将 MAX_FILESIZE 增加到 100GB 甚至 1TB 会发生什么?

我最初怀疑压缩会大大减慢,但我想确定一下。大家怎么看?

谢谢!

最佳答案

如果您使用 M/R 处理数据,一个重要的问题是您可以从集群中获得的并行度。正如 Praveen 指出的那样,HBase book这样说:“另一个问题是区域数量对 mapreduce 作业的影响。每个 RS 保留 5 个区域对于作业来说太少了,而 1000 个区域会生成太多 map 。”

他们对区域数量的经验法则是基于对您的集群有多大的假设——如果您实际上有 1000 个 map 槽可用,那么 1000 个区域就可以了。我的经验法则是区域数量是 map 位置数量的 2-3 倍。以他们提出的所有其他观点为准。

关于hadoop - 极大 MAX_FILESIZE 的缺点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20618582/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com