gpt4 book ai didi

hadoop - 确定 Hive 表中的桶数

转载 作者:可可西里 更新时间:2023-11-01 14:41:18 25 4
gpt4 key购买 nike

我对要使用的桶数有疑问。我了解分桶的用途以及它如何对 SMB 连接和采样产生积极影响。但是,如果数据量呈指数级增长怎么办?

假设查看初始数据量,我决定使用 4 个桶并按天分区。当我插入到这个表中时,它会在某个时候需要 4 个 reducer (插入查询中的最后一个作业)。这可以。但是假设某些分区的数据量突然激增。它仍然需要 4 个 reducer ,这不是最优的,并且它也可能因 OOM 而失败。

一开始我可以决定使用更多的存储桶,但这会开始创建太多的小文件,直到我达到高容量为止,因为每个存储桶都会进入一个文件。

一个bucket值是否可以有多个文件?

感谢您的意见。

K

最佳答案

关注“您的某些分区的数据量突然激增”,您可以考虑使用 list bucketing ,它允许您将低容量的分桶列值放入一个目录中。

关于hadoop - 确定 Hive 表中的桶数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23530443/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com