gpt4 book ai didi

hadoop - 在 Hadoop 中,按日期对表进行分区是个坏主意吗?

转载 作者:可可西里 更新时间:2023-11-01 15:51:22 25 4
gpt4 key购买 nike

我正在阅读罗伯托在以下帖子中给出的答案。

What is the difference between partitioning and bucketing a table in Hive ?

似乎按日期对数据进行分区(如果我的数据每天都来)不是一个好主意,因为它最终会在 HDFS 中创建许多目录和文件,并且会降低查询的整体性能?

如果我有业务需求,需要更频繁地使用日期来查询数据,我该怎么办?

最佳答案

使用日期作为分区绝对没有错。事实上,它是最常用的分区值之一。每年 365 个额外的目录不会对集群的性能产生任何影响。

至于改变文件的数量:如果你每天都在摄取数据,那么无论你是否按日期分区,文件的数量都不会改变。唯一的区别是文件存储在哪个目录中。鉴于您将经常根据日期进行查询,您绝对应该根据日期进行分区。

罗伯托的观点是有道理的,但他说的是您拥有的分区比您考虑使用的多得多的情况。根据 Hortonworks employee :

current Hive versions with RDBMS metastore backend should be able to handle 10 000+ partitions.

因此您应该按日期分区,但在您的积压工作中添加一张 Jira 票证以在 300 年后重新评估它。

关于hadoop - 在 Hadoop 中,按日期对表进行分区是个坏主意吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49024254/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com