gpt4 book ai didi

hadoop - Hive(Bigdata)-分桶和索引的区别

转载 作者:可可西里 更新时间:2023-11-01 14:49:20 25 4
gpt4 key购买 nike

Hive 中表的分桶和索引之间的主要区别是什么?



  • 索引

The goal of Hive indexing is to improve the speed of query lookup on certain columns of a table. Without an index, queries with predicates like 'WHERE tab1.col1 = 10' load the entire table or partition and process all the rows. But if an index exists for col1, then only a portion of the file needs to be loaded and processed.

当表变得非常大时,索引变得更加重要,而且您现在无疑知道,Hive 在大表上茁壮成长。

  • 分桶

它通常用于连接操作,因为您可以通过按特定“键”或“id”存储记录来优化连接。这样,当你想做join操作时,具有相同'key'的记录将在同一个桶中,然后join操作会更快。您可以将其视为一种将数据集分解为更易于管理的部分的技术。这link为您提供了 5 个高效 Hive 查询的技巧,其中之一是关于 Bucketing 的。

关于hadoop - Hive(Bigdata)-分桶和索引的区别,我们在Stack Overflow上找到一个类似的问题:

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号