gpt4 book ai didi

hadoop - 我们可以在配置单元中创建一个同时具有分区和分桶的表吗?

转载 作者:可可西里 更新时间:2023-11-01 16:24:55 25 4
gpt4 key购买 nike

我们可以在 hive 中创建一个同时具有分区和分桶的表吗?

最佳答案

是的。
分区是将数据分成 HDFS 上的多个目录。每个目录都是一个分区。例如,如果您的表定义类似于

CREATE TABLE user_info_bucketed(user_id BIGINT, firstname STRING, lastname STRING)
COMMENT 'A bucketed copy of user_info'
PARTITIONED BY(ds STRING)
CLUSTERED BY(user_id) INTO 256 BUCKETS;

然后你将在 hdfs 上拥有像这样的目录

/user/hive/warehouse/user_info_bucketed/ds=2011-01-11/
/user/hive/warehouse/user_info_bucketed/ds=2011-01-12/
/user/hive/warehouse/user_info_bucketed/ds=2011-01-13/

Bucketing 是关于你的数据如何在一个分区内分布的,所以你会在 hdfs 上有文件,比如

/user/hive/warehouse/user_info_bucketed/ds=2011-01-11/000000_0
/user/hive/warehouse/user_info_bucketed/ds=2011-01-11/000000_1
...
/user/hive/warehouse/user_info_bucketed/ds=2011-01-11/000000_255
/user/hive/warehouse/user_info_bucketed/ds=2011-01-12/000000_0
/user/hive/warehouse/user_info_bucketed/ds=2011-01-12/000000_1
...
/user/hive/warehouse/user_info_bucketed/ds=2011-01-12/000000_255

引用: https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL+BucketedTables http://www.hadooptpoint.com/hive-buckets-optimization-techniques/

关于hadoop - 我们可以在配置单元中创建一个同时具有分区和分桶的表吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38559204/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com