gpt4 book ai didi

hadoop - 在配置单元中创建存储桶文件时

转载 作者:行者123 更新时间:2023-12-02 21:03:58 25 4
gpt4 key购买 nike

在存储桶中,在配置单元的哪个阶段创建存储桶文件?

create table emp( id int, name string, country string)
clustered by( country)
INTO 2 BUCKETS
row format delimited
fields terminated by ','
stored as textfile ;

如果我有20个存储桶且只有4行,将创建多少个文件?

最佳答案

创建表时会创建存储桶。它们将作为独立文件放在表目录中的Hive仓库中。在存储桶表中插入新记录后,Hive将计算存储桶列的值的哈希值,并获取存储桶文件的指针。对于您的20个存储桶,开始时将有20个空文件,但是您4条记录的确切位置取决于存储桶列值的哈希函数结果:

**record.country.value => hashfunction(record.country.value) = bucketNumber**

您可以按照此 article中“存储桶表”部分中介绍的步骤进行复制

关于hadoop - 在配置单元中创建存储桶文件时,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42502290/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com