gpt4 book ai didi

hadoop - 在Hive的存储桶表中增量加载数据?

转载 作者:行者123 更新时间:2023-12-02 20:09:06 24 4
gpt4 key购买 nike

我还在学习 hive 。为了理解 hive 中的“桶”的概念,我没有提到几本书。我了解到的是,如果我们执行存储桶,它将创建与存储桶数量完全相同的文件数。

就我而言,我每天将数据增量加载到存储桶表中五次。
例如:如果我有16个存储桶的表,那么每次加载时,它都会基于哈希/样本创建16个文件。因此,总共进行5次运行,将创建80个文件。

My Question is , if i have table with 16 buckets defined on it with 80 files 
in HDFS, will it going to give bucketing benefits ?

最佳答案

您是否为每个增量加载创建不同的表?

您正在使用哪个Hadoop发行版?

我正在使用相同的策略,每个增量加载都会生成(并覆盖)我定义的相同数量的存储桶。

当我们拥有权限问题时,便会重复文件,这是因为配置单元表是由配置单元用户创建的,而填充是由其他配置单元(hdfs)进行的。

在/ user / hive / warehouse目录中查找表目录的所有者/权限,然后在子目录中查找相同的目录(所有者/权限)

关于hadoop - 在Hive的存储桶表中增量加载数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18981060/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com