gpt4 book ai didi

hadoop - Hive 分区/分桶表的实际结构是什么?

转载 作者:可可西里 更新时间:2023-11-01 16:39:46 28 4
gpt4 key购买 nike

我无法在虚拟框中配置多数据节点集群

不考虑复制因子取1。

假设我有一个 10GB 的文件和一个具有 2 个不同值的列城市,并且我有 2 个数据节点。

想按城市划分数据。
我还将在每个分区的 2 个桶中存储邮政编码。我的问题是每个分区是否会出现在每个数据节点中,或者每个节点将只有不同的分区。

我的理解是每个节点都有所有分区,但在某些节点中,由于数据文件中的值不足,分区可能不存在。每个数据节点中的每个分区都将按邮政编码分桶,并且某些分桶可能没有值。

最佳答案

分区是使用目录实现的。
目录包含文件。可能是一个,也可能是很多。

桶是使用文件实现的。
一个桶可能与一个文件相关,也可能与多个文件相关。

文件是由 block 构建的。可能是一个,可能是很多。
一个 block 驻留在一个节点内。不同的 block 可能驻留在同一节点或不同的节点上。

底线-
没有任何东西可以将分区/桶绑定(bind)到特定节点。

关于hadoop - Hive 分区/分桶表的实际结构是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43698165/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com