gpt4 book ai didi

hadoop - Hive - Hive 如何在内部执行多个 BIG 表连接查询(在 MapReduce 中)以及如何对其进行优化?

转载 作者:可可西里 更新时间:2023-11-01 15:22:07 29 4
gpt4 key购买 nike

假设我有 4-5 个所有大表(TB 中的数据)并且我想将它们连接到配置单元中。 Hive 内部(在 MapReduce 中)如何以最佳方式执行连接。

最佳答案

可以使用 Bucketized-Join 或 Sort-Merge-Join 以最佳方式连接许多大表,请参阅 HIVE Join strategies .所有表都需要进行相应的结构化(相同的存储桶,或以相同的方式排序和存储)。如果您的表的组织方式不同(存储相同),那么剩下的唯一选择就是随机连接,这将复制整个表(慢)。

关于hadoop - Hive - Hive 如何在内部执行多个 BIG 表连接查询(在 MapReduce 中)以及如何对其进行优化?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51054934/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com