gpt4 book ai didi

join - 非 equi 中的分桶加入 hive

转载 作者:行者123 更新时间:2023-12-01 06:49:27 26 4
gpt4 key购买 nike

目前 hive 确实支持 non equi join。
但是随着交叉积变得非常大,我想知道有哪些选项可以处理大事实(2570 亿行,37 tb)和相对较小(8.7 gb)的维度表连接。

在 equi join 的情况下,我可以通过在 join column/columns 上进行适当的分桶使其轻松工作。 (使用相同数量的 SMBM 存储桶实际上转换为映射连接)。但是,如果我们认为当它是非 equi join 时这不会有任何优势,因为这些值将存在于其他桶中,实际上会触发 shuffle,即减少阶段。

如果有人有任何想法来克服这个问题,请提出建议......

最佳答案

如果维度表适合内存,您可以创建自定义用户定义函数 (UDF),如 here 所述,并在内存中执行 inequi-join。

关于join - 非 equi 中的分桶加入 hive,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56642883/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com