gpt4 book ai didi

hadoop - Hive Bucketing - 如何为特定的 bucket 运行 hive 查询

转载 作者:可可西里 更新时间:2023-11-01 15:12:36 26 4
gpt4 key购买 nike

我有一个配置单元查询,它读取 5 个大表并将记录输出到下一个进程。所有这些表都在 proc_dt 上分区并在 user_id 上分桶(5 个桶)。联接在 user_id 上完成,过滤在 proc_dt 上完成。

如何针对所有表的特定存储桶运行此查询?对于前。我只想对所有表的第一个存储桶运行查询。

这样做的原因是,一旦我完成了对第一个存储桶的查询,我就可以将输出数据发送到下一个进程。在下一个进程运行时,我可以完成对下一个存储桶的查询等等。这样下一个过程就不会等待整个查询完成。

如果我再多一列用户 ID 为 Mod5,那么我就会进行分区。但是没有这样的列,我无法添加它。

谁能给我一些解决方案。任何建议都会非常有帮助。

最佳答案

我得到了答案。我们可以在连接查询中提及桶号。查看以下链接了解更多详情。

https://www.qubole.com/blog/big-data/5-tips-for-efficient-hive-queries/

关于hadoop - Hive Bucketing - 如何为特定的 bucket 运行 hive 查询,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33844416/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com