gpt4 book ai didi

hadoop - HiveQL 查询性能优化

转载 作者:可可西里 更新时间:2023-11-01 14:47:34 28 4
gpt4 key购买 nike

随着Hive查询中JOINS数量的增加,查询分多个阶段运行,执行时间非常长。如何提高查询性能。有什么参数需要设置吗?

最佳答案

所有大表首先应该按连接顺序放在最后一个: 选择小。,大。 从小 JOIN large ON small.joinkey=large.joinkey;您可以使用提示告诉 optimazier 哪个表最大:

SELECT/*+ STREAMTABLE(large) */ small.*, large.* FROM large
JOIN small ON small.joinkey=large.joinkey;

其次,小表可以在通过 Map-side join 连接时缓存在内存中:

set hive.auto.convert.join = true;
SELECT a.*, b.* FROM a
JOIN b ON a.joinkey=b.joinkey;

map-join 表的大小设置为:

set hive.mapjoin.smalltable.filesize = 1000000; 

希望对大家有所帮助。 GL!

关于hadoop - HiveQL 查询性能优化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15674326/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com