gpt4 book ai didi

performance - 配置单元分析查询花费大量时间

转载 作者:可可西里 更新时间:2023-11-01 15:45:18 25 4
gpt4 key购买 nike

为了加快对大型表的 ETL 查询,我们在晚上对这些表和日期列运行许多 analyze 查询。但是这些针对列的analyze 查询会占用大量内存和时间。我们正在使用 tez。有什么方法可以像一些设置命令一样优化analyze查询。

最佳答案

如果您使用插入覆盖加载表,则可以通过在插入覆盖查询期间设置 hive.stats.autogather=true 自动收集统计信息。

如果表是分区的并且分区是增量加载的,那么你可以只分析最后的分区。

ANALYZE TABLE [db_name.]tablename [PARTITION(partcol1[=val1], partcol2[=val2], ...)] 

请在此处查看示例:https://cwiki.apache.org/confluence/display/Hive/StatsDev

对于 ORC 文件,可以指定 hive.stats.gather.num.threads 以提高并行度。

在此处查看完整的统计设置列表:https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties#ConfigurationProperties-Statistics

关于performance - 配置单元分析查询花费大量时间,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55043680/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com