gpt4 book ai didi

runtime - Hive 查找查询的预期运行时间

转载 作者:行者123 更新时间:2023-12-04 04:50:49 27 4
gpt4 key购买 nike

我想在 Hive 中找到查询的预期运行时间。使用 EXPLAIN 给出执行计划。有没有办法找到预期的时间?

我需要 Hive 相当于 SQL 查询 EXPLAIN COSTS 。

最佳答案

目前没有 OOTB 功能可以促进这一点。实现这一目标的一种方法是从历史中学习。根据您之前运行的类似数据和查询收集模式,并尝试推断出一些见解。您可能会找到类似 Starfish 的工具过程中有帮助。

我不建议您根据数据的子集来决定任何事情,因为在小数据集和实际数据集上运行查询是非常不同的。这很好地测试了功能,但不适用于任何类型的成本近似。这背后的原因是这个过程涉及很多因素,比如系统资源(磁盘、CPU 插槽、N/W 等)、系统配置、其他正在运行的作业等。您可能会发现在小数据集上运行流畅,但是随着数据规模的增加,所有这些因素开始发挥重要作用。即使很小的配置参数也可能发挥重要作用。(您可能已经注意到,有时 Hive 查询最初运行得很快,但逐渐开始变慢)。此外,Hive 查询的执行比简单的 MR 作业要复杂得多。

看到这个 JIRA ,获得一些想法,他们正在谈论为 Hive 中的联接开发基于成本的查询优化。您可能还会找到 this有帮助。

关于runtime - Hive 查找查询的预期运行时间,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17465529/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com