gpt4 book ai didi

hadoop - 是否有 Hive on Hue (CDH 5.9.3) 的配置设置限制可以使用的容器数量?

转载 作者:可可西里 更新时间:2023-11-01 14:51:26 28 4
gpt4 key购买 nike

这是我们小组中的一个普遍问题,我们的 Hive 查询经常扩展以消耗我们 CDH 集群上的大部分可用 YARN 执行程序和内存。虽然潜在的问题在于我们表中的分区数量和连接的复杂性,但我们不能随意重建这些表。我们可以通过配置 spark.dynamicAllocation.maxExecutors 和 spark.executor.memory 来控制 Spark 中的资源消耗。我们是否可以在 Hue 上使用类似的东西,以便 Hue 能够与集群上的其他作业“很好地配合”?

最佳答案

是的,您可以更好地管理从 Hue 启动的 Hive 查询中使用的 Hadoop 集群计算资源的数量。

为此,您需要首先配置 YARN 调度程序队列;对于 Cloudera 的 CDH 发行版,这些称为动态资源池

您可以在 CDH Documentation 中了解有关此主题的更多信息

一旦您为 Hue 启动的半交互式 Hive 查询配置了一个池,您可以通过为 mapred 的值传递资源池名称来指示 Hive 到这个池进行单个查询.job.queue.name 键。

假设我们的队列名为 interactive.hive_queue。我们将在 HiveQL 查询语句之前添加此 SET 语句:

SET mapred.job.queue.name=interactive.hive_queue;

您可能需要更新 Hue 配置 hue.ini允许您的 Hue 用户传递此配置值

引用:HiveQL Language Manual

您还应该能够为 Hue 创建一个已保存的 Hive 配置,以便始终将此 YARN 队列用于您的 Hue 启动的 Hive 查询。

引用:hiveserver2.py

(假设您正在为 Hive 查询使用 mapreduce (mr2) 执行引擎)

如果您想更改所有 Hive 查询的队列,可以通过更改 Hive Server2 配置 hive-site.xml 来实现。这种变化看起来像:

<property>
<name>mapreduce.job.queuename</name>
<value>interactive.hive_queue</value>
</property>

关于hadoop - 是否有 Hive on Hue (CDH 5.9.3) 的配置设置限制可以使用的容器数量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46716557/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com