gpt4 book ai didi

hadoop - 纱容器尺寸和 Tez 容器管理

转载 作者:可可西里 更新时间:2023-11-01 15:52:53 25 4
gpt4 key购买 nike

我有一个集群,其中包含大约 15 TB 的 yarn 资源。我正在尝试通过 Hive 提交查询。我在 yarn 上的默认容器大小是 4GB。为该查询分配的映射器数量约为 1000。我的 yarn 队列中总共分配了 10% 的资源。因此在单个时间点只会分配 430 个 Container。每个映射器总共分配了 1 个容器。 HDFS 上的 block 大小为 128 MB。我如何优化查询。

最佳答案

您已经提到了内存设置,这听起来不错,因此您接下来优化查询的步骤(因为您没有提供)是

  • Additionally tune the Tez containers
  • 使您的 HDFS 输入文件的大小接近 HDFS block 的大小。
  • 如果您的队列已满,请使用其他队列。 (SET tez.queue.name)
  • 根据您的 WHERE 子句,将您的 Hive 表分区到最有意义的列上。
  • 确保数据存储为带 ZLib 压缩的 ORC。
  • 尽可能使用 LLAP

关于hadoop - 纱容器尺寸和 Tez 容器管理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47124434/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com