hadoop - 纱容器尺寸和 Tez 容器管理-6ren

hadoop - 纱容器尺寸和 Tez 容器管理

转载作者：可可西里更新时间：2023-11-01 15:52:53

25

4

我有一个集群，其中包含大约 15 TB 的 yarn 资源。我正在尝试通过 Hive 提交查询。我在 yarn 上的默认容器大小是 4GB。为该查询分配的映射器数量约为 1000。我的 yarn 队列中总共分配了 10% 的资源。因此在单个时间点只会分配 430 个 Container。每个映射器总共分配了 1 个容器。 HDFS 上的 block 大小为 128 MB。我如何优化查询。

最佳答案

您已经提到了内存设置，这听起来不错，因此您接下来优化查询的步骤(因为您没有提供)是

Additionally tune the Tez containers
使您的 HDFS 输入文件的大小接近 HDFS block 的大小。
如果您的队列已满，请使用其他队列。 (SET tez.queue.name)
根据您的 WHERE 子句，将您的 Hive 表分区到最有意义的列上。
确保数据存储为带 ZLib 压缩的 ORC。
尽可能使用 LLAP

关于hadoop - 纱容器尺寸和 Tez 容器管理，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47124434/

25

4

0

文章推荐： hadoop - Hadoop 2.x 上的应用程序(作业)列表为空

文章推荐： hadoop - 使用 SSH 从本地访问我的虚拟机时遇到问题

文章推荐： c++ - 类构造函数上 boost::shared_ptr 的默认值

文章推荐： hadoop - HIVe - 创建表为 - 从现有表创建 Parquet 表时出错

hadoop - 纱:我应该为3个节点配置什么？
这是我的设置: 节点1-资源管理器 node1，node2，node3-nodemanager 我应在node1，node2和node3的yarn-site.xml中指定什么？我不知道我应该使用哪个端
hadoop - 纱:从属DataNode尽管工作正常但仍未工作
我在Ubuntu 12.04 LTS上安装了两个节点的Haoop 2.7.1。经sbin/start-dfs.sh && sbin/start-yarn.sh确认，所有恶魔都在jps之后启动并运行。
hadoop - 纱:运行yarn-env.sh给出错误
我正在尝试运行YARN，但运行yarn-config.sh会给他以下错误。我该如何解决？它与我使用的 shell 类型有关吗？ sh libexec/yarn-config.sh libexec/ya
hadoop - Spark History用户界面不起作用| Ambari |纱
我有一个使用Ambari的hadoop群集设置，该主机具有在主机上运行的HDFS，YARN，spark之类的服务。当我在群集模式下作为主 yarn 运行样本spark pi时，该应用程序将成功执行，
apache-spark - Spark 纱:问的容器太多
我收到以下错误: 2019-02-01 12:01:39 INFO YarnAllocator:54 - Driver requested a total number of 2007 execut
Hadoop 纱 : Failed to launch container
在运行 Hive 查询时，我的 Hadoop 2.3.0 集群中的数据节点出现内存不足错误。我应该查看哪些设置以防止节点管理器出现故障？ 2014-04-29 12:03:33,505 WARN or
Hadoop 纱 : Get a list of available queues
有没有办法从命令行获取所有可用 YARN 队列的列表，而无需解析 capacity-scheduler.xml 文件？我使用的是 Hadoop 2.7.2 版最佳答案您可以使用 hadoop 内
hadoop - Storm 纱 : Application container fails to launch
我正在运行一个 Storm (三叉戟)拓扑，它从 kafka 读取 avro 并将记录写入 hbase。拓扑在 Localcluster 模式下按预期运行，但在使用 Stormsubmitter 时我
Hadoop 纱 : How to limit dynamic self allocation of resources with Spark?
在我们在 Yarn 下运行的 Hadoop 集群中，我们遇到了一个问题，即一些“更聪明”的人能够通过在 pySpark Jupyter 笔记本中配置 Spark 作业来消耗大得多的资源 block ，
Hadoop 纱 2.2.0 "Text File Busy Errors"
我在 CentOS 6.4 ec2 AMI 上运行单节点 Hadoop 2.2.0 YARN 集群，当我提交作业时出现以下错误，似乎是在启动容器时发生的。有人可以告诉我如何解决这个问题吗？提前致谢。
api - 纱 API : Getting Yarn Aggregated Logs for application by API
我使用 YARN java API 而不是在终端中提交 Hadoop 应用程序。我正在寻找一种在应用程序完成后通过 Yarn API 获取 yarn 聚合日志的方法。当然，这可以通过简单的命令来完成
hadoop - 纱 : Could not find or load main class org. apache.hadoop.mapreduce.v2.app.MRAppMaster
尝试在 Fedora 上执行任何 M/R2 作业时出现此异常。 Hadoop 2.7.3 和 2.8.0 有同样的问题。这包括 Hive。 [hadoop@master hadoop]$ yarn c

首页

博学

6Ren·AI

商城

hadoop - 纱容器尺寸和 Tez 容器管理