gpt4 book ai didi

hadoop - GC 开销限制超出 Pig 中杀死的容器

转载 作者:可可西里 更新时间:2023-11-01 14:48:43 24 4
gpt4 key购买 nike

我正在使用 YARN 在 hadoop 2 集群的开发环境中执行 13 个表映射连接。所有表作为 LEFT OUTER 与主表连接。共有 15 个连接连接。

由于大多数小表都小于 200-300 MB,所以我使用 USING 'replicated' 来执行脚本代码。它执行得相当快,但卡在 95-99% 以上。当我检查应用程序 url 时, 2 reducers 失败抛出错误为“GC 开销限制超出了由 ApplicationMaster 杀死的容器。根据请求杀死了容器。退出代码为 143 容器以非零退出代码 143 退出。

Other reducer failed with error Timed out after 300 secs Container killed by the ApplicationMaster.Container killed on request.Exit code is 143..

最佳答案

您可以直接从您的 pig 中调整这些值。

在您的应用程序 URL 中,检查作业属性,并查看的当前值

mapreduce.map.memory.mb   
mapreduce.reduce.memory.mb
mapreduce.map.java.opts
mapreduce.reduce.java.opts
mapreduce.task.io.sort.mb

您可以通过每次将属性值提高 512 来开始调整。但是,不要将 mapreduce.task.io.sort.mb 的值提高到超过 756。

要直接从 pig 更改值,在 pig 的顶部,在任何代码之前,添加如下属性:

set mapreduce.map.memory.mb    3072;
set mapreduce.reduce.memory.mb 3072;
set mapreduce.map.java.opts -Xmx2764m;
set mapreduce.reduce.java.opts -Xmx2764m;
set mapreduce.task.io.sort.mb 756;

以上是适用于与您的数据集大小相似的数据集的属性。

关于hadoop - GC 开销限制超出 Pig 中杀死的容器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39202375/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com