gpt4 book ai didi

hadoop - 处理大文件时Pig脚本中的错误

转载 作者:行者123 更新时间:2023-12-02 21:03:11 25 4
gpt4 key购买 nike

我正在尝试根据文件中的键列将一个大文件(15GB)拆分为多个小文件。如果我在几千行上运行它,则相同的代码可以很好地工作。

我的代码如下。

REGISTER /home/auto/ssachi/piggybank-0.16.0.jar;
input_dt = LOAD '/user/ssachi/sywr_sls_ln_ofr_dtl/sywr_sls_ln_ofr_dtl.txt-10' USING PigStorage(',');
STORE input_dt into '/user/rahire/sywr_sls_ln_ofr_dtl_split' USING org.apache.pig.piggybank.storage.MultiStorage('/user/rahire/sywr_sls_ln_ofr_dtl_split','4','gz',',');

错误如下
ERROR org.apache.pig.tools.grunt.GruntParser - ERROR 6015: During execution, encountered a Hadoop error.

Hadoop版本2.6.0-cdh5.8.2
PigVersion 0.12.0-cdh5.8.2

我尝试设置以下参数(假设这是内存问题),但没有帮助。
SET mapreduce.map.memory.mb 16000;
SET mapreduce.map.java.opts 14400;

设置以上参数后,出现以下错误。
Container exited with a non-zero exit code 1

org.apache.pig.backend.executionengine.ExecException: ERROR 2997: Unable to recreate exception from backed error: AttemptID:attempt_1486048646102_2613_m_000066_3 Info:Exception from container-launch.

最佳答案

您的“关键列”的基数是1000?

如果它在1000中,则由于OOME导致Mappers死亡,您将得到错误。

一定要了解每个Mapper现在维护1000个文件指针和每个filePointer的关联缓冲区足以占据整个堆。

您能否提供您的映射器日志以进行进一步调查

MapReduce中的多输出,在内部被调用。
http://bytepadding.com/big-data/map-reduce/multipleoutputs-in-map-reduce/

关于hadoop - 处理大文件时Pig脚本中的错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42637640/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com