hadoop - 大型 MapReduce 作业不断死亡-6ren

hadoop - 大型 MapReduce 作业不断死亡

转载作者：可可西里更新时间：2023-11-01 15:24:29

25

4

我正在尝试在 ~10TB HBase 表上运行 MapReduce 作业，该表具有 TableMapper 的子类。它基本上重写了整个表。输出配置如下:

    FileOutputFormat.setOutputPath(job, tablePath);

    TableMapReduceUtil.initTableMapperJob(
            inputTableName,
            tblScanner,
            ResaltMapper.class,
            ImmutableBytesWritable.class, //outputKeyClass,
            KeyValue.class, // outputValueClass,
            job);

    HFileOutputFormat.configureIncrementalLoad(job, hTable);

我现在已经尝试运行这个作业好几次了，每次都在几个小时后死掉。我在应用程序日志中看到以下消息:

    {"timeStamp":"18/02/17 14:48:26,375","level":"WARN","category":"output.FileOutputCommitter","message":"Could not delete hdfs://trinity/data/trinity/hfiles/TABLE/_temporary/1/_temporary/attempt_1518830631967_0004_m_000063_0 "}
    {"timeStamp":"18/02/17 14:48:26,376","level":"WARN","category":"output.FileOutputCommitter","message":"Could not delete hdfs://trinity/data/trinity/hfiles/TABLE/_temporary/1/_temporary/attempt_1518830631967_0004_m_000101_0 "}
    {"timeStamp":"18/02/17 14:48:26,377","level":"WARN","category":"output.FileOutputCommitter","message":"Could not delete hdfs://trinity/data/trinity/hfiles/TABLE/_temporary/1/_temporary/attempt_1518830631967_0004_m_000099_0 "}
    {"timeStamp":"18/02/17 14:48:26,377","level":"WARN","category":"output.FileOutputCommitter","message":"Could not delete hdfs://trinity/data/trinity/hfiles/TABLE/_temporary/1/_temporary/attempt_1518830631967_0004_m_000112_0 "}
    {"timeStamp":"18/02/17 14:48:26,381","level":"WARN","category":"hdfs.DFSClient","message":"Slow ReadProcessor read fields took 152920ms (threshold=30000ms); ack: seqno: 1 reply: 0 reply: 0 reply: 0 downstreamAckTimeNanos: 20402922, targets: [DatanodeInfoWithStorage[10.40.177.236:50010,DS-4d0bd79b-eaf3-4ec0-93f1-203b74bdf87b,DISK], DatanodeInfoWithStorage[10.40.176.118:50010,DS-8506c9ff-206d-48c5-b476-04b8dc396a1c,DISK], DatanodeInfoWithStorage[10.40.186.216:50010,DS-36dece52-50c7-47b0-a202-2ee595fabbcc,DISK]] "}
    log4j:WARN No appenders could be found for logger (org.apache.hadoop.hdfs.DFSClient).
    log4j:WARN Please initialize the log4j system properly.
    log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info.

我在申请报告中也看到了这条信息

NodeHealthReport    1/1 local-dirs are bad: /mnt/yarn/local; 1/1 log-dirs are bad: /mnt/yarn/logs

我不确定这些消息是否与失败有关。集群上有足够的可用空间，它有 4 个 d2.8xlarge 实例(4 台机器上有 96 个 2TB HDD)。但是，特定的硬盘驱动器已满。例如，在当前的工作中，一个只有约 9GB 可用空间，即使其他硬盘几乎有一半是空的:

$ df -h
Filesystem                    Size  Used Avail Use% Mounted on
/dev/xvda1                     99G  5.0G   90G   6% /
none                          4.0K     0  4.0K   0% /sys/fs/cgroup
udev                          121G   12K  121G   1% /dev
tmpfs                          25G  672K   25G   1% /run
none                          5.0M     0  5.0M   0% /run/lock
none                          121G   32K  121G   1% /run/shm
none                          100M     0  100M   0% /run/user
/dev/mapper/ephemeral_luks0   1.8T  1.7T  9.0G 100% /mnt
/dev/mapper/ephemeral_luks1   1.8T  974G  767G  56% /mnt1
/dev/mapper/ephemeral_luks2   1.8T  982G  760G  57% /mnt2
/dev/mapper/ephemeral_luks3   1.8T  997G  745G  58% /mnt3
/dev/mapper/ephemeral_luks4   1.8T  982G  760G  57% /mnt4
...snip...

有人知道是什么原因造成的吗？我该如何解决这个问题？

最佳答案

我想通了，这是因为 yarn.nodemanager.local-dirs 被设置为集群中每个节点上只有一个 HDD。为每个节点指定每个 HDD 解决了这个问题。

关于hadoop - 大型 MapReduce 作业不断死亡，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48843620/

25

4

0

文章推荐： java - 如何仅使用它们的键来获取 HBase 行？

文章推荐： hadoop - 将 yarn 节点管理器置于维护状态

文章推荐： c++ - 如何在 clang 库中执行模板替换？

文章推荐： hadoop - 有人可以向我解释 orcfiledump 的输出吗？

iphone - 如何准备应用程序以提交到应用程序商店？我*不断*收到代码签名错误？
如果这不是一个错误，那就是另一个错误。如果不是那样的话，那就是别的东西了。我觉得我的项目已经改变了很多，现在只是试图解决代码签名问题，结果一切都搞砸了。我严格按照说明进行操作，但出现错误，例如当前的“
c++ - 我的 makefile 不断 self 编译；我究竟做错了什么？
我不确定是否有一些我不知道的内置变量或规则，或者 make 是否有问题，或者我只是疯了。对于我的一个项目，我有一个如下的 makefile: CC=g++ CFLAGS=-O3 `libpng-co
jQuery/CSS3 - 不断 3d 翻转 5 div？
我有大约 10 个 div，它们必须不断翻转，每个 div 延迟 3 秒这个 codrops 链接的最后一个效果是我正在寻找的，但无需单击 div http://tympanus.net/Devel
php - jQuery 不断 ping 以获取 Ajax 响应
我如何使用 jQuery 持续运行 PHP 脚本并每秒获取响应，以及将鼠标上的少量数据发送到同一脚本？我真的必须添加一些随机扩展才能让这么简单的计时器工作吗？最佳答案 To iterate is
java - REQUIRES_NEW 内的 REQUIRES_NEW 内的 REQUIRES_NEW ... 不断
JBoss 4.x EJB 3.0 我见过如下代码(大大简化): @Stateless @TransactionAttribute(TransactionAttributeType.NOT_SUPPO
git - 不能忽略 .idea/workspace.xml - 不断 pop
使用 PHPStorm，我试图忽略每次尝试进行 git 提交时 pop 的 workspace.xml。我的 .gitignore 看起来像: /.idea/ .idea/workspace.xml

首页

博学

6Ren·AI

商城

hadoop - 大型 MapReduce 作业不断死亡