gpt4 book ai didi

hadoop - hadoop map task 超时

转载 作者:行者123 更新时间:2023-12-02 20:52:43 24 4
gpt4 key购买 nike

最近,我收到一个映射任务尝试超时错误。我更改了mapreduce.task.timeout=1800000或更多时间,但是仍然出现我的问题。

有人可以帮我吗?

背景:
我用Nutch抓取网站,在generate阶段映射任务失败。 crawldb中的每个部分大约为10〜20G。节点之间的资源(内存和cpu内核)有很大的差距。

最佳答案

CrawlDb的每个部分10-20 GB听起来很多,但这还取决于部分是否可拆分(请参阅mapreduce.input.fileinputformat.split.minsizemapreduce.output.fileoutputformat.compress.codec)。

我对CrawlDb的“收藏”设置是

  • 使用BZip2Codec(可拆分)和
  • 将零件大小限制为2000万个URL。通过为所有写入CrawlDb(updatedb,inject,mergedb,dedup)
  • 的作业通过 -Dmapreduce.job.reduces=XXX相应地设置化简器的数量,大约1GB(bzip2压缩)

    但是,要找到适合您的群集设置和硬件的最佳选项,可能需要进行一些实验。只需确保没有任何任务花费太长时间并占据了作业执行时间即可。

    关于hadoop - hadoop map task 超时,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45558682/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com