gpt4 book ai didi

Hadoop 作业完成时间随着输入 gz 文件数量的增加而增加

转载 作者:可可西里 更新时间:2023-11-01 16:58:17 24 4
gpt4 key购买 nike

当我有许多 KB 的小 gz 文件时,我一直注意到这种行为。 Hadoop 作业需要更多时间才能完成。与我将这些小 gz 文件组合成一个大 gz 文件时形成对比。另外,小 gz 文件情况下的映射器数量与文件数量相同,为什么我是这样?但在后一种情况下,它只是一个。那么,这可能是一个原因,对吗?

最佳答案

Hadoop 通常适用于少量大文件,反之则不然。

默认情况下,MapReduce 为每个必须处理的输入文件分配一个映射任务。因此,如果你有很多小的 gz 文件,那么默认情况下每个文件都有自己的 Mapper 来处理文件。通常,JVM 初始化与您的实际处理相差大约几秒钟。因此,随着文件数量的增加,您会发现时间也在增加。

建议让文件接近 block 大小,以消除小文件问题。

看看这个blog post来自 cloudera 和这个 SF question

关于Hadoop 作业完成时间随着输入 gz 文件数量的增加而增加,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27293017/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com