gpt4 book ai didi

一个小文件的hadoop并行任务

转载 作者:可可西里 更新时间:2023-11-01 16:51:37 26 4
gpt4 key购买 nike

我有一个由 3 个节点和一些 40Mb avro 文件组成的集群。我想并行化作业以利用多核,因为文件的每一行都是通过相同的长时间运行的算法处理的。我阅读了有关 NLineInputFormat 的内容,但我想知道是否设置配置

some_conf.set("mapred.max.split.size",some_value);

有意义吗?

最佳答案

是的,你是对的。如果你想通过使用你的集群处理你的文件大小为 40 MB(假设 64Mb block 大小)超过 1 个映射器,然后将 mapred.max.split.size 设置为你使用的值默认情况下为 Long.MAX_VALUE。

拆分大小由公式计算

max(mapred.min.split.size, min(mapred.max.split.size, blocksize))

因此在您的情况下您将得到(假设您将 maxsplitsize 设置为 15MB。

max(1 byte(by default),min(15MB,64MB))

您的拆分大小将设置为 15MB。

关于一个小文件的hadoop并行任务,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32619896/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com