gpt4 book ai didi

hadoop - 如果 InputSplit 大小与 Block 大小不同会怎样?

转载 作者:可可西里 更新时间:2023-11-01 15:38:43 26 4
gpt4 key购买 nike

假设存储在 HDFS 中时, block 大小是默认的 64MB。现在我将 InputSplit 大小更改为 128MB。

其中一个数据节点在本地只存储了 1 个信息 block 。 JobTracker 给它一个映射器。它如何在 128MB 大小的拆分上运行 map()?

最佳答案

128 MB 文件, block 大小为 64 MB --> 默认值 --> 2 个 Map 任务128 MB 文件, block 大小为 64 MB --> 最小分割大小 128 MB --> 1 个 Map 任务

你可以这样做,但你会失去局部性。默认拆分算法坚持的原因 block 边界是这样的,即每个任务单独处理一个 block ,并且调度程序可以更有效地使任务在这个单独的 block 所在的位置运行。

当您覆盖 min-spit-size 并使拆分携带两个 block 的偏移量 + 长度时,那么这两个 block 可能位于不同的节点,但任务将只在一个节点上运行节点,导致非数据本地处理,最终可能会变慢。

关于hadoop - 如果 InputSplit 大小与 Block 大小不同会怎样?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20726283/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com