gpt4 book ai didi

Hadoop FileInputFormat isSplitable false

转载 作者:可可西里 更新时间:2023-11-01 14:22:09 27 4
gpt4 key购买 nike

我有一个简短的问题,我想我知道关于 FileInputFormat isSplitable 方法的答案。如果我覆盖此方法以返回 false,自然我将让一个映射器处理一个文件(我只有 1 个文件)。如果此文件分布在 HDFS 中,则所有文件都将被拉到我的单个映射器中。当我用映射器处理它并创建键/值对以发送到 reducer 时,如果我创建大量它们,它们会分布在我的集群中以利用数据局部性还是有某种隐式结果是,如果我将它设为 isSplitable false,那这种情况就不会再发生了吗?

最佳答案

isSplitable 返回 false 时,只有一个映射器处理整个文件。映射器可以发出任意数量的 KV 对。

对于 reducer,没有数据局部性的概念,使用下一个可用的空闲 Reduce 插槽。仅供引用,在遗留 MR 架构的情况下,每个节点上都有用于 Map 和 Reduce 的插槽,但如果YARN没有槽的概念。

reducer 可以根据槽的可用性分布在多个节点上,或者根据 ResourceManager 在 YARN 中返回的内容。

关于Hadoop FileInputFormat isSplitable false,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14300180/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com