gpt4 book ai didi

hadoop - 在 Hadoop 中,如何将整个文件作为映射器的输入?

转载 作者:可可西里 更新时间:2023-11-01 15:01:03 25 4
gpt4 key购买 nike

一位面试官最近问了我这个问题:

我说的是配置 block 大小或拆分大小等于文件大小。

他说错了。

最佳答案

好吧,如果你这样说,我认为他不喜欢“配置 block 大小”部分。

编辑: 不知何故,我认为更改 block 大小是个坏主意,因为它对 HDFS 是全局的。

另一方面,防止拆分的解决方案是将最小拆分大小设置为大于要映射的最大文件。

一个更简洁的解决方案是将相关的 InputFormat 实现子类化。特别是通过覆盖 isSpitable() 方法返回 false。在你的情况下,你可以用 FileInputFormat 做这样的事情:

public class NoSplitFileInputFormat extends FileInputFormat 
{

@Override
protected boolean isSplitable(JobContext context, Path file)
{
return false;
}
}

关于hadoop - 在 Hadoop 中,如何将整个文件作为映射器的输入?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21553806/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com