gpt4 book ai didi

hadoop - 使用自定义 FileInputFormat

转载 作者:可可西里 更新时间:2023-11-01 15:07:03 27 4
gpt4 key购买 nike

如何创建将文件作为单个记录发送到映射器的自定义 FileInputFormat请帮我举一个使用自定义 FileInputFormat 的例子

最佳答案

您想使用具有以下覆盖的自定义文件输入格式:

        @Override
protected boolean isSplitable(JobContext context, Path filename) {
return false;
}

hadoop 源代码中有一个这样的例子,MultiFileWordCount .在该示例中,您将上面覆盖的“isSplitable”方法添加到“CustomInputFormat”以避免拆分。

Here is a gist如何将“isSplitable”合并到 MultiFileWordCount 示例中;使用 vanilla hadoop api。

关于hadoop - 使用自定义 FileInputFormat,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15508346/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com