gpt4 book ai didi

java - 配置 MapReduce 作业时使用多个 InputFormat 类

转载 作者:可可西里 更新时间:2023-11-01 14:42:40 24 4
gpt4 key购买 nike

我想编写一个可以处理文本和 zip 文件的 MapReduce 应用程序。为此,我想使用不同的输入格式,一种用于文本,另一种用于 zip。有可能吗?

最佳答案

从@ChrisWhite 的回答中扩展一点,您需要使用自定义 InputFormatRecordReader 来处理 ZIP 文件。你可以在这里找到 a sample ZipFileInputFormat在这里 a sample ZipFileRecordReader .

鉴于此,Chris 建议您应该使用 MultipleInputs,如果您不需要为每种类型的文件自定义映射器,我会这样做:

MultipleInputs.addInputPath(job, new Path("/path/to/zip"), ZipFileInputFormat.class);
MultipleInputs.addInputPath(job, new Path("/path/to/txt"), TextInputFormat.class);

关于java - 配置 MapReduce 作业时使用多个 InputFormat 类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14333596/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com