gpt4 book ai didi

hadoop - 如何在 Apache Spark 中使用 Hadoop InputFormats?

转载 作者:可可西里 更新时间:2023-11-01 14:11:23 27 4
gpt4 key购买 nike

我在 Hadoop 中有一个 ImageInputFormat 类,它从 HDFS 读取图像。如何在 Spark 中使用我的 InputFormat?

这是我的ImageInputFormat:

public class ImageInputFormat extends FileInputFormat<Text, ImageWritable> {

@Override
public ImageRecordReader createRecordReader(InputSplit split,
TaskAttemptContext context) throws IOException, InterruptedException {
return new ImageRecordReader();
}

@Override
protected boolean isSplitable(JobContext context, Path filename) {
return false;
}
}

最佳答案

SparkContext有一个名为 hadoopFile 的方法。它接受实现接口(interface) org.apache.hadoop.mapred.InputFormat

的类

它的描述是“为具有任意输入格式的 Hadoop 文件获取 RDD”。

另请查看 Spark Documentation .

关于hadoop - 如何在 Apache Spark 中使用 Hadoop InputFormats?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21015641/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com