gpt4 book ai didi

java - 如何在 Apache Spark 中使用 PathFilter?

转载 作者:可可西里 更新时间:2023-11-01 14:18:35 26 4
gpt4 key购买 nike

我有一个简单的文件过滤器,基本上从特定日期选择文件。在 Hadoop 中,我会使用 setInputPathFilterPathFilter 类设置为 InputFormat 参数。我如何在 Spark 中执行此操作?

public class FilesFilter extends Configured implements PathFilter {

@Override
public boolean accept(Path path) {

try {
if (fs.isDirectory(path))
return true;
} catch (IOException e1) {
e1.printStackTrace();
return false;
}

String file_date = "01.30.2015";
SimpleDateFormat sdf = new SimpleDateFormat("MM.dd.yyyy");
Date date = null;

try {
date = sdf.parse(file_date);
} catch (ParseException e1) {
e1.printStackTrace();
}

long dt = date.getTime()/(1000 * 3600 * 24);

try {
FileStatus file = fs.getFileStatus(path);
long time = file.getModificationTime() / (1000 * 3600 * 24);
return time == dt;
} catch (IOException e) {
e.printStackTrace();
return false;
}

}
}

最佳答案

使用这个:

sc.hadoopConfiguration.setClass("mapreduce.input.pathFilter.class", classOf[TmpFileFilter], classOf[PathFilter])

这是我的 TmpFileFilter.scala 代码,它将省略 .tmp 文件:

import org.apache.hadoop.fs.{Path, PathFilter}

class TmpFileFilter extends PathFilter {
override def accept(path : Path): Boolean = !path.getName.endsWith(".tmp")
}

您可以定义自己的PathFilter

关于java - 如何在 Apache Spark 中使用 PathFilter?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28330247/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com