gpt4 book ai didi

hadoop - 在 apache spark 中访问以下划线开头的文件

转载 作者:可可西里 更新时间:2023-11-01 14:30:46 28 4
gpt4 key购买 nike

我正在尝试在 Apache Spark 中访问 s3 上以 _ 开头的 gz 文件。不幸的是,spark 认为这些文件不可见并返回 Input path does not exist: s3n:.../_1013.gz。如果我删除下划线,它会发现文件很好。

我尝试将自定义 PathFilter 添加到 hadoopConfig:

package CustomReader

import org.apache.hadoop.fs.{Path, PathFilter}

class GFilterZip extends PathFilter {
override def accept(path: Path): Boolean = {
true
}
}
// in spark settings
sc.hadoopConfiguration.setClass("mapreduce.input.pathFilter.class", classOf[CustomReader.GFilterZip], classOf[org.apache.hadoop.fs.PathFilter])

但是我还是遇到了同样的问题。有什么想法吗?

系统:Apache Spark 1.6.0 和 Hadoop 2.3

最佳答案

文件以 _ 和 .是隐藏文件。

并且将始终应用 hiddenFileFilter。它被添加到方法 org.apache.hadoop.mapred.FileInputFormat.listStatus

检查这个答案,which files ignored as input by mapper?

关于hadoop - 在 apache spark 中访问以下划线开头的文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38316921/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com