gpt4 book ai didi

scala - Spark如何读取文件名开头带下划线的文件?

转载 作者:行者123 更新时间:2023-12-04 01:26:03 25 4
gpt4 key购买 nike

当我使用Spark解析日志文件时,我注意到如果filename的第一个字符是_ ,结果将为空。这是我的测试代码:

SparkSession spark = SparkSession
.builder()
.appName("TestLog")
.master("local")
.getOrCreate();
JavaRDD<String> input = spark.read().text("D:\\_event_2.log").javaRDD();
System.out.println("size : " + input.count());

如果我将文件名修改为 event_2.log ,代码将正确运行它。
我发现 text函数定义为:
@scala.annotation.varargs
def text(paths: String*): Dataset[String] = {
format("text").load(paths : _*).as[String](sparkSession.implicits.newStringEncoder)
}

我认为这可能是由于 _是 Scala 的 placeholder .我怎样才能避免这个问题?

最佳答案

这与 Scala 无关。 Spark 使用 Hadoop Input API 来读取文件,它会忽略所有以下划线( _ )或点( . )开头的文件

我不知道如何在 Spark 中禁用它。

关于scala - Spark如何读取文件名开头带下划线的文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38477630/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com