gpt4 book ai didi

scala - 基于spark中的模式匹配加载文件

转载 作者:行者123 更新时间:2023-12-04 19:40:00 25 4
gpt4 key购买 nike

我有 31 个输入文件,名称从 date=2018-01-01date=2018-01-31

我可以通过这种方式将所有这些文件加载​​到一个 rdd 中:

val input = sc.textFile("hdfs://user/cloudera/date=*")

但是如果我只想加载 1 周的文件怎么办? (文件从 date=2018-01-15 到 date=2018-01-22)。

最佳答案

您可以通过使用 , 将文件单独指定到 textFile:

val files = (15 to 22).map(
day => "hdfs://user/cloudera/date=2018-01-" + "%02d".format(day)
).mkString(",")

产生:

hdfs://user/cloudera/date=2018-01-15,hdfs://user/cloudera/date=2018-01-16,hdfs://user/cloudera/date=2018-01-17,hdfs://user/cloudera/date=2018-01-18,hdfs://user/cloudera/date=2018-01-19,hdfs://user/cloudera/date=2018-01-20,hdfs://user/cloudera/date=2018-01-21,hdfs://user/cloudera/date=2018-01-22

你可以这样调用它:

val input = sc.textFile(files)

注意日期的格式("%02d".format(day)),以便将前导 0 添加到 1 到 9 之间的日期。

关于scala - 基于spark中的模式匹配加载文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49064724/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com