gpt4 book ai didi

scala - 我应该如何在 spark 文本文件中表达 hdfs 路径?

转载 作者:行者123 更新时间:2023-12-02 02:45:46 24 4
gpt4 key购买 nike

我想加载像路径这样的数据:

hdfs://dcoshdfs/encrypt_data/gmap_info/2019-02-04/*/*
hdfs://dcoshdfs/encrypt_data/gmap_info/2019-02-05/*/*
hdfs://dcoshdfs/encrypt_data/gmap_info/2019-02-06/*/*
hdfs://dcoshdfs/encrypt_data/gmap_info/2019-02-07/*/*
...
hdfs://dcoshdfs/encrypt_data/gmap_info/2019-02-14/*/*`

这是我的代码

val data = sc.textFile("hdfs://dcoshdfs/encrypt_data/gmap_info/2019-02-"+"1[0-3]".r+"/*/*")`

val data = sc.textFile("hdfs://dcoshdfs/encrypt_data/gmap_info/2019-02-"+"0[4-9]".r+"/*/*")

两者都可以,但是

val data = sc.textFile("hdfs://dcoshdfs/encrypt_data/gmap_info/2019-02-"+"0[0-9]|1[0-4]".r+"/*/*")

没用

加载04-13所有数据的路径模式应该怎么写

最佳答案

尝试使用以下语法进行交替:

  • {a,b} 而不是 (a|b)

因此在您的情况下,文本文件的加载将如下所示:

val data = sc.textFile("hdfs://dcoshdfs/encrypt_data/gmap_info/2019-02-{0[4-9],1[0-3]}/*/*")

将所有文件从 2019-02-04 加载到 2019-02-13 子目录。

关于scala - 我应该如何在 spark 文本文件中表达 hdfs 路径?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55179978/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com