gpt4 book ai didi

apache-spark - 读取 Spark 中嵌套文件夹中的所有文件

转载 作者:行者123 更新时间:2023-12-03 07:22:02 29 4
gpt4 key购买 nike

如果我们有一个文件夹 folder 包含所有 .txt 文件,我们可以使用 sc.textFile("folder/*.txt") 读取它们。但是,如果我有一个文件夹 folder 包含更多名为 datewise 的文件夹,例如 0304 ...,其中还包含一些.log 文件。我如何在 Spark 中阅读这些内容?

就我而言,结构更加嵌套和复杂,因此首选一般答案。

最佳答案

如果目录结构是规则的,可以这样说:

folder
├── a
│   ├── a
│   │   └── aa.txt
│   └── b
│   └── ab.txt
└── b
├── a
│   └── ba.txt
└── b
└── bb.txt

您可以对每个嵌套级别使用 * 通配符,如下所示:

>>> sc.wholeTextFiles("/folder/*/*/*.txt").map(lambda x: x[0]).collect()

[u'file:/folder/a/a/aa.txt',
u'file:/folder/a/b/ab.txt',
u'file:/folder/b/a/ba.txt',
u'file:/folder/b/b/bb.txt']

关于apache-spark - 读取 Spark 中嵌套文件夹中的所有文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32233575/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com