gpt4 book ai didi

python - 使用 PySpark 从名称不包含字符串的文件夹中读取文件

转载 作者:太空宇宙 更新时间:2023-11-03 20:18:56 24 4
gpt4 key购买 nike

我有一个文件夹,其中包含类似于 - 的文件

./env_california_0100.xml
./env_california_0200.xml
./env_california_0300.xml
./env_california_0400.xml
./env_0100.xml
./env_0200.xml
./env_0300.xml
./env_0400.xml

使用pyspark,如果我想读取名称包含字符串“california”的文件,那么我会使用

df=spark.read.format("com.databricks.spark.xml").option("rowTag","someTag").load("/some_folder/*california*.xml")

但是如何读取没有字符串“california”的文件?

最佳答案

使用 glob 提取文件列表,然后在加载调用中解压该列表:

   .load(*glob.glob( "/some_folder/*[!california]*.xml"))

因为我们可以像这样加载多个文件:.load(path1,path2,....)

关于python - 使用 PySpark 从名称不包含字符串的文件夹中读取文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58272849/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com