gpt4 book ai didi

python - PySpark textFile 命令中的正则表达式

转载 作者:太空宇宙 更新时间:2023-11-03 17:38:12 26 4
gpt4 key购买 nike

我试图弄清楚在选择多个感兴趣的文件时我可以将这个命令推到什么程度。例如,我使用以下通配符来选取多个目录中感兴趣的所有文件,但我想使用正则表达式等来限制目录名称的长度。

lines = sc.textFile("/home/spark-1.4.0/A/B_2*/Output/CSV.csv")

但是我可以限制目录名称的长度而不是*吗?例如使用 ^[0-9]{8}$?或者任何不借助预过滤来构建有效目录列表的方法。

最佳答案

为了让事情变得简单,你想要的是一个简单的 glob没有正则表达式。你可以这样做:

glob = "/home/spark-1.4.0/A/B_2{0}/Output/CSV.csv".format("[0-9]" * 8)
lines = sc.textFile(glob)

关于python - PySpark textFile 命令中的正则表达式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30919794/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com