gpt4 book ai didi

databricks - 我们可以从 Databricks Autoloader 中排除或仅包含特定的文件扩展名吗?

转载 作者:行者123 更新时间:2023-12-04 07:24:00 24 4
gpt4 key购买 nike

现在,databricks 自动加载器需要一个目录路径,从中加载所有文件。但是,如果其他类型的日志文件也开始进入该目录 - 有没有办法让 Autoloader 在准备数据帧时排除这些文件?

df = spark.readStream.format("cloudFiles") \
.option(<cloudFiles-option>, <option-value>) \
.schema(<schema>) \
.load(<input-path>)

最佳答案

Autoloader 支持将 glob 字符串指定为 <input-path> - 来自 documentation :

<input-path> can contain file glob patterns


Glob 语法支持 different options ,喜欢, *用于任何字符等。因此您可以指定 input-path如, path/*.json例如。您也可以排除文件,但与包含模式相比,构建该模式可能稍微复杂一些,但它仍然是可能的 - 例如, *.[^l][^o][^g]应该排除带有 .log 的文件延期

关于databricks - 我们可以从 Databricks Autoloader 中排除或仅包含特定的文件扩展名吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/68317231/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com