gpt4 book ai didi

azure - 如何将所有文件从 blob 存储容器导入到 azure databricks 并进行处理

转载 作者:行者123 更新时间:2023-12-02 06:45:32 28 4
gpt4 key购买 nike

我正在使用 azure databricks 和 blob 存储。我有一个存储帐户,用于存储每小时来自物联网设备的数据。所以文件夹结构是 {年/月/日/小时}它将数据存储为csv文件。我的要求是,需要每天从azure databricks访问文件(因此会有从0-23开始的24个文件夹)并且需要执行一些计算。

最佳答案

为了处理 wasb 容器下的许多文件,您需要使用 Hadoop 输入格式 glob 模式。模式如下,有点类似于正则表达式:

* (match 0 or more character)
? (match single character)
[ab] (character class)
[^ab] (negated character class)
[a-b] (character range)
{a,b} (alternation)
\c (escape character)

对于您的用例,以下内容应该有效:

df = spark.read.format("csv").load("/container/*/*/*/*.csv")

关于azure - 如何将所有文件从 blob 存储容器导入到 azure databricks 并进行处理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52621826/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com