gpt4 book ai didi

azure - 如何将文件从 blob 存储读取到 azure databricks,文件名中包含每日日期

转载 作者:行者123 更新时间:2023-12-03 02:10:48 25 4
gpt4 key购买 nike

我想从还包含其他文件的 blob 存储容器中将 Employee_detail_info 文件读取到 azure databrikcs 笔记本。文件每天都会从源加载到 blob 存储。

Employee_detail_Info_20220705000037
Customersdetais_info_20220625000038
allinvocie_details_20220620155736

最佳答案

您可以使用Glob 模式来实现要求。下面是同样的演示。

  • 以下是我的存储帐户中的文件列表。
Customersdetais_info_20220625000038.csv
Employee_detail_Info_20220705000037.csv
Employee_detail_Info_20220822000037.csv
Employee_detail_Info_20220822000054.csv
allinvocie_details_20220620155736.csv

#all employee files have same schema and 1 row each for demo
  • 现在,为您的 employee_details_info 类型文件创建一个模式。我使用datetime库来实现这一点。由于每个员工文件的今天日期均为 yyyyMMdd,因此我创建了一个表示相同日期的模式。
from datetime import datetime

todays_date = datetime.utcnow().strftime("%Y%m%d")
print(todays_date) #20220822

file_name_pattern = "Employee_detail_Info_"+todays_date
print(file_name_pattern) #Employee_detail_Info_20220822
  • 现在您可以使用 Asterisk (*) glob 模式来读取与 file_name_pattern 匹配的所有文件。
df = spark.read.option("header",True).format("csv").load(f"/mnt/repro/{file_name_pattern}*.csv")
#you can specify,required file format and change the above accordingly.

df.show()

以下是我输出的图像,供引用。

  • 我的文件: enter image description here
  • 输出: enter image description here

关于azure - 如何将文件从 blob 存储读取到 azure databricks,文件名中包含每日日期,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/73440457/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com