gpt4 book ai didi

python - databricks - 安装的S3 - 如何获取文件元数据,例如上次修改日期(Python)

转载 作者:行者123 更新时间:2023-12-01 00:47:36 24 4
gpt4 key购买 nike

我已经在我的 databricks 中安装了一个 s3 存储桶,我可以看到文件列表,并且我也可以使用 python 读取文件

ACCESS_KEY = "XXXXXXXXXX"
SECRET_KEY = "XXXXXXXXXXXXXX"
ENCODED_SECRET_KEY = SECRET_KEY.replace("/", "%2F")
AWS_BUCKET_NAME = "testbucket"
MOUNT_NAME = "awsmount1"

dbutils.fs.mount("s3a://%s:%s@%s" % (ACCESS_KEY, ENCODED_SECRET_KEY, AWS_BUCKET_NAME), "/mnt/%s" % MOUNT_NAME)
display(dbutils.fs.ls("/mnt/%s/data" % MOUNT_NAME))

我想找出我正在读取的文件的最后修改日期,我找不到太多,但是用于azure blob的java选项Databricks read Azure blob last modified date,databricks中是否有一个python native 选项来读取文件元数据。

最佳答案

如果我理解正确,您需要使用 python native sdk 在 Azure 数据 block 中安装的文件的上次修改日期。

以下是从 Azure blob 获取元数据信息的示例代码:

from azure.storage.blob import BlockBlobService
block_blob_service = BlockBlobService(account_name='accoutName', account_key='accountKey')
container_name ='containerName'
block_blob_service.create_container(container_name)
generator = block_blob_service.list_blobs(container_name)
for blob in generator:
lastModified= BlockBlobService.get_blob_properties(block_blob_service,container_name,blob.name).properties.last_modified
print("\t Blob name: " + blob.name)
print(lastModified)

您可以获取有关此的更多详细信息here .

如果您正在寻找 S3,那么我建议您使用 Boto.oto3 在您使用 (S3) 对象 python 对象时返回 LastModified 的日期时间对象:

https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/s3.html#S3.Object.last_modified

将 LastModified 与今天的日期进行比较 (Python3):

import boto3
from datetime import datetime, timezone

today = datetime.now(timezone.utc)

s3 = boto3.client('s3', region_name='eu-west-1')

objects = s3.list_objects(Bucket='my_bucket')

for o in objects["Contents"]:
if o["LastModified"] == today:
print(o["Key"])

Reference

希望有帮助。

关于python - databricks - 安装的S3 - 如何获取文件元数据,例如上次修改日期(Python),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56832626/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com