gpt4 book ai didi

azure - Databricks/Spark 从 Parquet 文件读取自定义元数据

转载 作者:行者123 更新时间:2023-12-02 06:53:43 28 4
gpt4 key购买 nike

我在文件级别创建了一个带有自定义元数据的 Parquet 文件: data = spark.read.option("mergeSchema", "true").parquet(path)

现在我正在尝试从 (Azure) Databricks 中的 Parquet 文件读取该元数据。但是当我运行以下代码时,我没有获得其中存在的任何元数据。

storageaccount = 'zzzzzz'
containername = 'yyyyy'
access_key = 'xxxx'
spark.conf.set(f'fs.azure.account.key.{storageaccount}.blob.core.windows.net', access_key)

path = f"wasbs://{containername}@{storageaccount}.blob.core.windows.net/generated_example_10m.parquet"
data = spark.read.format('parquet').load(path)
print(data.printSchema())

最佳答案

我尝试在我的环境中重现同样的事情。我得到了这个输出。

请按照以下代码操作并使用select("*", "_metadata")

path = "wasbs://<container>@<storage_account_name>.blob.core.windows.net/<file_path>.parquet"
data = spark.read.format('parquet').load(path).select("*", "_metadata")
display(data)

使用 .select("*", "_metadata") 提及您的架构和加载路径

df = spark.read \
.format("parquet") \
.schema(schema) \
.load(path) \
.select("*", "_metadata")

display(df)

enter image description here

关于azure - Databricks/Spark 从 Parquet 文件读取自定义元数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/75060321/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com