gpt4 book ai didi

parquet - 如何读取箭头 Parquet 键值元数据?

转载 作者:行者123 更新时间:2023-12-04 12:38:46 28 4
gpt4 key购买 nike

当我在 R 和 Python 中保存 Parquet 文件(使用 pyarrow)时,我得到一个保存在元数据中的箭头模式字符串。

如何读取元数据?它是 Flatbuffer 编码数据吗?架构的定义在哪里?它没有在箭头文档站点上列出。

元数据是一个看起来像这样的键值对

key: "ARROW:schema"

value: "/////5AAAAAQAAAAAAAKAAwABgAFAAgACgAAAAABAwAEAAAAyP///wQAAAABAAAAFAAAABAAGAAIAAYABwAMABAAFAAQAAAAAAABBUAAAAA4AAAAEAAAACgAAAAIAAgAAAAEAAgAAAAMAAAACAAMAAgABwA…

因为用 R 写了这个

df = data.frame(a = factor(c(1, 2)))
arrow::write_parquet(df, "c:/scratch/abc.parquet")

最佳答案

架构是 base64 编码的 FlatBuffers 数据。您可以使用以下代码在 Python 中读取模式:

import base64
import pyarrow as pa
import pyarrow.parquet as pq

meta = pq.read_metadata(filename)
decoded_schema = base64.b64decode(meta.metadata[b"ARROW:schema"])
schema = pa.ipc.read_schema(pa.BufferReader(decoded_schema))

关于parquet - 如何读取箭头 Parquet 键值元数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61707170/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com