gpt4 book ai didi

python - 从 Google Cloud Storage 使用 pandas 读取 parquet 元数据

转载 作者:行者123 更新时间:2023-12-05 02:58:19 26 4
gpt4 key购买 nike

感谢 this,我能够读取位于 GCS 上的 Parquet 文件答案(阅读第一个答案)。我使用了带有 pyarrow 引擎的 pd.read_parquet 函数。我现在想在不将数据下载到数据框中的情况下访问 Parquet 元数据。有可能用 Pandas 做到这一点吗?

最佳答案

我找到了一个解决方案,在没有 Pandas 的情况下使用 gcsfs:

import pyarrow.parquet as pq
import gcsfs

fs = gcsfs.GCSFileSystem(project=myprojectname)

f = fs.open(myfilepath)
myschema = pq.ParquetFile(f).schema

print(myschema)

关于python - 从 Google Cloud Storage 使用 pandas 读取 parquet 元数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59137569/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com