gpt4 book ai didi

python - 如何从保存在谷歌存储中的 Parquet 文件创建 Pandas 数据框

转载 作者:行者123 更新时间:2023-12-02 19:39:58 26 4
gpt4 key购买 nike

我需要使用 pandas 库创建数据框,使用托管在谷歌云存储桶上的 Parquet 文件。我已经搜索了文档和在线示例,但似乎无法弄清楚如何去做。

你能帮我指出正确的方向吗?

我不是在寻找解决方案,而是在寻找可以寻找更多信息的位置,以便我可以设计自己的解决方案。

提前谢谢你。

最佳答案

您可以使用 gcsfspyarrow图书馆这样做。

import gcsfs
from pyarrow import parquet

url = "gs://bucket_name/.../folder_name"
fs = gcsfs.GCSFileSystem()

// Assuming your parquet files start with `part-` prefix
files = ["gs://" + path for path in fs.glob(url + "/part-*")]
ds = parquet.ParquetDataset(files, filesystem=fs)
df = ds.read().to_pandas()

关于python - 如何从保存在谷歌存储中的 Parquet 文件创建 Pandas 数据框,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60394889/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com