gpt4 book ai didi

python - 使用 parquet 文件统计信息而不读取文件

转载 作者:行者123 更新时间:2023-11-30 22:11:54 25 4
gpt4 key购买 nike

据我了解, Parquet 文件具有列的最小/最大统计信息。我的问题是如何使用 python 读取这些统计信息而不读取整个文件?

如果有帮助的话,我还有 _common_metadata_metadata 文件。

<小时/>

我的具体问题是获取此文件系统中每个证券交易所分区的最大日期(每个年份分区包含多个具有日期列的 Parquet 文件):

C:.
│ _common_metadata
│ _metadata
├───source=NASDAQ
│ ├───year=2017
│ └───year=2018
├───source=London_Stock_Exchange
│ ├───year=2014
│ ├───year=2015
├───source=Japan_Exchange_Group
│ ├───year=2017
│ └───year=2018
└───source=Euronext
├───year=2017
└───year=2018

最佳答案

您可以在pyarrow中按每个RowGroup提取它们:

import pyarrow.parquet as pq

pq_file = pq.ParquetFile(…)
# Get metadata for the i-th RowGroup
rg_meta = pq_file.metadata.row_group(i)
# Get the "max" statistic for the k-th column
max_of_col = rq_meta.column(col).statistics.max

关于python - 使用 parquet 文件统计信息而不读取文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51284762/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com