gpt4 book ai didi

Python:获取 ParquetDataset 的行数?

转载 作者:行者123 更新时间:2023-12-05 00:57:10 24 4
gpt4 key购买 nike

如何获取 ParquetDataset 的行数,该数据集以包含多个 parquet 文件的文件夹形式构成。

我试过了

from pyarrow.parquet import ParquetDataset
a = ParquetDataset(path)
a.metadata
a.schema
a.commmon_metadata

我想在不读取数据集的情况下计算总行数,因为它可能非常大。

最好的方法是什么?

最佳答案

您仍然需要触摸每个单独的文件,但幸运的是 Parquet 将每个文件的总行数保存在其页脚中。因此,您只需要读取每个文件的元数据即可确定其大小。以下代码将计算 ParquetDataset

中的行数
nrows = 0
dataset = ParquetDataset(..)
for piece in dataset.pieces:
nrows += piece.get_metadata().num_rows

关于Python:获取 ParquetDataset 的行数?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60961997/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com