gpt4 book ai didi

python - 在不加载到内存的情况下将 HDF5 转换为 Parquet

转载 作者:太空狗 更新时间:2023-10-29 21:30:34 24 4
gpt4 key购买 nike

我有一个存储为 HDF5 格式的大型数据集(约 600 GB)。由于这太大而不适合内存,我想将其转换为 Parquet 格式并使用 pySpark 执行一些基本数据预处理(规范化、查找相关矩阵等)。但是,我不确定如何在不将其加载到内存的情况下将整个数据集转换为 Parquet。

我看了这个要点:https://gist.github.com/jiffyclub/905bf5e8bf17ec59ab8f#file-hdf_to_parquet-py ,但似乎正在将整个数据集读入内存。

我想到的一件事是分 block 读取 HDF5 文件并将其增量保存到 Parquet 文件中:

test_store = pd.HDFStore('/path/to/myHDFfile.h5')
nrows = test_store.get_storer('df').nrows
chunksize = N
for i in range(nrows//chunksize + 1):
# convert_to_Parquet() ...

但是我找不到任何允许我逐步构建 Parquet 文件的文档。任何进一步阅读的链接将不胜感激。

最佳答案

您可以使用 pyarrow为此!

import pandas as pd
import pyarrow as pa
import pyarrow.parquet as pq


def convert_hdf5_to_parquet(h5_file, parquet_file, chunksize=100000):

stream = pd.read_hdf(h5_file, chunksize=chunksize)

for i, chunk in enumerate(stream):
print("Chunk {}".format(i))

if i == 0:
# Infer schema and open parquet file on first chunk
parquet_schema = pa.Table.from_pandas(df=chunk).schema
parquet_writer = pq.ParquetWriter(parquet_file, parquet_schema, compression='snappy')

table = pa.Table.from_pandas(chunk, schema=parquet_schema)
parquet_writer.write_table(table)

parquet_writer.close()

关于python - 在不加载到内存的情况下将 HDF5 转换为 Parquet,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46157709/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com