gpt4 book ai didi

python - 如何在 python 中将大型 csv 文件写入 hdf5?

转载 作者:太空狗 更新时间:2023-10-30 02:25:59 28 4
gpt4 key购买 nike

我的数据集太大,无法直接读入内存。而且我不想升级机器。根据我的阅读,HDF5 可能是适合我的问题的解决方案。但我不确定如何将数据帧迭代写入 HDF5 文件,因为我无法将 csv 文件作为数据帧对象加载。

所以我的问题是如何使用 python pandas 将大型 CSV 文件写入 HDF5 文件。

最佳答案

您可以使用 chunksize 参数分块读取 CSV 文件,并将每个 block 附加到 HDF 文件:

hdf_key = 'hdf_key'
df_cols_to_index = [...] # list of columns (labels) that should be indexed
store = pd.HDFStore(hdf_filename)

for chunk in pd.read_csv(csv_filename, chunksize=500000):
# don't index data columns in each iteration - we'll do it later ...
store.append(hdf_key, chunk, data_columns=df_cols_to_index, index=False)
# index data columns in HDFStore

store.create_table_index(hdf_key, columns=df_cols_to_index, optlevel=9, kind='full')
store.close()

关于python - 如何在 python 中将大型 csv 文件写入 hdf5?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46620478/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com