gpt4 book ai didi

python - 将 pandas 数据帧写入 HDF5

转载 作者:可可西里 更新时间:2023-11-01 14:52:28 25 4
gpt4 key购买 nike

我在 python 中处理大量文件,需要直接在 HDF5 中写入输出(每个输入文件一个数据帧)。我想知道将脚本中的 pandas 数据帧快速直接写入 HDF5 的最佳方法是什么?我不确定是否有像 hdf5、hadoopy 这样的 python 模块可以做到这一点。在这方面的任何帮助将不胜感激。

最佳答案

很难对这个相当笼统的问题给出一个好的答案。

不清楚您将如何使用(读取)您的 HDF5 文件 - 您是否要有条件地选择数据(使用 where 参数)?

首先,您需要打开一个商店对象:

store = pd.HDFStore('/path/to/filename.h5')

现在您可以写入(或追加)存储(我在这里使用 blosc 压缩 - 它非常快速和高效),除此之外我将使用 data_columns参数以指定必须索引的列(这样您可以在稍后读取 HDF5 文件时在 where 参数中使用这些列):

for f in files:
#read or process each file in/into a separate `df`
store.append('df_identifier_AKA_key', df, data_columns=[list_of_indexed_cols], complevel=5, complib='blosc')

store.close()

关于python - 将 pandas 数据帧写入 HDF5,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38915917/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com