gpt4 book ai didi

python - 如何在 pytables/hdf5 中存储宽表

转载 作者:太空狗 更新时间:2023-10-29 18:06:36 25 4
gpt4 key购买 nike

我有来自 csv 的数据,它有几千列和一万(左右)行。在每一列中,数据属于同一类型,但不同的列具有不同类型的数据*。以前我一直在从 numpy 中提取数据并将其存储在磁盘上,但速度很慢,尤其是因为通常我想加载列的某些子集而不是所有列。

我想使用 pytables 将数据放入 hdf5,我的第一种方法是将数据放在一个表中,每个 csv 列有一个 hdf5 列。不幸的是,这没有用,我认为是因为 512(软)列限制。

存储这些数据的明智方法是什么?

* 我的意思是,数据从文本转换后的类型。

最佳答案

事实上,这可能无法以天真的方式进行。 HDF5 为每个数据集的元数据分配 64 kb 的空间。此元数据包括列的类型。因此,虽然列数是一个软限制,但在 2-3 千个范围内的某个地方,您通常会用完空间来存储元数据(取决于列名的长度等)。

再者,numpy不是限制列数为32吗?你现在如何用 numpy 表示数据?您可以进入 numpy 数组的任何内容都应对应于 pytables 数组类。

关于python - 如何在 pytables/hdf5 中存储宽表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20045535/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com