gpt4 book ai didi

python - 当记录描述符超过 16,384 字节时 Pytables 出错

转载 作者:行者123 更新时间:2023-11-30 23:25:38 26 4
gpt4 key购买 nike

在探索大型新数据集时,我喜欢将整个文件作为字符串数据导入,进行一些打印输出和频率,然后为最终的预处理步骤微调更准确的数据描述。

Pytables 似乎非常适合此目的,并且它支持字符串数据类型。但是,当我向描述中添加足够的列以使最大行大小超过 16,384 字节时,我收到了错误。我通过一次添加一列并创建 h5 文件来测试这是否会导致错误。

pytables 行是否有最大大小?我在文档中找不到任何内容,也找不到增加大小限制(如果存在)的方法。

代码:

from tables import *

# record descriptor
class Record(IsDescription):
var1 = StringCol(16)
var2 = StringCol(16)
var3 = StringCol(16)
var4 = StringCol(16)
...
varN = StringCol(16)


h5file = open_file("test.h5", mode="w", title="Test file")

group = h5file.create_group("/", 'Test', 'Test group')

table = h5file.create_table(group, 'Test', Record, 'Test example')

错误:

HDF5ExtError: Problems creating the table

版本信息:

In [0]: tables.__version__
Out[0]: '3.1.0'

In [1]: sys.version
Out[1]: '2.7.6 |Anaconda 1.9.1 (64-bit)| (default, Nov 11 2013, 10:49:15) [MSC v.1500 64 bit (AMD64)]'

最佳答案

这是我知道的一个限制,每行 512 列(尽管它说可以更改,不确定是否需要重新编译),请参阅 here

我不知道每行的字节数限制是否是硬 HDF5 限制。 (尽管我怀疑是这样;它们有各种硬性限制,例如每组 64KB 元数据)。这些允许 HDF5 文件的固定大小布局,以获得良好的性能。

也许只是分成几个子表是你最好的选择。

关于python - 当记录描述符超过 16,384 字节时 Pytables 出错,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22915946/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com