gpt4 book ai didi

python - 获取 Pytables 一维数组中值的索引

转载 作者:太空宇宙 更新时间:2023-11-03 21:40:06 24 4
gpt4 key购买 nike

我现在正在为大学编写代码,该代码可处理大量数据,使用带有各种矩阵/矩阵的 Pytables 以避免内存溢出,并且到目前为止一直运行良好。

现在我需要将一个整数标识符(从 0 到任何值)分配给多个不同的字符串,存储分配并能够将相应的整数获取到某个字符串,反之亦然。当然,普通类型并不能解决这个问题,字符串太多了,所以我需要使用可以处理 Pytables 这样的文件的东西。

我想到只使用一维 Pytables EArray(因为我不知道会有多少个字符串),将字符串存储在那里,并让每个元素的索引是为字符串分配的整数标识符。

这是我想到使用的示例:

import tables as tb, numpy as np

>>>file = tb.open_file("sample_file.hdf5", mode='w')
>>>sample_array = file.create_earray(file.root, 'data', tb.StringAtom(itemsize=50),
shape=(0,), expectedrows=10000)
>>>sample_array.append(np.array(["String_value"]))

这样我就可以获得给定整数的字符串值,就像在任何普通数组中一样

>>>sample_array[0]
b'String_value'

但是我一生都无法找出如何做相反的事情,找到给定字符串的索引,我只是想出了更荒谬的方法......

>>> sample_array[np.where("String_value") in sample_array]
b'String_value'
>>> sample_array[np.where("String_value")]
array([b'String_value'], dtype='|S50')
>>> np.where("String_value") in sample_array
False

提前谢谢您!

编辑:

忘记更新了,我在做其他事情的时候发现了...捂脸,非常努力,这真的很愚蠢,但我几个小时都无法弄清楚出了什么问题。

np.where(sample_array[:] == b'String_value')
>>>(array([0]),)

最佳答案

OP在上面回答了他的问题。但是,它隐藏在编辑:下,因此在搜索结果中(或对于普通读者而言)并不明显。另外,还有另一种方法可以解决该问题(使用 Table 而不是 Earray)。这提供了两种方法的比较。

OP 使用 Earray 的解决方案(带有一些修饰):

import tables as tb, numpy as np
h5f = tb.open_file("sample_file.hdf5", mode='w')
sample_array = h5f.create_earray(h5f.root, 'data', tb.StringAtom(itemsize=50),
shape=(0,), expectedrows=10000)
sample_array.append(np.array(['str_val0']))
sample_array.append(np.array(['str_val10']))
sample_array.append(np.array(['str_val20']))
sample_array.append(np.array(['str_val30']))
sample_array.append(np.array(['str_val40']))
print (sample_array[0])
print (sample_array[-1])
print (np.where(sample_array[:] == b'str_val0'))
print (np.where(sample_array[:] == b'str_val40'))
print ('\n')

h5f.close()

输出如下:

b'str_val0'
b'str_val40'
(array([0], dtype=int64),)
(array([4], dtype=int64),)

我的表格方法:
我喜欢 Pytables 中的表。它们很方便,因为它们有多个内置搜索和迭代方法(在本例中使用 .get_where_list();还有许多其他方法)。此示例显示从 np.recarray 创建表(使用 dtype 定义字段/列,并使用数据填充表)。稍后使用 .append() 方法添加其他数据行。

import tables as tb, numpy as np
h5f = tb.open_file("sample_file.hdf5", mode='w')

simple_recarray = np.recarray((4,),dtype=[('tstr','S50')])
simple_recarray['tstr'][0] = 'str_val1'
simple_recarray['tstr'][1] = 'str_val2'
simple_recarray['tstr'][2] = 'str_val10'
simple_recarray['tstr'][3] = 'str_val20'

simple_table = h5f.create_table(h5f.root, 'table_data', simple_recarray, 'Simple dataset')

print (simple_table.get_where_list("tstr == b'str_val1'"))
print (simple_table.get_where_list("tstr == b'str_val20'"))

simple_table.append([('str_val30',), ('str_val31',)])

print (simple_table.get_where_list("tstr == b'str_val31'"))

h5f.close()

输出如下所示(略有不同的 b/c 字符串不存储在数组中):

[0]
[3]
[5]

关于python - 获取 Pytables 一维数组中值的索引,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52927726/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com