gpt4 book ai didi

python - 更改tabular.tabarray或numpy.recarray的数据类型(dtype)

转载 作者:太空宇宙 更新时间:2023-11-04 07:24:10 25 4
gpt4 key购买 nike

我想用Python来表示电子表格中的数据。想着“嗯,肯定有人写了这样的模块!”我去了PyPI,在那里我找到了Tabular,它用强大的数据操作功能包装了NumPy的Recarray。大!可悲的是,它在字符串方面似乎根本不像电子表格。

>>> import tabular as tb
>>> t = tb.tabarray(records=[('bork', 1, 3.5), ('stork', 2, -4.0)], names=['a','b','c'])
>>> t
tabarray([('bork', 1, 3.5), ('stork', 2, -4.0)],
dtype=[('a', '|S5'), ('b', '<i8'), ('c', '<f8')])
>>> t['a'][0] = 'gorkalork, but not mork'
>>> t
tabarray([('gorka', 1, 3.5), ('stork', 2, -4.0)],
dtype=[('a', '|S5'), ('b', '<i8'), ('c', '<f8')])


嗯... tabarray!你在那儿截断了我的弦!真?! NumPy dtype'| S5'的意思是一个包含5个或更少字符的字符串,但是来吧!更新dtype。如果需要,请重新格式化整个列。随你。但是请不要默默丢弃我的数据!

我尝试了其他几种方法,但没有一种可以解决问题。例如,它会在创建Tabarray时直觉数据类型/大小,但在添加记录时不会:

>>> t.addrecords(('mushapushalussh', 3, 4.44))
tabarray([('gorka', 1, 3.5), ('stork', 2, -4.0), ('musha', 3, 4.44)],
dtype=[('a', '|S5'), ('b', '<i8'), ('c', '<f8')])


我试图切出整个列,更改其类型,设置值,然后重新分配它:

>>> firstcol_long = firstcol.astype('|S15')
>>> firstcol_long
tabarray(['gorka', 'stork'],
dtype='|S15')
>>> firstcol_long[0] = 'morkapork'
>>> firstcol_long
tabarray(['morkapork', 'stork'],
dtype='|S15')
>>> t['a'] = firstcol_long
>>> t
tabarray([('morka', 1, 3.5), ('stork', 2, -4.0)],
dtype=[('a', '|S5'), ('b', '<i8'), ('c', '<f8')])
>>>


它正确地进行了值分配,但是原始数据类型仍然有效,并且我先前正确的数据再次被静默截断。我什至尝试了显式的数据类型设置:

>>> t = tb.tabarray(records=[('bork', 1, 3.5), ('stork', 2, -4.0)], dtype=[('a', str),('b', int),('c', float)])
>>> t
tabarray([('', 1, 3.5), ('', 2, -4.0)],
dtype=[('a', '|S0'), ('b', '<i8'), ('c', '<f8')])


好主啊!更糟!它正确地映射了 intfloat类型,但是它猜测 str意味着我想要0长度的字符串,并且将所有数据都截断为零。长话短说,表格不仅不能像开箱即用的电子表格一样工作,而且我找不到使它起作用的方法。对于我而言,性能并不是一个大问题。我的电子表格最多可以包含数百或数千行,我很乐意让系统进行一些数据复制以简化代码。表格在许多其他方面似乎非常适合该法案。

我猜想我可以使用某些将所有字符串默认设置为不可能大的东西(例如1024或4096字节)的子类,使用 __setitem__方法引发,如果分配了更大的字符串,该方法会引发异常。有点草率...但是还有更好的选择吗?我扎根于numpy.recarray等,但并没有找到明确的方法...但是我将第一个承认我对NumPy完全不熟练。现实情况是,数据处理程序可能会增加字符串的长度,使其超出其初始最大值。高性能模块肯定可以适应这一点。 “只是截断它!” 1974年面向记录的数据库中常见的方法在2011年对于Python来说不​​是正确的最新技术!

有什么想法和建议吗?

最佳答案

作为表格设计者之一...我不得不说,我在很大程度上认为第一个回答者会打在头上。

OP,您讨厌的“截断”行为是NumPy的基本问题,Tabular就是基于此。但是说这是一个应该修复的“错误”并不是真正准确的,它更确切地说是一个“限制”,它回响/加强了NumPy(和表格格式)的整个观点。

正如第一个回答者指出的那样,NumPy绝对要求数据结构的大小统一。分配给定数据类型的numpy数组后,该数组必须保留该数据类型-否则,必须初始化具有新内存的新数组。对于字符串数据类型,字符串的长度是数据类型不可或缺的固定部分-您不能仅将长度为N的字符串数组“转换”为长度为M的字符串数组。

固定数据类型对于NumPy通过标准Python对象获得巨大性能提升的方式至关重要。这是因为,使用固定的数据类型,NumPy对象知道已为每个对象分配了多少字节,并且可以仅在内存空间中“跳转”到给定条目“应该”的位置,而不必读取和处理该内容。所有中间条目,与Python列表不同。当然,这限制了自然可以成为numpy数组的对象的种类……或者实际上,它限制了可以对numpy数组进行的操作的种类。与完全可变的Python列表不同(例如,您可以用任何其他python对象替换任何元素,而不会干扰列表中所有其他对象的内存分配),您不能将numpy数组的值突变为a的对象不同的数据类型-因为字节计费将如何工作?如果突然第N个项目变得比数组中所有其他项目大,那么所有其余项目的数据/位置会怎样?

您可能不喜欢NumPy的默认行为,这是当您尝试进行破坏数据类型的“非法”赋值时发生的事情–也许您希望发出错误而不是静默截断?如果是这样,您应该在NumPy列表中发布有关此内容的信息,因为我认为这是Tabular所不能解决的最根本的问题-不管我们个人对错误处理的看法如何,我们都希望与NumPy在这里所做的一切保持一致。

您可能还不喜欢Tabular如何进行数据类型推断。实际上,NumPy远离dtype推断,并且基本上总是要求用户显式指定数据类型。从要求用户考虑这些问题的意义上说,这是很好的,但是令人讨厌的是,这有时非常麻烦。 Tabular尝试使用大多数情况下都有用的快乐媒体,但有时这会失败-在这种情况下,只需指定与NumPy构造函数相同的关键字参数即可覆盖默认值。

我确实认为当您说“ 1974年面向记录的数据库中的通用方法不能成为2011年适用于Python的正确的最新技术”时,您并不完全正确。实际上,NumPy内存管理的基础确实与1970年代使用的工具完全相同-可能令人惊讶,但是优化的NumPy的大部分仍然基于Fortran!尽管NumPy多数时候确实提供了一个更干净,更简单的界面,但即使在今天,那些日子的内存分配问题仍无法避免。但是必须要说的是,如果您“乐于让系统进行一些数据复制以使我的代码变得容易” –那么NumPy和Tabular可能不适合您,因为静默数据复制及其所代表的一切都是明确的违背了这些软件包的设计意图。

因此,问题就变成了:您的目标是什么?如果您真的需要通过类似数组的操作来提高性能,则可以使用NumPy(在这种情况下,Tabular提供类似电子表格的操作),但是要在NumPy的限制范围内。如果您不需要性能,那么就没有必要使用类似数组的对象,并且可以更加灵活。但是,Tabular类似于电子表格的操作并没有扩展到一般的python对象-甚至还不清楚如何进行扩展。

而且,让我再添加一个(非常重要的)事情-OP,如果性能不是您的主要问题,但是您仍然希望使用Tabular作为电子表格操作的来源,则可以执行所有可能需要的操作通过对Tabular数组构造函数的新调用来更改数据类型。也就是说,如果在给定的操作中您可能需要对新的更大的字符串数据类型进行分配,则每次都只需构造一个新的Tabarray。这显然对性能没有好处,如果这不是您的限制,那么应该没有问题。

这里的关键点是Tabular和NumPy为“快”或“慢”设置了某些标准-然后,迫使您明确要慢的操作。它们永远不允许您隐藏(例如Matlab这样的方法)引擎盖下非常慢的操作。从语法上讲,一些简单的事情应该很快—如果您想做一些缓慢的事情,则您必须在代码中加倍努力以做到这一点,因此请注意所发生的事情。因此,与直接在C或Fortran中工作相比,您的代码最终会变得更好,更好,但编写起来仍然更容易。实际上,该原则在很大程度上也适用于所有Python本身-尽管对于“快速”或“慢速”有不同的标准。

HTH,
d

关于python - 更改tabular.tabarray或numpy.recarray的数据类型(dtype),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8315642/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com