python - 更改tabular.tabarray或numpy.recarray的数据类型(dtype)-6ren

python - 更改tabular.tabarray或numpy.recarray的数据类型(dtype)

转载作者：太空宇宙更新时间：2023-11-04 07:24:10

我想用Python来表示电子表格中的数据。想着“嗯，肯定有人写了这样的模块！”我去了PyPI，在那里我找到了Tabular，它用强大的数据操作功能包装了NumPy的Recarray。大！可悲的是，它在字符串方面似乎根本不像电子表格。

>>> import tabular as tb
>>> t = tb.tabarray(records=[('bork', 1, 3.5), ('stork', 2, -4.0)], names=['a','b','c'])
>>> t
tabarray([('bork', 1, 3.5), ('stork', 2, -4.0)], 
      dtype=[('a', '|S5'), ('b', '<i8'), ('c', '<f8')])
>>> t['a'][0] = 'gorkalork, but not mork'
>>> t
tabarray([('gorka', 1, 3.5), ('stork', 2, -4.0)], 
      dtype=[('a', '|S5'), ('b', '<i8'), ('c', '<f8')])

嗯... tabarray！你在那儿截断了我的弦！真？！ NumPy dtype'| S5'的意思是一个包含5个或更少字符的字符串，但是来吧！更新dtype。如果需要，请重新格式化整个列。随你。但是请不要默默丢弃我的数据！

我尝试了其他几种方法，但没有一种可以解决问题。例如，它会在创建Tabarray时直觉数据类型/大小，但在添加记录时不会：

>>> t.addrecords(('mushapushalussh', 3, 4.44))
tabarray([('gorka', 1, 3.5), ('stork', 2, -4.0), ('musha', 3, 4.44)], 
      dtype=[('a', '|S5'), ('b', '<i8'), ('c', '<f8')])

我试图切出整个列，更改其类型，设置值，然后重新分配它：

>>> firstcol_long = firstcol.astype('|S15')
>>> firstcol_long
tabarray(['gorka', 'stork'], 
      dtype='|S15')
>>> firstcol_long[0] = 'morkapork'
>>> firstcol_long
tabarray(['morkapork', 'stork'], 
      dtype='|S15')
>>> t['a'] = firstcol_long
>>> t
tabarray([('morka', 1, 3.5), ('stork', 2, -4.0)], 
      dtype=[('a', '|S5'), ('b', '<i8'), ('c', '<f8')])
>>>

它正确地进行了值分配，但是原始数据类型仍然有效，并且我先前正确的数据再次被静默截断。我什至尝试了显式的数据类型设置：

>>> t = tb.tabarray(records=[('bork', 1, 3.5), ('stork', 2, -4.0)], dtype=[('a', str),('b', int),('c', float)])
>>> t
tabarray([('', 1, 3.5), ('', 2, -4.0)], 
      dtype=[('a', '|S0'), ('b', '<i8'), ('c', '<f8')])

好主啊！更糟！它正确地映射了 int和 float类型，但是它猜测 str意味着我想要0长度的字符串，并且将所有数据都截断为零。长话短说，表格不仅不能像开箱即用的电子表格一样工作，而且我找不到使它起作用的方法。对于我而言，性能并不是一个大问题。我的电子表格最多可以包含数百或数千行，我很乐意让系统进行一些数据复制以简化代码。表格在许多其他方面似乎非常适合该法案。

我猜想我可以使用某些将所有字符串默认设置为不可能大的东西（例如1024或4096字节）的子类，使用 __setitem__方法引发，如果分配了更大的字符串，该方法会引发异常。有点草率...但是还有更好的选择吗？我扎根于numpy.recarray等，但并没有找到明确的方法...但是我将第一个承认我对NumPy完全不熟练。现实情况是，数据处理程序可能会增加字符串的长度，使其超出其初始最大值。高性能模块肯定可以适应这一点。 “只是截断它！” 1974年面向记录的数据库中常见的方法在2011年对于Python来说不是正确的最新技术！

有什么想法和建议吗？

最佳答案

作为表格设计者之一...我不得不说，我在很大程度上认为第一个回答者会打在头上。

OP，您讨厌的“截断”行为是NumPy的基本问题，Tabular就是基于此。但是说这是一个应该修复的“错误”并不是真正准确的，它更确切地说是一个“限制”，它回响/加强了NumPy（和表格格式）的整个观点。

正如第一个回答者指出的那样，NumPy绝对要求数据结构的大小统一。分配给定数据类型的numpy数组后，该数组必须保留该数据类型-否则，必须初始化具有新内存的新数组。对于字符串数据类型，字符串的长度是数据类型不可或缺的固定部分-您不能仅将长度为N的字符串数组“转换”为长度为M的字符串数组。

固定数据类型对于NumPy通过标准Python对象获得巨大性能提升的方式至关重要。这是因为，使用固定的数据类型，NumPy对象知道已为每个对象分配了多少字节，并且可以仅在内存空间中“跳转”到给定条目“应该”的位置，而不必读取和处理该内容。所有中间条目，与Python列表不同。当然，这限制了自然可以成为numpy数组的对象的种类……或者实际上，它限制了可以对numpy数组进行的操作的种类。与完全可变的Python列表不同（例如，您可以用任何其他python对象替换任何元素，而不会干扰列表中所有其他对象的内存分配），您不能将numpy数组的值突变为a的对象不同的数据类型-因为字节计费将如何工作？如果突然第N个项目变得比数组中所有其他项目大，那么所有其余项目的数据/位置会怎样？

您可能不喜欢NumPy的默认行为，这是当您尝试进行破坏数据类型的“非法”赋值时发生的事情–也许您希望发出错误而不是静默截断？如果是这样，您应该在NumPy列表中发布有关此内容的信息，因为我认为这是Tabular所不能解决的最根本的问题-不管我们个人对错误处理的看法如何，我们都希望与NumPy在这里所做的一切保持一致。

您可能还不喜欢Tabular如何进行数据类型推断。实际上，NumPy远离dtype推断，并且基本上总是要求用户显式指定数据类型。从要求用户考虑这些问题的意义上说，这是很好的，但是令人讨厌的是，这有时非常麻烦。 Tabular尝试使用大多数情况下都有用的快乐媒体，但有时这会失败-在这种情况下，只需指定与NumPy构造函数相同的关键字参数即可覆盖默认值。

我确实认为当您说“ 1974年面向记录的数据库中的通用方法不能成为2011年适用于Python的正确的最新技术”时，您并不完全正确。实际上，NumPy内存管理的基础确实与1970年代使用的工具完全相同-可能令人惊讶，但是优化的NumPy的大部分仍然基于Fortran！尽管NumPy多数时候确实提供了一个更干净，更简单的界面，但即使在今天，那些日子的内存分配问题仍无法避免。但是必须要说的是，如果您“乐于让系统进行一些数据复制以使我的代码变得容易” –那么NumPy和Tabular可能不适合您，因为静默数据复制及其所代表的一切都是明确的违背了这些软件包的设计意图。

因此，问题就变成了：您的目标是什么？如果您真的需要通过类似数组的操作来提高性能，则可以使用NumPy（在这种情况下，Tabular提供类似电子表格的操作），但是要在NumPy的限制范围内。如果您不需要性能，那么就没有必要使用类似数组的对象，并且可以更加灵活。但是，Tabular类似于电子表格的操作并没有扩展到一般的python对象-甚至还不清楚如何进行扩展。

而且，让我再添加一个（非常重要的）事情-OP，如果性能不是您的主要问题，但是您仍然希望使用Tabular作为电子表格操作的来源，则可以执行所有可能需要的操作通过对Tabular数组构造函数的新调用来更改数据类型。也就是说，如果在给定的操作中您可能需要对新的更大的字符串数据类型进行分配，则每次都只需构造一个新的Tabarray。这显然对性能没有好处，如果这不是您的限制，那么应该没有问题。

这里的关键点是Tabular和NumPy为“快”或“慢”设置了某些标准-然后，迫使您明确要慢的操作。它们永远不允许您隐藏（例如Matlab这样的方法）引擎盖下非常慢的操作。从语法上讲，一些简单的事情应该很快—如果您想做一些缓慢的事情，则您必须在代码中加倍努力以做到这一点，因此请注意所发生的事情。因此，与直接在C或Fortran中工作相比，您的代码最终会变得更好，更好，但编写起来仍然更容易。实际上，该原则在很大程度上也适用于所有Python本身-尽管对于“快速”或“慢速”有不同的标准。

HTH，
d

关于python - 更改tabular.tabarray或numpy.recarray的数据类型(dtype)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8315642/

文章推荐： java - 批处理 - Natives、Jars 和松散类文件

文章推荐： java - LWJGL 不显示纹理

文章推荐： python - 我遇到了一个关于 django Queryset 的棘手问题

numpy - 检查一个 numpy 数组是否是一个 numpy 掩码数组
作为脚本的输出，我有 numpy masked array和标准numpy array .如何在运行脚本时轻松检查数组是否为掩码(具有 data 、 mask 属性)？最佳答案您可以通过 isin
python - 检查一个 numpy 数组中有多少个 numpy 数组与另一个不同大小的 numpy 数组中的其他 numpy 数组相等
我的问题假设我有 a = np.array([ np.array([1,2]), np.array([3,4]), np.array([5,6]), np.array([7,8]), np.arra
numpy - Numpy 是否具有内置的元素矩阵模幂实现
numpy 是否有用于矩阵模幂运算的内置实现？ (正如 user2357112 所指出的，我实际上是在寻找元素明智的模块化减少) 对常规数字进行模幂运算的一种方法是使用平方求幂 (https://en
numpy - 向量化梯度下降 Numpy
我已经在 Numpy 中实现了这个梯度下降: def gradientDescent(X, y, theta, alpha, iterations): m = len(y) for i
numpy - 如何在不编译源代码的情况下安装 Numpy
我有一个使用 Numpy 在 CentOS7 上运行的项目。问题是安装此依赖项需要花费大量时间。因此，我尝试 yum install pip install 之前的 numpy 库它。所以我跑:
python - Numpy:用 numpy 数组替换 numpy 数组中的零
处理我想要旋转的数据。请注意，我仅限于 numpy，无法使用 pandas。原始数据如下所示: data = [ [ 1, a, [, ] ], [ 1, b, [, ] ], [ 2,
numpy - numpy 中的随机数种子
numpy.random.seed(7) 在不同的机器学习和数据分析教程中，我看到这个种子集有不同的数字。选择特定的种子编号真的有区别吗？或者任何数字都可以吗？选择种子数的目标是相同实验的可重复性。
numpy - numpy 数组的内存映射文件
我需要读取存储在内存映射文件中的巨大 numpy 数组的部分内容，处理数据并对数组的另一部分重复。整个 numpy 数组占用大约 50 GB，我的机器有 8 GB RAM。我最初使用 numpy.m
python - Numpy:用 numpy 数组替换 numpy 数组中的零
处理我想要旋转的数据。请注意，我仅限于 numpy，无法使用 pandas。原始数据如下所示: data = [ [ 1, a, [, ] ], [ 1, b, [, ] ], [ 2,
numpy - numpy.empty() 优于 numpy.ndarray() 的目的是什么？
似乎 numpy.empty() 可以做的任何事情都可以使用 numpy.ndarray() 轻松完成，例如: >>> np.empty(shape=(2, 2), dtype=np.dtype('d
numpy - numpy 数组中标记组件之间的最小边到边欧氏距离
我在大型 numpy 数组中有许多不同的形式，我想使用 numpy 和 scipy 计算它们之间的边到边欧氏距离。注意:我进行了搜索，这与堆栈中之前的其他问题不同，因为我想获得数组中标记 block
python - numpy 数组的 numpy 数组 numpy 数组的
我有一个大小为 (2x3) 的 numpy 对象数组。我们称之为M1。在M1中有6个numpy数组。M1 给定行中的数组形状相同，但与 M1 任何其他行中的数组形状不同。也就是说， M1 = [ [
numpy - numpy 点积的爱因斯坦符号
如何使用爱因斯坦表示法编写以下点积？ import numpy as np LHS = np.ones((5,20,2)) RHS = np.ones((20,2)) np.sum([ np.
python - 如何仅使用 numpy 操作根据其他两个 numpy 数组的条件获取新的 numpy 数组？
假设我有 np.array of a = [0, 1, 1, 0, 0, 1] 和 b = [1, 1, 0, 0, 0, 1] 我想要一个新矩阵 c 使得如果 a[i] = 0 和 b[i] = 0
python - Numpy:在另一个 numpy 数组中创建一批 numpy 数组( reshape )
我有一个形状为 (32,5) 的 numpy 数组 batch。批处理的每个元素都包含一个 numpy 数组 batch_elem = [s,_,_,_,_] 其中 s = [img,val1,val
python - 无法将 NumPy 数组转换为张量(不支持的对象类型 numpy.ndarray)- 已经将数据转换为 numpy 数组
尝试为基于文本的多标签分类问题训练单层神经网络。 model= Sequential() model.add(Dense(20, input_dim=400, kernel_initializer='
python - 从 2D numpy 数组的 numpy 数组高效创建 block numpy 数组
首先是一个简单的例子 import numpy as np a = np.ones((2,2)) b = 2*np.ones((2,2)) c = 3*np.ones((2,2)) d = 4*np.
python - 使用 numpy.mean 或 numpy.average 平均二维 numpy.array
我正在尝试平均二维 numpy 数组。所以，我使用了 numpy.mean 但结果是空数组。 import numpy as np ws1 = np.array(ws1) ws1_I8 = np.ar
python - 基于 2D numpy 索引数组排列 numpy 2D 数组的 numpy 方式是什么？
import numpy as np x = np.array([[1,2 ,3], [9,8,7]]) y = np.array([[2,1 ,0], [1,0,2]]) x[y] 预期输出: ar
numpy - Python numpy 矩阵乘法与一个对角矩阵
我有两个数组 A (4000,4000)，其中只有对角线填充了数据，而 B (4000,5) 填充了数据。有没有比 numpy.dot(a,b) 函数更快的方法来乘(点)这些数组？到目前为止，我发现

太空宇宙

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 更改tabular.tabarray或numpy.recarray的数据类型(dtype)