python - NumPy "record array"或 "structured array"或 "recarray"-6ren

python - NumPy "record array"或 "structured array"或 "recarray"

转载作者：IT老高更新时间：2023-10-28 21:12:55

28

4

NumPy“结构化数组”、“记录数组”和“recarray”之间有什么区别(如果有的话)？

NumPy docs暗示前两个是相同的:如果它们是，哪个是这个对象的首选术语？

相同的文档说(在页面底部):你可以找到更多关于recarrays和结构化数组的信息(包括两者的区别)here .对这种差异有简单的解释吗？

最佳答案

简而言之，你应该使用结构化数组而不是recarrays，因为结构化数组更快，recarrays 的唯一优点是允许你编写 arr.x 而不是 arr['x']，这可能是一个方便的快捷方式，但如果您的列名与 numpy 方法/属性冲突，也容易出错。

查看 excerpt从@jakevdp 的书中获得更详细的解释。他特别指出，简单地访问结构化数组的列可以比访问重新数组的列快 20 到 30 倍左右。但是，他的示例使用了一个只有 4 行的非常小的数据框，并且不执行任何标准操作。

对于较大数据帧的简单操作，尽管结构化数组仍然更快，但差异可能要小得多。例如，这是一个结构化的记录数组，每个数组有 10,000 行(代码从借用自 @jpp 答案 here 的数据帧创建数组)。

n = 10_000
df = pd.DataFrame({ 'x':np.random.randn(n) })
df['y'] = df.x.astype(int)

rec_array = df.to_records(index=False)

s = df.dtypes
struct_array = np.array([tuple(x) for x in df.values], dtype=list(zip(s.index, s)))

如果我们执行标准操作，例如将一列乘以 2，结构化数组的速度大约快 50%:

%timeit struct_array['x'] * 2
9.18 µs ± 88.9 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

%timeit rec_array.x * 2
14.2 µs ± 314 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

关于python - NumPy "record array"或 "structured array"或 "recarray"，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27995110/

28

4

0

文章推荐： python - Pyspark --py-files 不起作用

文章推荐： java - JPA - 持久化对象时何时使用 getTransaction()

文章推荐： java - Eclipse 调试器中变量条目旁边的 id=xxx 是什么

文章推荐： python - Flask 永久 session : where to define them?

python - 堆叠 numpy recarrays 而不会丢失它们的 recarrayness
假设我用相同的 dtype 制作了两个 recarrays 并将它们堆叠起来: >>> import numpy as np >>> dt = [('foo', int), ('bar', float
python - recarray 中的自动字符串长度
如果我以这种方式创建一个 recarray: In [29]: np.rec.fromrecords([(1,'hello'),(2,'world')],names=['a','b']) 结果看起来不
python - 如何从列数组制作一个numpy recarray
我有一对 numpy 数组；这是一个简单的等效示例: t = np.linspace(0,1,100) data = ((t % 0.1) * 50).astype(np.uint16) 我希望这些是
Python Numpy recarray 排序双向
我有一个结构化的 numpy 数组，我正在按顺序对其进行排序。它工作得很好，但只有一个方向! 降序: sort(myStructuredArray,order=my_order)[::-1] 和上
python - 我怎么能在 recarray 中做过滤器
我有一个名为 data.csv 的数据文件 name,value A,10 1,20 B,30 3,20 ... 所以问题是我使用 numpy 和 mlab 来加载这个 csvfile data =
python - 关于 recarray 多字段索引的文档
在numpy docs的一次访问多个字段部分中, 说: 请注意，字段总是以相同的顺序返回，不管它们被要求的顺序如何。文档还给出了一个例子如下: >>> x = np.array([(1.5,2.5,
python - 更改对象类型的 recarray 列的数据类型
我有一个 csv 文件，其中两列(v3 和 v7)对于所有观察结果都是空白的: v1,v2,v3,v4,v5,v6,v7 GNB,1980,,20,-1.168689,0.4619077, GNB,1
python - Numpy recarray 的元组列表
给定一个元组列表，其中每个元组代表表中的一行，例如 tab = [('a',1),('b',2)] 有没有一种简单的方法可以将其转换为记录数组？我试过了 np.recarray(tab,dtype=[
python structured/recarray 类型转换行为
构造结构化/重载数组时，我对类型转换的行为感到困惑: 这个简单的示例接受数字字段，但将类型定义为字符串: data = [(1.0, 2), (3.0, 4)] np.array(data, dtyp
python - 将行添加到 numpy recarray
有没有一种简单的方法可以在不创建新的 recarray 的情况下将记录/行添加到 numpy recarray？假设我有一个占用 1Gb 内存的 recarray，我希望能够向其中添加一行而不让 py
python - Numpy-recarray，C#结构化数据
我用 C# 编写了一个数据使用者，它从 python API 脚本读取字符串数据。到目前为止，我发现性能最好的方法是将数据放入 python 中的 numpy-recarray，将其打印到控制台并使用
numpy recarray 副本保留 dtype 引用？
我正在尝试复制一个recarray 并更改新数组中字段/记录的名称。但是，这会修改原始数组的名称(但是，这些值并未取消链接)。例子: import numpy as np import copy 定义
python - recarray 中的 numpy datetime64
我在创建 datetime64 类型的记录数组时遇到问题。我正在运行 Python 2.7、Numpy 1.7。这是一个最小的例子: p_dtype = np.dtype({"names": ['t
python - numpy.recarray.tobytes 的逆
numpy.recarray.tobytes 的逆是什么？ >>> import numpy as np >>> A = np.array([(28483,27759)],dtype=[('x','>
python - 自动调整 NumPy recarray 的大小
我想创建一个 numpy.recarray 的子类，当数据添加到超出其当前长度的行时自动调整大小。下面的代码完成了大部分我想要的。 class autorecarray(numpy.recarray
Python:SpatiaLite 表到带有日期时间格式的 numpy recarray？
我在 QGIS-user forum 上发布了这个问题但这可能太技术性了，因此我也捕获机会在这里尝试一下。我的计划是有一个 QGIS 插件来读取和绘制与矢量图层中选定点对应的时间序列数据(这些点代表
python - 在 numpy recarray 中删除一行
有没有一种方便的方法可以删除 recarray 中包含某些值的行？假设我有以下数组， a=numpy.array([(1.0, 2.0, 3.0), (4.0, 5.0, 10.0),(1.0,10.
python - 如何将 numpy recarray 的子集转换为连续数组？
我有一个来自读取 csv 文件的 recarray。我有兴趣将列的子集转换为连续的 float 组。我想避免将它们转换为列表或将它们一一堆叠。我尝试了 https://stackoverflow.co
python - numpy:替换 recarray 中的值
我是 numpy 的新手，我正在尝试替换 recarray 中的值。所以我有这个数组: import numpy as np d = [('1', ''),('4', '5'),('7', '8')]
python - 就地修改 NumPy recarray 的高级索引子集
我有一个 recarray，其中包含几个用于选择子集的列。有点像 >>> x array([ ('label1',True,3), ('label2',True,2),

首页

博学

6Ren·AI

商城

python - NumPy "record array"或 "structured array"或 "recarray"