- mongodb - 在 MongoDB mapreduce 中,如何展平值对象?
- javascript - 对象传播与 Object.assign
- html - 输入类型 ="submit"Vs 按钮标签它们可以互换吗?
- sql - 使用 MongoDB 而不是 MS SQL Server 的优缺点
NumPy“结构化数组”、“记录数组”和“recarray”之间有什么区别(如果有的话)?
NumPy docs暗示前两个是相同的:如果它们是,哪个是这个对象的首选术语?
相同的文档说(在页面底部):你可以找到更多关于recarrays和结构化数组的信息(包括两者的区别)here .对这种差异有简单的解释吗?
最佳答案
简而言之,你应该使用结构化数组而不是recarrays,因为结构化数组更快,recarrays 的唯一优点是允许你编写 arr.x
而不是 arr['x']
,这可能是一个方便的快捷方式,但如果您的列名与 numpy 方法/属性冲突,也容易出错。
查看 excerpt从@jakevdp 的书中获得更详细的解释。他特别指出,简单地访问结构化数组的列可以比访问重新数组的列快 20 到 30 倍左右。但是,他的示例使用了一个只有 4 行的非常小的数据框,并且不执行任何标准操作。
对于较大数据帧的简单操作,尽管结构化数组仍然更快,但差异可能要小得多。例如,这是一个结构化的记录数组,每个数组有 10,000 行(代码从借用自 @jpp 答案 here 的数据帧创建数组)。
n = 10_000
df = pd.DataFrame({ 'x':np.random.randn(n) })
df['y'] = df.x.astype(int)
rec_array = df.to_records(index=False)
s = df.dtypes
struct_array = np.array([tuple(x) for x in df.values], dtype=list(zip(s.index, s)))
如果我们执行标准操作,例如将一列乘以 2,结构化数组的速度大约快 50%:
%timeit struct_array['x'] * 2
9.18 µs ± 88.9 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
%timeit rec_array.x * 2
14.2 µs ± 314 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
关于python - NumPy "record array"或 "structured array"或 "recarray",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27995110/
假设我用相同的 dtype 制作了两个 recarrays 并将它们堆叠起来: >>> import numpy as np >>> dt = [('foo', int), ('bar', float
如果我以这种方式创建一个 recarray: In [29]: np.rec.fromrecords([(1,'hello'),(2,'world')],names=['a','b']) 结果看起来不
我有一对 numpy 数组;这是一个简单的等效示例: t = np.linspace(0,1,100) data = ((t % 0.1) * 50).astype(np.uint16) 我希望这些是
我有一个结构化的 numpy 数组,我正在按顺序对其进行排序。 它工作得很好,但只有一个方向! 降序: sort(myStructuredArray,order=my_order)[::-1] 和 上
我有一个名为 data.csv 的数据文件 name,value A,10 1,20 B,30 3,20 ... 所以问题是我使用 numpy 和 mlab 来加载这个 csvfile data =
在numpy docs的一次访问多个字段部分中, 说: 请注意,字段总是以相同的顺序返回,不管它们被要求的顺序如何。 文档还给出了一个例子如下: >>> x = np.array([(1.5,2.5,
我有一个 csv 文件,其中两列(v3 和 v7)对于所有观察结果都是空白的: v1,v2,v3,v4,v5,v6,v7 GNB,1980,,20,-1.168689,0.4619077, GNB,1
给定一个元组列表,其中每个元组代表表中的一行,例如 tab = [('a',1),('b',2)] 有没有一种简单的方法可以将其转换为记录数组?我试过了 np.recarray(tab,dtype=[
构造结构化/重载数组时,我对类型转换的行为感到困惑: 这个简单的示例接受数字字段,但将类型定义为字符串: data = [(1.0, 2), (3.0, 4)] np.array(data, dtyp
有没有一种简单的方法可以在不创建新的 recarray 的情况下将记录/行添加到 numpy recarray?假设我有一个占用 1Gb 内存的 recarray,我希望能够向其中添加一行而不让 py
我用 C# 编写了一个数据使用者,它从 python API 脚本读取字符串数据。到目前为止,我发现性能最好的方法是将数据放入 python 中的 numpy-recarray,将其打印到控制台并使用
我正在尝试复制一个recarray 并更改新数组中字段/记录的名称。但是,这会修改原始数组的名称(但是,这些值并未取消链接)。例子: import numpy as np import copy 定义
我在创建 datetime64 类型的记录数组时遇到问题。我正在运行 Python 2.7、Numpy 1.7。 这是一个最小的例子: p_dtype = np.dtype({"names": ['t
numpy.recarray.tobytes 的逆是什么? >>> import numpy as np >>> A = np.array([(28483,27759)],dtype=[('x','>
我想创建一个 numpy.recarray 的子类,当数据添加到超出其当前长度的行时自动调整大小。 下面的代码完成了大部分我想要的。 class autorecarray(numpy.recarray
我在 QGIS-user forum 上发布了这个问题但这可能太技术性了,因此我也捕获机会在这里尝试一下。 我的计划是有一个 QGIS 插件来读取和绘制与矢量图层中选定点对应的时间序列数据(这些点代表
有没有一种方便的方法可以删除 recarray 中包含某些值的行?假设我有以下数组, a=numpy.array([(1.0, 2.0, 3.0), (4.0, 5.0, 10.0),(1.0,10.
我有一个来自读取 csv 文件的 recarray。我有兴趣将列的子集转换为连续的 float 组。我想避免将它们转换为列表或将它们一一堆叠。我尝试了 https://stackoverflow.co
我是 numpy 的新手,我正在尝试替换 recarray 中的值。所以我有这个数组: import numpy as np d = [('1', ''),('4', '5'),('7', '8')]
我有一个 recarray,其中包含几个用于选择子集的列。有点像 >>> x array([ ('label1',True,3), ('label2',True,2),
我是一名优秀的程序员,十分优秀!