gpt4 book ai didi

python - numpy ndarray 是均匀的和矩形的(子数组必须具有相同的长度)因为它在引擎盖下使用 C 数组吗?

转载 作者:行者123 更新时间:2023-12-05 03:24:13 25 4
gpt4 key购买 nike

Numpy ndarray 必须具有相同类型的所有元素,并且同一级别上的所有子数组必须具有相同的长度。这些属性也是 C 多维数组的属性。 numpy ndarray 是否具有这些属性纯粹是因为它是在 C 数组之上实现的?创建快速多维数组实现是否真的需要这些属性?

最佳答案

Is it the case that numpy ndarray have those properties purely because it is implemented on top of C array?

没有。在内部使用 C 并不是真正导致 Numpy 做出此选择的原因。实际上,Numpy 数组只是内部(动态分配)的原始连续 内存缓冲区。 Numpy 实际上并没有在其自己的实现中使用 C 数组。它只使用C 指针。 View 是引用缓冲区并保存一些元信息(如步幅、形状、类型等)的 Python 对象。Python 用户总是在 View 上操作,因为无法直接读取/写入原始缓冲区。

事实上,在 C 中创建交错数组(即包含可变大小数组的数组)并不是很难,但需要手动创建(即标准不直接支持)。对于 2D 交错数组,这通常是通过分配 T* 项的数组然后为 N 个子数组执行 N 分配来完成的。不保证子数组是连续存储的。

要点是交错数组效率不高,因为内存碎片/扩散和不连续。此外,Numpy 提供的许多功能在交错数组中无法(有效地)实现。例如,为具有步幅的其他 View 创建 subview 将很棘手。在多轴上工作的操作(例如 np.sum(2D_array, axis=0))必须重新定义,以便它对锯齿状数组有意义。这也会使实现变得更加复杂。

因此,他们选择不实现交错数组,而只选择 ND 数组。请注意,Numpy 最初是为科学家创建的,尤其是很少需要锯齿状数组但关心高性能的物理学家。通过分配 2 个 Numpy 数组可以相对有效地实现锯齿状数组:1 个数组连接所有行和一个包含开始/结束偏移量的基于切片的数组。

Are those properties really required to create a fast multidimensional array implementation?

拥有同类类型对性能至关重要。动态类型强制对每个昂贵的项目进行类型检查。此外,动态类型通常需要额外的昂贵间接(例如,数组只存储指针/引用而不是对象本身)并且对对象的访问会导致内存碎片/扩散。与加法/减法/乘法等基本数值运算相比,此类运算非常昂贵。此外,对象的生命周期肯定必须仔细控制(例如垃圾收集),就像 CPython 所做的那样。事实上,CPython 的列表列表表现得像那样,而且效率很低。您可以创建 Numpy 数组对象的 Numpy 数组,但这也是低效的。

至于矩形阵列,它取决于用例,但这至少对矩阵乘法和矩阵 vector 乘积至关重要(因为 BLAS连续 数组可能在行之间有一个跨度),以及不在最连续的维度上工作的操作(编译器可以通过恒定跨度 进行更积极的优化)。更不用说上面指定的额外开销(例如额外检查和内存碎片/扩散)。

关于python - numpy ndarray 是均匀的和矩形的(子数组必须具有相同的长度)因为它在引擎盖下使用 C 数组吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/72331363/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com