gpt4 book ai didi

python - numpy:在整数索引与 bool 索引上复制值默认值

转载 作者:太空狗 更新时间:2023-10-29 20:54:08 26 4
gpt4 key购买 nike

我最近开始学习 McKinney 的 Python 进行数据分析。这本书把我绊倒了:

Array slices are views on the original array. This means data is not copied and any modifications to the view will be reflected in the source array ... As NumPy has been designed with large data use case in mind, you could imagine performance and memory problems if NumPy insisted on copying data left to right.

很好。似乎是一个明智的设计选择。但两页后它说:

Selecting data from an array by boolean indexing always creates a copy of the data, even if the returned array is unchanged.

等等,什么?还有,

You can even mix and match boolean arrays with slices ... e.g. data[names == 'Bob', 2:]

现在会返回什么?数据副本的 View ?为什么这种行为是这样的?来自 R,我看到 bool 索引和基于位置的索引同样常用的技术。如果 NumPy 的设计旨在避免复制内存,那么是什么插入了这一设计选择?

谢谢。

最佳答案

让我们假设一个一维数组。内存中的数据看起来像这样:

10 | 11 | 12 | 13 | 14 | 15 | 16

通过索引访问元素是微不足道的。直接取第一个元素的位置,跳n步。所以,对于 arr[2]:

10 | 11 | 12 | 13 | 14 | 15 | 16
^

我可以通过一次乘法得到内存中的位置。快速简单。

我可以做一个切片,然后说“只取 arr2 = arr[2:-1]”:

10 | 11 | 12 | 13 | 14 | 15 | 16
^----^----^----^

现在,内存布局非常相似。获取一个元素是从一个新的起点开始的乘法运算。 arr2[1]:

10 | 11 | 12 | 13 | 14 | 15 | 16
(ignore) -----^----------

你可以做一个更有趣的把戏,说 arr3 = arr[::2],让所有元素各跳一个。

10 | 11 | 12 | 13 | 14 | 15 | 16
^---------^---------^---------^

同样,获取 arr3 的索引非常简单:只需进行乘法运算,但现在大小变大了。这就是 strides 的目的,它们告诉你 block 的大小以及如何通过索引获取元素。步幅在更多维度上更加强大。顺便说一下,这是我们可以将内存 (1D) 转换为矩阵 (2D) 的方法。

现在,我们来看看 bool 数组。如果我的掩码是:T F T T F F T,我问你第三个元素,你需要遍历掩码,找到第三个为真,然后得到它的索引;因此,非常慢。因此,当采用 bool 掩码时,我们必须复制数据。有一些面具不能用步幅来表示,但不是一般情况下,所以为了保持一致,总是一个副本。

附带说明,有时,制作副本的成本在性能方面是值得的。如果要进行很多读取“数组的每五个元素”的操作,内存中的数据将不会对齐,因此CPU每次都必须等待它被读取。制作单个副本(将是连续的)并使用它会更快。

关于python - numpy:在整数索引与 bool 索引上复制值默认值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23266343/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com