python - 如何仅使用数据模型 dunder 方法执行(高级)索引就地(增强)分配给 numpy 向量？-6ren

python - 如何仅使用数据模型 dunder 方法执行(高级)索引就地(增强)分配给 numpy 向量？

转载作者：太空宇宙更新时间：2023-11-04 01:48:00

27

4

我正在使用 python 实现一个狭窄且有限的脚本 DSL，我希望能够在功能上执行以下等效操作:

import numpy as np
a = np.arange(10)
a[ a > 5 ] += 42

=> array([ 0,  1,  2,  3,  4,  5, 48, 49, 50, 51])

上面的代码可以正常工作。如果我开始扩展上面的代码，我会得到以下第一层内部结构:

a[a>5].__iadd__(42)

这也按预期工作。但是，我找不到允许我在数组本身而不是数组副本上操作 __iadd__ 的索引器方法。因此，不出所料，以下代码无法满足我的要求:

import numpy as np
a = np.arange(10)
a.__getitem__(a>5).__iadd__(42)

=> array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

仅当我这样做时:

a.__setitem__(a>5, a.__getitem__(a>5).__iadd__(42))

我似乎得到了我正在寻找的行为，但在这一点上，这根本不再是一个合适的就地赋值运算符，更重要的是，我索引了两次(一次用于读取，一次用于写)。

Numpy 的索引 page似乎暗示高级索引(即下标列表是 ndarray 的索引)总是返回一个副本。这是否真的意味着 a[a>5].__iadd__(42) 实际上总是使用回退方法实现的？有没有我遗漏的东西，或者这根本不可能，或者至少没有解释器魔法是不可能的？

编辑:

因此根据@donkopotamus 的回答，数据模型不允许我们一次完成此操作。 这回答了问题。

但是，numpy 作为一个矢量化库，索引绝对不能承受非矢量化和多次执行。

这是一个“证明”:

import cython
import numpy as np

@cython.locals(arr="float[:]",
               mask="bint[:]",
               val=float,
               i=int)
@cython.boundscheck(False)
def func(arr,mask,val):
       for i in range(len(mask)):
               if mask[i]:
                        arr[i] += val

此代码在编译和计时时，比 numpy 慢:

a = np.arange(1e6)

%%timeit
a[a%3==0] += 42

=> 40.5 ms ± 376 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

a = np.arange(1e6)

%%timeit
func(a, (a%3==0), 42)

=> 116 ms ± 2.76 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

因此 REPL 解释语句比 3 行 cython 函数运行得更快，后者几乎可以像 CPU 允许的那样快地撕裂内存 View 。

在这个阶段，一切都不再有意义了。我知道 numpy 是手工制作的，用于优化矢量化操作，但我不了解它如何以有意义的方式与 python 解释器集成。它是否缓存 BINARY_SUBSCR/STORE_SUBSCR 对？

@donkopotamus 请注意，虽然索引操作不是计算两次，但在 python 代码中，它是解释两次，因为对读取，然后对写入执行整个第二次扫描和掩码。在上面的 cython 代码中，该操作只发生一次读取和写入)。

欢迎任何见解。

最佳答案

您面临的问题不是特定于 numpy 本身，也不是 numpy 中的高级索引，也不是它是否创建副本。相反，它完全是由围绕是否:

索引保证返回容器“内部”的值(实际上不是)；以及是否
就地添加保证返回原始值的修改版本(不是)

考虑表达式:

x[a] += 100

其中 x 是一个列表 say。 x[a] 的结果是一个值 y，它不知道它恰好包含在列表中，表达式 y += 100 不能保证修改 y 的原始值...因此我们永远不能确保 x.__getitem__(x).__iadd__(100)< 形式的表达式 影响原始的 x。

因此表达式 x[a] += 100 必须由编译器使用以下步骤计算:

y = x[a]
y += 100
x[a] = y

或者在高级索引的情况下，我们可以期望 a[ a > 5 ] += 42 实现为:

b = a > 5
c = a[b]
c += 42
a[b] = c

这可以通过查看示例函数的反汇编来证明

def f(a):
    a[a > 5] += 42

然后

>>> dis.dis(f)
 0 LOAD_FAST                0 (a)
 2 LOAD_FAST                0 (a)
 4 LOAD_CONST               1 (5)
 6 COMPARE_OP               4 (>)  # 1. b = a > 5
 8 DUP_TOP_TWO
10 BINARY_SUBSCR                   # 2. c = a[b]
12 LOAD_CONST               2 (42)
14 INPLACE_ADD                     # 3. c += 42
16 ROT_THREE
18 STORE_SUBSCR                    # 4. a[b] = c
20 LOAD_CONST               0 (None)
22 RETURN_VALUE

请注意，在此实现中，索引 a > 5 不会执行两次。但是，如果您必须作为一组链式方法来实现，那么您别无选择，只能按照您的建议实现。

关于python - 如何仅使用数据模型 dunder 方法执行(高级)索引就地(增强)分配给 numpy 向量？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58657486/

27

4

0

文章推荐： python - 替换Excel工作表中的数据

文章推荐： c++ - 在不复制的情况下修剪字符串的开始

文章推荐： C 程序编号未正确排序数组

文章推荐： javascript - webpack2将sass/scss编译成js而不是css

sql - 高级 (?) AND/OR 查询
对于相当简单的表结构，即。人员、标准和 PersonCriteria(组合表)，我现在设置了一个查询，选择所有符合所有选定条件的人。此时查询本身看起来像这样: SELECT p.PersonID
mysql - 查询一个报告的两个表(高级)
我在使用高级 SQL 查询时遇到了一些问题，而且我已经有很长时间没有使用 SQL 数据库了。我们使用 MySQL。背景: 我们将使用两个表: “交易表” 表:expire_history +----
javascript JSON 高级
我找不到错误。也许你可以帮助我:我的代码如下: var data = {"product":[{"config":[{"id":"1","price":"100","sku":"1054879634
python - 高级 for 循环
我有一个列表列表的列表(最后一个列表并不重要) data = [[[['f', 0], 'C'], [['X', 0], 'X']], [[['s', 1], 'X'], [['X', 0], 'X'
c# - 高级 session
我想准备将使用表格的 session ，并在另一个网站上将新项目添加到 session 中。默认.cs string[] tab = new string[100];
algorithm - 高级/非常见的高效排序算法
我知道有一些像: Bubble sort Insertion sort Shell sort Merge sort Heapsort Quicksort Bucket sort Radix sort
algorithm - 按重量返回随机元素，高级
像https://softwareengineering.stackexchange.com/questions/150616/return-random-list-item-by-its-weigh
linux - 高级 while 控制语句
我正在开发一个 posix 脚本 (Linux)，它获取一个网页，将内容存储在一个变量中并查找字符串“SUCCESS”。如果找到字符串，则不执行循环内容，如果没有找到字符串，则反复执行循环，直到找到为
c# - “高级”控制台应用程序
我不确定这个问题是否已在其他地方得到解答，而且我似乎无法通过谷歌找到任何不是“Hello World”示例的内容...我正在使用 C# .NET 4.0 进行编码。我正在尝试开发一个控制台应用程序，
PHP:高级 ORDER BY
我创建了一个房地产网站，我希望按照列表的最后更新和完整性对列表进行排序。所以我一直想弄清楚如何结合最近更新的列表按mysql中的字段(completion_score)进行排序。完成分数将采用 1
PHP的switch判断语句的“高级”用法详解
只所以称为“高级”用法，是因为我连switch的最基础的用法都还没有掌握，so，接下来讲的其实还是它的基础用法！ switch 语句和具有同样表达式的一系列的 IF 语句相似。很多场合下需要把同一
22、XML DOM 高级
之前的章节中，我们学习了 XML DOM，并使用了 XML DOM 的 getElementsByTagName() 方法从 XML 文档中取回数据本章节我们将继续学习其它重要的 XML DOM
SQL 查询帮助(高级 - 对我来说!)
我对我尝试编写的 SQL 查询有疑问。我需要从数据库中查询数据。该数据库除其他外，还包括以下 3 个字段: Account_ID #, Date_Created, Time_Created 我需要编
video - 高级 ffmpeg 压缩控制
我正在使用非常激进的视频压缩，例如 -crf 51 .我将其用于“艺术”效果，因此从普通视频压缩的角度来看，我所做的可能没有意义。到目前为止，我只使用了非常基本的压缩控制，只使用了 -crf。或 -
RavenDB 高级 Lucene 查询
我真的在学习 lucene 和 ravendb 上的绳索 - 我在 Raven 中有以下文档 - { "InternalEvent": { "Desec": "MachineInfo: 1
unix - 高级 grep Unix
通常 grep 命令用于显示包含指定模式的行。有没有办法在包含指定模式的行之前和之后显示 n 行？这可以使用awk来实现吗？最佳答案是的，使用 grep -B num1 -A num2 在匹配之
sql - SQL 查询中的不同值 - 高级
我搜索了高低，并尝试了几个小时来操纵似乎适合的各种其他查询，但我没有快乐。我试图加入 Microsoft SQL Server 2005 中的几个表，其中一个示例是: Company Table (
xpath - 高级 XPath 查询
我有一个如下所示的 XML 文件: teacher1Name
coldfusion - 高级 cfif 语句
我将如何在 CF 中创建此语句？显然括号不起作用，但说明了我想要完成的工作。这是什么语法？编辑: 好的，我了解如何使用 EQ 等等。我有点匆忙地发布了这个。我的问题是关于括号。以这种方式使用它们
javascript - 高级 JSDoc( typescript )
主要问题:我需要使用具体对象结构对任何对象结构进行类型扩展。我在 VS Code 中测试的默认值。我的解决方案: /** @template A @typedef {{[Ki in keyof A

首页

博学

6Ren·AI

商城

python - 如何仅使用数据模型 dunder 方法执行(高级)索引就地(增强)分配给 numpy 向量？