python - 优化包括多个 np.multipy 语句的代码片段-6ren

python - 优化包括多个 np.multipy 语句的代码片段

转载作者：行者123 更新时间：2023-12-02 10:56:11

我致力于优化 python 模块中的一些代码。我已经确定了瓶颈，并且是一个在 numpy 中进行一些计算的代码片段。即如下代码:

    xh = np.multiply(K_Rinv[0, 0], x )
    xh += np.multiply(K_Rinv[0, 1],  y) 
    xh += np.multiply(K_Rinv[0, 2],  h)
    yh = np.multiply(K_Rinv[1, 0],  x) 
    yh += np.multiply(K_Rinv[1, 1],  y) 
    yh += np.multiply(K_Rinv[1, 2],  h)
    q = np.multiply(K_Rinv[2, 0],  x) 
    q += np.multiply(K_Rinv[2, 1],  y) 
    q += np.multiply(K_Rinv[2, 2],  h)

其中 x、y 和 h 是形状为 (4206,5749) 的 np.ndarray，K_Rinv 是形状为 (3,3) 的 np.ndarray )。该代码片段被多次调用，占用了整个代码50%以上的时间。有没有办法加快速度？还是就这样，无法加速。

编辑1:
感谢您的回答。在使用 numba 遇到问题后(请参阅最后的错误消息)，我尝试了 numexpr 的建议。然而，使用这个解决方案时我的代码崩溃了。所以我检查了结果是否相同，是否不同。这是我正在使用的代码:

    xh_1 = numexpr.evaluate('a1*b1+a2*b2+a3*b3', {'a1': K_Rinv[0, 0], 'b1': x,
                                                'a2': K_Rinv[0, 1], 'b2': y,
                                                'a3': K_Rinv[0, 2], 'b3': h})
    yh_1 = numexpr.evaluate('a1*b1+a2*b2+a3*b3', {'a1': K_Rinv[1, 0], 'b1': x,
                                                'a2': K_Rinv[1, 1], 'b2': y,
                                                'a3': K_Rinv[1, 2], 'b3': h})
    q_1 = numexpr.evaluate('a1*b1+a2*b2+a3*b3', {'a1': K_Rinv[2, 0], 'b1': x,
                                            'a2': K_Rinv[2, 1], 'b2': y,
                                            'a3': K_Rinv[2, 2], 'b3': h})
    xh_2 = np.multiply(K_Rinv[0, 0], x )
    xh_2 += np.multiply(K_Rinv[0, 1],  y) 
    xh_2 += np.multiply(K_Rinv[0, 2],  h)
    yh_2 = np.multiply(K_Rinv[1, 0],  x) 
    yh_2 += np.multiply(K_Rinv[1, 1],  y) 
    yh_2 += np.multiply(K_Rinv[1, 2],  h)
    q_2 = np.multiply(K_Rinv[2, 0],  x) 
    q_2 += np.multiply(K_Rinv[2, 1],  y) 
    q_2 += np.multiply(K_Rinv[2, 2],  h)
    check1 = xh_1.all() == xh_2.all() 
    check2 = yh_1.all() == yh_2.all() 
    check3 = q_2.all() == q_1.all()
    print ( " Check1 :{} , Check2: {} , Check3:{}" .format (check1,check2,check3))

我没有任何使用 numexpr 的经验，它们通常不一样吗？

numba 错误:

 File "/usr/local/lib/python3.6/dist-packages/numba/dispatcher.py", line 420, in _compile_for_args
    raise e
  File "/usr/local/lib/python3.6/dist-packages/numba/dispatcher.py", line 353, in _compile_for_args
    return self.compile(tuple(argtypes))
  File "/usr/local/lib/python3.6/dist-packages/numba/compiler_lock.py", line 32, in _acquire_compile_lock
    return func(*args, **kwargs)
  File "/usr/local/lib/python3.6/dist-packages/numba/dispatcher.py", line 768, in compile
    cres = self._compiler.compile(args, return_type)
  File "/usr/local/lib/python3.6/dist-packages/numba/dispatcher.py", line 77, in compile
    status, retval = self._compile_cached(args, return_type)
  File "/usr/local/lib/python3.6/dist-packages/numba/dispatcher.py", line 91, in _compile_cached
    retval = self._compile_core(args, return_type)
  File "/usr/local/lib/python3.6/dist-packages/numba/dispatcher.py", line 109, in _compile_core
    pipeline_class=self.pipeline_class)
  File "/usr/local/lib/python3.6/dist-packages/numba/compiler.py", line 551, in compile_extra
    return pipeline.compile_extra(func)
  File "/usr/local/lib/python3.6/dist-packages/numba/compiler.py", line 327, in compile_extra
    raise e
  File "/usr/local/lib/python3.6/dist-packages/numba/compiler.py", line 321, in compile_extra
    ExtractByteCode().run_pass(self.state)
  File "/usr/local/lib/python3.6/dist-packages/numba/untyped_passes.py", line 67, in run_pass
    bc = bytecode.ByteCode(func_id)
  File "/usr/local/lib/python3.6/dist-packages/numba/bytecode.py", line 215, in __init__
    self._compute_lineno(table, code)
  File "/usr/local/lib/python3.6/dist-packages/numba/bytecode.py", line 237, in _compute_lineno
    known = table[_FIXED_OFFSET].lineno
KeyError: 2

编辑2坦克的评论和答案。因此，在再次检查代码后，numexpr 解决方案有效。非常感谢。我仍然在一个单独的 python 文件中进行了一些测试，看看 numba 代码是否可以在那里工作，而且确实可以工作，但速度非常慢。请参阅下面我使用的代码:

import numpy as np
import numba as nb
import numexpr
from datetime import datetime

def calc(x,y,h,K_Rinv):
        xh_2 = np.multiply(K_Rinv[0, 0], x )
        xh_2 += np.multiply(K_Rinv[0, 1],  y) 
        xh_2 += np.multiply(K_Rinv[0, 2],  h)
        yh_2 = np.multiply(K_Rinv[1, 0],  x) 
        yh_2 += np.multiply(K_Rinv[1, 1],  y) 
        yh_2 += np.multiply(K_Rinv[1, 2],  h)
        q_2 = np.multiply(K_Rinv[2, 0],  x) 
        q_2 += np.multiply(K_Rinv[2, 1],  y) 
        q_2 += np.multiply(K_Rinv[2, 2],  h)
        return xh_2, yh_2, q_2

def calc_numexpr(x,y,h,K_Rinv):
    xh = numexpr.evaluate('a1*b1+a2*b2+a3*b3', {'a1': K_Rinv[0, 0], 'b1': x,
                                            'a2': K_Rinv[0, 1], 'b2': y,
                                            'a3': K_Rinv[0, 2], 'b3': h})
    yh = numexpr.evaluate('a1*b1+a2*b2+a3*b3', {'a1': K_Rinv[1, 0], 'b1': x,
                                            'a2': K_Rinv[1, 1], 'b2': y,
                                            'a3': K_Rinv[1, 2], 'b3': h})
    q = numexpr.evaluate('a1*b1+a2*b2+a3*b3', {'a1': K_Rinv[2, 0], 'b1': x,
                                           'a2': K_Rinv[2, 1], 'b2': y,
                                           'a3': K_Rinv[2, 2], 'b3': h})
    return xh,yh,q


@nb.njit(fastmath=True,parallel=True)
def calc_nb(x,y,h,K_Rinv):
    xh=np.empty_like(x)
    yh=np.empty_like(x)
    q=np.empty_like(x)

    for i in nb.prange(x.shape[0]):
        for j in range(x.shape[1]):
            xh[i,j]=K_Rinv[0, 0]*x[i,j]+K_Rinv[0, 1]*  y[i,j]+K_Rinv[0, 2]*h[i,j]
            yh[i,j]=K_Rinv[1, 0]*x[i,j]+K_Rinv[1, 1]*  y[i,j]+K_Rinv[1, 2]*h[i,j]
            q[i,j] =K_Rinv[2, 0]*x[i,j]+K_Rinv[2, 1]*  y[i,j]+K_Rinv[2, 2]*h[i,j]
    return xh,yh,q


x = np.random.random((4206, 5749))
y = np.random.random((4206, 5749))
h = np.random.random((4206, 5749))
K_Rinv = np.random.random((3, 3))

start = datetime.now()
x_calc,y_calc,q_calc = calc(x,y,h,K_Rinv)
end = datetime.now()
print("Calc took:           {} ".format(end - start))

start = datetime.now()
x_numexpr,y_numexpr,q_numexpr = calc_numexpr(x,y,h,K_Rinv)
end = datetime.now()
print("Calc_numexpr took:   {} ".format(end - start))

start = datetime.now()
x_nb,y_nb,q_nb = calc_nb(x,y,h,K_Rinv)
end = datetime.now()
print("Calc nb took:        {} ".format(end - start))

check_nb_q = (q_calc==q_nb).all()
check_nb_y = (y_calc==y_nb).all()
check_nb_x = (x_calc==x_nb).all()

check_numexpr_q = (q_calc==q_numexpr).all()
check_numexpr_y = (y_calc==y_numexpr).all()
check_numexpr_x = (x_calc==x_numexpr).all()

print("Checks for numexpr: {} , {} ,{} \nChecks for nb: {} ,{}, {}" .format(check_numexpr_x,check_numexpr_y,check_numexpr_q,check_nb_x,check_nb_y,check_nb_q))

输出以下内容:

Calc took:           0:00:01.944150 
Calc_numexpr took:   0:00:00.616224 
Calc nb took:        0:00:01.553058 
Checks for numexpr: True , True ,True 
Checks for nb: False ,False, False

所以 numba 版本无法按预期工作。知道我做错了什么吗？希望 numba 解决方案也能正常工作。

诗。注意。版本是“0.47.0”

最佳答案

另一种可能性是使用 Numba。

示例

import numpy as np
import numba as nb

@nb.njit(fastmath=True,parallel=True)
def calc_nb(x,y,h,K_Rinv):
    xh=np.empty_like(x)
    yh=np.empty_like(x)
    q=np.empty_like(x)

    for i in nb.prange(x.shape[0]):
        for j in range(x.shape[1]):
            xh[i,j]=K_Rinv[0, 0]*x[i,j]+K_Rinv[0, 1]*  y[i,j]+K_Rinv[0, 2]*h[i,j]
            yh[i,j]=K_Rinv[1, 0]*x[i,j]+K_Rinv[1, 1]*  y[i,j]+K_Rinv[1, 2]*h[i,j]
            q[i,j] =K_Rinv[2, 0]*x[i,j]+K_Rinv[2, 1]*  y[i,j]+K_Rinv[2, 2]*h[i,j]
    return xh,yh,q

此计算内存带宽是否受到限制？

def copy(x,y,h,K_Rinv):
    return np.copy(x),np.copy(y),np.copy(h)

%timeit copy(x,y,h,K_Rinv)
#147 ms ± 4.98 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

此计算受到内存带宽和动态内存分配的限制，两者之间的乘法与性能无关。

时间

x = np.random.random((4206, 5749))
y = np.random.random((4206, 5749))
h = np.random.random((4206, 5749))
K_Rinv = np.random.random((3, 3))

%timeit calc(x,y,h,K_Rinv) #Your implementation
#581 ms ± 8.05 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
%timeit calc_nb(x,y,h,K_Rinv)
#145 ms ± 3.81 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
%timeit calc_numexpr_scleronomic(x,y,h,K_Rinv)
#175 ms ± 1.83 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
%timeit calc_Daniel_F(x,y,h,K_Rinv)
#589 ms ± 24.6 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

可能的进一步优化:重用已分配的内存

@nb.njit(fastmath=True,parallel=True)
def calc_nb_2(x,y,h,K_Rinv,xh,yh,q):
    for i in nb.prange(x.shape[0]):
        for j in range(x.shape[1]):
            xh[i,j]=K_Rinv[0, 0]*x[i,j]+K_Rinv[0, 1]*  y[i,j]+K_Rinv[0, 2]*h[i,j]
            yh[i,j]=K_Rinv[1, 0]*x[i,j]+K_Rinv[1, 1]*  y[i,j]+K_Rinv[1, 2]*h[i,j]
            q[i,j] =K_Rinv[2, 0]*x[i,j]+K_Rinv[2, 1]*  y[i,j]+K_Rinv[2, 2]*h[i,j]
    return xh,yh,q

#allocate memory only once if you call this function repeatedly
xh=np.empty_like(x)
yh=np.empty_like(x)
q=np.empty_like(x)

%timeit calc_nb_2(x,y,h,K_Rinv,xh,yh,q)
69.2 ms ± 194 µs per loop (mean ± std. dev. of 7 runs, 1 loop each)

关于python - 优化包括多个 np.multipy 语句的代码片段，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59677789/

文章推荐： Ansible，删除除 X 个最新文件夹之外的所有内容

文章推荐： fortran - 如何包装 fortran write 语句

文章推荐： fortran - gfortran 连续行的最大数量

文章推荐： tcpdf - 使用 TCPDF 在 PDF 文件中生成图表

django - 我可以在同一个 url 模式中包含两个不同的 url 吗？示例 [路径 ('api/' , 包括 ('quiz.urls' )), 路径 ('api/' , 包括 ('user.urls' )) ]
127.0.0.1:8000/api/仅包含来自第二个应用程序的 url，但我将两个 url 模块链接到相同的模式。甚至有可能做到这一点吗？第一个应用程序: from django.urls imp
ColdFusion 包括
我目前正在学习 ColdFusion。我有 PHP 背景，对此我有点困惑。我有一个选择菜单，我希望将选项保存在不同的文件中。 (例如 options.cfm)当我调用文件时，我想在选择菜单中包含选项
java正则表达式删除数字，包括，
字符串: "75,000", "is", "95%", "or", "95/100" "of", "monthly", "income" o/p: "is","%, "or", "/", "of",
JavaScript 包括
我有 4 个 javascript 文件(每个文件对应一个 HTML 文件)，所有 4 个文件中的 3 个函数都是相同的。我想找到一个顺利的解决方案，我可以以某种方式分别包含这 3 个函数...是否可
php - 包括/要求路径解析
我在 PHP 中有这种情况，其中 include在一台服务器上被遗漏，但在另一台服务器上没有(我没有设置服务器，所以我不能告诉你更多；我不是真正的 devops 人，所以这就是我在这里问的原因)。两台
xsd - 包括/导入具有命名空间的本地模式
这是一个模式文件，midi.xsd定义类型，note ，用于存储 MIDI 音符值: 这是另一个模式文件，octaves.xsd使用
备份多个文件夹(包括/不包括)
我想备份以下文件夹 /home /etc /usr/local /root /var /boot 并排除 /var/tmp /var/run /var/lock /home/*/.thumbnails
重新编码具有许多值的数值变量，包括 NA
如何重新编码具有许多值(包括缺失值)的数值变量，以获得数字 0:n-1哪里n是唯一值的数量，包括 NA ，整齐？例子: df 1 1000 0 2 1000 0 3 N
JQuery:选择一个元素的html，包括？
选择元素的 html(包括在内)的最佳方法是什么？例如: This is just a test. 而$('#testDiv').html()返回"This is just a test."
未处理ESI的 Varnish 包括
我正在尝试设置Varnish来处理本地环境中的ESI包含。我在虚拟机中运行 Varnish ，内容在主机上运行。我有两个文件“index.html”和“test.html”。它们都存储在apach
xml - 使用XPath表达式获取XML中的非空元素，包括
我有以下内容，并且想要检索“ FromEmail”不为空的数据 Simple email@gma
PHP "Global"包括
欧海，我正在编写一个小型 PHP 应用程序，使用一个单独的 config.php 文件和一个functions.php，其中包含我将在应用程序中使用的所有自定义函数。现在，我真的必须在每个函数中包含
javascript - 包括 JavaScript
我知道可以将 JavaScript 放在一个特定的 .js 文件中，然后通过执行以下操作将其包含在任何页面中...... 我注意到，对于包含的这些 .js 文件: 它们实际上不必以 .js 结尾其
java - 包括 & 在我的组合框中
我使用 gwt UIBinder 添加了一些项目到我的 ComboBox。 --select one-- Dispute Referral Form Dispute Settlement Clause
c - 包括.c文件c程序
我可以将一个 first.c 文件包含到另一个 second.c 中吗？ (我正在做一些套接字编程，以将服务器收到的消息存储在链接列表中，因此在第一个程序中，我尝试保留链接列表和第二个程序套接字编程文
java - 包括 NOT IN 条件下的省略记录
我有一个简单的 Spring MVC 数据项目设置，我试图选择 Admin 中尚不存在的用户列表。 table 。这是我的存储库方法 SELECT u FROM User u WHERE u.id N
bash - 删除两个定界符之间的字符串，包括
在 bash 脚本中，使用什么实用程序以及如何删除两个字符串之间的文本，包括字符串。原文: (ABC blah1)blah 2(def blah 5)blah 7)(DEF blah 8)blah
Java - 包括 BST
我有这个 BST 问题，我试图用 Java 解决，但我不知道为什么它不起作用。问题是: 二叉搜索树 (BST) 是一种二叉树，其中每个值节点大于或等于该节点的所有节点中的值左子树并且小于该树中所有节点
java替换字符串中的多个字符，包括 "\u00A2"
我有一个字符串，其中包含“Dollars”和“Cents”符号。我想删除它们。我试过了 string.replaceAll("[\"\\u00A2\" $]", "") 但它不起作用。正确的做法是什么
mysql - 按标签搜索，包括
我在 stories 和 tags 之间有一个多对多的关系，为保存关系而创建的表是 taxonomies。我想搜索所有具有所有给定标签的故事。到目前为止我使用的查询是这个，当然它对我不起作用，它返回

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 优化包括多个 np.multipy 语句的代码片段