python - 使用多核的 Numpy np.einsum 数组乘法-6ren

python - 使用多核的 Numpy np.einsum 数组乘法

转载作者：太空狗更新时间：2023-10-30 01:15:11

25

4

我已经用 MKL 编译了 numpy 1.6.2 和 scipy，希望有更好的性能。目前我有一个严重依赖 np.einsum() 的代码，我被告知 einsum 不适用于 MKL，因为几乎没有向量化。 =(所以我想用 np.dot() 和切片重新编写我的一些代码，只是为了能够获得一些多核加速。我真的很喜欢 np.einsum() 的简单性，而且可读性很好。无论如何，例如，我有一个形式的多维矩阵乘法:

np.einsum('mi,mnijqk->njqk',A,B)

那么我如何在 np.dot() 高效的 MKL 操作中转换像这样的东西或其他 3、4 和 5 维数组乘法？

我会发布更多信息:我正在计算这个等式:

enter image description here

为此，我使用代码:

np.einsum('mn,mni,nij,nik,mi->njk',a,np.exp(b[:,:,np.newaxis]*U[np.newaxis,:,:]),P,P,X)

那并没有那么快，用 cython 编码的同样的东西快了 5 倍:

    #STACKOVERFLOW QUESTION:
from __future__ import division
import numpy as np
cimport numpy as np
cimport cython

cdef extern from "math.h":
    double exp(double x)


DTYPE = np.float

ctypedef np.float_t DTYPE_t
@cython.boundscheck(False) # turn of bounds-checking for entire function
def cython_DX_h(np.ndarray[DTYPE_t, ndim=3] P, np.ndarray[DTYPE_t, ndim=1] a, np.ndarray[DTYPE_t, ndim=1] b, np.ndarray[DTYPE_t, ndim=2] U,  np.ndarray[DTYPE_t, ndim=2] X, int I, int M):
    assert P.dtype == DTYPE and a.dtype == DTYPE and b.dtype == DTYPE and U.dtype == DTYPE and X.dtype == DTYPE

cdef np.ndarray[DTYPE_t,ndim=3] DX_h=np.zeros((N,I,I),dtype=DTYPE)
cdef unsigned int j,n,k,m,i
for n in range(N):
    for j in range(I):
        for k in range(I):
            aux=0
            for m in range(N):
                for i in range(I):
                    aux+=a[m,n]*exp(b[m,n]*U[n,i])*P[n,i,j]*P[n,i,k]*X[m,i]
            DX_h[n,j,k]=aux
return DX_h

有没有办法在纯 python 中以 cython 的性能做到这一点？ (我还没弄清楚如何张量这个方程)无法在此 cython 代码中执行 prange，很多 gil 和 nogil 错误。

最佳答案

或者，您可以使用 numpy.tensordot():

np.tensordot(A, B, axes=[[0, 1], [0, 2]])

这也将使用多个内核，例如 numpy.dot()。

关于python - 使用多核的 Numpy np.einsum 数组乘法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23650449/

25

4

0

文章推荐： c# - Entity Framework 映射 fluent api 单独的实体映射

文章推荐： c# - 在 C# 中测试 session 超时

文章推荐： c# - Entity Framework 一对一关系？

文章推荐： c# - Xaml 内部错误错误 WMC9999

twisted - 多核/多处理器上的TwistedWeb
人们在运行TwistedWeb服务器时使用哪些技术来利用多个处理器/内核？有推荐的方法吗？我基于twisted.web的Web服务在Amazon EC2实例上运行，该实例通常具有多个CPU核心(8、
r - 多核::应用？
multicore 库中是否有类似 sapply 的东西？还是我必须 unlist(mclapply(..)) 才能实现这一点？如果它不存在:推理是什么？提前致谢，如果这是一个愚蠢的问题，我们深表
python - 多核 ZeroMQ？
ZeroMQ 用于接收输入参数.. def server(): rep = context.socket(zmq.REP) rep.bind('tcp://*:{}'.format(P
algorithm - 多核 - 如何合并在每个核心上找到的本地数据组？
我有一大组标量值分布在 3D 网格上(每个顶点一个值。) 我的目标是展示: 网格中值大于阈值的所有点。并将连接的点分组(以简化显示。) 所以我的基本解决方案是: 找到通过阈值测试的点对于每个没有被
聊聊CPU的发展历程之单核、多核、超线程
作者：小牛呼噜噜 | https://xiaoniuhululu.com 计算机内功、JAVA底层、面试、职业成长相关资料等更多精彩文章在公众号「小牛呼噜噜」。大家好，我是呼噜噜，
multithreading - 多核 J -- 并行化
有没有办法让 J 使用多个核心？我认为 APL/J 的部分好处是语言结构很适合并行解决方案。查看我的 CPU 使用率(我在 OSX 上)，显然只有一个处理器在使用。我有一个很重的函数 f 作用在一
multiprocessing - 多核 CPU 中断
多核处理器如何处理中断。我知道单核处理器如何处理中断。我也知道不同类型的中断。我想知道多核处理器如何处理硬件、程序、cpu时序和输入/输出中断最佳答案这应该被视为 other answer
multicore - 多核 llvm 的垃圾收集器？
很长一段时间以来，我一直将 LLVM 视为我目前正在实现的语言的新后端。它似乎具有良好的性能，相当高级的生成 API，足够的低级支持来优化奇特的优化。此外，虽然我自己没有检查过，但苹果似乎已经成功地演
operating-system - 多核/多CPU机器中的中断如何工作？
我最近开始研究低级OS编程。我(非常缓慢)目前正在研究两本较旧的书，即XINU和Build Your Own 32 Bit OS，以及上一个问题How to get started in operat
multithreading - 多核 + 超线程 - 线程是如何分布的？
我正在阅读对新英特尔凌动 330 的评论，他们指出任务管理器显示 4 个内核 - 两个物理内核，另外还有两个由超线程模拟。假设您有一个包含两个线程的程序。还假设这些是在 PC 上执行任何工作的唯一线
c++ - 多核 C++ 线程
我不知道如何在 C++ 中进行线程化，我不仅不想知道，而且有没有一种方法可以将线程强制到不同的核心上？另外，我如何才能知道用户拥有多少个内核？最佳答案将线程绑定(bind)到任意 CPU 称为设置
linux - 多核 Linux 内核中的上下文切换
如果需要在多核处理器机器的多个内核上并行执行，Linux 内核是否会同时执行多个上下文切换？有引用吗？最佳答案是的，你是对的。在 SMP 系统上，多个上下文切换同时发生。每个核心都可以独立进行上下
Linux:多核 CPU 中的进程和线程
与进程相比，线程更不可能从多核处理器中获益，这是真的吗？换句话说，内核会决定在单核而不是多核上执行线程吗？我说的是属于同一进程的线程。最佳答案我不知道(各种)Linux 调度程序如何处理这个问题
Solr 单索引 vs Solr 多核
我需要一些帮助来决定在单个 Solr 实例中创建单个索引还是在单个 Solr 实例中创建多个核心，每个核心为一个索引提供服务。我的理解是，solr 中的单个索引通常用于索引一种类型的文档。当您有不同
performance - 多核/多处理器是否有助于 Web 服务器的性能？
NGINX 或 Apache 是否受益于具有以下任一项的服务器: 多核，或者多个处理器？如果是，为什么？最佳答案使用多个 CPU/CPU 内核使服务器应用程序有机会并行处理多个客户端连接(和请
x86 - 多核/NUMA 上的 CPUID
我正在为我的爱好操作系统开发 CPU 检测和一般环境检测代码。是否存在需要多次调用 CPUID 的情况？也就是说如果系统有多个核心，操作系统是否需要在每个核心上调用CPUID？ NUMA 也是如此。
performance - 多核 Intel CPU 中的高速缓存是如何共享的？
我有一些关于多核 CPU 或多处理器系统中使用的高速缓存存储器的问题。 (虽然与编程没有直接关系，但当一个人为多核处理器/多处理器系统编写软件时，它会产生很多影响，因此在此询问!) 在多处理器系统或多
c++ - 多核，使从函数内部调用的函数在第二个核上运行。直接秀，opencv
所以，我一直在使用 opencv 开发实时跟踪系统。几天前，我不得不开始使用 directshow(这对我来说是全新的)，因为我需要网络摄像头的更高分辨率。分辨率越高，CPU 使用率就越高。仅使用没有
java - 多核/并发编程和 .NET/Java
我经常听说其他语言被提升为更适合多核/并发编程，例如Clojure、Scala、Erlang 等，但我有点困惑为什么我需要担心多核问题，Java/.NET VM 不应该自动处理吗？如果没有，背后的原因
multithreading - 多核 CPU 上能否真正同时执行 2 条指令
假设 x86 多核 PC 架构... 假设有 2 个内核(能够执行 2 个单独的指令流)，并且 CPU 和 RAM 之间的接口(interface)是内存总线。调度在 2 个不同内核上的 2 条指令

首页

博学

6Ren·AI

商城

python - 使用多核的 Numpy np.einsum 数组乘法