parallel-processing - python : how to write this code to run on GPU?-6ren

parallel-processing - python : how to write this code to run on GPU?

转载作者：行者123 更新时间：2023-12-04 12:38:52

26

4

我已经尝试了很长一段时间来实现我的代码以在 GPU 上运行，但收效甚微。我真的很感激有人帮助实现。

让我就这个问题说几句。我有一个带有 N 个节点的图 G 和每个节点 x 上的分布 mx。我想计算所有边的每对节点的分布之间的距离。对于给定的对 (x,y)，我使用代码 ot.sinkhorn(mx, my, dNxNy)从 python POT 包计算距离。同样，mx, my 是节点 x 和 y 上大小为 Nx 和 Ny 的向量，dNxNy 是 Nx x Ny 距离矩阵。

现在，我发现此代码有一个 GPU 实现 ot.gpu.sinkhorn(mx, my, dNxNy) .然而，这还不够好，因为 I mx、my 和 dNxNy 需要在每次迭代时上传到 GPU，这是一个巨大的开销。因此，我们的想法是对 GPU 上的所有边进行并行处理。

代码的本质如下。 mx_all 是所有分布

for i,e in enumerate(G.edges):
    W[i] = W_comp(mx_all,dist,e)

def W_comp(mx_all, dist,  e):
    i = e[0]
    j = e[1]

    Nx = np.array(mx_all[i][1]).flatten()
    Ny = np.array(mx_all[j][1]).flatten()
    mx = np.array(mx_all[i][0]).flatten()
    my = np.array(mx_all[j][0]).flatten()

    dNxNy = dist[Nx,:][:,Ny].copy(order='C')

    W = ot.sinkhorn2(mx, my, dNxNy, 1)

下面是一个最小的工作示例。请忽略除虚线 === 之间的部分之外的所有内容迹象。

import ot
import numpy as np
import scipy as sc


def main():
    import networkx as nx

    #some example graph
    G = nx.planted_partition_graph(4, 20, 0.6, 0.3, seed=2)
    L = nx.normalized_laplacian_matrix(G)

    #this just computes all distributions (IGNORE)
    mx_all = []
    for i in G.nodes:
        mx_all.append(mx_comp(L,1,1,i))  

    #some random distance matrix (IGNORE)
    dist = np.random.randint(5,size=(nx.number_of_nodes(G),nx.number_of_nodes(G)))          

# ============================================================================= 
#this is what needs to be parallelised on GPU
    W = np.zeros(nx.Graph.size(G))
    for i,e in enumerate(G.edges):
        print(i)
        W[i] = W_comp(mx_all,dist,e)

    return W

def W_comp(mx_all, dist,  e):
    i = e[0]
    j = e[1]

    Nx = np.array(mx_all[i][1]).flatten()
    Ny = np.array(mx_all[j][1]).flatten()
    mx = np.array(mx_all[i][0]).flatten()
    my = np.array(mx_all[j][0]).flatten()

    dNxNy = dist[Nx,:][:,Ny].copy(order='C')

    return ot.sinkhorn2(mx, my, dNxNy,1)

# =============================================================================

#some other functions (IGNORE)
def delta(i, n):

    p0 = np.zeros(n)
    p0[i] = 1.

    return p0

# all neighbourhood densities
def mx_comp(L, t, cutoff, i):
    N = np.shape(L)[0]

    mx_all = sc.sparse.linalg.expm_multiply(-t*L, delta(i, N))
    Nx_all = np.argwhere(mx_all > (1-cutoff)*np.max(mx_all))

    return mx_all, Nx_all  

if __name__ == "__main__":
    main()

谢谢!!

最佳答案

有一些软件包可以让您在 GPU 上运行代码。

您可以使用以下软件包之一:

pyCuda

numba(Pro)

Theano

当您想使用 numba 时，建议使用 Python Anaconda 发行版来执行此操作。此外，还需要 Anaconda Accelerate。您可以使用 conda install accelerate 安装它.在这个例子中，你可以看到 GPU 的使用是如何实现的 https://gist.githubusercontent.com/aweeraman/ae6e40f54a924f1f5832081be9521d92/raw/d6775c421aa4fa4c0d582e6c58873499d28b913a/gpu.py .
这是通过添加 target='cuda' 来完成的到 @vectorize装饰器。注意导入 from numba import vectorize . vectorize 装饰器将要加速的函数的签名作为输入。

祝你好运!

资料来源:

https://weeraman.com/put-that-gpu-to-good-use-with-python-e5a437168c01
https://www.researchgate.net/post/How_do_I_run_a_python_code_in_the_GPU

关于parallel-processing - python : how to write this code to run on GPU?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56303817/

26

4

0

文章推荐： pandas - 用于方差分析和回归的 Pandas 中的分类变量用法？

文章推荐： amazon-web-services - AWS ECS Fargate 容器运行状况检查命令

文章推荐： python - 如何测试 pytest fixture 本身？

gpu - 如果有多个 GPU，哪一个 GPU 会实际渲染到所有显示器？
谁能解释或指出在多 GPU/多显示器设置中渲染如何工作的解释(或至少一些线索)？例如，我安装了 5 个 NVIDIA Quadro 4000 视频卡并连接了 9 个显示器。显示不进行任何分组。刚刚在
gpu - Spacy + GPU 给出错误 : GPU is not accessible. 库是否安装正确？
以下代码报错: import spacy spacy.require_gpu() Traceback (most recent call last): File "/home/user/Pycha
gpu - 为什么深度学习需要 GPU？
正如问题已经暗示的那样，我是深度学习的新手。我知道模型的学习过程在没有 GPU 的情况下会很慢。如果我愿意等待，如果我只使用CPU可以吗？最佳答案在计算深度学习(以及一般的神经网络)中执行的许多操
gpu - 渲染脚本和 GPU
我知道 Renderscript 的设计是为了掩盖我正在运行的处理器的事实，但是有没有办法编写代码，以便在支持 GPU 计算的设备(目前是 Nexus 10)上运行显卡？有什么方法可以判断脚本的功能正
gpu - GPU 编程简介
关闭。这个问题是opinion-based 。目前不接受答案。想要改进这个问题吗？更新问题，以便 editing this post 可以用事实和引文来回答它。 . 已关闭 8 年前。 Improv
gpu - 找一个有足够显存的 GPU
我想以编程方式找出可用的 GPU 及其当前内存使用情况，并根据内存可用性使用其中一个 GPU。我想在 PyTorch 中执行此操作。我在这个 post 中看到了以下解决方案: import torc
gpu - 类似于 GPU Gems 系列的实际 GPU 技术摘要
我喜欢 GPU Gems 的结构化技术摘要。但是自上次发布以来已经过去了很长时间，应该开发新算法来处理新型硬件。我可以阅读有关最近 GPU 技术成就的哪些信息？潜伏在编程板上是唯一的方法吗？最佳
gpu - CPU->GPU 传输 vs GPU->CPU 传输
我一直在做一些关于测量数据传输延迟的实验 CPU->GPU 和 GPU->CPU。我发现对于特定消息大小，CPU->GPU 数据传输速率几乎是 GPU->CPU 传输速率的两倍。谁能解释我为什么会这样
gpu - 如何在多 GPU 节点上获取分配给 SLURM 作业的 GPU ID？
当我使用选项 --gres=gpu:1 向具有两个 GPU 的节点提交 SLURM 作业时，如何获取为该作业分配的 GPU ID？是否有用于此目的的环境变量？我使用的 GPU 都是 nvidia GP
gpu - matmul 上 GPU 的 Tensorflow 问题。无法识别 GPU
我用 gpu、cuda 7.0 和 cudnn 6.5 安装了 tensorflow。当我导入 tensorflow 时，它运行良好。我正在尝试在 Tensorflow 上运行一个简单的矩阵乘法，但
gpu - 如何为每个任务设置 1 个 gpu 的 slurm/salloc 但让作业使用多个 gpu？
我们正在寻找有关 slurm salloc gpu 分配的一些建议。目前，给定: % salloc -n 4 -c 2 -gres=gpu:1 % srun env | grep CUDA CUD
python - tensorflow-gpu 库是否自动在 GPU 上运行 tensorflow 代码(非 GPU)？
我是否必须自定义为非 GPU Tensorflow 库编写的代码以适应tensorflow-gpu 库？我有一个 GPU，想运行仅为非 GPU tensorflow 库编写的 Python 代码。我
python - tensorflow-gpu 库是否自动在 GPU 上运行 tensorflow 代码(非 GPU)？
我是否必须自定义为非 GPU Tensorflow 库编写的代码以适应tensorflow-gpu 库？我有一个 GPU，想运行仅为非 GPU tensorflow 库编写的 Python 代码。我
gpu - 在两个不同的 GPU 上运行相同的深度学习代码时会出现非常奇怪的行为
我正在使用 pytorch 框架训练网络。我的电脑里有 K40 GPU。上周，我在同一台计算机上添加了 1080。在我的第一个实验中，我在两个 GPU 上观察到相同的结果。然后，我在两个 GPU 上
gpu - Slurm 超额订阅 GPU
有没有办法在 Slurm 上超额订阅 GPU，即运行共享一个 GPU 的多个作业/作业步骤？我们只找到了超额订阅 CPU 和内存的方法，但没有找到 GPU。我们希望在同一 GPU 上并行运行多个作业
gpu - 重置单个 GPU 的内存使用情况
我可以访问 4 个 GPU(不是 root 用户)。其中一个 GPU(2 号)表现怪异，它们的一些内存被阻塞但功耗和温度非常低(好像没有任何东西在上面运行)。请参阅下图中 nvidia-smi 的详细
gpu - Tensorflow 不使用 GPU
我正在尝试通过 Tensorflow 运行示例 seq2seq，但它不会使用 GPU。以下是我在带有 Tesla K20x 的 Linux 系统上安装 Tensorflow 所采取的步骤 git cl
gpu - 用于科学计算的 GPU 精度
一位电气工程师最近提醒我不要使用 GPU 进行科学计算(例如，在精度非常重要的地方)，因为没有像 CPU 那样的硬件保护措施。这是真的吗？如果是的话，典型硬件中的问题有多普遍/严重？最佳答案实际上
gpu - 是否有等效的任务管理器可以显示 GPU 使用历史？
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 7年前关闭。 Improve thi
gpu - 如何有效利用 GPU 进行强化学习？
最近我研究了强化学习，有一个问题困扰着我，我找不到答案:如何使用 GPU 有效地完成训练？据我所知，需要与环境持续交互，这对我来说似乎是一个巨大的瓶颈，因为这项任务通常是非数学的/不可并行化的。然而，

首页

博学

6Ren·AI

商城

parallel-processing - python : how to write this code to run on GPU?