gpt4 book ai didi

python - 使用 ArrayFire 的多个主机线程

转载 作者:太空宇宙 更新时间:2023-11-03 14:16:25 28 4
gpt4 key购买 nike

我有一个关于在 ArrayFire for Python 中使用多个主机线程的新手问题。我们目前拥有高度并行的仅 CPU 代码,使用 Open MPI 和 mpi4py 进行并行化。每个 CPU 线程执行大型矩阵乘法,通常多个线程同时进行乘法。我们希望通过使用 ArrayFire 在单个 GPU 上执行矩阵乘法来提高性能。

我试图弄清楚我们是否可以让多个CPU主机线程将矩阵乘法作业发送到GPU,并让GPU同时执行这些乘法。或者,每个CPU主机线程必须等到GPU空闲才能向GPU发送乘法作业吗?

我无法找到答案,因为我不熟悉 GPU 计算语言。我的印象是某些 GPU 支持并发内核执行,但我无法确定我们的 GPU(Radeon Vega 10)是否支持。

任何有关如何使用 ArrayFire for Python 执行此类操作的一般提示或资源,我们将不胜感激。

最佳答案

矩阵乘法在 GPU 上速度非常快。切换到 GPU 来进行矩阵数学通常是一个不错的决定。我按顺序回答你的问题。请注意,我在这里所说的大部分内容都适用于 AMD 和 NVIDIA GPU。

是的,您可以启动多个主机线程,这些线程可以将同一内核的多个实例排队,而无需等待先前的作业完成。所有内核启动本质上都是异步的,因此将内核排队到设备不会阻止执行。所有内核启动都将排队以便将来在 GPU 上执行。现在的问题是所有这些内核是否会同时执行——这完全取决于单个内核实例所需的资源。如果 GPU 可以同时容纳两个内核执行,那么它会自动为您执行此操作。确定这一点的内核启动所需的资源类型是启动的 block 数、共享内存、常量内存等。

并发内核执行完全取决于单个内核实例需要多少资源。此外,每个内核实例都必须在单独的队列(OpenCL 队列)上启动,因为排队到同一队列的所有内核都按顺序执行。

为了有效地使用 ArrayFire,我建议您阅读列出的教程 here 。要设置多线程解决方案,您可以在单独的队列上启动每个内核,您可能必须专注于教程的以下两部分,尤其是第二部分。

  1. 数组和矩阵操作
  2. OpenCL 互操作性

文档中的大多数示例都是用 C++ 编写的,但一般原则也适用于 python 包装器。如果您有特定于 python 包装器的问题,可以将其发布 here .

关于python - 使用 ArrayFire 的多个主机线程,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48213624/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com