- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我有一个关于在 ArrayFire for Python 中使用多个主机线程的新手问题。我们目前拥有高度并行的仅 CPU 代码,使用 Open MPI 和 mpi4py 进行并行化。每个 CPU 线程执行大型矩阵乘法,通常多个线程同时进行乘法。我们希望通过使用 ArrayFire 在单个 GPU 上执行矩阵乘法来提高性能。
我试图弄清楚我们是否可以让多个CPU主机线程将矩阵乘法作业发送到GPU,并让GPU同时执行这些乘法。或者,每个CPU主机线程必须等到GPU空闲才能向GPU发送乘法作业吗?
我无法找到答案,因为我不熟悉 GPU 计算语言。我的印象是某些 GPU 支持并发内核执行,但我无法确定我们的 GPU(Radeon Vega 10)是否支持。
任何有关如何使用 ArrayFire for Python 执行此类操作的一般提示或资源,我们将不胜感激。
最佳答案
矩阵乘法在 GPU 上速度非常快。切换到 GPU 来进行矩阵数学通常是一个不错的决定。我按顺序回答你的问题。请注意,我在这里所说的大部分内容都适用于 AMD 和 NVIDIA GPU。
是的,您可以启动多个主机线程,这些线程可以将同一内核的多个实例排队,而无需等待先前的作业完成。所有内核启动本质上都是异步的,因此将内核排队到设备不会阻止执行。所有内核启动都将排队以便将来在 GPU 上执行。现在的问题是所有这些内核是否会同时执行——这完全取决于单个内核实例所需的资源。如果 GPU 可以同时容纳两个内核执行,那么它会自动为您执行此操作。确定这一点的内核启动所需的资源类型是启动的 block 数、共享内存、常量内存等。
并发内核执行完全取决于单个内核实例需要多少资源。此外,每个内核实例都必须在单独的队列(OpenCL 队列)上启动,因为排队到同一队列的所有内核都按顺序执行。
为了有效地使用 ArrayFire,我建议您阅读列出的教程 here 。要设置多线程解决方案,您可以在单独的队列上启动每个内核,您可能必须专注于教程的以下两部分,尤其是第二部分。
文档中的大多数示例都是用 C++ 编写的,但一般原则也适用于 python 包装器。如果您有特定于 python 包装器的问题,可以将其发布 here .
关于python - 使用 ArrayFire 的多个主机线程,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48213624/
我在这里想做的是将所有连接转发到机器一上端口 3306 上的本地主机到本地主机上端口 3306 上的机器二。因此,如果您连接到机器一上的 mysql,它的行为就像您正在连接一样在二号机器上。 我认为
通过Kibana界面,如何获得 flex IP /主机? 我的意思是,与kibana连接的Elastic主机。 那有可能吗?我在这个上挣扎了好几个小时,却一无所获:( 附:不确定此问题是否是题外话,应
我知道这听起来很奇怪,但我有一个情况,Deno 需要关闭自己的主机(并因此杀死自己的进程)。这可能吗? 我特别需要这个用于 linux (lubuntu),如果相关的话。我想这需要 sudo 权限,这
我知道这听起来很奇怪,但我有一个情况,Deno 需要关闭自己的主机(并因此杀死自己的进程)。这可能吗? 我特别需要这个用于 linux (lubuntu),如果相关的话。我想这需要 sudo 权限,这
我有一个基本问题,但谷歌并没有为我产生很多结果(反正不是英文的)。基本上我想做的就是: 我有一个图形需要用作整个应用程序的持久 header ,例如:我不能让它在新的 Intent 调用时从屏幕上滑出
您好,我正在使用 xampp,我正在尝试使用 php 进行连接。 $sql_connections = mysql_connect("$server, $username, $password")
我目前正在尝试一些多人游戏的想法,并正在尝试创建一个 Java 应用程序来为基于网络浏览器的多人游戏提供服务。 我的开发环境是主机上的Eclipse, native 上的notepad + Googl
今天为大家分享一篇关于SSH 的介绍和使用方法的文章。本文从SSH是什么出发,讲述了SSH的基本用法,之后在远程登录、端口转发等多种场景下进行独立的讲述,希望能对大家有所帮助。 什么是SSH?
我已经完成了在裸机 Centos 7 上运行的测试 Kubernets 主机的设置。这将用作测试系统,因为我们将在 IBM Bluemix Kubernetes 服务中部署所有内容。 从 Bluemi
我正在尝试通过带有 4.2(果冻 bean )的 android 设备“nexus 7”通过 USB 与我的 freeduino 板进行通信,该板类似于 arduino uno。 几个月后,我使用开发
我正在使用 nginx,但在设置反向代理时遇到问题。 我的 nginx.conf 是默认的(没有对其进行任何更改),我的站点可用配置是: upstream backend_hosts { se
我在 projectlocker(免费 svn 主机)上有一个帐户,但我不知道如何将我的项目文件上传到它。 我在我的仪表板中找不到任何选项。 我在我的电脑上使用tortoiseSvn,那么如何上传文件
设置batchSize = 1有意义吗?如果我想一次处理一个文件? 尝试过batchSize = 1000和batchSize = 1 - 似乎具有相同的效果 { "version": "2.0"
我只想知道.. docker中现在有任何可用的工具吗?我已经阅读了Docker中有关多主机功能的一些文档,例如, Docker群 Docker服务(带有副本) 我也知道群模式下的volume问题,容器
我想将文件从 Docker 的容器挂载到我的 docker 主机。 数据卷不是我的解决方案,因为它们是从 docker 主机到 docker 容器的装载,我需要相反的方法。 谢谢 最佳答案 当 doc
我是新手。我无法正确理解RMI。互联网上有大量教程,但据我所知,它们都是针对本地主机的。服务器和客户端都运行在同一台机器上。 我想在任何计算机上运行客户端,并且主机将位于一台计算机上,让我们考虑IP
我无法从客户端“A”SSH 到服务器“B”(但我可以从同一子网上的许多其他 ssh 客户端而不是“A”——所有都是 *nux 机器) serverA>ssh -v -p 端口用户@serverB Op
设置batchSize = 1有意义吗?如果我想一次处理一个文件? 尝试过batchSize = 1000和batchSize = 1 - 似乎具有相同的效果 { "version": "2.0"
由于我不是天生的编码员,请多多包涵。 这是我尝试使用HAproxy来实现的目标,但是经过数小时的检查后,我无法以某种方式使其工作。 从 domain.com/alpha domain.com/beta
我正在使用 tomcat 运行 Java Web 应用程序,通过电子邮件将生成的报告发送给用户。我可以发送电子邮件,但几个小时后服务器停止发送电子邮件,并出现以下错误。 javax.mail.Mess
我是一名优秀的程序员,十分优秀!