OpenCL - 多 GPU 缓冲区同步-6ren

OpenCL - 多 GPU 缓冲区同步

转载作者：行者123 更新时间：2023-12-01 12:52:04

25

4

我有一个 OpenCL 内核，它计算系统中其他粒子对一个粒子施加的总力，然后是另一个计算粒子位置/速度积分的内核。我想跨多个 GPU 并行化这些内核，基本上为每个 GPU 分配一定数量的粒子。但是，我必须多次运行这个内核，并且每个 GPU 的结果都用在彼此身上。让我进一步解释一下:

假设您在 GPU 0 上有粒子 0，在 GPU 1 上有粒子 1。粒子 0 上的力发生变化，粒子 1 上的力也发生变化，然后积分器相应地改变它们的位置和速度。然后，需要将这些新位置放在每个 GPU 上(两个 GPU 都需要知道粒子 0 和粒子 1 在哪里)，这些新位置用于计算下一步中每个粒子的力，由积分器，其结果用于计算力等。本质上，在力计算滚动时，所有缓冲区都需要包含相同的信息。

因此，问题是:假设每个 GPU 都有不同的缓冲区，那么跨 GPU 同步缓冲区的最佳方法是什么？如果我想保持并行性，它们不能有一个共享缓冲区，as per my last question (不过，如果有办法创建共享缓冲区并仍然保留多个 GPU，我完全赞成)。我怀疑复制每一步的结果会导致比跨 GPU 并行化算法更慢的速度。

我确实找到了 this thread ，但答案不是很明确，仅适用于所有 GPU 的单个缓冲区。我想具体了解 Nvidia GPU(更具体地说，Tesla M2090)。

编辑: 实际上，根据 this thread on the Khronos forums ，OpenCL 工作组的一位代表表示，共享上下文中的单个缓冲区确实分布在多个 GPU 上，每个 GPU 都确保它在内存中具有最新信息。但是，我在 Nvidia GPU 上没有看到这种行为；当我的程序在后台运行时使用 watch -n .5 nvidia-smi 时，我看到一个 GPU 的内存使用率上升了一段时间，然后下降，而另一个 GPU 的内存使用率上升.有没有人可以用这个为我指明正确的方向？也许这只是他们的实现？

最佳答案

听起来您遇到了实现问题。

SIGGRAPH 有一个很棒的演示文稿，展示了几种不同的方式来利用具有共享内存的多个 GPU。幻灯片是 here .

我想，在您当前的设置中，您有一个包含多个设备和多个命令队列的上下文。对于您正在做的事情，这可能是正确的方法。

OpenCL 1.2 specification 的附录 A说:

OpenCL memory objects, [...] are created using a context and can be shared across multiple command-queues created using the same context.

进一步:

The application needs to implement appropriate synchronization across threads on the host processor to ensure that the changes to the state of a shared object [...] happen in the correct order [...] when multiple command-queues in multiple threads are making changes to the state of a shared object.

所以在我看来，计算粒子位置和速度的内核需要依赖于计算粒子间力的内核。听起来您已经知道了。

根据您的问题提出更多问题:

What is the best way to synchronize buffers across GPUs, given that each GPU has a different buffer?

...我认为答案是“不要将缓冲区分开”。通过让 cl_mem 对象来自相同的上下文，在两个设备之间使用相同的 cl_mem 对象。

至于数据实际存在的位置……正如您所指出的，那是实现定义的(至少我从规范中可以看出)。您可能不必担心数据存放在哪里，只需从两个命令队列访问数据即可。

我意识到这可能会造成一些严重的性能问题。实现可能会发展并变得更好，因此如果您现在根据规范编写代码，它将来可能会运行得更好。

为了获得更好(或至少不同)的缓冲区共享行为，您可以尝试的另一件事是使粒子数据成为 map 。

如果有任何帮助的话，我们的设置(一堆带有双 C2070 的节点)似乎可以相当优化地共享缓冲区。有时，数据只保存在一个设备上，有时数据可能存在于两个地方。

总而言之，我认为这里的答案是以规范提供的最佳方式去做，并希望在实现方面做到最好。

希望对你有帮助

瑞安

关于OpenCL - 多 GPU 缓冲区同步，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11636491/

25

4

0

文章推荐： arrays - 如何检查数组的任何成员是否大于 9000

文章推荐：基于 JComboBox 值的 Java JButton.setVisible

文章推荐： java - 计算 Set 堆转储中的引用目标

IMAP 同步
我正在实现 IMAP 客户端，但 IMAP 邮箱同步出现问题。首先，可以从 IMAP 服务器获取新邮件，但我不知道如何从邮箱中查找已删除的邮件。我是否应该从服务器获取所有消息并将其与本地数据进行比
Java-同步
我研究线程同步。当我有这个例子时: class A { public synchronized void methodA(){ } public synchronized void met
Java——同步
嗨，我做了一个扩展线程的东西，它添加了一个包含 IP 的对象。然后我创建了该线程的两个实例并启动它们。他们使用相同的列表。我现在想使用 Synchronized 来阻止并发更新问题。但它不起作用，我
javascript - 同步
我正在尝试使用 FTP 定期将小数据文件从程序上传到服务器。用户从使用 javascript XMLHttpRequest 函数读取数据的网页访问数据。这一切似乎都有效，但我正在努力解决由 FTP 和
JavaScript 同步
我不知道如何同步下一个代码: javascript: (function() { var s2 = document.createElement('script'); s2.src =
Java 同步
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 7 年前。 Improve this qu
同步 EDA 框架设计
一点睛 1 Message 在基于 Message 的系统中，每一个 Event 也可以被称为 Message，Message 是对 Event 更高一个层级的抽象，每一个 Message 都有一个
同步 EDA 框架设计
一点睛 1 Message 在基于 Message 的系统中，每一个 Event 也可以被称为 Message，Message 是对 Event 更高一个层级的抽象，每一个 Message 都有一个
jquery - getJSON 同步
目标:我所追求的是每次在数据库中添加某些内容时(在 $.ajax 到 Submit_to_db.php 之后)，从数据库获取数据并刷新 main.php(通过 draw_polygon 更明显)。所
iphone - 同步 CAAnimations
我有一个重复动画，需要与其他一些 transient 动画同步。重复动画是一条在屏幕上移动 4 秒的扫描线。当它经过下面的图像时，这些图像需要“闪烁”。闪烁的图像可以根据用户的意愿来来去去和移动。它
cuda block 同步
我有 b 个块，每个块有 t 个线程。我可以用 __syncthreads() 同步特定块中的线程。例如 __global__ void aFunction() { for(i=0;i #
azure - Azure表实体存在/同步
我正在使用azure表查询来检索分配给用户的所有错误实体。此外，我更改了实体的属性以声明该实体处于处理模式。处理完实体后，我将从表中删除该实体。当我进行并行测试时，可能会发生查询期间，一个实体已
不同机器上的应用程序访问时的 SQLite 同步
我想知道 SQLite 是如何实现它的。它基于文件锁定吗？当然，并不是每个访问它的用户都锁定了整个数据库；那效率极低。它是基于多个文件还是仅基于一个大文件？如果有人能够简要概述一下 sqlite 中
javascript - jquery如何发布到php，同步
我想post到php，当id EmpAgree1时，然后它的post变量EmpAgree=1；当id为EmpAgree2时，则后置变量EmpAgree=2等。但只是读取i的最后一个值，为什么？以及如何
cuda - CUBLAS 同步
CUBLAS 文档提到我们在读取标量结果之前需要同步: “此外，少数返回标量结果的函数，例如 amax()、amin、asum()、rotg()、rotmg()、dot() 和 nrm2()，通过引用
Java RMI 同步
我知道下面的代码中缺少一些内容，我的问题是关于 RemoteImplementation 中的同步机制。我还了解到该网站和其他网站上有几个关于 RMI 和同步的问题；我在这里寻找明确的确认/矛盾。我
java - AOP+同步
我不太确定如何解决这个问题......所以我可能需要几次尝试才能正确回答这个问题。我有一个用于缓存方法结果的注释。我的代码目前是一个私有(private)分支，但我正在处理的部分从这里开始: http
java - java中的线程/同步
我对 Java 非常失望，因为它不允许以下代码尽可能地并发移动。当没有同步时，两个线程会更频繁地切换，但是当尝试访问同步方法时，在第二个线程获得锁之前以及在第一个线程获得锁之前再次花费太长时间(比如
java - Kotlin 同步
过去几周我一直在研究java多线程。我了解了synchronized，并理解synchronized避免了多个线程同时访问相同的属性。我编写此代码是为了在同一线程中运行两个线程。 val gate =
另一个线程内的 Java 同步
我有一个关于 Java 同步的简单问题。请假设以下代码: public class Test { private String address; private int age;

首页

博学

6Ren·AI

商城

OpenCL - 多 GPU 缓冲区同步