gpt4 book ai didi

OpenCL - 多 GPU 缓冲区同步

转载 作者:行者123 更新时间:2023-12-01 12:52:04 25 4
gpt4 key购买 nike

我有一个 OpenCL 内核,它计算系统中其他粒子对一个粒子施加的总力,然后是另一个计算粒子位置/速度积分的内核。我想跨多个 GPU 并行化这些内核,基本上为每个 GPU 分配一定数量的粒子。但是,我必须多次运行这个内核,并且每个 GPU 的结果都用在彼此身上。让我进一步解释一下:

假设您在 GPU 0 上有粒子 0,在 GPU 1 上有粒子 1。粒子 0 上的力发生变化,粒子 1 上的力也发生变化,然后积分器相应地改变它们的位置和速度。然后,需要将这些新位置放在每个 GPU 上(两个 GPU 都需要知道粒子 0 和粒子 1 在哪里),这些新位置用于计算下一步中每个粒子的力,由积分器,其结果用于计算力等。本质上,在力计算滚动时,所有缓冲区都需要包含相同的信息。

因此,问题是:假设每个 GPU 都有不同的缓冲区,那么跨 GPU 同步缓冲区的最佳方法是什么?如果我想保持并行性,它们不能有一个共享缓冲区,as per my last question (不过,如果有办法创建共享缓冲区并仍然保留多个 GPU,我完全赞成)。我怀疑复制每一步的结果会导致比跨 GPU 并行化算法更慢的速度。

我确实找到了 this thread ,但答案不是很明确,仅适用于所有 GPU 的单个缓冲区。我想具体了解 Nvidia GPU(更具体地说,Tesla M2090)。

编辑: 实际上,根据 this thread on the Khronos forums ,OpenCL 工作组的一位代表表示,共享上下文中的单个缓冲区确实分布在多个 GPU 上,每个 GPU 都确保它在内存中具有最新信息。但是,我在 Nvidia GPU 上没有看到这种行为;当我的程序在后台运行时使用 watch -n .5 nvidia-smi 时,我看到一个 GPU 的内存使用率上升了一段时间,然后下降,而另一个 GPU 的内存使用率上升.有没有人可以用这个为我指明正确的方向?也许这只是他们的实现?

最佳答案

听起来您遇到了实现问题。

SIGGRAPH 有一个很棒的演示文稿,展示了几种不同的方式来利用具有共享内存的多个 GPU。幻灯片是 here .

我想,在您当前的设置中,您有一个包含多个设备和多个命令队列的上下文。对于您正在做的事情,这可能是正确的方法。

OpenCL 1.2 specification 的附录 A说:

OpenCL memory objects, [...] are created using a context and can be shared across multiple command-queues created using the same context.

进一步:

The application needs to implement appropriate synchronization across threads on the host processor to ensure that the changes to the state of a shared object [...] happen in the correct order [...] when multiple command-queues in multiple threads are making changes to the state of a shared object.

所以在我看来,计算粒子位置和速度的内核需要依赖于计算粒子间力的内核。听起来您已经知道了。

根据您的问题提出更多问题:

What is the best way to synchronize buffers across GPUs, given that each GPU has a different buffer?

...我认为答案是“不要将缓冲区分开”。通过让 cl_mem 对象来自相同的上下文,在两个设备之间使用相同的 cl_mem 对象。

至于数据实际存在的位置……正如您所指出的,那是实现定义的(至少我从规范中可以看出)。您可能不必担心数据存放在哪里,只需从两个命令队列访问数据即可。

我意识到这可能会造成一些严重的性能问题。实现可能会发展并变得更好,因此如果您现在根据规范编写代码,它将来可能会运行得更好。

为了获得更好(或至少不同)的缓冲区共享行为,您可以尝试的另一件事是使粒子数据成为 map 。

如果有任何帮助的话,我们的设置(一堆带有双 C2070 的节点)似乎可以相当优化地共享缓冲区。有时,数据只保存在一个设备上,有时数据可能存在于两个地方。

总而言之,我认为这里的答案是以规范提供的最佳方式去做,并希望在实现方面做到最好。

希望对你有帮助

瑞安

关于OpenCL - 多 GPU 缓冲区同步,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11636491/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com