c - 在 NUMA 机器上使用 CUDA 进行多 GPU 编程-6ren

c - 在 NUMA 机器上使用 CUDA 进行多 GPU 编程

转载作者：太空狗更新时间：2023-10-29 15:58:45

27

4

我目前正在将算法移植到两个 GPU。硬件具有以下设置:

两个 CPU 作为一个 NUMA 系统，所以主内存被分成两个 NUMA节点。
每个 GPU 都物理连接到其中一个 GPU。 (每个 PCIe Controller 有一个 GPU)

我在主机上创建了两个线程来控制 GPU。每个线程都绑定(bind)到一个 NUMA 节点，即两个线程中的每一个都在一个 CPU 插槽上运行。如何确定 GPU 的数量，以便我可以使用 cudaSetDevice() 选择直接连接的 GPU？

最佳答案

正如我在评论中提到的，这是一种 CPU GPU 亲和性。这是我一起破解的 bash 脚本。我相信它会在 RHEL/CentOS 6.x OS 上提供有用的结果。它可能无法在许多旧版或其他 Linux 发行版上正常运行。您可以像这样运行脚本:

./gpuaffinity > out.txt

然后您可以在程序中读取 out.txt 以确定哪些逻辑 CPU 核心对应于哪些 GPU。例如，在具有两个 6 核处理器和 4 个 GPU 的 NUMA Sandy Bridge 系统上，示例输出可能如下所示:

该系统有 4 个 GPU，编号从 0 到 3。每个 GPU 编号后跟一个“核心掩码”。核心掩码对应于“接近”特定 GPU 的核心，表示为二进制掩码。因此对于 GPU 0 和 1，系统中的前 6 个逻辑核心(03f 二进制掩码)最接近。对于 GPU 2 和 3，系统中的第二个 6 个逻辑核心(fc0 二进制掩码)最接近。

您可以在程序中读取文件，也可以使用脚本中说明的逻辑在程序中执行相同的功能。

您也可以像这样调用脚本:

./gpuaffinity -v

这会给出更详细的输出。

这是 bash 脚本:

#!/bin/bash
#this script will output a listing of each GPU and it's CPU core affinity mask
file="/proc/driver/nvidia/gpus/0/information"
if [ ! -e $file ]; then
  echo "Unable to locate any GPUs!"
else
  gpu_num=0
  file="/proc/driver/nvidia/gpus/$gpu_num/information"
  if [ "-v" == "$1" ]; then echo "GPU:  CPU CORE AFFINITY MASK: PCI:"; fi
  while [ -e $file ]
  do
    line=`grep "Bus Location" $file | { read line; echo $line; }`
    pcibdf=${line:14}
    pcibd=${line:14:7}
    file2="/sys/class/pci_bus/$pcibd/cpuaffinity"
    read line2 < $file2
    if [ "-v" == "$1" ]; then
      echo " $gpu_num     $line2                  $pcibdf"
    else
      echo " $gpu_num     $line2 "
    fi
    gpu_num=`expr $gpu_num + 1`
    file="/proc/driver/nvidia/gpus/$gpu_num/information"
  done
fi

关于c - 在 NUMA 机器上使用 CUDA 进行多 GPU 编程，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16056800/

27

4

0

文章推荐： android - com.google.firebase.database.DatabaseException

文章推荐： html - 两个只有边距的空 div 将如何折叠？

文章推荐： html - 选中复选框 ID 但在所有复选框下方时显示 div

numa - NUMA 会影响内存带宽，还是只会影响延迟？
我有一个内存带宽受限的问题——我需要从 RAM 中顺序读取大量(许多 GB)数据，进行一些快速处理并将其顺序写入 RAM 中的不同位置。内存延迟不是问题。在不同 NUMA 区域中的两个或多个内核之间
linux - linux 如何计算两个 numa 节点之间的 numa 距离(任何 numa 库的内部逻辑，例如 libnuma..etc )？
我试图通过 numa_distance() 和其他相关函数(来自第一个链接)，但无法理解。我只是想了解 linux 如何计算两个节点之间的 NUMA 距离，据说这个距离会根据架构和 NUMA 互连而变
cpu - 哪种架构称为非均匀内存访问(NUMA)？
根据wiki :非均匀内存访问 (NUMA) 是一种用于多处理的计算机内存设计，其中内存访问时间取决于相对于处理器的内存位置。但尚不清楚它是与包括缓存在内的任何内存有关还是仅与主内存有关。例如 X
python - NUMA 硬件上的内存分配和访问
我正在用 Python 开发一个科学计算工具，它应该能够在 NUMA 共享内存环境中的多个内核上分配工作。我正在研究最有效的方法。由于 python 的全局解释器锁，线程 - 不幸地 - 退出了游戏
windows - NUMA——本地内存
请耐心等待，我才刚刚开始深入研究整个 CPU 问题。下图中的RAM方 block ，它们指的是什么？内存页？据我所知，CPU 只有一件事与内存有关——它们的缓存。那么图中的RAM只是一个共享缓存，
C++ NUMA 优化
我正在开发一个最初为多核处理器系统开发的遗留应用程序。为了利用多核处理，已经使用了 OpenMP 和 PPL。现在一项新要求是在具有多个 NUMA 节点的系统上运行该软件。目标操作系统是 Window
linux - NUMA 在虚拟内存中是如何表示的？
有很多resources从硬件角度描述 NUMA 的架构和 performance implications编写支持 NUMA 的软件，但我还没有找到有关如何根据 NUMA 确定虚拟页面和物理框架之间
linux - NUMA 内存页面迁移开销
我必须找出在 Linux 下与 NUMA 内存页面迁移相关的开销。您能告诉我可以使用哪些工具吗？如果可能的话，你能举个例子吗。最佳答案如果您想了解您的系统是否正在执行过多的远程节点内存访问并且
在特定 NUMA 节点上创建命名共享内存？
类似于此post ，我想在特定的 NUMA 节点(不一定是本地)上创建一个命名的共享内存段(通过 shm_open() + mmap() 在 CentOS 7 上创建)。该帖子建议使用 numa_mo
linux - 我如何知道我的服务器是否有 NUMA？
从 Java 垃圾收集中跳出来，我遇到了 JVM settings for NUMA .奇怪的是，我想检查我的 CentOS 服务器是否具有 NUMA 功能。是否有 *ix 命令或实用程序可以获取此信
linux - NUMA 感知缓存对齐内存分配
在linux系统中，pthreads库为我们提供了缓存对齐的函数(posix_memalign)来防止错误共享。要选择架构的特定 NUMA 节点，我们可以使用 libnuma 库。我想要的是需要两者的
linux - NUMA 机器上的共享库瓶颈
我正在使用 NUMA 机器(SGI UV 1000)同时运行大量数值模拟，每个模拟都是一个使用 4 核的 OpenMP 作业。然而，运行超过 100 个这样的作业会导致性能显着下降。我们关于为什么会发
multithreading - NUMA 系统、虚拟页面和虚假共享
据我了解，对于 NUMA 系统的性能，有两种情况需要避免: 同一套接字中的线程写入同一高速缓存行(通常为 64 字节) 来自不同套接字的线程写入同一虚拟页面(通常为 4096 字节) 一个简单的例子会
c++ - 有没有办法为 NUMA 中的数据分配特定的内存？
我想以我可以控制的方式在 NUMA 内的所有节点内存之间分配内存(例如，在 node1 的内存中分配 a，在node2的内存中分配b，并在node4的内存中分配c…)。有什么办法可以实现这一点吗？
java - NUMA 系统上的 Spark
我正在考虑使用 Apache Spark 进行数据分析。过去，由于 NUMA 架构和对象在单个节点本地，我在 4 插槽服务器上遇到过 Java/Scala 速度变慢的情况。解决方案是为每个 NUMA
c++ - 如何控制哪个 numa 节点执行我的程序
我的服务器有 4 个 numa 节点，每个节点有 8 个带超线程的内核。所以我有 64 个逻辑 CPU。我有一些程序生成数据和其他程序使用数据。这些程序是用 c++ (11) 编写的。我想启动多个生
c++ - 创建一个指定要运行的 NUMA 节点的进程
如何在 C++ 中的特定 NUMA 节点上启动 Windows 中的进程？例如命令 start/NODE X 为节点 X 执行此操作。但是如何以编程方式实现相同的目的呢？最佳答案你可以传递一个
c - numa、mbind、段错误
我已经使用 valloc 分配了内存，比方说 [15*sizeof(double)] 的数组 A。现在我将它分成三部分，我想将每一部分(长度为 5)绑定(bind)到三个 NUMA 节点(比方说 0、
linux - 静态分配的大页面背后的内存如何跨 NUMA 节点分布？
在我的/etc/default/grub 文件中，我用“hugepages=N”明确地预留了 N 个大页面。如果我在一个有 2 个 NUMA 节点的盒子上运行，是为每个节点预留 N/2 个大页面，还是
c - 在 NUMA 架构中按线程移动内存页
我有两个问题: (i) 假设线程 X 在 CPU Y 上运行。是否可以使用系统调用 migrate_pages - 或者更好的 move_pages(或它们的 libnuma 包装器) - 将与 X

首页

博学

6Ren·AI

商城

c - 在 NUMA 机器上使用 CUDA 进行多 GPU 编程