gpt4 book ai didi

cudaMalloc 在不同的 CPU 线程上返回相同的内存地址

转载 作者:行者123 更新时间:2023-12-02 20:50:27 27 4
gpt4 key购买 nike

我正在尝试找出程序中的错误。它产生

[vaio:10404] Signal: Segmentation fault (11) 
[vaio:10404] Signal code: Address not mapped (1)
[vaio:10404] Failing at address: 0x210000
[vaio:10405] [ 0] /lib/x86_64-linux-gnu/libpthread.so.0(+0xfcb0) [0x7fa7857ffcb0]
[vaio:10405] [ 1] /lib/x86_64-linux-gnu/libc.so.6(+0x14fe20) [0x7fa785580e20]
[vaio:10405] [ 2] /usr/lib/libcuda.so.1(+0x1b1f49) [0x7fa78676bf49]

0x210000 是 GPU 内存中的地址。我没有统一的地址空间(由于卡限制:sm_12)。

通过mpiexec -n 2运行程序时出现问题。也就是说,我启动 2 个 CPU 进程,它们都在同一个 (!) GPU 上创建自己的上下文(仅安装了 1 个 GPU)。像这样:

cuInit(0);
cuDeviceGet(&cuDevice, 0); // get device number 0
cuCtxCreate(&cuContext, 0, cuDevice); // create context
cuMemAlloc( &mem , size ); // allocate memory pool (hundreds of MB)

(这里进行了简化 - 检查所有 cuda 调用是否有错误返回)

我现在已经非常成功地使用此设置相当长一段时间了(多个主机进程共享同一 GPU)。然而,那是在使用 CUDA 运行时 API 时。现在,我正在切换到驱动程序 API。

为了找到这个问题,我转储了上述代码的mem。事实证明,两个进程的 cuMemAlloc 返回的内存地址是相同的!这让我很奇怪。这里转储出来:

process 0: allocate internal buffer: unaligned ptr = 0x210000  aligned ptr = 0x210000
process 1: allocate internal buffer: unaligned ptr = 0x210000 aligned ptr = 0x210000

我立即检查了我的旧代码(运行时 API),它从来没有出现过这样的问题。结果它在两个进程(共享同一设备)上报告了相同的内存地址。这以前从未引起过我的注意。

我觉得这很难相信。只是为了说明这一点:两个进程都使用 cudaMalloc(运行时 API)和 cuMalloc(驱动程序 API)请求设备内存(大卡上为 400MB),并且两个进程都获得返回相同的地址?我确信没有一个进程进展很大并且已经释放了内存,因此第一个进程可以重用相同的内存,因为第一个进程已经终止。不是,这 block 内存是作为内存池来服务后续的内存分配的,中间有很多同步点。该池在程序终止时被释放。

有人知道如何向两个进程报告相同的指针值(内存地址),但在 GPU 上这指的是不同的内存? (它必须是因为它执行的计算是正确的。如果内存池重叠,情况就不会如此)。据我所知,这是不可能的。我错过了什么?

最佳答案

您缺少虚拟寻址的概念。

每个 CPU 线程都有自己的 CUcontext,每个 CUcontext 都有自己的 GPU虚拟地址空间。从 API 返回的地址是虚拟的,主机驱动程序和/或设备将虚拟地址转换为 GPU 内存中的绝对地址。有大量证据表明 GPU 上有一个专用的 TLB 正是用于此目的。

关于cudaMalloc 在不同的 CPU 线程上返回相同的内存地址,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12988541/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com