gpt4 book ai didi

c++ - 如何使用 Cuda 避免段错误时的内存泄漏

转载 作者:太空宇宙 更新时间:2023-11-04 02:38:19 24 4
gpt4 key购买 nike

我在集成分支上使用 cuda 设备工作,但在完成工作时我仍然遇到一些段错误。

每次崩溃后,我的内存消耗增加了 500 Mo(使用 free -mhtop 和其他但我不记得名字了)。这个内存永远不会释放,所以在这台有 4Go RAM 的计算机上,所以我必须在崩溃后重新启动,否则内存交换,它真的很慢(当内存交换发生时,就像往常一样)。

我知道好的答案是:“修复你的段错误!!”但我想了解为什么会发生这种行为以及如何防止这种行为。

我读到 CUDA 内存应该在出现段错误时由操作系统释放,但看起来它没有。

当我尝试调试我的程序时,我注意到如果我修复段错误,内存会正确释放,但如果我也评论 cuda 发布行:cudaFreeHost(buf)(使用段错误固定),我仍然有内存泄漏。

我的内存分配为固定页面:cudaHostAlloc(&ret, n*sizeof(my_struct), cudaHostAllocPortable)

我想确保使用 unique_ptr 调用“免费”代码,但它不会解决段错误问题。

我查看了 CUDA 的持久模式:http://docs.nvidia.com/deploy/driver-persistence/index.html但它在我的电脑上是禁用的(我用 nvidia-smi 检查了它)。

我尝试重置 cuda 设备:nvidia-smi -r 但它说我的电脑不支持它。

问题是:

  • 我们如何要求程序(或操作系统)在程序结束时释放这些资源?
  • 如果不能,是否存在崩溃后恢复这些资源的命令?

版本:

  • CUDA 6.0.1

  • 海湾合作委员会 4.9.2

  • 驱动版本:340.65

  • 显卡:GeForce 610M

更新:

这是重现问题的示例代码。使用注释行,我每次运行泄漏 10 Mo。

#include <cuda.h>
#include <cuda_runtime.h>

int main() {

int *ret;
cudaHostAlloc(&ret, 10000000 * sizeof(*ret), cudaHostAllocPortable);
//cudaFreeHost(ret);
return 0;
}

更新 2:

             total       used       free     shared    buffers     cached
Mem: 3830056 1487156 2342900 66336 142840 527088
-/+ buffers/cache: 817228 3012828
Swap: 7811068 0 7811068
1Erreur de segmentation
2Erreur de segmentation
3Erreur de segmentation
4Erreur de segmentation
5Erreur de segmentation
6Erreur de segmentation
7Erreur de segmentation
8Erreur de segmentation
9Erreur de segmentation
10Erreur de segmentation
11Erreur de segmentation
12Erreur de segmentation
13Erreur de segmentation
14Erreur de segmentation
15Erreur de segmentation
16Erreur de segmentation
17Erreur de segmentation
18Erreur de segmentation
19Erreur de segmentation
20Erreur de segmentation
total used free shared buffers cached
Mem: 3830056 1766580 2063476 64152 142860 531032
-/+ buffers/cache: 1092688 2737368
Swap: 7811068 0 7811068

最佳答案

我已经为您的重现案例构建了一个稍微修改过的版本:

#include <cuda.h>
#include <cuda_runtime.h>
#include <signal.h>

int main() {

int *ret;
const size_t sz = 1 << 30;
cudaHostAlloc(&ret, sz * sizeof(*ret), cudaHostAllocPortable);
raise(SIGSEGV);
return 0;
}

在我的系统上,它应该分配 8Gb 的固定可移植内存并引发段错误,这会产生异常退出和核心转储。我在一个 16Gb 的机器上用 352.39 驱动程序和 CUDA 6 运行时在一个 shell 循环中运行了这个,根据你的分析应该会在两到三个运行中导致泄漏和缓存抖动:

$ free; for i in {1..20}; do echo -n $i; ./a.out; done; free
total used free shared buffers cached
Mem: 16308996 3509924 12799072 0 303588 2313332
-/+ buffers/cache: 893004 15415992
Swap: 8257532 0 8257532
1Segmentation fault (core dumped)
2Segmentation fault (core dumped)
3Segmentation fault (core dumped)
4Segmentation fault (core dumped)
5Segmentation fault (core dumped)
6Segmentation fault (core dumped)
7Segmentation fault (core dumped)
8Segmentation fault (core dumped)
9Segmentation fault (core dumped)
10Segmentation fault (core dumped)
11Segmentation fault (core dumped)
12Segmentation fault (core dumped)
13Segmentation fault (core dumped)
14Segmentation fault (core dumped)
15Segmentation fault (core dumped)
16Segmentation fault (core dumped)
17Segmentation fault (core dumped)
18Segmentation fault (core dumped)
19Segmentation fault (core dumped)
20Segmentation fault (core dumped)
total used free shared buffers cached
Mem: 16308996 3510740 12798256 0 303588 2313272
-/+ buffers/cache: 893880 15415116
Swap: 8257532 0 8257532

但是,您可以看到,在分配 160Gb 固定内存并且从不调用内存释放 API 或允许代码遵循正常代码路径退出后,可用内存仅减少 0.006%。未发生内存泄漏或可用资源的净变化。

CUDA 驱动程序和运行时将在退出时释放主机和 GPU 资源,无论是正常还是异常,无论是否显式调用内存释放 API。我无法告诉您代码或系统的问题所在,但 CUDA 运行时或驱动程序在应用程序退出时缺少主机资源释放很可能不是根本原因。

我鼓励您修改我的代码以适应您机器上物理内存的大小(使用一半的物理内存)并像我在循环中所做的那样运行它,并在之前或之后直接报告内存。我非常怀疑您会看到与我在此答案中发布的内容有什么不同。如果这样做,我强烈建议将驱动程序更新到最新版本的驱动程序。

关于c++ - 如何使用 Cuda 避免段错误时的内存泄漏,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34525759/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com