gpt4 book ai didi

CUDA SDK 示例在多 GPU 系统中抛出各种错误

转载 作者:行者123 更新时间:2023-12-04 12:48:46 25 4
gpt4 key购买 nike

我有一个运行 Ubuntu Precise 的 Dell Precision Rack,配备两个 Tesla C2075 和一个 Quadro 600,后者是显示设备。我最近在台式计算机上完成了一些测试,现在尝试将内容移植到工作站。

由于 CUDA 不存在,我根据 this guide 安装了它并根据 this suggestions 调整了 SDK Makefiles .

我现在面临的是没有一个样本(我测试了 10 个不同的样本)正在运行。这些是我得到的错误:

[deviceQuery] starting...

./deviceQuery Starting...

CUDA Device Query (Runtime API) version (CUDART static linking)

cudaGetDeviceCount returned 10
-> invalid device ordinal
[deviceQuery] test results...
FAILED

> exiting in 3 seconds: 3...2...1...done!
[MonteCarloMultiGPU] starting...

CUDA error at MonteCarloMultiGPU.cpp:235 code=23510 (cudaErrorInvalidDevice) "cudaGetDeviceCount(&GPU_N)"MonteCarloMultiGPU
==================
Parallelization method = threaded
Problem scaling = weak
Number of GPUs = 0
Total number of options = 0
Number of paths = 262144
main(): generating input data...
main(): starting 0 host threads...
Floating point exception (core dumped)
[reduction] starting...

reduction.cpp(124) : cudaSafeCallNoSync() Runtime API error 10 : invalid device ordinal.
[simplePrintf] starting...

simplePrintf.cu(193) : CUDA Runtime API error 10: invalid device ordinal.

正如您所看到的,大多数错误都指向 cudaGetDeviceCount 调用的问题,该调用返回错误代码 10。根据手册,问题是:
cudaErrorInvalidDevice: This indicates that the device ordinal supplied by the user does not correspond to a valid CUDA device.

不幸的是,我能找到的唯一解决方案建议检查设备电源插头。我这样做了,没有任何问题。重新启动工作站也无济于事。

我很乐意提供有关我的配置的更多详细信息。只需发表评论!

最佳答案

由于对我原始问题的评论,我能够find一个办法。我关注了 this guide了解如何设置 rc.local正确(不要忘记 chmod 你的脚本)。

关于CUDA SDK 示例在多 GPU 系统中抛出各种错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11648679/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com