linux - 使用 cuFFT 的多个主机线程的奇怪行为-6ren

linux - 使用 cuFFT 的多个主机线程的奇怪行为

转载作者：塔克拉玛干更新时间：2023-11-03 00:59:02

下面的测试程序为每个 GPU 创建了一个宿主线程。每个主机线程创建一个 cuFFT 计划并执行 FFT。

大多数时候，程序似乎运行无误。但是，有时它会以多种方式失败(请参见下面的示例输出)。有人知道为什么这个程序有时会失败吗？

我在一台有两个 Intel Xeon E5620 CPU、48 GB 主机内存和四个 Tesla C2075 卡的机器上运行这个程序，这些卡都没有用于显示。操作系统是Linux(Debian 7.4)，我安装了CUDA 5.5版本。 NVIDIA 驱动程序版本为 319.82。作为引用，cuFFT 的错误代码 4 和 11 分别是 CUFFT_INVALID_VALUE 和 CUFFT_INVALID_DEVICE。

更新:我越来越怀疑 cuFFT 不是线程安全的，正如文档似乎声称的那样。如果我用互斥量保护整个线程(即一次只能有一个线程实际执行)，程序就不会失败。仅使用互斥锁保护 cufftPlan1d 调用或仅保护 cufftExecR2C 调用会导致程序失败。我是否误解了文档:

Thread-safe API that can be called from multiple independent host threads

示例 1

4 CUDA device(s) found
Device 3 initialized
Device 2 initialized
Device 1 initialized
FFT execution failed for device 1, status = 11
Device 0 initialized
Device 3 deinitialized
Device 2 deinitialized
Device 0 deinitialized

请注意，设备 1 线程没有终止。

例子2

4 CUDA device(s) found
Device 0 initialized
Device 2 initialized
Device 1 initialized
Device 3 initialized
FFT execution failed for device 3, status = 11
Device 2 deinitialized
Device 0 deinitialized
Device 1 deinitialized

示例 3

4 CUDA device(s) found
Device 1 initialized
Device 2 initialized
FFT execution failed for device 2, status = 4
Device 1 deinitialized
Device 3 initialized
Device 0 initialized
FFT execution failed for device 0, status = 4
Device 3 deinitialized

例子4

4 CUDA device(s) found
Segmentation fault

示例 5

4 CUDA device(s) found
Device 3 initialized
Device 2 initialized
Device 3 deinitialized
Plan creation failed for device 0, status = 4
^C

在最后一个例子中，程序没有终止。

如果我同时运行这个程序的多个副本，使用我在 {0..9} 中；做 ./pthread_cuda 并完成，它以新的和有趣的方式失败了:

例子6

4 CUDA device(s) found
4 CUDA device(s) found
4 CUDA device(s) found
4 CUDA device(s) found
4 CUDA device(s) found
4 CUDA device(s) found
pthread_cuda: pthread_mutex_lock.c:84: __pthread_mutex_lock: Assertion `mutex->__data.__owner == 0' failed.
4 CUDA device(s) found
4 CUDA device(s) found
4 CUDA device(s) found

我在程序中没有使用互斥量，所以这个问题是cuFFT库中的错误吗？

pthread_cuda代码

#include <cuda_runtime_api.h>
#include <cufft.h>
#include <malloc.h>
#include <math.h>
#include <pthread.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>

// The thread configuration structure.
typedef struct
{
    int device;
    pthread_t thread;
    cudaError_t status;
    int np;
}
config_t;

// The size of memory region.
int np = 16384;

// The function executed by each thread assigned with CUDA device.
void *thread_func(void *arg)
{
    // Unpack the config structure.
    config_t *config = (config_t *)arg;

    int device = config->device;

    int fft_in_np = config->np;
    int fft_out_np = config->np / 2 + 1;

    // Set focus on device with the specificed index.
    cudaError_t cuda_status = cudaSetDevice(device);
    if (cuda_status != cudaSuccess) {
        fprintf(stderr, "Cannot set focus to device %d, status = %d\n",
            device, cuda_status);
        config->status = cuda_status;
        pthread_exit(NULL);
    }

    cufftHandle r2c_plan;
    cufftResult cufft_status = cufftPlan1d(&r2c_plan, fft_in_np, CUFFT_R2C, 1);
    if (cufft_status != CUFFT_SUCCESS) {
        fprintf(stderr, "Plan creation failed for device %d, status = %d\n",
            device, cufft_status);
        //config->status = cufft_status;
        pthread_exit(NULL);
    }

    // Create device arrays for input and output data.
    cufftReal *in_dev_data = NULL;
    cufftComplex *out_dev_data = NULL;

    cuda_status = cudaMalloc((void **)&in_dev_data, (fft_in_np + 2) * sizeof(cufftReal));
    if (cuda_status != cudaSuccess) {
        fprintf(stderr, "Cannot allocate CUDA FFT buffer on device %d, status = %d\n",
            device, cuda_status);
        config->status = cuda_status;
        pthread_exit(NULL);
    }

    cuda_status = cudaMalloc((void **)&out_dev_data, fft_out_np * sizeof(cufftComplex));
    if (cuda_status != cudaSuccess) {
        fprintf(stderr, "Cannot allocate CUDA FFT buffer on device %d, status = %d\n",
            device, cuda_status);
        config->status = cuda_status;
        pthread_exit(NULL);
    }

    printf("Device %d initialized\n", device);

    //out_dev_data = (cufftComplex *)in_dev_data;

    cufft_status = cufftExecR2C(r2c_plan, in_dev_data, out_dev_data);
    if (cufft_status != CUFFT_SUCCESS) {
        fprintf(stderr, "FFT execution failed for device %d, status = %d\n",
            device, cufft_status);
        //config->status = cuda_status;
        pthread_exit(NULL);
    }

    cuda_status = cudaDeviceSynchronize();
    if (cuda_status != cudaSuccess) {
        fprintf(stderr, "Failed to synchronize device %d, status = %d\n",
            device, cuda_status);
        config->status = cuda_status;
        pthread_exit(NULL);
    }

    // Dispose device buffers.
    cuda_status = cudaFree(in_dev_data);
if (cuda_status != cudaSuccess) {
        fprintf(stderr, "Cannot release input buffer on device %d, status = %d\n",
            device, cuda_status);
        config->status = cuda_status;
        pthread_exit(NULL);
    }

    cufft_status = cufftDestroy(r2c_plan);
    if (cufft_status != CUFFT_SUCCESS) {
        fprintf(stderr, "Plan destruction failed for device %d, status = %d\n",
            device, cufft_status);
        //config->status = cuda_status;
        pthread_exit(NULL);
    }

    printf("Device %d deinitialized\n", device);

    config->status = 0;
    return NULL;
}

int main(int argc, char* argv[])
{
    int ndevices = 0;
    cudaError_t cuda_status = cudaGetDeviceCount(&ndevices);
    if (cuda_status != cudaSuccess) {
        fprintf(stderr, "Cannot get the cuda device count, status = %d\n",
            cuda_status);
        return cuda_status;
    }

    // Return if no cuda devices present.
    printf("%d CUDA device(s) found\n", ndevices);
    if (!ndevices)
        return 0;

    int dev_num;
    cuda_status = cudaGetDevice(&dev_num);
    if (cuda_status != cudaSuccess) {
        fprintf(stderr, "Cannot get the cuda device number, status = %d\n",
            cuda_status);
        return cuda_status;
    }

    // Create workers configs. Its data will be passed as
    // argument to thread_func.
    config_t* configs = (config_t*)malloc(sizeof(config_t) * ndevices);

    // For each CUDA device found create a separate thread
    // and execute the thread_func.
    for (int i = 0; i < ndevices; i++) {
        config_t *config = configs + i;
        config->device = i;
        config->np = np;
        //config->in_host = in + np * i;

        int status = pthread_create(&config->thread, NULL, thread_func, config);
        if (status) {
            fprintf(stderr, "Cannot create thread for device %d, status = %d\n",
                i, status);
            return status;
        }
    }

    // Wait for device threads completion.
    // Check error status.
    int status = 0;
    for (int i = 0; i < ndevices; i++) {
        pthread_join(configs[i].thread, NULL);
        status += configs[i].status;
    }
    if (status)
        return status;

    free(configs);

    return 0;
}

最佳答案

郑重声明，CUDA 6.0RC 似乎解决了这个问题。我怀疑它是由 cuFFT 库中的线程代码中的错误引起的，但我不能确定。

关于linux - 使用 cuFFT 的多个主机线程的奇怪行为，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22501702/

文章推荐： c++ - 给定头节点，如何递归地找到链表中的最大项？

文章推荐： c++ - 推荐跨平台 C++ GUI 和网络库

mysql - 前台的 ssh 隧道适用于 mysql 主机 localhost，但后台的 ssh 隧道适用于 mysql 主机 127.0.0.1
我在这里想做的是将所有连接转发到机器一上端口 3306 上的本地主机到本地主机上端口 3306 上的机器二。因此，如果您连接到机器一上的 mysql，它的行为就像您正在连接一样在二号机器上。我认为
elasticsearch - 如何获得KIbana连接到的弹性IP/主机
通过Kibana界面，如何获得 flex IP /主机？我的意思是，与kibana连接的Elastic主机。那有可能吗？我在这个上挣扎了好几个小时，却一无所获:( 附:不确定此问题是否是题外话，应
deno - 如何关闭计算机(主机)
我知道这听起来很奇怪，但我有一个情况，Deno 需要关闭自己的主机(并因此杀死自己的进程)。这可能吗？我特别需要这个用于 linux (lubuntu)，如果相关的话。我想这需要 sudo 权限，这
deno - 如何关闭计算机(主机)
我知道这听起来很奇怪，但我有一个情况，Deno 需要关闭自己的主机(并因此杀死自己的进程)。这可能吗？我特别需要这个用于 linux (lubuntu)，如果相关的话。我想这需要 sudo 权限，这
Android: Activity 主机？
我有一个基本问题，但谷歌并没有为我产生很多结果(反正不是英文的)。基本上我想做的就是: 我有一个图形需要用作整个应用程序的持久 header ，例如:我不能让它在新的 Intent 调用时从屏幕上滑出
找不到 phpmyadmin 主机!
您好，我正在使用 xampp，我正在尝试使用 php 进行连接。 $sql_connections = mysql_connect("$server, $username, $password")
Java websocket 主机？
我目前正在尝试一些多人游戏的想法，并正在尝试创建一个 Java 应用程序来为基于网络浏览器的多人游戏提供服务。我的开发环境是主机上的Eclipse， native 上的notepad + Googl
SSH只能用于远程Linux 主机？那说明你见识太少了！
今天为大家分享一篇关于SSH 的介绍和使用方法的文章。本文从SSH是什么出发，讲述了SSH的基本用法，之后在远程登录、端口转发等多种场景下进行独立的讲述，希望能对大家有所帮助。什么是SSH？
kubernetes - 如何生成配置以连接到远程 Kubernetes 主机
我已经完成了在裸机 Centos 7 上运行的测试 Kubernets 主机的设置。这将用作测试系统，因为我们将在 IBM Bluemix Kubernetes 服务中部署所有内容。从 Bluemi
android - 适用于安卓的 USB 主机
我正在尝试通过带有 4.2(果冻 bean )的 android 设备“nexus 7”通过 USB 与我的 freeduino 板进行通信，该板类似于 arduino uno。几个月后，我使用开发
上游的 Nginx 主机 header
我正在使用 nginx，但在设置反向代理时遇到问题。我的 nginx.conf 是默认的(没有对其进行任何更改)，我的站点可用配置是: upstream backend_hosts { se
svn - 如何将我的项目文件上传到在线 svn 主机？
我在 projectlocker(免费 svn 主机)上有一个帐户，但我不知道如何将我的项目文件上传到它。我在我的仪表板中找不到任何选项。我在我的电脑上使用tortoiseSvn，那么如何上传文件
function - 主机.json；批量大小的含义
设置batchSize = 1有意义吗？如果我想一次处理一个文件？尝试过batchSize = 1000和batchSize = 1 - 似乎具有相同的效果 { "version": "2.0"
docker - 我们可以在多个计算机(主机)上运行单个容器吗？
我只想知道.. docker中现在有任何可用的工具吗？我已经阅读了Docker中有关多主机功能的一些文档，例如， Docker群 Docker服务(带有副本) 我也知道群模式下的volume问题，容器
docker - 如何将容器文件挂载到我的 Docker 主机？
我想将文件从 Docker 的容器挂载到我的 docker 主机。数据卷不是我的解决方案，因为它们是从 docker 主机到 docker 容器的装载，我需要相反的方法。谢谢最佳答案当 doc
用于远程IP(主机)的Java RMI
我是新手。我无法正确理解RMI。互联网上有大量教程，但据我所知，它们都是针对本地主机的。服务器和客户端都运行在同一台机器上。我想在任何计算机上运行客户端，并且主机将位于一台计算机上，让我们考虑IP
SSH 主机 key 验证仅在其中一个客户端上失败
我无法从客户端“A”SSH 到服务器“B”(但我可以从同一子网上的许多其他 ssh 客户端而不是“A”——所有都是 *nux 机器) serverA>ssh -v -p 端口用户@serverB Op
function - 主机.json；批量大小的含义
设置batchSize = 1有意义吗？如果我想一次处理一个文件？尝试过batchSize = 1000和batchSize = 1 - 似乎具有相同的效果 { "version": "2.0"
haproxy - 主机/路径/的HAProxy路径
由于我不是天生的编码员，请多多包涵。这是我尝试使用HAproxy来实现的目标，但是经过数小时的检查后，我无法以某种方式使其工作。从 domain.com/alpha domain.com/beta
java - 未知 SMTP 主机
我正在使用 tomcat 运行 Java Web 应用程序，通过电子邮件将生成的报告发送给用户。我可以发送电子邮件，但几个小时后服务器停止发送电子邮件，并出现以下错误。 javax.mail.Mess

塔克拉玛干

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城