CURAND 和内核，在哪里生成？-6ren

CURAND 和内核，在哪里生成？

转载作者：太空宇宙更新时间：2023-11-04 05:19:13

我的动机:我正在使用一种算法来模拟种群动态，我希望使用 CUDA 以便能够在数值模拟中考虑大量节点。虽然这是我第一次在 GPU 上运行代码，但到目前为止结果看起来很有希望。

背景:我需要考虑随机噪声，它在我打算研究的复杂系统的演化过程中起着至关重要的作用。据我了解，与 CPU 上的类似操作相比，CUDA 中的随机数生成可能相当麻烦。在文档中，我看到必须存储 RNG 的状态，并将其继续提供给需要(生成和)使用随机数的内核(全局函数)。我找到了 these examples非常有启发性，也许您还推荐我阅读有关此内容的其他内容？

问题:生成 n 个种子值，将它们存储在设备全局内存中的数组中，然后将它们提供给内核，内核又生成一对随机数的好处是什么？使用，而不是生成 2n 个随机数，将它们存储在设备全局内存中，然后将它们直接提供给需要使用它们的内核？我一定在这里遗漏了一些真正重要的东西，因为在我看来，在第二种情况下肯定会节省资源(示例中从未使用过)。对于生成的数字的分配，似乎也更安全。

我的代码很长，但我试着用一个简短的例子来说明我需要什么。在这里:

我的代码:

    #include <cstdlib>
    #include <stdio.h>
    #include <cuda.h>
    #include <curand.h>
    #include <math.h>

    __global__ void update (int n, float *A, float *B, float p, float q, float *rand){

        int idx = blockIdx.x*blockDim.x + threadIdx.x;

        int n_max=n*n;

        int i, j;
        i=idx/n; //col
        j=idx-i*n; //row

        float status;

        //A, B symmetric
        //diagonal untouched, only need 2 random numbers per thread
        //i.e. n*(n-1) random numbers in total
        int idx_rand = (2*n-1-i)*i/2+j-1-i;

        if(idx<n_max && j>i){

            if(rand[idx_rand]<p){

                status=A[idx];

                if(status==1){
                    if(rand[idx_rand+n*(n-1)/2] < q){
                        B[idx]=-1.0f;
                        B[i+n*j]=-1.0f;

                    }
                }
                else if(status==0){
                    if(rand[idx_rand+n*(n-1)/2] < q){
                        B[idx]=1.0f;
                        B[i+n*j]=1.0f;

                    }
                }
            }

        }   
    }

    __global__ void fill(float *A, int n, float num){

        int idx = blockIdx.x*blockDim.x + threadIdx.x;

        if(idx<n){
            A[idx]=num;
        }
    }

    void swap(float** a, float** b) {

        float* temp = *a;
        *a = *b;
        *b = temp;
    }

    int main(int argc, char* argv[]){

        int t, n, t_max, seed;

        seed    = atoi(argv[1]);
        n   = atoi(argv[2]);
        t_max   = atoi(argv[3]);

        int blockSize = 256;
        int nBlocks = n*n/blockSize + ((n*n)%blockSize == 0?0:1);

        curandGenerator_t prng;
        curandCreateGenerator(&prng, CURAND_RNG_PSEUDO_DEFAULT);
        curandSetPseudoRandomGeneratorSeed(prng, (unsigned long long) seed);

        float *h_A  = (float *)malloc(n * n * sizeof(float));
        float *h_B  = (float *)malloc(n * n * sizeof(float));

        float *d_A, *d_B, *d_rand;  

        cudaMalloc(&d_A, n * n * sizeof(float));
        cudaMalloc(&d_B, n * n * sizeof(float));
        cudaMalloc(&d_rand, n * (n-1) * sizeof(float));

        fill <<< nBlocks, blockSize >>> (d_A, n*n, 0.0f);
        fill <<< nBlocks, blockSize >>> (d_B, n*n, 0.0f);

        for(t=1; t<t_max+1; t++){

            //generate random numbers
            curandGenerateUniform(prng, d_rand, n*(n-1));
            //update B
            update <<< nBlocks, blockSize >>> (n, d_A, d_B, 0.5f, 0.5f, d_rand);

            //do more stuff

            swap(&d_A, &d_B);

        }   

        cudaMemcpy(h_A, d_A, n*n*sizeof(float),cudaMemcpyDeviceToHost);
        //print stuff

        curandDestroyGenerator(prng);

        cudaFree(d_A);
        cudaFree(d_B);
        cudaFree(d_rand);
        free(h_A);
        free(h_B);

        return 0;
    }

我希望你能告诉我它出了什么问题(以及一些关于如何修复它的提示)。如果专家们能告诉我在最好的情况下我可以节省多少(运行时间)，在他们能想到的所有性能调整之后，那就太好了，因为我现在手头有几项任务并且成本-因此，“学习时间”方面的好处非常重要。

就是这些了，感谢阅读!

仅作记录，我的硬件规范如下。不过，我计划在某个时候为此使用 Amazon EC2。

我的(当前)硬件:

    Device 0: "GeForce 8800 GTX"
    CUDA Driver Version / Runtime Version          5.5 / 5.5
    CUDA Capability Major/Minor version number:    1.0
    Total amount of global memory:                 768 MBytes (804978688 bytes)
    (16) Multiprocessors, (  8) CUDA Cores/MP:     128 CUDA Cores
    GPU Clock rate:                                1350 MHz (1.35 GHz)
    Memory Clock rate:                             900 Mhz
    Memory Bus Width:                              384-bit
    Maximum Texture Dimension Size (x,y,z)         1D=(8192), 2D=(65536, 32768), 3D=(2048, 2048, 2048)
    Maximum Layered 1D Texture Size, (num) layers  1D=(8192), 512 layers
    Maximum Layered 2D Texture Size, (num) layers  2D=(8192, 8192), 512 layers
    Total amount of constant memory:               65536 bytes
    Total amount of shared memory per block:       16384 bytes
    Total number of registers available per block: 8192
    Warp size:                                     32
    Maximum number of threads per multiprocessor:  768
    Maximum number of threads per block:           512
    Max dimension size of a thread block (x,y,z): (512, 512, 64)
    Max dimension size of a grid size    (x,y,z): (65535, 65535, 1)
    Maximum memory pitch:                          2147483647 bytes
    Texture alignment:                             256 bytes
    Concurrent copy and kernel execution:          No with 0 copy engine(s)
    Run time limit on kernels:                     Yes
    Integrated GPU sharing Host Memory:            No
    Support host page-locked memory mapping:       No
    Alignment requirement for Surfaces:            Yes
    Device has ECC support:                        Disabled
    Device supports Unified Addressing (UVA):      No
    Device PCI Bus ID / PCI location ID:           7 / 0

最佳答案

一般来说，随机数生成是一个可以在 GPU 上并行化的过程，因此在许多情况下，可以利用 GPU 比在 CPU 上更快地生成数字。这是使用像 CURAND 这样的 API/库的主要动机。

What is the advantage of generating n seed values, store them in an array on the device global memory, and then feeding them to the kernel which in turn generates a couple of random numbers to use, opposed to generating 2n random numbers, storing them in the device global memory, and then feeding them directly to the kernel which needs to use them?

两者都是有效的方法并且可以利用 GPU 加速:要么预先生成数字并存储它们，要么即时生成它们。

您可能想要考虑一种方法而不是另一种方法的一些原因是:

仅当您知道需要多少(或多少的上限)时，预先生成数字才有用。如果您的算法变化很大(可能存在不同的数据集)，这可能很难确定。
存储生成的数字可能是个问题。对于某些类型的算法(例如蒙特卡洛模拟)，可能需要生成如此多的随机数，以至于预先进行并存储它们可能会让人望而却步。在这些情况下，即时生成它们可能会让您绕过对大量随机数存储的需求。
通过动态生成数字可能会稍微提高机器利用率，从而避免在使用数字之前调用额外的内核来生成数字的开销。

同样，CURAND 的主要优势在于性能。如果随机数生成只占应用程序总计算成本的一小部分，那么使用哪种方法可能无关紧要，甚至根本不使用 CURAND(例如，代替普通的基于 CPU 的 RNG 方法)。

关于CURAND 和内核，在哪里生成？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19691845/

文章推荐： c - 为什么我的无符号长数组指针递增 8 个字节而不是四个字节？

文章推荐： linux - 使用rename重命名文件和目录

文章推荐： python - 在循环中使用 Oct2Py 时关闭 Octave-cli 实例

linux - 内核(例如 Linux 内核)的文件类型是什么？
总的来说，我对 Linux 内核和操作系统非常感兴趣。我想知道的是，内核的文件类型或扩展名是什么？它显然没有 .exe 或 .out 扩展名，因为它们用于安装在操作系统上的应用程序。内核只是一个二进
linux - 为 Arm/Raspberry PI 扩展 Rasbian 内核(Linux 内核 3.10.28)——如何正确添加自己的系统调用？
我需要为 Raspbian Linux 内核添加一个自己的系统调用。现在我在搜索了大约 2 天以找到解决方案后陷入困境。要加一个系统调用，我基本上是按照大纲来的( http://elinux.org
内核:如何为内核构建添加新的源文件？
对于一个学术项目，我希望将源文件 (myfile.c) 添加到 kernel/目录，与exit.c相同的目录和 fork.c .构建系统似乎不会自动获取新文件，因为我在 myfile.c 中定义的函数
有哪常用些浏览器/内核？
浏览器排行榜浏览器市占率排行榜全球榜。浏览器市占率排行榜中国榜 -快科技。如果按照浏览器内核来看， Chromium 内核的市场占有率无疑是最大的，一家独大
process - 内核:如何从进程的task_struct中查找所有线程？
给定一个进程或线程的任务结构，迭代属于同一进程的所有其他线程的习惯用法是什么？最佳答案 Linux 不区分进程(任务)和线程。库调用 fork() 和 pthread_create() 使用相同的系
C 内核 - while 循环期间中断不工作
我正在用c(不是linux。完全从头开始)从头开始制作一个内核，但我遇到了一些问题。我有这个代码: #include "timer.h" int ms = 0; void timer_handler(
C 内核-打印字符串不起作用
我正在从头开始制作一个 C 内核，我实际上只是从网站上复制了这段代码，因为我的代码无法工作，所以我很困惑。 void kmain(void) { const char *str = "my f
linux - 内核、内核线程和用户线程之间的区别
我不确定，如果我完全理解上述差异，所以我想自己解释一下，你可以打断我，只要我有错:“内核是创建内核线程的初始代码段。内核线程是由内核管理的进程。用户线程是进程的一部分。如果你有一个单线程进程，那么整个
比较两个结构文件(Linux 内核)
看一下struct file 定义from this code Linux 内核版本 2.6.18。我正在尝试比较代码中的两个 struct file 变量，并确定它们是否指的是同一个文件。该结构中
Linux 内核 - 从用户空间停止正在运行的内核定时器
我试图在 Linux 启动时使嵌入式设备中的 LED 闪烁。基本上，LED 闪烁表明 Linux 正在启动。为了使 LED 闪烁，我正在做以下事情在 init/main.c 中创建了一个全局定时器(
linux - 内核/用户空间和选择之间的共享内存
我有一些在 FreeBSD 和 Linux 上运行的特定硬件。我必须做一个用户空间应用程序，它将使用内核/用户空间应用程序之间的共享内存与驱动程序一起工作。我的应用程序对来自用户空间的共享内存进行忙
Linux 内核 icmp_reply
我在哪里可以找到 linux 内核中相应函数的解释，特别是对于 ICMPv4？例如:icmp_reply、icmp_send等感谢您的帮助。最好的，阿里木最佳答案探索 Linux 内核中的
Linux 内核 - 数据定义没有类型或存储类
我在 Linux Kernel 3.4 上工作，我有以下代码: /* Proximity sensor calibration values */ unsigned int als_kadc;
Linux 内核 - 等待队列
我正在阅读“罗伯特·洛夫 (Robert Love) 撰写的 Linux 内核开发第 3 版”，以大致了解 Linux 内核的工作原理..(2.6.2.3) 我对等待队列的工作方式感到困惑，例如这段代
C++ - 直接写入内存(内核)
我之前也问过同样的问题，但是我的帖子不知为何被删除了。无论如何，我正在尝试使用 C++ 并编写一个允许我直接访问内存并向其中写入内容的程序。我听说我需要对内核做一些事情，因为它是连接操作系统和应用程
Ruby:内核#`运行命令的权限被拒绝
在尝试了解 Ruby 执行方法时，我找到了这篇关于在 Ruby 中运行命令的五种方法的博文 http://mentalized.net/journal/2010/03/08/5_ways_to_run
Linux 内核/操作系统源代码文档？
是否有 Linux 发行版(Minix 除外)包含良好的源代码文档？或者，是否有一些好的文档来描述一般的 Linux 源代码？我已经下载了内核源代码，但是(不出所料)我有点不知所措，我想知道是否有一
Linux 内核 - 什么函数保存随机选择端口号的来源？
有谁知道 linux 中的哪个函数或文件包含查找用于 bind() 系统调用的随机端口的算法？我到处寻找，在 Linux 源代码中找不到包含此算法的方法。谢谢! 最佳答案这是一段又长又复杂的代码，
探索操作系统：内核、启动和系统调用的奥秘
前言首先，对于有科班背景的读者，可以跳过本系列文章。这些文章的主要目的是通过简单易懂的汇总，帮助非科班出身的读者理解底层知识，进一步了解为什么在面试中会涉及这些底层问题。否则，某些概念将始终
初识centos7与centos6的区别整理(内核、命令等)
CentOS7.2与CentOS6区别及特点 Linux 操作系统的启动首先从 BIOS 开始，接下来进入 boot loader，由 bootloader 载入内核，进行内核初始化。内核初始化的

太空宇宙

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

CURAND 和内核，在哪里生成？