gpt4 book ai didi

c++ - 当您在设备内部调用 cudaMalloc 时实际发生了什么?

转载 作者:行者123 更新时间:2023-11-30 05:27:25 25 4
gpt4 key购买 nike

这里确实有效,所以我想知道 cuda 是否在线程中动态分配设备上的内存?如果是这样,__device__ malloc 有什么用,因为相比之下这要快得多?我想问的是当您在内核中使用 cudaMalloc 时,幕后到底发生了什么,因为它看起来比堆上的设备 malloc 快得多。

#include <iostream>
#include <numeric>
#include <stdlib.h>

__global__ void testMem(int* time){
int* a;
cudaMalloc(&a,sizeof(int));
a[0] = 4;
time = a[0];
}

__global__ void testMem2(int* time){

}
int main(){
int* h_time = (int*)malloc(sizeof(int));
h_time[0] =0;
int* d_time;
cudaMalloc(&d_time,sizeof(int));
clock_t start1 = clock();
cudaMemcpy(d_time,h_time,sizeof(int),cudaMemcpyHostToDevice);

testMem<<<1,1>>>(d_time);
cudaMemcpy(h_time,d_time,sizeof(int),cudaMemcpyDeviceToHost);
cudaDeviceSynchronize();
clock_t end1 = clock();

int result = end1- start1;
//float result = (float)*h_time;
//result =result/ CLOCKS_PER_SEC;
std::cout<<result<<std::endl;
std::cout<<*h_time<<std::endl;
//std::cout<<(1<<10);
cudaFree(d_time);
free(h_time);

}

最佳答案

从计算能力 3.5 开始,您可以在内核中使用部分 cuda 运行时 api。这些方法在文档中声明为 __host__ __device__,就像 here 一样。 :

__host__ ​ __device__ ​cudaError_t cudaMalloc ( void** devPtr, size_t size )

Allocate memory on the device.

这样做时,提醒链接到设备运行时库:cudadevrt.lib

还有另一种在设备上动态分配内存的方法:使用 malloc,它的实现方式不同(已记录 here)。它使用较小的内存堆,不需要相同的计算能力。

关于c++ - 当您在设备内部调用 cudaMalloc 时实际发生了什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37383350/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com