gpt4 book ai didi

cuda - 节省 cudaHostAlloc 所需的时间

转载 作者:行者123 更新时间:2023-12-04 10:00:42 26 4
gpt4 key购买 nike

我试图找出在将数据传输到设备之前将数据复制到固定内存是否有意义,因为我对输入数据的分配没有影响(它是一个库)。

std::vector<int> idata(WORK_SIZE);
int *idata_aligned = NULL;
int *d1 = NULL;
int *d2 = NULL;

for (int i = 0; i < WORK_SIZE; ++i)
idata[i] = i;
CUDA_CHECK_RETURN(cudaMalloc((void**) &d1, sizeof(int) * WORK_SIZE));
CUDA_CHECK_RETURN(cudaMalloc((void**) &d2, sizeof(int) * WORK_SIZE));

printf("unpinned:\n");
{
boost::timer::auto_cpu_timer t;
CUDA_CHECK_RETURN(cudaMemcpy(d1, &idata[0], sizeof(int) * WORK_SIZE, cudaMemcpyHostToDevice));
}

printf("copy to pinned:\n");
{
boost::timer::auto_cpu_timer t;
CUDA_CHECK_RETURN(cudaHostAlloc((void**) &idata_aligned, sizeof(int) * WORK_SIZE,cudaHostAllocDefault));
memcpy(idata_aligned, &idata[0], sizeof(int) * WORK_SIZE);
CUDA_CHECK_RETURN(cudaMemcpy(d2, idata_aligned, sizeof(int) * WORK_SIZE, cudaMemcpyHostToDevice));
}

10,000,000 个元素的输出:
unpinned:
0.018919s wall, 0.020000s user + 0.000000s system = 0.020000s CPU (105.7%)
copy to pinned:
0.045428s wall, 0.020000s user + 0.020000s system = 0.040000s CPU (88.1%)

主要问题似乎是 cudaHostAlloc (即使没有 memcpy,第二种方法也慢得多)。

我做错什么了吗?还有另一种方法可以将固定内存用于已分配的内存吗?

最佳答案

使用固定内存的速度增益还取决于传输的大小和您的系统。您可以先运行 CudaBandwidthTest 示例,看看它是否真的有意义。

否则我会测量你程序的特定部分,看看时间在哪里丢失。 (alloc, memcpy, pcie-transfer)

根据您分配页面锁定内存的大小,您的系统也可能需要将其他一些内存交换到磁盘,从而增加运行时间。

无论如何,您显示的时间很短,所以我想,传输大小也很小。您还应该能够通过将多个小写入合并为一个更大的写入来提高速度。

关于cuda - 节省 cudaHostAlloc 所需的时间,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14156167/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com