gpt4 book ai didi

c++ - 我的 opencl 测试运行速度并不比 CPU 快多少

转载 作者:太空狗 更新时间:2023-10-29 22:57:54 37 4
gpt4 key购买 nike

我正在尝试测量 GPU 的执行时间并将其与 CPU 进行比较。我写了一个 simple_add 函数来添加一个 short int vector 的所有元素。内核代码是:

global const int * A, global const uint * B, global int* C)
{
///------------------------------------------------
/// Add 16 bits of each
int AA=A[get_global_id(0)];
int BB=B[get_global_id(0)];
int AH=0xFFFF0000 & AA;
int AL=0x0000FFFF & AA;
int BH=0xFFFF0000 & BB;
int BL=0x0000FFFF & BB;
int CL=(AL+BL)&0x0000FFFF;
int CH=(AH+BH)&0xFFFF0000;
C[get_global_id(0)]=CH|CL;
}

我为此函数编写了另一个 CPU 版本,并在执行 100 次后测量了它们的执行时间

clock_t before_GPU = clock();
for(int i=0;i<100;i++)
{
queue.enqueueNDRangeKernel(kernel_add,1,
cl::NDRange((size_t)(NumberOfAllElements/4)),cl::NDRange(64));
queue.finish();
}
clock_t after_GPU = clock();


clock_t before_CPU = clock();
for(int i=0;i<100;i++)
AddImagesCPU(A,B,C);
clock_t after_CPU = clock();

调用整个测量函数10次后结果如下:

        CPU time: 1359
GPU time: 1372
----------------
CPU time: 1336
GPU time: 1269
----------------
CPU time: 1436
GPU time: 1255
----------------
CPU time: 1304
GPU time: 1266
----------------
CPU time: 1305
GPU time: 1252
----------------
CPU time: 1313
GPU time: 1255
----------------
CPU time: 1313
GPU time: 1253
----------------
CPU time: 1384
GPU time: 1254
----------------
CPU time: 1300
GPU time: 1254
----------------
CPU time: 1322
GPU time: 1254
----------------

问题是我真的希望 GPU 比 CPU 快得多,但事实并非如此。我不明白为什么我的 GPU 速度并不比 CPU 高多少。我的代码有什么问题吗??这是我的 GPU 属性:

        -----------------------------------------------------
------------- Selected Platform Properties-------------:
NAME: AMD Accelerated Parallel Processing
EXTENSION: cl_khr_icd cl_amd_event_callback cl_amd_offline_devices cl_khr_d3d10_sharing
VENDOR: Advanced Micro Devices, Inc.
VERSION: OpenCL 1.2 AMD-APP (937.2)
PROFILE: FULL_PROFILE
-----------------------------------------------------
------------- Selected Device Properties-------------:
NAME : ATI RV730
TYPE : 4
VENDOR : Advanced Micro Devices, Inc.
PROFILE : FULL_PROFILE
VERSION : OpenCL 1.0 AMD-APP (937.2)
EXTENSIONS : cl_khr_gl_sharing cl_amd_device_attribute_query cl_khr_d3d10_sharing
MAX_COMPUTE_UNITS : 8
MAX_WORK_GROUP_SIZE : 128
OPENCL_C_VERSION : OpenCL C 1.0
DRIVER_VERSION: CAL 1.4.1734
==========================================================

为了比较,这是我的 CPU 规范:

        ------------- CPU Properties-------------:
NAME : Intel(R) Core(TM) i3-2100 CPU @ 3.10GHz
TYPE : 2
VENDOR : GenuineIntel
PROFILE : FULL_PROFILE
VERSION : OpenCL 1.2 AMD-APP (937.2)
MAX_COMPUTE_UNITS : 4
MAX_WORK_GROUP_SIZE : 1024
OPENCL_C_VERSION : OpenCL C 1.2
DRIVER_VERSION: 2.0 (sse2,avx)
==========================================================

我还使用 QueryPerformanceCounter 测量了挂钟时间,结果如下:

            CPU time: 1304449.6  micro-sec
GPU time: 1401740.82 micro-sec
----------------------
CPU time: 1620076.55 micro-sec
GPU time: 1310317.64 micro-sec
----------------------
CPU time: 1468520.44 micro-sec
GPU time: 1317153.63 micro-sec
----------------------
CPU time: 1304367.29 micro-sec
GPU time: 1251865.14 micro-sec
----------------------
CPU time: 1301589.17 micro-sec
GPU time: 1252889.4 micro-sec
----------------------
CPU time: 1294750.21 micro-sec
GPU time: 1257017.41 micro-sec
----------------------
CPU time: 1297506.93 micro-sec
GPU time: 1252768.9 micro-sec
----------------------
CPU time: 1293511.29 micro-sec
GPU time: 1252019.88 micro-sec
----------------------
CPU time: 1320753.54 micro-sec
GPU time: 1248895.73 micro-sec
----------------------
CPU time: 1296486.95 micro-sec
GPU time: 1255207.91 micro-sec
----------------------

我再次尝试了执行时间的 opencl 分析。

            queue.enqueueNDRangeKernel(kernel_add,1,
cl::NDRange((size_t)(NumberOfAllElements/4)),
cl::NDRange(64),NULL,&ev);
ev.wait();
queue.finish();
time_start=ev.getProfilingInfo<CL_PROFILING_COMMAND_START>();
time_end=ev.getProfilingInfo<CL_PROFILING_COMMAND_END>();

一次执行的结果大致相同:

            CPU time: 13335.1815  micro-sec
GPU time: 11865.111 micro-sec
----------------------
CPU time: 13884.0235 micro-sec
GPU time: 11663.889 micro-sec
----------------------
CPU time: 19724.7296 micro-sec
GPU time: 14548.222 micro-sec
----------------------
CPU time: 19945.3199 micro-sec
GPU time: 15331.111 micro-sec
----------------------
CPU time: 17973.5055 micro-sec
GPU time: 11641.444 micro-sec
----------------------
CPU time: 12652.6683 micro-sec
GPU time: 11632 micro-sec
----------------------
CPU time: 18875.292 micro-sec
GPU time: 14783.111 micro-sec
----------------------
CPU time: 32782.033 micro-sec
GPU time: 11650.444 micro-sec
----------------------
CPU time: 20462.2257 micro-sec
GPU time: 11647.778 micro-sec
----------------------
CPU time: 14529.6618 micro-sec
GPU time: 11860.112 micro-sec

最佳答案

ATI RV730 具有 VLIW 结构,因此最好尝试 uint4int4 vector 类型,线程总数为 1/4(即 NumberOfAllElements/16)。这也有助于更快地从内存加载每个工作项。

与内存操作相比,内核也没有太多的计算。将缓冲区映射到 RAM 会有更好的性能。不要复制数组,使用 map/unmap enqueue 命令将它们映射到内存。

如果还是不够快,你可以同时使用gpu和cpu来完成前半部分和后半部分的工作,在%50的时间内完成。

也不要将 clFinish 放入循环中。把它放在循环结束之后。这样它将更快地入队并且它已经按顺序执行因此它不会在完成第一个项目之前启动其他项目。我想这是有序队列,在每次入队后添加 clfinish 是额外的开销。在最新的内核之后只需一个 clfinish 就足够了。


ATI RV730:64 个 VLIW 单元,每个单元至少有 4 个流媒体核心。 750 兆赫。

i3-2100:2 个核心(用于防冒泡的线程)每个都有 AVX,能够同时流式处理 8 个操作。所以这可以有 16 个运行中的操作。超过 3 GHz。

简单地将流操作与频率相乘:

ATI RV730 = 192 个单位(更多具有乘加功能,每个 vliw 的第 5 个元素)

i3-2100 = 48 台

所以 gpu 应该至少快 4 倍(使用 int4、uint4)。这适用于简单的 ALU 和 FPU 运算,例如按位运算和乘法。特殊函数(例如超函数性能)可能会有所不同,因为它们仅在每个 vliw 中的第 5 个单元上运行。

关于c++ - 我的 opencl 测试运行速度并不比 CPU 快多少,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42360042/

37 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com