- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我正在尝试分析简单卷积的不同实现。我已经在不同的 CPU(i5、xeon 等...)上获得了多个结果,现在我正在通过 intel beignet 尝试使用 intel HD4000。
我在主机端使用 clock_gettime,在设备端使用 CL_QUEUE_PROFILING_QUEUE 和事件。代码的精简版本是:
clock_gettime(CLOCK_REALTIME, &start);
err = clEnqueueNDRangeKernel(queue, img_conv_kernel, 2, NULL,
&global_ws[0], &local_ws[0], 0, NULL, &event_clock);
if (err)
die("can not launch kernel %d\n", err);
/* profiling */
clWaitForEvents(1, &event_clock);
clGetEventProfilingInfo(event_clock, CL_PROFILING_COMMAND_START,
sizeof(cl_ulong), &cl_start, NULL);
clGetEventProfilingInfo(event_clock, CL_PROFILING_COMMAND_END,
sizeof(cl_ulong), &cl_stop, NULL);
clock_gettime(CLOCK_REALTIME, &end);
printf("%f %f ", double) (cl_stop - cl_start) * 1e-6,
time_elapsed(start, end));
/* read data */
clock_gettime(CLOCK_REALTIME, &start);
err = clEnqueueReadBuffer(queue, res_d, CL_TRUE, 0, N*sizeof(float),
res_h, 0, NULL, NULL);
clock_gettime(CLOCK_REALTIME, &end);
printf("%f ", time_elapsed(start, end));
/* C implementation */
clock_gettime(CLOCK_REALTIME, &start);
conv(img_data, res_h, &sobel_gx[0][0], k, k);
clock_gettime(CLOCK_REALTIME, &end);
printf("%f\n", time_elapsed(start, end));
结果是:
231.592960 16.701613 3.995006 151.874017
/* (device / host / reading-data / basic-c implementation )*/
我不明白的是内核执行时间实际上大于通过clock_gettime<测量的cpu-time/em>,但根据 [0],我使用 clWaitForEvents() 来确保内核完全执行。
最佳答案
请运行此代码并显示结果。
static long Time_Elapsed(
long start,
long end)
{
return end - start;
}
static long Get_CL_Time(
cl_event event)
{
cl_ulong start, end;
clGetEventProfilingInfo(event, CL_PROFILING_COMMAND_START, sizeof(cl_ulong), &start, NULL);
clGetEventProfilingInfo(event, CL_PROFILING_COMMAND_END, sizeof(cl_ulong), &end, NULL);
return Time_Elapsed(start, end);
}
timespec start, end;
cl_event event_clock;
clock_gettime(CLOCK_REALTIME, &start);
/* run kernel */
err = clEnqueueNDRangeKernel(queue, img_conv_kernel, 2, NULL,
&global_ws[0], &local_ws[0], 0, NULL, &event_clock);
clWaitForEvents(1, &event_clock);
long kernel_time = Get_CL_Time(event_clock);
/* read data */
err = clEnqueueReadBuffer(queue, res_d, CL_TRUE, 0, N*sizeof(float),
res_h, 0, NULL, &event_clock);
clWaitForEvents(1, &event_clock);
long io_time = Get_CL_Time(event_clock);
clock_gettime(CLOCK_REALTIME, &end);
long host_time = Time_Elapsed(start.tv_nsec, end.tv_nsec);
printf( "Kernel time: %l nanoseconds \n"
"IO time: %l nanoseconds \n"
"Host time: %l nanoseconds \n",
kernel_time,
io_time,
host_time);
/* C implementation */
clock_gettime(CLOCK_REALTIME, &start);
conv(img_data, res_h, &sobel_gx[0][0], k, k);
clock_gettime(CLOCK_REALTIME, &end);
host_time = Time_Elapsed(start.tv_nsec, end.tv_nsec);
printf("C implementation time: %l nanoseconds\n", host_time);
关于c - OpenCL clock_gettime 与内核分析 : strange results,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24012803/
当我尝试获取 ns 时间时,我在内核为 2.6.18 的 Linux 中遇到了问题,如下所示: #include #include #include int main(void) { s
我在我的 Mac 上用 C 来做基准测试。此处的代码可以编译并运行,但输出中会出现大约 1Hz 的故障。该程序“应该”每 2 毫秒中断一次,并报告上次中断时间的数据。默认设置是打印以下内容到终端 ev
我在 Linux 2.6 上使用 clock_gettime()(来自 time.h)来控制线程循环中的计时。我需要在 +/- 5mS 时间范围内有 500mS。它似乎给了我 500 毫秒,然后开始漂
我有一个在linux上运行的非常简单的代码,如下所示: struct timespec SysTime_Test; #define BILLION 1000000000L SysTime_Test.
我正在运行一个进行长时间计算的 Haskell 程序。经过一些分析和跟踪后,我注意到以下内容: $ /usr/bin/time -v ./hl test.hl 9000045000050000 Com
我正在尝试获取 Ubuntu 上进程消耗的 CPU 时间。据我所知,有两个函数可以完成这项工作:getrusage() 和 clock_gettime(CLOCK_PROCESS_CPUTIME_ID
我试图测量一段代码的时间,并注意到当我从我的编辑器 QtCreator 中运行程序时,与我从 gnome 终端中启动的 bash shell 运行它时相比,时间快了大约 50ns。我使用 Ubuntu
我在多线程代码中使用 timespec 结构 - 一个线程调用 clock_gettime()填充全局 timespec 结构,另一个 - 读取该结构。问题:是clock_gettime()调用原子还
我正在编写一个简单的程序,它检查耗时是否超过 1 秒。我使用clock_gettime()获取开始时间,然后调用sleep(5),获取新时间并检查差异是否大于1;我睡了 5 秒,那么它应该大于 5,但
我正在尝试使用 clock_gettime 函数获取以下代码的运行时间。但是,当我运行代码时,每次运行时我都会收到 0.0000 的时间。我也分别输出了开始和停止时间,我收到了完全相同的答案。 str
当使用下面的示例代码时,我认为 tv_nsec 值是循环的,因为它只是一个long; #include using namespace std; #include int main(int arg
我阅读了以下手册: http://linux.die.net/man/3/clock_gettime 然后我写了下面的代码: #include int main() { struct tim
Linux 中的 clock_gettime 函数在调用以测量给定代码段的运行时间时,内部使用哪个系统硬件计时器将纳秒级分辨率返回给用户代码? 最佳答案 现代 CPU 以几 GHz 时钟频率运行。 1
clock_gettime 不再适用于 MacOS Sierra。很确定在 Xcode 8 出来之前我已经正确地编译了这个。我真的很困惑如何才能让它正确编译。 #include #include
我正在尝试使用 clock_gettime 函数,但无法弄清楚所需的 header 是什么(或者如果这不是 header 的问题,我做错了什么)。这是我的代码: #include #include
我想用 clock_gettime 测量挂钟时间,但每次运行我的代码时,它都显示 0。这是为什么? (我希望我的结果以毫秒为单位。) #include #include #include #in
我正在编写一个简单的程序,用于检查耗时是否超过 1 秒。我使用 clock_gettime() 获取开始时间,然后调用 sleep(5),获取新时间并检查差异是否大于 1;我睡了 5 秒,那么它应该大
我在我的 C++ 程序中使用 clock_gettime() 来获取当前时间。但是,返回值是自 UTC 纪元以来的秒数。在夏令时期间,当时间偏移一小时时,此代码在我的时区可能会搞砸。 系统本身有 NT
我想要以微秒为单位的当前系统时间,所以我使用 clock_gettime 编写了一个程序,但它有时会返回负值。有人可以帮我解决这个问题吗? int main(void) { struct ti
我正在尝试用这个类分析一个程序: namespace smtx{ class CPerformance_clock { timespec t1; tim
我是一名优秀的程序员,十分优秀!