- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我编写了一个简单的基准测试来测试和测量处理器和 OpenCL 设备的单精度融合乘加性能。
我最近使用 Pthread 添加了 SMP 支持。 CPU 端很简单,它会为输入生成几个随机矩阵,以确保工作不会被编译器优化掉。
函数 cpu_result_matrix() 创建线程,并阻塞直到每个线程使用 pthread_join() 返回。正是这个定时功能决定了设备的性能。
static float *cpu_result_matrix(struct bench_buf *in)
{
const unsigned tc = nthreads();
struct cpu_res_arg targ[tc];
float *res = aligned_alloc(16, BUFFER_SIZE * sizeof(float));
for (unsigned i = 0; i < tc; i++) {
targ[i].tid = i;
targ[i].tc = tc;
targ[i].in = in;
targ[i].ret = res;
}
pthread_t cpu_res_t[tc];
for (unsigned i = 0; i < tc; i++)
pthread_create(&cpu_res_t[i], NULL,
cpu_result_matrix_mt, (void *)&targ[i]);
for (unsigned i = 0; i < tc; i++)
pthread_join(cpu_res_t[i], NULL);
return res;
}
实际内核在cpu_result_matrix_mt():
static void *cpu_result_matrix_mt(void *v_arg)
{
struct cpu_res_arg *arg = (struct cpu_res_arg *)v_arg;
const unsigned buff_size = BUFFER_SIZE;
const unsigned work_size = buff_size / arg->tc;
const unsigned work_start = arg->tid * work_size;
const unsigned work_end = work_start + work_size;
const unsigned round_cnt = ROUNDS_PER_ITERATION;
float lres;
for (unsigned i = work_start; i < work_end; i++) {
lres = 0;
float a = arg->in->a[i], b = arg->in->b[i], c = arg->in->c[i];
for (unsigned j = 0; j < round_cnt; j++) {
lres += a * ((b * c) + b);
lres += b * ((c * a) + c);
lres += c * ((a * b) + a);
}
arg->ret[i] = lres;
}
return NULL;
}
我注意到报告的内核花费的时间大致相同,无论我展开了多少内部循环。
为了进行调查,我通过手动展开内部循环使内核变得更大,直到我可以轻松测量程序运行的墙时间。
在这个过程中,我观察到(看起来)线程在内核完成它实际应该做的工作之前返回,这导致 pthread_join() 停止阻塞主线程,并且执行时间看起来很长低于实际情况。我不明白这是怎么可能的,或者程序如何在这些条件下继续运行并输出正确的结果。
Htop 显示线程仍然非常活跃并且正在工作。我查看了pthread_join()的返回值,每次运行成功。我很好奇,在内核的末尾,在 return 语句之前放了一个 print 语句,果然,每个线程都打印出它比它应该完成的要早得多。
我在运行程序时观察 ps,它显示一个线程,接着是三个线程,另外五个线程,然后下降到四个线程。
我很困惑,我以前从未见过这样的线程。
我修改后的测试分支的完整源代码在这里:https://github.com/jakogut/clperf/tree/test
最佳答案
In the process, I observed that (it appears) the threads are returning before the kernel does the work it actually should do, which causes pthread_join() to stop blocking the main thread, and the execution time to appear to be much lower than it really is.
我不确定您是如何确定这一点的。但是查看带有 -Ofast
的程序集表明
res[i] += a * ((b * c) + b);
res[i] += b * ((c * a) + c);
res[i] += c * ((a * b) + a);
在内循环之前计算。内循环是有效的
float t = a * ((b * c) + b) + b * ((c * a) + c) + c * ((a * b) + a);
float sum = 0;
for (unsigned j = 0; j < ROUNDS_PER_ITERATION; j++) {
sum += t;
}
res[i] = sum;
如果在你的时间你期望你的内部循环做 sum += a * ((b * c) + b) + b * ((c * a) + c) + c * (( a * b) + a)
每次迭代,而实际上它只执行 sum += t
那么您的时间估计将比您观察到的大得多。
关于c - Pthreads 在循环完成之前返回,工作似乎在后台继续,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31376769/
从 0 开始搭建一套后台管理系统,成本巨大,所以都会选择一套成熟的组件库,基于此,再堆叠业务逻辑。我们公司的组件库基于 Ant Design。Ant Design 包含一套完整的后台解决方案,不仅
在我的 IOS 应用程序中,我有一个标记为 retain 的 NSDate* 属性 当我的应用程序再次激活时,属性值已被释放。 我是否误解了属性和内存管理的工作原理,我该如何防范? 最佳答案 很明显,
我有一个使用 BackgroundWorker 组件的示例 WinForms 应用程序。它工作正常,但是当我点击 Cancel 按钮取消后台线程时,它并没有取消线程。当我点击 Cancel 按钮调用
我目前正在开发一个应用程序,该应用程序在启动时会对服务器执行 ping 操作,该服务器会为每个连接的设备返回一个唯一标识符。设备每 5 秒从服务器检索另一页以获取一组不同的数据。这个唯一的 ID 可以
我正在开发一个应用程序,当它通过主页按钮在后台按下时,计时器应该启动,当应用程序返回前台并且计时器已经过了一定时间时,应该是执行。 我的问题是 当我的应用程序转到背景/前景? 是否有特殊的方法或其他技
我有 map View ,其中几乎没有 MKPointAnnotation。 一切正常,但是, View 的 MKPoiintAnnotation 的“背景”是“不可见的”,因此不是很“可见”。 我想
我在 iOS 中开发广告数据应用程序。我的应用程序广告数据在前台很好。但我想在 ios 后台宣传信标数据。我设置了背景外设设置。和广告数据 advertisingData = [CBAdvertise
如果我有一组操作,我想根据特定条件在后台工作程序中运行,例如,我有 10 个条件 if(a) BackgroundWorker doA = new backgroundworker() if(
我想独立运行一个函数。从我调用的函数中,我想在不等待其他函数结束的情况下返回。 我试过用 threadind,但这会等待,结束。 thread = threading.Thread(target=my
我想在用户在线时立即执行一些任务,即使他在后台也是如此。我正在使用 Reachability 类来检查互联网。但是当我在后台时,这个类没有通知我。我知道有人早些时候问过这个问题,但没有找到任何解决方案
我在后台播放文本转语音时出现间歇性(哎呀!)问题,由 Apple Watch 触发。我已经正确设置了后台模式、AVSession 类别和 WatchKitExtensionRequest 处理程序。
我有一个相当复杂的程序,所以我不会在这里转储整个程序。这是一个简化版本: class Report { private BackgroundWorker worker; public
我有一个任务在 backgroundworker 中运行。单击开始按钮,用户将启动该过程,并获得一个取消按钮来取消处理。 当用户点击取消时,我想显示一个消息框“进程尚未完成,你想继续吗”。 这里我希望
我有一个按以下方式编码的脚本。我想将它作为后台/守护进程运行,但是一旦我启动脚本,如果我关闭它从程序运行的终端窗口终止。我需要做什么来保持程序运行 loop do pid = fork do
我正在制作一个使用 ActivityRecognition API 在后台跟踪用户 Activity 的应用,如果用户在指定时间段(例如 1 小时)内停留在同一个地方,系统就会推送通知告诉用户去散步.
当尝试使用 URLSession 的 dataTaskPublisher 方法发送后台请求时: URLSession(configuration: URLSessionConfiguration.ba
当我编译这段代码时,我得到了他的错误,对象引用设置为null,错误位置在Dowork中,argumenttest.valueone = 8; public partial class Form1 :
有什么方法可以使用最小化或不活动的应用程序吗?我可以打开我的应用程序,然后打开并使用另一个应用程序,然后按一个按钮来激活我的程序吗? 例如,打开我的应用程序,打开 Safari,按下按钮(F1 或任何
我的具体要求是一个在后台运行的应用程序,被通知显示器即将进入休眠状态或者设备已经或即将达到空闲超时 - 然后唤醒并执行一些(简短的)一段代码。 我在这里找到了有关应用程序被置于后台或暂停的通知的引用:
我有一个 LSUIElement 设置为 1 的应用程序。它有一个内置编辑器,因此我希望该应用程序在编辑器打开时出现在 Cmd+Tab 循环中。 -(void)stepIntoForegrou
我是一名优秀的程序员,十分优秀!