c - Pthreads 在循环完成之前返回，工作似乎在后台继续-6ren

c - Pthreads 在循环完成之前返回，工作似乎在后台继续

转载作者：太空宇宙更新时间：2023-11-04 03:37:27

26

4

我编写了一个简单的基准测试来测试和测量处理器和 OpenCL 设备的单精度融合乘加性能。

我最近使用 Pthread 添加了 SMP 支持。 CPU 端很简单，它会为输入生成几个随机矩阵，以确保工作不会被编译器优化掉。

函数 cpu_result_matrix() 创建线程，并阻塞直到每个线程使用 pthread_join() 返回。正是这个定时功能决定了设备的性能。

static float *cpu_result_matrix(struct bench_buf *in)
{
        const unsigned tc = nthreads();
        struct cpu_res_arg targ[tc];

        float *res = aligned_alloc(16, BUFFER_SIZE * sizeof(float));

        for (unsigned i = 0; i < tc; i++) {
                targ[i].tid = i;
                targ[i].tc = tc;
                targ[i].in = in;
                targ[i].ret = res;
        }

        pthread_t cpu_res_t[tc];

        for (unsigned i = 0; i < tc; i++)
                pthread_create(&cpu_res_t[i], NULL,
                               cpu_result_matrix_mt, (void *)&targ[i]);

        for (unsigned i = 0; i < tc; i++)
                pthread_join(cpu_res_t[i], NULL);

        return res;
}

实际内核在cpu_result_matrix_mt():

static void *cpu_result_matrix_mt(void *v_arg)
{
        struct cpu_res_arg *arg = (struct cpu_res_arg *)v_arg;

        const unsigned buff_size = BUFFER_SIZE;
        const unsigned work_size = buff_size / arg->tc;
        const unsigned work_start = arg->tid * work_size;
        const unsigned work_end = work_start + work_size;

        const unsigned round_cnt = ROUNDS_PER_ITERATION;

        float lres;

        for (unsigned i = work_start; i < work_end; i++) {

                lres = 0;
                float a = arg->in->a[i], b = arg->in->b[i], c = arg->in->c[i];

                for (unsigned j = 0; j < round_cnt; j++) {
                        lres += a * ((b * c) + b);
                        lres += b * ((c * a) + c);
                        lres += c * ((a * b) + a);
                }

                arg->ret[i] = lres;
        }

        return NULL;
}

我注意到报告的内核花费的时间大致相同，无论我展开了多少内部循环。

为了进行调查，我通过手动展开内部循环使内核变得更大，直到我可以轻松测量程序运行的墙时间。

在这个过程中，我观察到(看起来)线程在内核完成它实际应该做的工作之前返回，这导致 pthread_join() 停止阻塞主线程，并且执行时间看起来很长低于实际情况。我不明白这是怎么可能的，或者程序如何在这些条件下继续运行并输出正确的结果。

Htop 显示线程仍然非常活跃并且正在工作。我查看了pthread_join()的返回值，每次运行成功。我很好奇，在内核的末尾，在 return 语句之前放了一个 print 语句，果然，每个线程都打印出它比它应该完成的要早得多。

我在运行程序时观察 ps，它显示一个线程，接着是三个线程，另外五个线程，然后下降到四个线程。

我很困惑，我以前从未见过这样的线程。

我修改后的测试分支的完整源代码在这里:https://github.com/jakogut/clperf/tree/test

最佳答案

In the process, I observed that (it appears) the threads are returning before the kernel does the work it actually should do, which causes pthread_join() to stop blocking the main thread, and the execution time to appear to be much lower than it really is.

我不确定您是如何确定这一点的。但是查看带有 -Ofast 的程序集表明

res[i] += a * ((b * c) + b);
res[i] += b * ((c * a) + c);
res[i] += c * ((a * b) + a);

在内循环之前计算。内循环是有效的

float t = a * ((b * c) + b) + b * ((c * a) + c) + c * ((a * b) + a);
float sum = 0;
for (unsigned j = 0; j < ROUNDS_PER_ITERATION; j++) {
    sum += t;     
}
res[i] = sum;

如果在你的时间你期望你的内部循环做 sum += a * ((b * c) + b) + b * ((c * a) + c) + c * (( a * b) + a) 每次迭代，而实际上它只执行 sum += t 那么您的时间估计将比您观察到的大得多。

关于c - Pthreads 在循环完成之前返回，工作似乎在后台继续，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31376769/

26

4

0

文章推荐： Python:只保存三个最新分数

文章推荐： linux - PulledPork 无法找到 Snort 二进制文件

文章推荐： python - 类变量的不可理解的行为

文章推荐： c++ - g++ 失败，标准 C++ 库出现 "undefined reference"错误

前端体验优化（5）——后台
　　从 0 开始搭建一套后台管理系统，成本巨大，所以都会选择一套成熟的组件库，基于此，再堆叠业务逻辑。我们公司的组件库基于 Ant Design。Ant Design 包含一套完整的后台解决方案，不仅
IOS内存管理与应用前台/后台
在我的 IOS 应用程序中，我有一个标记为 retain 的 NSDate* 属性当我的应用程序再次激活时，属性值已被释放。我是否误解了属性和内存管理的工作原理，我该如何防范？最佳答案很明显，
C#，后台 worker
我有一个使用 BackgroundWorker 组件的示例 WinForms 应用程序。它工作正常，但是当我点击 Cancel 按钮取消后台线程时，它并没有取消线程。当我点击 Cancel 按钮调用
后台 iOS 通知
我目前正在开发一个应用程序，该应用程序在启动时会对服务器执行 ping 操作，该服务器会为每个连接的设备返回一个唯一标识符。设备每 5 秒从服务器检索另一页以获取一组不同的数据。这个唯一的 ID 可以
iOS:后台/前台事件
我正在开发一个应用程序，当它通过主页按钮在后台按下时，计时器应该启动，当应用程序返回前台并且计时器已经过了一定时间时，应该是执行。我的问题是当我的应用程序转到背景/前景？是否有特殊的方法或其他技
iOS 后台 MKPointAnnotation
我有 map View ，其中几乎没有 MKPointAnnotation。一切正常，但是， View 的 MKPoiintAnnotation 的“背景”是“不可见的”，因此不是很“可见”。我想
后台 iOS 广告信标
我在 iOS 中开发广告数据应用程序。我的应用程序广告数据在前台很好。但我想在 ios 后台宣传信标数据。我设置了背景外设设置。和广告数据 advertisingData = [CBAdvertise
c# - 后台 worker
如果我有一组操作，我想根据特定条件在后台工作程序中运行，例如，我有 10 个条件 if(a) BackgroundWorker doA = new backgroundworker() if(
后台 Python 函数
我想独立运行一个函数。从我调用的函数中，我想在不等待其他函数结束的情况下返回。我试过用 threadind，但这会等待，结束。 thread = threading.Thread(target=my
后台 IOS 可达性通知
我想在用户在线时立即执行一些任务，即使他在后台也是如此。我正在使用 Reachability 类来检查互联网。但是当我在后台时，这个类没有通知我。我知道有人早些时候问过这个问题，但没有找到任何解决方案
后台 iOS 文字转语音
我在后台播放文本转语音时出现间歇性(哎呀!)问题，由 Apple Watch 触发。我已经正确设置了后台模式、AVSession 类别和 WatchKitExtensionRequest 处理程序。
C# - 后台 worker ？
我有一个相当复杂的程序，所以我不会在这里转储整个程序。这是一个简化版本: class Report { private BackgroundWorker worker; public
C#后台 worker
我有一个任务在 backgroundworker 中运行。单击开始按钮，用户将启动该过程，并获得一个取消按钮来取消处理。当用户点击取消时，我想显示一个消息框“进程尚未完成，你想继续吗”。这里我希望
ruby - 后台/守护进程
我有一个按以下方式编码的脚本。我想将它作为后台/守护进程运行，但是一旦我启动脚本，如果我关闭它从程序运行的终端窗口终止。我需要做什么来保持程序运行 loop do pid = fork do
android - 后台 Activity 识别
我正在制作一个使用 ActivityRecognition API 在后台跟踪用户 Activity 的应用，如果用户在指定时间段(例如 1 小时)内停留在同一个地方，系统就会推送通知告诉用户去散步.
swift - 后台 URLSession + Combine？
当尝试使用 URLSession 的 dataTaskPublisher 方法发送后台请求时: URLSession(configuration: URLSessionConfiguration.ba
C#，后台 worker 类
当我编译这段代码时，我得到了他的错误，对象引用设置为null，错误位置在Dowork中，argumenttest.valueone = 8; public partial class Form1 :
objective-c - 使用不活动的应用程序(后台)
有什么方法可以使用最小化或不活动的应用程序吗？我可以打开我的应用程序，然后打开并使用另一个应用程序，然后按一个按钮来激活我的程序吗？例如，打开我的应用程序，打开 Safari，按下按钮(F1 或任何
iphone - 后台 iOS 应用程序是否会收到显示屏即将进入休眠状态的通知？
我的具体要求是一个在后台运行的应用程序，被通知显示器即将进入休眠状态或者设备已经或即将达到空闲超时 - 然后唤醒并执行一些(简短的)一段代码。我在这里找到了有关应用程序被置于后台或暂停的通知的引用:
xcode - Cocoa - 以编程方式转到前台/后台
我有一个 LSUIElement 设置为 1 的应用程序。它有一个内置编辑器，因此我希望该应用程序在编辑器打开时出现在 Cmd+Tab 循环中。 -(void)stepIntoForegrou

首页

博学

6Ren·AI

商城

c - Pthreads 在循环完成之前返回，工作似乎在后台继续