c++ - 线程 ID 在 std::thread 和 tbb::task_group 之间重用导致 OpenMP 中的死锁-6ren

c++ - 线程 ID 在 std::thread 和 tbb::task_group 之间重用导致 OpenMP 中的死锁

转载作者：行者123 更新时间：2023-12-03 12:47:06

*** 更新:将代码更改为重现问题的真实案例 ***
我正在处理一些使用多种多线程技术的预先存在的代码； std::thread，加上英特尔 TBB 任务组，加上 OpenMP。 🙄 看起来我在 std::thread join 中遇到了竞争条件，并且可能在 OpenMP 中也遇到了竞争条件。 (但当然这些库是由聪明人编写的，所以如果我正在使用的代码中有错误，我希望你能帮我弄清楚。)
场景是主线程启动了一堆 I/O 工作线程 std::threads，它们本身启动了一些任务，并且这些任务有一些使用 OpenMP 进行并行处理的代码段。主线程执行 std::thread::join() 等待 std::threads，然后 tbb::TaskGroup::wait() 等待任务完成。

#include <Windows.h>
#include <tbb/task_group.h>
#include <tbb/concurrent_vector.h>
#include <iostream>
#include <sstream>
#include <thread>

void DoCPUIntensiveWork(int chunkIndex);

int main ()
{
    unsigned int hardwareConcurrency = 64;
    tbb::concurrent_vector<std::shared_ptr<std::thread>> ioThreads;
    tbb::task_group taskGroup;

    wprintf(L"Starting %u IO threads\n", hardwareConcurrency);
    for (unsigned int cx = 0; cx < hardwareConcurrency; ++cx)
    {
        ioThreads.push_back(std::shared_ptr<std::thread>(new std::thread([&taskGroup, cx]
            {
                wprintf(L"IO thread %u starting\r\n", GetCurrentThreadId());
            
                // Not doing any actual IO

                taskGroup.run([cx]
                    {
                        wprintf(L"CPU task %u starting\r\n", GetCurrentThreadId());
                        DoCPUIntensiveWork(cx);
                        wprintf(L"CPU task %u done\r\n", GetCurrentThreadId());
                    });

                //Sleep(1000);  Un-commenting this will make the program terminate
                wprintf(L"IO thread %u done\r\n", GetCurrentThreadId());
            })));
    }

    // Join the IO workers
    for (std::shared_ptr<std::thread>& thread : ioThreads)
    {
        std::stringstream ss;
        ss << thread->get_id();
        wprintf(L"Wait for thread %S\r\n", ss.str().c_str());
        thread->join();  // main thread hangs here
    }

    wprintf(L"IO work complete\n");

    // And then wait for the CPU tasks
    taskGroup.wait();

    wprintf(L"CPU work complete\n");

    return 0;
}

CPU 密集型工作包括 OpenMP 的使用。 (注意，如果我删除计划(静态)，结果是一样的。)

// Note: I shrunk these numbers down until the amount of work is actually
// small, not CPU-intensive at all, and it still hangs
static const int GlobalBufferChunkSize = 64;
static const int NumGlobalBufferChunks = 64;
static const int StrideSize = 16;
static const int OverwriteCount = 4;
BYTE GlobalBuffer[NumGlobalBufferChunks * GlobalBufferChunkSize];

void DoCPUIntensiveWork(int chunkIndex)
{
    BYTE* pChunk = GlobalBuffer + (chunkIndex * GlobalBufferChunkSize);

#pragma omp parallel for schedule(static)
    for (int i = 0; i < (GlobalBufferChunkSize / StrideSize); i++)
    {
        BYTE* pStride = pChunk + (i * StrideSize);
        for (int j = 0; j < OverwriteCount; j++)
        {
            memset(pStride, i, StrideSize);
        }
    }  // Task thread hangs here
}

此代码挂起；主线程永远等待 thread->join() 。即使在只有一个 IO 作业/CPU 密集型任务的测试用例上。我添加了您在上面看到的 printf，结果显示 IO 作业完成得很快，该线程退出，然后 CPU 密集型任务在主线程甚至进入 join() 调用之前以相同的线程 ID 启动。

Starting 64 IO threads
IO thread 3708 starting
IO thread 23728 starting
IO thread 23352 starting
IO thread 3588 starting
IO thread 3708 done
IO thread 23352 done
IO thread 22080 starting
IO thread 23728 done
IO thread 3376 starting
IO thread 3588 done
IO thread 27436 starting
IO thread 10092 starting
IO thread 22080 done
IO thread 10480 starting
CPU task 3708 starting
IO thread 3376 done
IO thread 27436 done
IO thread 10092 done
IO thread 10480 done
Wait for thread 3708
... hang forever ...

线程完成后，IO 线程 ID 被重新用于任务，而 thread->join() 调用仍然坐在那里等待。当我查看调试器时，thread->join() 正在等待 ID 为 3708 的线程，并且确实存在具有该 ID 的线程，但该线程正在执行任务而不是 IO 工作。所以看起来进程的主线程实际上是在等待任务，而不是由于 ID 重用而等待 IO 线程。 (我找不到文档或代码来查看 std::thread::join() 是否基于 ID 或句柄等待，但它似乎使用了 ID，这将是一个错误。)
第二个有趣的事情是，该任务从未完成，当我查看在调试器中执行任务的线程时，它位于 OpenMP 并行执行的末尾。我没有看到任何其他线程在执行并行工作。 ntdll.dll 代码中有许多来自 vcomp140[d].dll 的线程，我没有符号 - 我认为这些线程只是在等待新工作，而不是执行我的任务。 CPU 为 0%。我非常有信心没有人在循环。因此，TBB 任务卡在 OpenMP 多线程实现中的某处。
但是，为了让事情变得复杂，任务似乎不会挂起，除非 IO 线程的线程 ID 恰好被重用于任务。因此，在 std::thread 和 TBB 任务与 OpenMP 并行之间的某个地方，存在由线程 ID 重用触发的竞争条件。
我找到了两种解决方法，使挂起消失:

将 Sleep(1000) 放在 IO 线程的末尾，因此任务不会重用 IO 线程 ID。当然，该错误仍然存在，等待时机不佳。

删除 OpenMP 并行性的使用。

一位同事提出了第三种可能的选择，用 TBB parallel_for 替换 OpenMP 并行性。我们可能会这样做。当然，这是我们希望尽可能少接触的来自不同来源的所有代码层。 🙄
我更多地将此报告为可能的错误报告，而不是寻求帮助。

如果重用线程 ID， std::thread::join() 最终可能会等待错误的线程，这似乎是一个错误。它应该通过句柄等待，而不是通过 ID。

似乎 TBB 任务和 OpenMP 之间存在错误或不兼容，因此如果 OpenMP 主线程在 TBB 任务上运行，而该任务恰好具有被重用的线程 ID，则它可能会挂起。

最佳答案

更新:关于超额认购的假设是不正确的。见 https://github.com/oneapi-src/oneTBB/issues/353
我认为这个问题可能是由 OpenMP 语义引起的。默认情况下，它总是创建与硬件并发一样多的线程。
TBB 将创建 std::thread::hardware_concurrency()线程和 OpenMP 将创建 std::thread::hardware_concurrency()对于从中调用它的每个 TBB 工作线程。 IE。在这个例子中，我们将有最多 std::thread::hardware_concurrency()*std::thread::hardware_concurrency()线程(+64 IO 线程)。如果机器比较大，例如32+ 个线程，它将是 32*32 = 1024应用程序中的线程(总体而言，它接近默认 ulimit 还是 Windows？)无论如何，在并行区域末尾使用 OpenMP 屏障语义进行如此大的超额订阅会导致非常长的执行时间(例如几分钟甚至几小时) .
为什么Sleep(1000)帮助？我不确定，但它可能会为系统提供一些 CPU 资源以继续前进。
要检查这个想法，请添加 num_threads(1)条款到 #pragma omp parallel for num_threads(1)限制 OpenMP 运行时创建的线程数。

关于c++ - 线程 ID 在 std::thread 和 tbb::task_group 之间重用导致 OpenMP 中的死锁，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/66346225/

文章推荐： swift - 如何取消延迟的线程？

文章推荐： java - 静态成员的多线程行为

文章推荐： python - 强制输入()从不同的线程读取换行符并向前执行

MPI 重用 MPI_Request
将已完成的 MPI_Request 重新用于另一个请求是否安全？我一直在使用 MPI_Request 池来提高性能并且没有错误。但肯定知道会很好。最佳答案 MPI_Request 类型的变量不是请求
qt QTranslator 重用
我注意到 Qt 文档在翻译的某些方面不是很冗长。我一直在玩弄它，试图通过反复试验来弄清楚他们的行为。最终目标是在运行时更改翻译，但我很困惑 QTranslator 对象在多大程度上可以重用。考虑一下
iphone - 重用 subview
我有一个 UIImageView 对象，它只是一个纯黑色矩形。这是我用来选择 View 中的按钮的方法。问题是，我的 View 中有 49 个这样的按钮，并且所有这些按钮都可以同时选择。我用来向按
重用 R 中内置的模型
在 R 中构建模型时，如何保存模型规范以便可以在新数据上重用它？假设我根据历史数据建立逻辑回归，但直到下个月才会有新的观察结果。最好的方法是什么？我考虑过的事情: 保存模型对象并在新 session
Redux Action 重用
我是 React/Redux 的初学者。我已经完成了一个基本组件在我的应用程序中，其操作/ reducer /商店运行良好。我将渲染另一个具有不同的设置( Prop )。我想做的是分离这两个组
java - 重用 ActionListener
我正在开发 GUI 纸牌游戏，我想知道是否有办法改进我的代码。这是我的情况。我有三张牌:A、B 和 C。玩家可以通过分别单击三个按钮之一来更换牌:分别是按钮 1、按钮 2 或按钮 3。 class
.net - 重用 OpenFileDialog
每个文本框旁边有 2 个文本框和 2 个按钮 [...]。是否可以使用一个 OpenFileDialog 并将 FilePath 传递到相应的文本框，基于单击哪个按钮？即...如果我单击第一个按钮并打
javascript - 重用 WebGLRenderTarget
我有两个场景:第一个场景，渲染纹理平面，第二个场景，应该渲染为纹理。该纹理应用作主场景中平面的贴图。出于某种原因，所有 THREE.WebGLRenderTarget 示例每帧都会重新绘制两个场景，
java - 重用 StringBuffer
我知道 concat、StringBuffer 和 StringBuilder 之间的区别。我知道 StringBuffer.toString 支持数组的内存问题可能会导致内存爆炸。我什至知道 JDK
Android 重用 Activity
我有 2 个 Activity 。 A 和 B。A 有一个包含 4 个项目的操作栏。每个项目显示不同的电影列表。 B extends A 因为我希望能够使用操作栏来更改电影列表。所以我的问题是，当我
MySql 重用 WHERE 子句的别名
我有一个查询，用于检查从搜索文本框中输入的每个关键字，并且必须返回最匹配的关键字。问题是，我想排除返回行中所有值为 0 的 KW_MATCHED。 SELECT A1.*, (
ios - UICollectionViewCell 重用
当方法重用时，是否有像这样的代码可以与 UICollectionViewCell 一起使用？ - (UITableViewCell *)tableView:(UITableView *)tableVi
ios - 重用 ScrollView
在我的项目中，我想在可 ScrollView 中以zig-zag 模式显示图像。所以我使用 uiscrollview 子查看其中的图像。它工作正常，但它占用了太多内存，因为我将所有图像加载到 Scro
ios - 重用 UIViewController
如果我有 UIViewController1 并且我让它以模态方式显示 UIViewController2，但我希望 UIViewController2 显示 UIViewController1 模式
ios - 重用 CCLabelTTF
我想在所有 CCMenuItem 中使用完全相同的标签。如果我创建相同的 CCLabelTTF 一次，那么我无法将其添加到多个 CCMenuItem 中，因为它会给出有关已添加标签的运行时错误。但是，
elasticsearch - 重用/缓存脚本字段以使用查询的其他部分
我正在做一个项目，我们需要显示列表与用户位置的距离。为了显示距离，当在输入中给出纬度/经度时，我们使用名为“distance”的脚本字段计算距离 "script_fields" : {
ios - 重用 UITableViewCell
我正在尝试重用我的 UITableViewCells。目前我的应用程序运行良好，在 tableView 中显示内容。然而，当我尝试实现 - 重用 UITableViewCells 时，我的应用程序崩溃
外部样式表中的 CSS 重用
假设我在外部样式表中定义了几个类 .b {font-weight:bold;} .c {text-align:center;} 现在我想要另一个类，它是 b 和 c 的组合 .bc 是否可以使用类 b
c++ - 协程 - 重用？
我目前经常分配新的协程实例(请参阅我的回答中的代码 here)。这样做的开销并不小。我猜想是否有某种方法可以通过重用之前分配的协程来降低成本？虽然不确定如何实现这一点？我可以为协程 Alloc
java - 重用 HttpURLConnection
在我的应用程序中，我使用如下代码下载多张图片。这样做是高性能还是我可以以某种方式重用连接？ for(int i = 0; i < 100; i++){ URL url = new UR

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

c++ - 线程 ID 在 std::thread 和 tbb::task_group 之间重用导致 OpenMP 中的死锁