c++ - parallel_for 中互斥锁的多线程替代方案-6ren

c++ - parallel_for 中互斥锁的多线程替代方案

转载作者：搜寻专家更新时间：2023-10-31 00:54:29

31

4

我是 C++ 的新手，因此如果这是一个愚蠢的问题请原谅，但我没有在互联网上找到我正在寻找的很好的例子。

基本上，我使用 parallel_for 循环来查找 2D 数组中的最大值(以及其间的一系列其他操作)。首先，我什至不知道这是否是最佳方法，但鉴于此二维数组的长度，我认为拆分计算会更快。

我的代码:

vector<vector<double>> InterpU(1801, vector<double>(3601, 0));
Concurrency::parallel_for(0, 1801, [&](int i) {

    long k = 0; long l = 0;
    pair<long, long> Normalized;
    double InterpPointsU[4][4];
    double jRes;
    double iRes = i * 0.1;
    double RelativeY, RelativeX;
    int p, q;

    while (iRes >= (k + 1) * DeltaTheta) k++;
    RelativeX = iRes / DeltaTheta - k;
    for (long j = 0; j < 3600; j++)
    {
        jRes = j * 0.1;
        while (jRes >= (l + 1) * DeltaPhi) l++;
        RelativeY = jRes / DeltaPhi - l;
        p = 0;
        for (long m = k - 1; m < k + 3; m++)
        {
            q = 0;
            for (long n = l - 1; n < l + 3; n++)
            {
                Normalized = Normalize(m, n, PointsTheta, PointsPhi);
                InterpPointsU[p][q] = U[Normalized.first][Normalized.second];
                q++;
            }
            p++;
        }
        InterpU[i][j] = bicubicInterpolate(InterpPointsU, RelativeX, RelativeY);
        if (InterpU[i][j] > MaxU)
        {
            SharedDataLock.lock();
            MaxU = InterpU[i][j];
            SharedDataLock.unlock();
        }
    }
    InterpU[i][3600] = InterpU[i][0];
});

你可以在这里看到我正在使用一个名为 SharedDataLock 的 mutex 来保护访问同一资源的多个线程。 MaxU 是一个变量，它应该只包含 InterpU vector 的最大值。代码运行良好，但由于我遇到了速度性能问题，我开始研究 atomic 和其他一些东西。

有没有什么好的例子可以说明如何修改类似的代码以使其更快？

最佳答案

如 VTT 所述，您可以简单地找到每个线程的局部最大值，然后使用 combinable 合并它们:

Concurrency::combinable<double> CombinableMaxU;
Concurrency::parallel_for(0, 1801, [&](int i) {
    ...
        CombinableMaxU.local() = std::max(CombinableMaxU.local(), InterpU[i][j]);
}
MaxU = std::max(MaxU, CombinableMaxU.combine(std::max<double>));

请注意，您当前的代码实际上是错误的(除非MaxU 是原子的)，您在锁外读取了MaxU，而它可以由其他线程同时写入。通常，您不得读取同时写入的值，除非双方都受到原子语义或锁和内存栅栏的保护。原因是变量访问很可能包含多个内存访问，具体取决于硬件支持的类型。

但在你的情况下，你甚至有一个经典的竞争条件:

MaxU == 1
  Thread a                 |   Thread b
InterpU[i][j] = 3          | InterpU[i][j] = 2
if (3 > MaxU)              |  if (2 > MaxU)
SharedDataLock.lock();     | SharedDataLock.lock();
(gets the lock)            | (waiting for lock)
MaxU = 3                   | ...
SharedDataLock.unlock();   | ...
...                        | (gets the lock)
                           | MaxU = 2
                           | SharedDataLock.unlock();
MaxU == 2

Locks are hard.

您还可以使用原子和 compute the maximum on that .不过，我猜¹在循环内还是表现不佳²，在循环外不管你用原子还是锁都无所谓。

^{1:如有疑问，请勿猜测 - 测量!}

^{2:仅仅因为某些东西是原子的并且受硬件支持，并不意味着它与访问本地数据一样高效。首先，原子指令通常比非原子指令的成本高得多，其次你必须处理非常糟糕的缓存效果，因为核心/缓存会争夺数据的所有权。虽然原子在许多情况下可能更优雅(恕我直言，这一次除外)，但大多数情况下缩减速度更快。}

关于c++ - parallel_for 中互斥锁的多线程替代方案，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45160438/

31

4

0

文章推荐： c++ - CComPtr 和 std::shared_ptr 互操作性

文章推荐： c++ - Windows 转储文件 (hdmp) - 没有 pdb 文件的信息

文章推荐： c++ - 为什么在 GCC 上调用 std::package_task 失败

方案:从一组三个数字中返回两个最大的数字
我应该编写一个函数来打印一组给定的三个数字中两个较大数字的平方和。我对这种情况的处理相当笨拙。我没有编写返回一组 3 中最大的两个数字的函数，而是编写了函数，以便表达式减少到两个所需的数字。 # S
方案:位置上的类型参数错误
如果有人可以提供帮助，我将不胜感激。我一直在敲我的头一天试图让这个工作。我已经在互联网上搜索并重新阅读了手册，但我就是不明白。 guile << __EOF__ ( define heading-li
方案 - 使用列表列表
目前我正在处理一个方案问题，其中我们正在使用方案列表表示一个图。我们使用的第一个变体是表示为的边列表图 '((x y) (y z) (x z)) 我们正在使用的图的第二个变体被称为 x 图，表示为
方案 - 从参数顺序运行两个过程？
我正在尝试创建一个函数，该函数将两个函数作为参数并执行它们。我尝试使用 cond ，但它只执行 action1 . (define seq-action (lambda (action1 act
方案，何时使用符号而不是字符串？
我提前为我的原始英语道歉；我会尽量避免语法错误等。两周前，我决定更新我对 Scheme(及其启示)的知识，同时实现我在手上获得的一些数学 Material ，特别是我注册的自动机理论和计算类(cla
方案 - 分数的余数
Scheme中有没有函数支持分数的“div”操作？意思是 - 11 格 2.75 = 4。最佳答案我认为你的问题的答案是:没有，但你可以定义它: #lang racket (define (di
方案:如何将列表拆分为奇数条目和偶数条目的两个列表？
我在scheme中实现合并排序，我必须通过定义两个辅助方法来实现:merge和split。 Merge 需要两个列表(已经按递增顺序)并将它们合并在一起。我这样做了如下: (define merge
方案:似乎无法加载文件
尝试从终端加载方案文件。我创建了一个名为 test.scm 的文件，其中包含以下代码: (define (square x) (* x x)) (define (sum-of-squares x y)
方案 - 计算列表中的元素
我有以下代码: (define (howMany list) (if (null? list) 0 (+ 1 (howMany (cdr list))))) 如果我们执行以
方案 - 转换为连续传递样式
我有点了解如何将基本函数(例如算术)转换为Scheme中的连续传递样式。但如果函数涉及递归怎么办？例如， (define funname (lambda (arg0 arg1)
方案 - 字符串追加两个字符串列表
我正在尝试附加两个字符串列表但我不知道如何在两个单词之间添加空格。 (define (string-concat lst1 lst2) (map string-append lst1
方案 - 将列表的元素解压到函数中
这个问题已经有答案了: How do I pass a list as a list of arguments in racket? (2 个回答) 已关闭 8 年前。我有一个函数，它需要无限数量的
方案:与集合混淆!
我对这段代码的工作方式感到困惑: (define m (list 1 2 3 '(5 8))) (let ((l (cdr m))) (set! l '(28 88))) ==>(1 2 3 (5 8
方案:添加到记录列表
我正在为学校做一项计划作业，有一个问题涉及我们定义记录“类型”(作为列表实现)(代表音乐记录)。我遇到的问题是我被要求创建一个过程来创建这些记录的列表，然后创建一个将记录添加到该列表的函数。这很简单
方案 - 计算列表中的元素
我有以下代码: (define (howMany list) (if (null? list) 0 (+ 1 (howMany (cdr list))))) 如果我们执行以
方案 - 字符串追加两个字符串列表
我正在尝试附加两个字符串列表但我不知道如何在两个单词之间添加空格。 (define (string-concat lst1 lst2) (map string-append lst1
方案:使用不带递归的抽象列表函数
如何使用抽象列表函数(foldr、foldl、map 和 filter 编写函数)，无需递归，消耗数字列表 (list a1 a2 a3 ...) 并产生交替和 a1 - a2 + a3 ...？最
方案 - 定义列表与符号
我试图找出在 Scheme 中发生的一些有趣的事情: (define last-pair (lambda (x) (if (null? (cdr x))
方案:列表计数器
这个问题在这里已经有了答案: Count occurrence of element in a list in Scheme? (4 个答案) 关闭 8 年前。我想实现一个函数来计算列表中元素出现
方案 - 使用表格的导数
我正在尝试使用下面的代码获取方案中的导数。谁能告诉我哪里出错了？我已经尝试了一段时间了。 (define d3 (λ (e) (cond ((number? e) 0) ((e

首页

博学

6Ren·AI

商城

c++ - parallel_for 中互斥锁的多线程替代方案