c++ - boost::barrier性能低，等待操作-6ren

c++ - boost::barrier性能低，等待操作

转载作者：太空狗更新时间：2023-10-29 21:42:56

28

4

我遇到了 boost:barrier 的性能问题。我测量了 wait 方法调用的时间，对于单线程情况，当 wait 调用重复大约 100000 次时，大约需要 0.5 秒。不幸的是，对于双线程场景，这次时间扩展到 3 秒，并且每个线程都变得更糟(我有 8 核处理器)。

我实现了自定义方法，它负责提供相同的功能，而且速度更快。

这个方法工作这么慢是正常的吗。在boost中有没有更快的同步线程的方法(所以所有线程都等待所有线程完成当前作业然后进行下一个任务，只是同步，不需要数据传输)。

有人要求我提供当前代码。我想要达到的目标。在一个循环中我运行一个函数，这个函数可以分成许多线程，但是所有线程都应该在执行另一个运行之前完成当前循环运行。

我目前的解决方案

volatile int barrierCounter1 =0; //it will store number of threads which completed current loop run
volatile bool barrierThread1[NumberOfThreads]; //it will store go signal for all threads with id > 0. All values are set to false at the beginning
boost::mutex mutexSetBarrierCounter; //mutex for barrierCounter1 modification

void ProcessT(int threadId)
{
    do
    {
      DoWork(); //function which should be executed by every thread

      mutexSetBarrierCounter.lock();
      barrierCounter1++;  //every thread notifies that it finish execution of function
      mutexSetBarrierCounter.unlock();

      if(threadId == 0)
      {
        //main thread (0) awaits for completion of all threads
        while(barrierCounter1!=NumberOfThreads)
        {
        //I assume that the number of threads is lower than the number of processor cores
        //so this loop should not have an impact of overall performance
        }
        //if all threads completed, notify other thread that they can proceed to the consecutive loop
        for(int i = 0; i<NumberOfThreads; i++)
        {
          barrierThread1[i] = true;
        }
        //clear counter, no lock is utilized because rest of threads await in else loop
        barrierCounter1 = 0;
      }
      else
      {
      //rest of threads await for "go" signal
        while(barrierThread1[i]==false)
        {

        }
        //if thread is allowed to proceed then it should only clean up its barrier thread array
        //no lock is utilized because '0' thread would not modify this value until all threads complete loop run
        barrierThread1[i] = false;
      }
}
while(!end)
}

最佳答案

锁定与并发背道而驰。锁定争用总是最糟糕的行为。

IOW:线程同步(本身)永远不会扩展。

解决方案:仅在竞争较低的情况下使用同步原语(线程“相对很少”需要同步^[1])，或不要尝试为争用共享资源的作业使用多个线程。

您的基准测试似乎通过让所有线程始终等待来放大最坏情况的行为。如果障碍之间的所有工作人员的工作量都很大，那么开销将会减少，并且很容易变得微不足道。

相信你的分析器
仅分析您的应用程序代码(没有 ~~愚蠢的~~ 综合基准)
首选非线程而不是线程(记住:异步!= 并发)

^[1] 高度相关和主观

关于c++ - boost::barrier性能低，等待操作，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24152929/

28

4

0

文章推荐： c++ - 将字符串从 Glib::ustring 转换为 double - gtkm 2

文章推荐： c# - 如何找到与我的替代代码匹配的字符

文章推荐： c++ - 关于重载运算符的 ADL 或命名冲突是否有不同的规则？

linux - 低 CPU、低 RAM、低 IO，但性能很差，为什么？
我的 Linux Centos Apache 服务器的性能有问题。我有一个程序(用 c 语言编写)可以同时执行许多 http 请求。这个过程本身看起来非常有效，就好像我可以同时向外部服务器发出 500
Python 设置并行端口数据引脚高/低
我想知道如何将并行端口上的数据引脚设置为高电平和低电平。我相信我可以使用 PyParallel 来实现此目的，但我不确定如何设置特定的引脚。谢谢! 最佳答案您在这里谈论的是软件-硬件接口(inte
python - 盘中数据的每日高/低
让我有一个像这样的日期时间索引的数据框: date_time open high low close vol 2018-05-13 18:00:00 70.
emacs - 低 Octave 卡住
在 emacs Octave 模式下，当我输入 M-x run-octave 时，命令会卡住，所以我使用 C-g 进行转义。我可以用 C-x b 切换到 *Inferior Octave* 缓冲区，但
python - 精度比 gridsearchCV 低
我正在 sklearn 中运行 gridsearchCV，尝试使用此代码找到最佳模型参数。 modelDNN= KerasRegressor(build_fn=build_DNN_model, epo
android - 低 android 存储会影响应用程序的性能吗？
美好的一天。我想知道 android 存储是否低，它会影响应用程序性能吗？因为同一个应用程序在另一台设备上运行速度很快，而同样的应用程序在另一台设备上非常滞后，后者有 12GB 内存中的 2GB 可用
mysql - 低 mysql 索引基数但数据多样
所以我在列卡上有一个带有索引的表当我运行时 SELECT COUNT(DISTINCT(card)) FROM table 它返回 490 个不同的条目但是当我运行的时候 SHOW INDEXES
python - 当最后一位为零 [低] 时将二进制转换为整数时出错
我正在使用手动方法将二进制转换为十进制。此代码在最后一位为高的情况下工作正常，例如:1001。当最后一位为零 [低] 时会出现错误。例如:1010 应该给出 10 但给出 5，因为没有考虑最后一位。有
sql - 低 MySQL 表缓存命中率
我一直在努力优化我的站点和数据库，并且我一直在使用 mysqltuner.pl 来帮助解决这个问题。除了表缓存命中率，无论我在 my.cnf 中将它提高多高，我几乎都得到了正确的结果，我仍然命中大约
iOS 模拟器游戏运行速度非常慢(低 fps)
深入研究 sprite kit (xcode 5)。我正在使用两个示例程序，1. 创建新项目时包含的默认宇宙飞船示例和 2. 我下载的 Adventure Game。在 iOS 模拟器中运行这些示例
C# 故意循环。 (低 CPU 使用率)
编辑: 感谢大家在这里提供答案，项目已完成。 https://github.com/0xyg3n/ProcessDaemon/ 如果有人想出可能会更好的多线程解决方案，我想。我是 C# 的新手，我想
delphi - 交换字变量的字节(低/高)的过程
我有一个交换 Word 变量的字节(低/高)的过程(它与 System.Swap 函数执行相同的操作)。该过程在编译器优化关闭时有效，但在编译器优化打开时无效。有人可以帮我解决这个问题吗？ proce
programming-languages - 低，中，高级语言有什么区别？
我以前听说过这些术语描述语言，例如 C 并不是一种低级语言，C++是中级语言，而Python是一种高级语言。我知道它必须与代码的编译方式以及代码的编写方式有关。但是我想知道的是，什么将语言定义为这三类
performance - NoSQL 数据库的开销和(低)效率？
我有一个关于 NoSQL 类型数据库的问题，特别是 MongoDB，但它通常适用于大多数键值或基于文档的存储。 NoSQL 的一些卖点是速度和可扩展性，但在我看来，与关系数据库相比，开销很大。你有很
java - LibGDX 上的 fps 低
如果没有此代码，fps 为 60-65。但是当我使用这段代码时，fps 下降到 50。另一个问题是某些设备上的 FPS 太低。然而，游戏非常简单。我对所有形状使用 ShapeRenderer。游戏在
java - Java 中的 FPS 低
您好，我的名字是 Ryan，我目前正在开发自己的 2D java 游戏。目前游戏世界中有很多物体。游戏重新开始时，世界会加载 100 棵随机放置的树木，这些树木是使用数组列表和树类制作的。我的游戏使用
低 CPU 利用率的 Java 最佳编码实践
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它，visit the help center 。已关
postgresql - 低 Postgres 缓存命中率 - 数据大小或其他？
我刚刚将我的 Heroku postgres 数据库从 Kappa 计划(800MB RAM，postgres 9.1)升级到 Ronin 计划(1.7GB RAM，postgres 9.2)，但性能
ios nsdictionary 低平均高
现在我正在使用我的 NSDictionary 并运行所有值的循环以找到低值、高值和计算平均值。由于我是IOS 的新手，所以我想问问是否有更好的方法来做到这一点。有没有？谢谢。最佳答案这个问题的
c++ - arduino 低 i2c 读取速度；
我目前正在使用 genuino 101 进行一个项目，我需要通过 i2c 读取大量数据，以填充任意大小的缓冲区。从下图中我可以看到读取请求本身只需要大约 3毫秒，写请求大约 200 纳秒。但是在同一

首页

博学

6Ren·AI

商城

c++ - boost::barrier性能低，等待操作