c++ - 在一个简单的例子中解释并行代码执行和进一步的性能提升-6ren

c++ - 在一个简单的例子中解释并行代码执行和进一步的性能提升

转载作者：行者123 更新时间：2023-11-30 05:09:58

25

4

尝试使用 c++11 线程进行多线程编程，我想确保将算法分解为与数据无关的部分并并行处理它们应该会减少整体运行时间。

假设任务是在整数数组中找到最大值，并行化非常简单 - 每个线程在特定数据 block 上找到局部最大值，然后在找到所有局部最大值时结束，我们应该从局部最大值中找到最终的最大值——所以运行时间应该减少 3-4 倍，有 4 个硬件线程(在我的电脑上是 4 个)

代码

void max_el(
    std::vector<int>& v,
    std::vector<int>::value_type& max, 
    const int& n_threads=1,
    const unsigned int& tid = 0)
{
    max = v[tid];
    for (size_t i = tid, end = v.size(); i < end; i += n_threads)
    {
        if (v[i] > max)
        {
            max = v[i];
        }
    }
}

void max_el_concurrent(std::vector<int>& v)
{
    int n_threads = std::thread::hardware_concurrency();
    std::cout << n_threads << " threads" << std::endl;
    std::vector<std::thread> workers(n_threads);
    std::vector<int> res(n_threads);

    for (size_t i = 0; i < n_threads; ++i)
    {
        workers[i] = std::thread(max_el, std::ref(v), std::ref(res[i]), n_threads, i);
    }

    for (auto& worker: workers)
    {
        worker.join();
    }


    std::vector<int>::value_type final_max;
    max_el(std::ref(res), std::ref(final_max));
    std::cout << final_max << std::endl;
}


void max_el_sequential(std::vector<int>& v)
{
    std::vector<int>::value_type max;
    std::cout << "sequential" << std::endl;
    max_el(v, max);
    std::cout << max << std::endl;
}


template< class Func, class Container >
void profile(Func func, Container cont)
{
    high_resolution_clock::time_point start, now;
    double runtime = 0.0f;

    start = high_resolution_clock::now();
    func(cont);
    now = high_resolution_clock::now();
    runtime = duration<double>(now - start).count();
    std::cout << "runing time = " << runtime << " sec" << std::endl;
}


#define NUM_ELEMENTS 100000000

int main()
{
    std::vector<int> v;
    v.reserve(NUM_ELEMENTS + 100);
    //  filling
    std::cout << "data is ready, running ... " << std::endl;
    profile(max_el_sequential, v);  // 0.506731 sec

    profile(max_el_concurrent, v);  // 0.26108 sec why only ~2 times faster !?

    return 0;
}

尽管 std::thread::hardware_concurrency 返回 4 与顺序算法相比，此代码的执行仅显示 2 倍的性能提升。

考虑到 /proc/cpu/info 显示 2 cpus 每个都有 2 cores 以及没有任何锁的事实/unlock，代码中的 I/O 或线程通信开销，我希望理论工作正常并且至少 x3，x4 运行时间减少，但是这并没有发生在实践中...

那么为什么会有这样的行为呢？

那里到底发生了什么？

最佳答案

在我的系统(Core i7-5820k)上，您的应用程序似乎是内存限制。

我得到的加速是 2.9(有 12 个线程)。

在我的系统上，最大 DRAM 带宽为 45GB/s:

应用程序的单线程运行速度约为 16GB/s:

12 个线程:45GB/s:

(3..11 个线程的结果和总体执行时间相同)

在此循环中跨越连续内存的方式效率不高:

    for (size_t i = tid, end = v.size(); i < end; i += n_threads)

内存以连续 block 的形式读入 L2 缓存，因此并行执行此操作会造成浪费；使用 64 字节缓存行和 4 字节 int 这将在每个线程中加载整个数组，最多 16 个线程。这对 L2 缓存来说也是非常浪费的，因为实际上只使用了每个缓存行的一小部分(我们假设线程没有完全同步并且事件区域之间的距离很快超过了 L2 大小)。

补充说明:

不要对 I/O 计时(包括 std::cout)，这会影响结果。
尽量不要从不同的线程写入相邻的内存(就像您对 res vector 所做的那样)，否则您的应用程序将受到 false sharing 的影响。 .您希望在不同线程写入的内存之间保持至少 64 字节的距离。作为快速修复，将局部最大值收集到一个局部变量中，并在最后只写入一次max。

然而，在这种特殊情况下，修复这两个问题对整体性能没有显着影响。

最后，您的 CPU (Core i5-5200) 是一个 2 核超线程处理器。根据 Intel 的说法，超线程的加速比为 on average 30% .这意味着您应该期望最大加速为 2.6 (2 + 2*0.3) 而不是 4.0。

关于c++ - 在一个简单的例子中解释并行代码执行和进一步的性能提升，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45899570/

25

4

0

文章推荐： android - Admob - 横幅广告在部署几天后未显示

文章推荐： java - 无法从 Spring-Jersey 中检索安全上下文

文章推荐： java - 无法让 activejdbc 工作？

JavaScript 提升
在本教程中，您将通过示例学习 JavaScript。 JavaScript 中的提升是一种在声明之前可以使用函数或变量的行为。例如， // using test before declarin
JavaScript 提升
我正在学习javascript提升功能，发现下面的代码真的很困惑: var a = 1; function b() { a = 10; return; function a()
Javascript 提升
作为一个JS学习者，我发现了一件很有趣的事情，考虑下面的代码。 this.init = function (e) { var container = e.container;
Scala Quasiquote 提升
Quasiquotes 的 Scala 文档在解释 Lifting 时提到了这一点: One can also combine lifting and unquote splicing: scala
提升 session 管理
我是新来的。到目前为止，我一直在使用 MVC 模型并使用基本的 session 管理模型，即在 session 中存储一个 token 并检查每个请求。我正在尝试对lift做同样的事情，但我的 se
elasticsearch - 根据字段值添加查询时间权重/提升
我当前使用的是Elasticsearch 2.4版，希望根据查询时间的增加或加权，根据我称为“类型”的字段对结果集进行微调。例如如果字段“类型”的值为“船”，则将权重或增强值增加4 如果字段“类型
haskell - 提升、返回和变压器类型构造函数
一年多以来，我一直在大量使用 lift、return 以及 EitherT、ReaderT< 等构造函数，等等。我读过《Real World Haskell》、《Learn You a Haskell
scala - 提升 `??` 结构
我浏览了电梯的MegaProtoUser遇到这种结构:??("Last Name")。谁能解释一下，这是什么意思？谢谢解答最佳答案它是在对象 S 上定义的: def ??(str : Strin
多值日期字段的 Solr 提升
我有一个Solr索引，每个文档都是一个Event的信息。在我的架构中，Schedule 是日期类型的多值字段。我想知道是否可以使用计划日期来增加文档(多值字段中的任何日期)在未来并且最接近当前日期？我
scala - 提升:如何使用设计人员友好的模板构建表单？
作为测试，我正在尝试使用设计人员友好的模板在 lift 中创建一个表单。我正在使用 Lift 2.5 我已经设法使用 toForm 创建了一个工作表单，但我只是在探索所有可能的方法。我的 html
c++ - 重置条件变量(提升)
如果这个问题已经被问到，我深表歉意。是否可以清除已经设置的条件变量？下面是我想要实现的详细信息: void worker_thread { while (wait_for_conditio
Javascript 提升 - 无法理解这一点
尝试学习Js，无法理解为什么DOM元素没有获取到值: var Car = function(loc) { var obj = Object.create(Car.prototype); obj
全局变量和函数的 JavaScript 提升
我想知道吊装。我知道如果全局函数名称与全局变量相同，函数会覆盖变量的名称。是吗？这是我的代码。 (function() { console.log('console.log#1 ' + glob
Javascript 提升、函数声明
这个问题已经有答案了: var functionName = function() {} vs function functionName() {} (41 个回答) 已关闭 7 年前。在javas
C++ winapi 提升
我正在开发 Windows 资源管理器 namespace 扩展。我的应用程序是explorer.exe在某个时候加载和使用的动态库。我需要我的 DLL 在 C:\中创建文件，有时在其他需要提升才能执
git - 提升 PR 前的内部审查
背景: GitHub 属于客户。我们团队中有一些新手，他们有时会错过基本的命名约定和其他编码协议(protocol)。所以，如果哪位前辈想在内部review，除了创建PR，别无他法。但是这个 PR 对
Delphi:需要时提示 UAC 提升
我们需要在运行时更改 HKEY_LOCAL_MACHINE 的一些设置。如果需要在运行时，是否可以提示 uac 提升，或者我是否必须启动第二个提升的进程来完成“肮脏的工作”？最佳答案我会以提升的
haskell - 提升(在函数式编程上下文中)与类别理论有何关系？
看着Haskell文档，提升似乎基本上是 fmap 的概括，允许映射具有多个参数的函数。 Wikipedia然而，关于提升的文章给出了不同的观点，根据类别中的态射来定义“提升”，以及它如何与类别中的其
r - 提升 ggplot2 性能
ggplot2 package 很容易成为我用过的最好的绘图系统，除了对于较大的数据集(约 50k 点)性能不是很好。我正在研究通过 Shiny 提供网络分析，使用 ggplot2作为绘图后端，但我对
powershell - 提升 Powershell 脚本
是否可以提升 powershell 脚本的权限，以便没有管理员权限的用户可以运行该脚本？我们的网络管理员正在尝试寻找更省时的方法来完成某些任务，目前他们必须使用远程桌面...使用 PS 脚本将其自动化

首页

博学

6Ren·AI

商城

c++ - 在一个简单的例子中解释并行代码执行和进一步的性能提升