c++ - 多线程减慢程序 : no False-sharing, 没有互斥锁，没有缓存未命中，工作量不小-6ren

c++ - 多线程减慢程序 : no False-sharing, 没有互斥锁，没有缓存未命中，工作量不小

转载作者：行者123 更新时间：2023-11-30 03:20:53

25

4

多线程会降低我的代码速度，尽管我已经关注了这些帖子:

Multi-threaded GEMM slower than single threaded one?

Why is this OpenMP program slower than single-thread?

我认为所有的预防措施都已采取:

我的 CPU 是 4 核 + 超线程(8 个有效)，我运行的线程不超过 4 个
每个线程处理的 vector 条目数量似乎足够大(每个线程 200 万)。 因此，任何错误共享(缓存行问题)都可以忽略不计，因为大多数数据不会与其他线程的数据重叠。
条目在内存中是连续的，缓存未命中的可能性很小。
使用 tmp 变量进行连续操作，而不是直接将值赋值到数组中。
在 Release模式下构建，visual studio
线程之间没有临界点(它们不使用互斥锁，也不共享数据)

在测量时间时，我包括了线程的创建。当然，启动 4 个线程不会那么昂贵吗？

1 个线程:大约 140 毫秒

4 个线程:大约 155 毫秒

主要内容:

struct MyStruct {
   double val = 0;
};


size_t numEntries = 100e4;
size_t numThreads = 4;
std::vector<MyStruct> arr;


void main(){
    arr.reserve(numEntries);
    for(size_t i=0; i<numEntries; ++i){
        MyStruct m{ i };
        arr.push_back(m);
    }

    //run several times 
    float avgTime=0;
    for(size_t n=0; n<100; ++n){
        launchThreads(avgTime);
        //space out to make avgTime more even:
        std::this_thread::sleep_for(std::chrono::milliseconds(10));

    }

    avgTime /= 100;

    std::cout << "finished in " << avgTime <<"milliseconds\n";
    system("pause");
}

启动并运行线程:

//ran by each thread
void threadWork(size_t threadId){
    size_t numPerThread = (numEntries+numThreads -1) / numThreads;

    size_t start_ix = threadId * numPerThread;

    size_t endIx;
    if (threadId == numThreads - 1) {
        endIx = numEntries-1;//we are the last thread
    }
    else {
        endIx = start_ix + numPerThread;
    }

    for(size_t i=5; i<endIx-5; ++i){
        double tmp = arr[i].val; 

        tmp += arr[i-1].val;
        tmp += arr[i-3].val;
        tmp += arr[i-4].val;
        tmp += arr[i-5].val;
        tmp += arr[i-2].val;

        tmp += arr[i+1].val;
        tmp += arr[i+3].val;
        tmp += arr[i+4].val;
        tmp += arr[i+5].val;
        tmp += arr[i+2].val;

        if(tmp > 0){ tmp *= 0.5f;}
        else{ tmp *= 0.3f; }

        arr[i].val = tmp;
    }
}//end()


//measures time
void launchThreads(float &avgTime){

    using namespace std::chrono;
    typedef std::chrono::milliseconds ms;

    high_resolution_clock::time_point t1 = high_resolution_clock::now();

    std::vector<std::thread> threads;
    for (int i = 0; i <numThreads; ++i) {
        std::thread t = std::thread(threadWork, i);
        threads.push_back(std::move(t));
    }

    for (size_t i = 0; i < numThreads; ++i) {
        threads[i].join();
    }
    high_resolution_clock::time_point t2 = high_resolution_clock::now();
    ms timespan = duration_cast<ms>(t2 - t1);
    avgTime += timespan.count();
}

最佳答案

以下是您的问题:

for(size_t i=5; i<endIx-5; ++i){
           ^^^

应该是:

for(size_t i=start_ix + 5; i<endIx-5; ++i){
           ^^^^^^^^^^^^^^

关于c++ - 多线程减慢程序 : no False-sharing, 没有互斥锁，没有缓存未命中，工作量不小，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52462481/

25

4

0

文章推荐： android - 单击主页键和应用程序在后台运行

文章推荐： java - 我需要根据模式替换java中的字符串

文章推荐： c++ - 在 clang-cl 中启用 C++ 模块 TS

文章推荐： android - 如何为通用 android fragment 创 build 计思维

Java并发多线程编程——锁
一、公平锁和非公平锁 1.1、公平锁和非公平锁的概述公平锁：指多个线程按照申请锁的顺序来获取锁。非公平锁：指在多线程获取锁的顺序并不是按照申请锁的顺序，有可能后申请的线程比先申请的线程优先获取到锁
MySQL高级9-锁
阅读目录 1、简介 2、分类 3、全局锁 4、表级锁 5、表锁 6、元数据锁
concurrency - 锁/条件变量问题
因此，在我编写的程序中，我有三个函数，为了简单起见，我们将它们称为 A、B 和 C。每个函数都需要访问资源X才能工作。限制是A和B不允许同时运行并且必须适当同步。但是，C 可以与 A 或 B 同时运
concurrency - 锁、互斥量和信号量有什么区别？
我听说过这些与并发编程相关的词，但是锁、互斥量和信号量之间有什么区别？最佳答案锁只允许一个线程进入被锁定的部分，并且该锁不与任何其他进程共享。互斥锁与锁相同，但它可以是系统范围的(由多个进程共享
java - 线程安全单例、锁
这个问题已经有答案了: What is an efficient way to implement a singleton pattern in Java? [closed] (29 个回答) 已关闭
java - 线程安全单例、锁
这个问题已经有答案了: What is an efficient way to implement a singleton pattern in Java? [closed] (29 个回答) 已关闭
事务、锁、隔离级别
我对标题中的主题有几个问题。首先，假设我们使用 JDBC，并且有 2 个事务 T1 和 T2。在 T1 中，我们在一个特定的行上执行 select 语句。然后我们对该行执行更新。在事务 T2 中，我们
MySql:如何在存储过程中使用互斥锁/锁
我希望我的函数只运行一次。这意味着如果多个线程同时调用它，该函数将阻塞所有线程，只允许它运行。最佳答案听起来您希望存储过程进行同步。为什么不直接将同步放在应用程序本身中。 pthread_mute
C# 锁(this)方法
if (runInDemoMode) { lock (this) { //Initalization of tables dCreator.create
java - 挑剔的主机(锁？)
我相信无论使用什么语言都可以考虑我的问题，但是为了有一些“ anchor ”，我将使用 Java 语言来描述它。让我们考虑以下场景:我有一个扩展 Thread 的类 PickyHost 及其实例 p
JavaScript、异步、锁？
我知道异步不是并行的，但我现在遇到了一个非常有趣的情况。 async function magic(){ /* some processing here */ await async () =
java - 在未来的代码中使用同步/锁
我们正在使用 Scala、Play 框架和 MongoDB(以 ReactiveMongo 作为我们的驱动程序)构建一个网络应用程序。应用程序架构是端到端的非阻塞。在我们代码的某些部分，我们需要访问
java - JavaME 锁
我需要一个简单的锁，JavaME 超时(concurrent.lock 的反向移植需要完整的 Java 1.3)。如果其他人已经为 JavaME 发布了经过测试的锁定代码，我宁愿使用它。锁定是出了
c++ - 锁()的实现
根据 boost : To access the object, a weak_ptr can be converted to a shared_ptr using the shared_ptr co
c++ - 锁、互斥和临界区之间的区别
关于 Mutex 和 Critical 部分之间的区别存在一个问题，但它也不处理 Locks。所以我想知道临界区是否可以用于进程之间的线程同步。还有信号状态和非信号状态的含义最佳答案在 Win
c#.NET高级编程高并发必备技巧-锁
锁最为常见的应用就是高并发的情况下，库存的控制。本次只做简单的单机锁介绍。直接看代码：每请求一次库存-1. 假如库存1000，在1000个人请求之后，库存将变为0。
详解python多线程、锁、event事件机制的简单使用
线程和进程 1、线程共享创建它的进程的地址空间,进程有自己的地址空间 2、线程可以访问进程所有的数据，线程可以相互访问 3、线程之间的数据是独立的 4、子进程复制线程的数据 5、子进程启动
这把“锁”不简单，让你畅游数字世界
**摘要：**细心的你也一定关注到，有的网址是https开头的，有的是http。https开头的网站前面，会有一把小锁。这是为什么呢？本文分享自华为云社区《还不知道SSL证书已经是刚需了？赶快来了解
c - 互斥量(锁)的所有权是如何实现的？
试图在 C 中实现一个非常简单的互斥锁(锁)我有点困惑。我知道互斥锁类似于二进制信号量，除了互斥锁还强制执行释放锁的线程的约束，必须是最近获得它的同一线程。我对如何跟踪所有权感到困惑？这是我到目前为
SQL Server 锁 - 避免插入重复条目
在阅读了很多与上述主题相关的文章和答案之后，我仍然想知道 SQL Server 数据库引擎在以下示例中是如何工作的: 假设我们有一个名为 t3 的表: create table t3 (a int ,

首页

博学

6Ren·AI

商城

c++ - 多线程减慢程序 : no False-sharing, 没有互斥锁，没有缓存未命中，工作量不小