- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在编写对性能敏感的代码。我实现了一个简单的调度程序来分配工作负载,主线程负责调度程序。
cpu_set_t cpus;
pthread_attr_t attr;
pthread_attr_init(&attr);
for(int i_group =0; i_group<n_groups; i_group++){
std::cout << i_t<< "\t"<<i_group << "th group of cpu" <<std::endl;
for(int i =index ; i < index+group_size[i_group]; i++){
struct timeval start, end;
double spent_time;
gettimeofday(&start, NULL);
arguments[i].i_t=i_t;
arguments[i].F_x=F_xs[i_t];
arguments[i].F_y=F_ys[i_t];
arguments[i].F_z=F_zs[i_t];
CPU_ZERO(&cpus);
CPU_SET(arguments[i].thread_id, &cpus);
int err= pthread_attr_setaffinity_np(&attr, sizeof(cpu_set_t), &cpus);
if(err!=0){
std::cout << err <<std::endl;
exit(-1);
}
arguments[i].i_t=i_t;
pthread_create( &threads[i], &attr, &cpu_work, &arguments[i]);
gettimeofday(&end, NULL);
spent_time = ((end.tv_sec - start.tv_sec) * 1000000u + end.tv_usec - start.tv_usec) / 1.e6;
std::cout <<"create: " << spent_time << "s " << std::endl;
}
i_t++;
cpu_count++;
arr_finish[i_group]=false;
}
}
像上面的主线程创建。为了简单的解释,我假设 i_group=1。子线程分治一堆矩阵-矩阵乘法。这里的 rank 表示 thread_id。
int local_first = size[2]*( rank -1 )/n_compute_thread ;
int local_end = size[2] * rank/n_compute_thread-1;
//mkl_set_num_threads_local(10);
gettimeofday(&start, NULL);
for(int i_z=local_first; i_z<=local_end; i_z++ ){
cblas_dgemm( CblasColMajor, CblasNoTrans, CblasNoTrans,
size[0], size[1], size[0], 1.0, F_x, size[0],
rho[i_z], size[1], 0.0, T_gamma[i_z], size[1] );
}
for(int i_z=local_first; i_z<=local_end; i_z++ ){
cblas_dgemm( CblasColMajor, CblasNoTrans, CblasNoTrans,
size[0], size[1], size[1], 1.0, T_gamma[i_z], size[0],
F_y, size[1], 0.0, T_gamma2[i_z], size[0] );
}
gettimeofday(&end, NULL);
std::cout <<i_t <<"\t"<< arg->thread_id <<"\t"<< sched_getcpu()<< "\t" << "compute: " <<spent_time << "s" <<std::endl;
即使工作负载分布均匀,但每个线程的性能差异太大。看下面的结果
5 65 4 4 计算:0.270229s
5 64 1 1 计算:0.284958s
5 65 2 2 计算:0.741197s
5 65 3 3 计算:0.76302s
第二列显示在特定线程中完成了多少矩阵-矩阵乘法。最后一列显示消耗的时间。刚开始看到这个结果的时候,我以为是跟线程的亲和性有关。因此,我添加了几行来控制线程的绑定(bind)。然而,它并没有改变上一栏的趋势。
我的电脑有 20 个物理内核和 20 个虚拟内核。我只做了 4 个子线程来测试。当然,它是在 Linux 机器上测试的。
为什么线程的性能差异如此之大?以及如何解决?
最佳答案
首先,您实际上是在创建调度程序吗?您的代码示例表明您正在使用 Linux 调度程序并设置线程属性对象和线程关联参数等。这种差异与选择如何解决问题有关。
无论如何,问题很大,可以提出几个额外的问题/主题来帮助澄清条件,并更接近真正的答案。首先,需要考虑以下几点:
1 - 基准测试的长度。线程池中线程性能的亚秒级评估似乎不够充分。延长评估时间,让调度程序有时间来解决。也许几分钟。
(有关现有基准测试实用程序中使用的典型持续时间的示例, read this )
2 - 线程优先级。你的线程不是唯一的。内核调度程序是否可能会周期性地移动基准测试作为属于其他进程(除了您创建的进程)具有更高优先级的线程? (因此取代了你的,导致任务完成时间出现偏差)
3 - 任务大小。完成每个任务所需的操作数是否足够小以适应调度程序分配的时间片?这可能有助于感知线程到线程的性能问题,尤其是在每个任务之间的操作数量存在差异的情况下。 ( Processes that exceed the allottedCPU time slice are automatically moved down to a lower “tier,” while processes that make I/O requests or block will be moved to higher “tiers.” )
4 - 任务平等 - 你提到分而治之一堆矩阵-矩阵乘法。但是矩阵大小相同且内容相似吗?即,您确定每个任务中的操作数等于所有其他任务中的操作数吗?调度程序分配给每个优先级相同的线程的时间片将确保随着时间的推移,操作计数大于可以在单个时间片中完成的任务将更容易受到更长的完成时间的影响( context switching 因为其他操作系统进程的优先级更高),而不是那些操作很少而无法在一个时间片内适应的进程。
5 - 其他进程。我在上面的其他项目中提到过这一点,但它值得拥有自己的编号。 In order to use multiple cores ,同时需要多个线程。但反之则不然。单核不限于单线程。操作系统可以随时抢先中断具有更高优先级进程的特定核心上的进程(线程)之一,(同时不中断任何其他核心)可能会扭曲您的时间测量。同样,更长的基准测试时间将有助于减少由这种特殊现象引起的线程间差异的影响。
关于c++ - pthreads的性能差异,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31832792/
我正在将一些 pthreads 代码添加到我使用 autotools 构建的 Linux 应用程序中。我收到关于未在 libpthreads 中链接的错误。所以我想在 autotools 中指定 pt
libpthread 库位于 Linux 系统的哪个目录中? 最佳答案 有多种方法可以找出这一点。 只需输入 find / -name 'libpthread.so' -print找到名为 libpt
pthread 属性对象是否需要在使用它们的对象的生命周期内存在,或者在使用它们后立即销毁它们是否安全?例如: // Create the mutex attributes. pthread_mute
到目前为止我读过的所有文档似乎都表明我的 vxWorks (6.8) 版本中存在 posix 线程支持,但是一个简单的测试应用程序无法按预期执行。来源如下: tTest.h #include cla
我试图找到指定 pthreads 标准的文档。我见过各种指向 IEEE 1003.1c-1995 的链接(即 Wikipedia 或 OpenGroup )。然而,当我在 IEEE 标准站点上搜索此文
我试图找到指定 pthreads 标准的文档。我见过各种指向 IEEE 1003.1c-1995 的链接(即 Wikipedia 或 OpenGroup )。然而,当我在 IEEE 标准站点上搜索此文
我在 MSVC 2010 上运行一个 pthread,我已经包含 pthreadVC2 .lib & .dll。来自以下网站 http://sourceware.org/pthreads-win32/
我的问题是: 如何在不更改其他 pthread 中的当前目录的情况下更改 pthread 中的当前目录,我找到了一个使用 openat() 函数的解决方案,但我没有找到任何解释它如何工作的示例。 使用
是否可以通过任何方式更改进程可以创建的 pthread 数量限制? 目前在我的 linux 系统上我可以创建大约 380 个线程,但我想增加它,只要内存可用。 最佳答案 减少用户的堆栈大小' ulim
问候。我正在尝试创建一个 autoconf 配置脚本,该脚本自动检查要使用的 pthread 选项,并且理想情况下,在使用 gcc 编译时指定 -pthread。 我希望 AX_PTHREAD 能够工
如何知道 pthread 是否死亡? 有办法检查 pthread 状态吗? 最佳答案 if(pthread_kill(the_thread, 0) == 0) { /* still runni
我正在从一个由互斥锁控制的固定大小的全局池中分配我的 pthread 线程特定数据。 (有问题的代码不允许动态分配内存;它允许使用的所有内存都由调用者作为单个缓冲区提供。pthreads 可能会分配内
在阅读了一些 MPI 规范后,我了解到,当使用 MPI_THREAD_SERIALIZED 进行初始化时,程序必须确保发生在不同线程中的 MPI_Send/Recv 调用不能重叠。换句话说,您需要一个
我尝试根据 this guide 安装 pthread win32 . 我将 pthreadVC2.dll 文件添加到 C:\Windows 并将 pthreadVC2.lib 文件添加到 C:\Pr
我有一个 pthreads 程序。我必须使用 Linux 中的 gcc -pthread(-pthreads 是无法识别的选项)和 Sun 中的 gcc -pthreads(-pthread 是无法识
我有一个包含文件名列表的文件,我想在其中搜索一个词并替换它我稍微修改了代码只是为了在这里只显示相关部分问题是如果我在该列表中只有一个文件,它不会用多线程处理它,因为线程只有在我有多个文件时才工作所以我
我正在编写一个 SMT 程序,并且正在尝试解决一个有趣的问题。 我需要所有函数一起退出,但是有些线程卡在障碍物上,即使我不希望它们这样做。 我的问题是:当我删除障碍时会发生什么?卡在屏障处的线程会释放
我阅读了有关 pthread 及其相关 API 的所有内容,以创建、锁定和同步不同的线程。但我经常发现线程池、消费者/生产者等词提示。我理解这些是 pthread 实现的模型。 任何人都可以让我知道
我在 man pthread_join 中读到,多个 pthread 不能加入一个已经加入的 pthread。还有另一种方法可以达到相同的结果吗?多个 pthread 挂起自己,直到某个特定的 pth
我知道 OpenMP 实际上只是一组编译成 pthread 的宏。有没有办法在编译的其余部分发生之前查看 pthread 代码?我正在使用 GCC 进行编译。 最佳答案 首先,OpenMP 不是一组简
我是一名优秀的程序员,十分优秀!