gpt4 book ai didi

linux - 需要考虑在 Linux 上使用 C 语言分析多线程

转载 作者:IT王子 更新时间:2023-10-29 00:35:55 25 4
gpt4 key购买 nike

我的应用场景是这样的:我想评估一个人在四核机器上处理相同数据量所能达到的性能增益。我有以下两种配置:

i) 1-Process:一个没有任何线程的程序,处理 1M .. 1G 的数据,同时假定系统仅运行其 4 核中的一个核。

ii) 4-threads-Process:具有 4 个线程(所有线程执行相同操作)但处理 25% 的输入数据的程序。

在我创建 4 线程的程序中,我使用了 pthread 的默认选项(即没有任何特定的 pthread_attr_t)。我相信与 1 进程配置相比,4 线程配置的性能增益应该接近 400%(或介于 350% 和 400% 之间)。

我在下面描述了创建线程所花费的时间:

timer_start(&threadCreationTimer); 
pthread_create( &thread0, NULL, fun0, NULL );
pthread_create( &thread1, NULL, fun1, NULL );
pthread_create( &thread2, NULL, fun2, NULL );
pthread_create( &thread3, NULL, fun3, NULL );
threadCreationTime = timer_stop(&threadCreationTimer);

pthread_join(&thread0, NULL);
pthread_join(&thread1, NULL);
pthread_join(&thread2, NULL);
pthread_join(&thread3, NULL);

既然增加输入数据的大小也可能增加每个线程的内存需求,那么提前加载所有数据肯定不是一个可行的选择。因此,为了保证不增加每个线程的内存需求,每个线程都以小块的方式读取数据,处理并读取下一个 block 处理它等等。因此,线程运行的函数代码结构如下:

timer_start(&threadTimer[i]);
while(!dataFinished[i])
{
threadTime[i] += timer_stop(&threadTimer[i]);
data_source();
timer_start(&threadTimer[i]);
process();
}
threadTime[i] += timer_stop(&threadTimer[i]);

变量 dataFinished[i] 在收到并处理所有需要的数据时被进程标记为 trueProcess() 知道什么时候去做 :-)

在主函数中,我正在计算 4 线程配置所花费的时间如下:

execTime4Thread = max(threadTime[0], threadTime[1], threadTime[2], threadTime[3]) + threadCreationTime

性能增益的计算方式很简单

gain = execTime1process/execTime4Thread * 100

问题:在 1M 到 4M 左右的小数据上,性能增益通常很好(在 350% 到 400% 之间)。然而,性能增益的趋势随着输入大小的增加呈指数下降。它一直下降,直到一些数据大小达到 50M 左右,然后稳定在 200% 左右。一旦达到这一点,即使是 1GB 的数据,它也几乎保持稳定。

我的问题是任何人都可以提出这种行为的主要原因(即开始时性能下降但后来保持稳定)?

关于如何解决这个问题的建议?

供您引用,我还调查了每个线程的 threadCreationTimethreadTime 的行为,以了解发生了什么。对于 1M 的数据,这些变量的值很小,但是随着数据大小的增加,这两个变量都呈指数增长(但是 threadCreationTime 应该保持几乎相同,无论数据大小和 threadTime 应该以与正在处理的数据相对应的速率增加)。一直增加到50M左右后threadCreationTime变得稳定并且threadTime(就像性能下降变得稳定)和threadCreationTime保持恒定的增加对应于要处理的数据的增加(这被认为是可以理解的)。

您认为增加每个线程的堆栈大小、进程优先级内容或其他参数类型的调度程序的自定义值(使用 pthread_attr_init)会有帮助吗?

PS:结果是在 Linux 的故障安全模式下以 root 运行程序时获得的(即,最小操作系统在没有 GUI 和网络的情况下运行)。

最佳答案

Since increase in the size of the input data may also increase in the memory requirement of each thread, then so loading all data in advance is definitely not a workable option. Therefore, in order to ensure not to increase the memory requirement of each thread, each thread reads data in small chunks, process it and reads next chunk process it and so on.

仅此一项,就会导致速度急剧下降

如果有足够的内存,读取一大块输入数据总是比读取小块数据更快,尤其是从每个线程读取数据。当您将其分解成多个部分时,分 block (缓存效果)带来的任何 I/O 好处都会消失。即使分配一大块内存也比多次分配小块内存便宜得多。

作为健全性检查,您可以运行 htop 以确保至少所有核心在运行期间都达到顶峰。否则,您的瓶颈可能在多线程代码之外。

在线程中,

  • 由于许多线程导致的线程上下文切换可能导致次优加速
  • 正如其他人所提到的,由于不连续读取内存而导致的冷缓存可能会导致速度变慢

但重新阅读您的 OP,我怀疑速度下降与您的数据输入/内存分配有关。您究竟从哪里读取数据?某种 socket ?您确定需要在线程中多次分配内存吗?

您的工作线程中的某些算法可能不是最优的/昂贵的。

关于linux - 需要考虑在 Linux 上使用 C 语言分析多线程,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8436877/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com