- r - 以节省内存的方式增长 data.frame
- ruby-on-rails - ruby/ruby on rails 内存泄漏检测
- android - 无法解析导入android.support.v7.app
- UNIX 域套接字与共享内存(映射文件)
我的应用场景是这样的:我想评估一个人在四核机器上处理相同数据量所能达到的性能增益。我有以下两种配置:
i) 1-Process:一个没有任何线程的程序,处理 1M .. 1G 的数据,同时假定系统仅运行其 4 核中的一个核。
ii) 4-threads-Process:具有 4 个线程(所有线程执行相同操作)但处理 25% 的输入数据的程序。
在我创建 4 线程的程序中,我使用了 pthread 的默认选项(即没有任何特定的 pthread_attr_t)。我相信与 1 进程配置相比,4 线程配置的性能增益应该接近 400%(或介于 350% 和 400% 之间)。
我在下面描述了创建线程所花费的时间:
timer_start(&threadCreationTimer);
pthread_create( &thread0, NULL, fun0, NULL );
pthread_create( &thread1, NULL, fun1, NULL );
pthread_create( &thread2, NULL, fun2, NULL );
pthread_create( &thread3, NULL, fun3, NULL );
threadCreationTime = timer_stop(&threadCreationTimer);
pthread_join(&thread0, NULL);
pthread_join(&thread1, NULL);
pthread_join(&thread2, NULL);
pthread_join(&thread3, NULL);
既然增加输入数据的大小也可能增加每个线程的内存需求,那么提前加载所有数据肯定不是一个可行的选择。因此,为了保证不增加每个线程的内存需求,每个线程都以小块的方式读取数据,处理并读取下一个 block 处理它等等。因此,线程运行的函数代码结构如下:
timer_start(&threadTimer[i]);
while(!dataFinished[i])
{
threadTime[i] += timer_stop(&threadTimer[i]);
data_source();
timer_start(&threadTimer[i]);
process();
}
threadTime[i] += timer_stop(&threadTimer[i]);
变量 dataFinished[i]
在收到并处理所有需要的数据时被进程标记为 true
。 Process()
知道什么时候去做 :-)
在主函数中,我正在计算 4 线程配置所花费的时间如下:
execTime4Thread = max(threadTime[0], threadTime[1], threadTime[2], threadTime[3]) + threadCreationTime
。
性能增益的计算方式很简单
gain = execTime1process/execTime4Thread * 100
问题:在 1M 到 4M 左右的小数据上,性能增益通常很好(在 350% 到 400% 之间)。然而,性能增益的趋势随着输入大小的增加呈指数下降。它一直下降,直到一些数据大小达到 50M 左右,然后稳定在 200% 左右。一旦达到这一点,即使是 1GB 的数据,它也几乎保持稳定。
我的问题是任何人都可以提出这种行为的主要原因(即开始时性能下降但后来保持稳定)?
关于如何解决这个问题的建议?
供您引用,我还调查了每个线程的 threadCreationTime
和 threadTime
的行为,以了解发生了什么。对于 1M 的数据,这些变量的值很小,但是随着数据大小的增加,这两个变量都呈指数增长(但是 threadCreationTime
应该保持几乎相同,无论数据大小和 threadTime
应该以与正在处理的数据相对应的速率增加)。一直增加到50M左右后threadCreationTime
变得稳定并且threadTime
(就像性能下降变得稳定)和threadCreationTime
保持恒定的增加对应于要处理的数据的增加(这被认为是可以理解的)。
您认为增加每个线程的堆栈大小、进程优先级内容或其他参数类型的调度程序的自定义值(使用 pthread_attr_init
)会有帮助吗?
PS:结果是在 Linux 的故障安全模式下以 root 运行程序时获得的(即,最小操作系统在没有 GUI 和网络的情况下运行)。
最佳答案
Since increase in the size of the input data may also increase in the memory requirement of each thread, then so loading all data in advance is definitely not a workable option. Therefore, in order to ensure not to increase the memory requirement of each thread, each thread reads data in small chunks, process it and reads next chunk process it and so on.
仅此一项,就会导致速度急剧下降。
如果有足够的内存,读取一大块输入数据总是比读取小块数据更快,尤其是从每个线程读取数据。当您将其分解成多个部分时,分 block (缓存效果)带来的任何 I/O 好处都会消失。即使分配一大块内存也比多次分配小块内存便宜得多。
作为健全性检查,您可以运行 htop
以确保至少所有核心在运行期间都达到顶峰。否则,您的瓶颈可能在多线程代码之外。
在线程中,
但重新阅读您的 OP,我怀疑速度下降与您的数据输入/内存分配有关。您究竟从哪里读取数据?某种 socket ?您确定需要在线程中多次分配内存吗?
您的工作线程中的某些算法可能不是最优的/昂贵的。
关于linux - 需要考虑在 Linux 上使用 C 语言分析多线程,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8436877/
我刚刚继承了一个旧的 PostgreSQL 安装,需要进行一些诊断以找出该数据库运行缓慢的原因。在 MS SQL 上,您可以使用 Profiler 等工具来查看正在运行的查询,然后查看它们的执行计划。
将目标从Analytics(分析)导入到AdWords中,然后在Analytics(分析)中更改目标条件时,是否可以通过更改将目标“重新导入”到AdWords,还是可以自动选择? 最佳答案 更改目标值
我正在使用google analytics api来获取数据。我正在获取数据,但我想验证两个参数,它们在特定日期范围内始终为0。我正在获取['ga:transactions']和['ga:goalCo
我使用Google API从Google Analytics(分析)获取数据,但指标与Google Analytics(分析)的网络界面不同。 即:我在2015年3月1日获得数据-它返回综合浏览量79
我在我的Web应用程序中使用sammy.js进行剔除。我正在尝试向其中添加Google Analytics(分析)。我很快找到了following plugin来实现页面跟踪。 我按照步骤操作,页面如
当使用 Xcode 分析 (product>analyze) 时,有没有办法忽略给定文件中的任何错误? 例如编译指示之类的? 我们只想忽略第三方代码的任何警告,这样当我们的代码出现问题时,它对我们
目录 EFK 1. 日志系统 2. 部署ElasticSearch 2.1 创建handless服务 2.2 创建s
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。 想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。 7年前关闭。 Improve thi
GCC/G++ 是否有可用于输出分析的选项? 能够比较以前的代码与新代码之间的差异(大小、类/结构的大小)将很有用。然后可以将它们与之前的输出进行比较以进行比较,这对于许多目的都是有用的。 如果没有此
我正在浏览 LYAH,并一直在研究处理列表时列表理解与映射/过滤器的使用。我已经分析了以下两个函数,并包含了教授的输出。如果我正确地阅读了教授的内容,我会说 FiltB 的运行速度比 FiltA 慢很
在 MySQL 中可以使用 SET profiling = 1; 设置分析 查询 SHOW PROFILES; 显示每个查询所用的时间。我想知道这个时间是只包括服务器的执行时间还是还包括将结果发送到前
我用 Python 编写了几个用于生成阶乘的模块,我想测试运行时间。我找到了一个分析示例 here我使用该模板来分析我的模块: import profile #fact def main():
前几天读了下mysqld_safe脚本,个人感觉还是收获蛮大的,其中细致的交代了MySQL数据库的启动流程,包括查找MySQL相关目录,解析配置文件以及最后如何调用mysqld程序来启动实例等,有着
1 内网基础 内网/局域网(Local Area Network,LAN),是指在某一区域内有多台计算机互联而成的计算机组,组网范围通常在数千米以内。在局域网中,可以实现文件管理、应用软件共享、打印机
1 内网基础 内网/局域网(Local Area Network,LAN),是指在某一区域内有多台计算机互联而成的计算机组,组网范围通常在数千米以内。在局域网中,可以实现文件管理、应用软件共享、打印机
我有四列形式的数据。前三列代表时间,value1,value 2。第四列是二进制,全为 0 或 1。当第四列中对应的二进制值为0时,有没有办法告诉excel删除时间、值1和值2?我知道这在 C++ 或
我正在运行一个进行长时间计算的 Haskell 程序。经过一些分析和跟踪后,我注意到以下内容: $ /usr/bin/time -v ./hl test.hl 9000045000050000 Com
我有一个缓慢的 asp.net 程序正在运行。我想分析生产服务器以查看发生了什么,但我不想显着降低生产服务器的速度。 一般而言,配置生产盒或仅本地开发盒是标准做法吗?另外,您建议使用哪些程序来实现这一
我目前正在尝试分析 Haskell 服务器。服务器永远运行,所以我只想要一个固定时间的分析报告。我尝试只运行该程序 3 分钟,然后礼貌地要求它终止,但不知何故,haskell 分析器不遵守术语信号,并
是否有工具可以分析 Maven 构建过程本身,以便我可以看到构建花费最多时间的地方? 我们在工作中遇到了关于 Maven 3.0.3 和 3.0b1 的问题。与 3.0.3 (9m00s) 相比,我们
我是一名优秀的程序员,十分优秀!