- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我编写了下面的代码,它在数组中执行一定数量的二分搜索。我使用 OpenMP 对其进行了并行化,似乎添加的线程越多,完成所需的时间就越多。该程序将应用 Bsearch 的数组长度和 search
数组的长度作为 args,其中第一个数组中要搜索的值已初始化。并行化应用于所有三个 for 循环。
我在具有 20 个核心的单个节点上的 HPC 集群上运行此程序,脚本如下:
for threads in 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 ; do
export OMP_NUM_THREADS=${threads}
./binary_search_parallel.x 1000000000 100000000
done
我的问题是程序根本无法扩展:添加线程越多,花费的时间就越多。串行版本的性能更好。有人知道问题出在哪里吗?或者事实可能是没有足够的性能吞吐量来应对并行开销?
#include <stdlib.h>
#include <stdio.h>
#include <time.h>
#include <string.h>
#include <omp.h>
#define CPU_TIME (clock_gettime( CLOCK_PROCESS_CPUTIME_ID, &ts ), (double)ts.tv_sec + \
(double)ts.tv_nsec * 1e-9)
int mybsearch(int *data, int low, int high, int Key)
{
int register mid;
mid = (low + high) / 2;
while(low <= high) {
if(data[mid] < Key)
low = mid + 1;
else if(data[mid] > Key)
high = mid - 1;
else
return mid;
mid = (low + high) / 2;
}
/* if ( Key == data[low] ) */
/* return 0; */
/* else */
return -1;
}
#define N_DEFAULT (1024*1024*128)
#define N_search_DEFAULT (N_DEFAULT / 10)
int main(int argc, char **argv)
{
int N, Nsearch, i, n_threads = 1;
int *data, *search;
#ifndef _OPENMP
printf("serial binary search\n");
#else
#pragma omp parallel
{
#pragma omp master
{
n_threads = omp_get_num_threads();
printf("omp binary search with %d threads\n", n_threads );
}
}
#endif
if(argc > 1)
N = atoi( *(argv+1) );
else
N = N_DEFAULT;
if(argc > 2)
Nsearch = atoi ( *(argv + 2) );
else
Nsearch = N_search_DEFAULT;
printf("performing %d lookups on %d data..\n", Nsearch, N);
printf("set-up data.."); fflush(stdout);
data = (int*)malloc(N * sizeof(int));
#if defined(_OPENMP)
#pragma omp parallel for
for (i = 0; i < N; i++)
data[i] = i;
#else
for(i = 0; i < N; i++)
data[i] = i;
#endif
printf(" set-up lookups.. "); fflush(stdout);
search = (int*)malloc(Nsearch * sizeof(int));
srand(time(NULL));
#if defined(_OPENMP)
#pragma omp parallel for
for (i = 0; i < Nsearch; i++)
search[i] = rand() % N;
#else
for (i = 0; i < N; i++)
search[i] = rand() % N;
#endif
int found = 0;
double tstart, tstop;
struct timespec ts;
printf("\nstart cycle.. "); fflush(stdout);
tstart = CPU_TIME;
#if defined(_OPENMP)
#pragma omp parallel for
for (i = 0; i < Nsearch; i++)
if( mybsearch(data, N, search[i]) >= 0)
found++;
#else
for ( i = 0; i < Nsearch; i++)
if(mybsearch(data, N, search[i]) >= 0)
found++;
#endif
tstop = CPU_TIME;
printf("time elapsed: %g\n", tstop - tstart);
//free(data);
//free(search);
return 0;
}
最佳答案
20个硬件线程来自同一个套接字?您的机器有 NUMA(非统一内存访问)架构吗?
也许这可能是您的瓶颈:内存访问的时间。如果您的机器是 NUMA,一旦并行初始化数据,由于内存位置错误,您可能会付出大量执行时间。
在 48 核 NUMA 计算机(8 NUMA 节点 x 6 核)上对代码进行测试时,如果出现以下情况,则可扩展性较差
这里是 10000000 10000000
参数的一些计时(以秒为单位):
OMP_PLACES=cores OMP_PROC_BIND=close
)您可以注意到,每次包含新的 NUMA 节点(7、13、19、25、31、37 和 43 个线程)时,秒数都会增加。从第二个并行解决方案到第一个并行解决方案的平均时间较短,因为在第二个解决方案中,我们对使用的 NUMA 节点数量有一些控制(由于线程固定),从而减少了线程迁移到距离太远的另一个 NUMA 节点的机会。数据实际所在的节点。
关于c - 并行二分查找的性能比串行版本差,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59217570/
无法使用 Hive 版本 1.1.0 HBase 版本 0.94.8 和 hadoop 版本 2.7.0 从 hive 创建 Hbase 表 hive (default)> CREATE TABLE
我试图为 electron app 创建可执行文件但面临这个问题 Unable to determine Electron version. Please specify an Electron ve
我正在尝试让自适应阈值在 python 绑定(bind)到 opencv 中工作(swig 一个 - 无法让 opencv 2.0 工作,因为我正在使用 beagleboard 因为交叉编译还没有工作
我一直在 linux 机器上使用 JMeter,在命令行下使用了一段时间。工作正常。 今天,我在 Windows 机器(新客户端等)上尝试了它,它确实可以工作,但在控制台窗口中输出有很大不同。 Lin
在我的编码环境中,我通常使用最新版本的 Java 和 Eclipse。当我编写源代码时,我不会注意我使用的 API 方法或类是否向后兼容旧版本的 Java 或 Eclipse。在 javadoc 中存
问题是关于版本的特定组合,但更普遍。 我刚刚从 Kubuntu 12.04 升级到 14.04。现在,当我想编译 CUDA 代码(使用 CUDA 6.5)时,我得到: #error -- unsupp
我目前正在对我的一些应用程序进行沙箱处理,看来我必须删除一些功能才能满足 Mac App Store 沙箱(和其他)规则。 显然用户不会因为失去功能而感到高兴,我担心他们不会指责苹果制定了愚蠢的规则,
我用 flash 和 js 版本创建了一个动画横幅。 是否可以检测低于版本 9 的 ie 版本,然后提供 Flash 横幅,否则提供 js 横幅。 最佳答案 您可以使用条件注释来检测 IE 版本
我有一个处理不同位置的数据库的应用程序,我想检查这些数据库是否使用 Firebird 2.5 或更高版本打开。我们最近从 Firebird 2.0 迁移到了 2.5,我们有很多数据库可以响应 sele
我正在开发一个应用程序,我使用托管在我的服务器上的 Java 和 Jersey 构建了后端部分。我在服务器上使用 Tomcat7 来调用 Web 服务。 我以前有一台安装了 Ubuntu 的计算机,我
我可以使用 GetVersionEx() 函数来获取 Windows 版本,但是这个函数将返回一个数字而不是一个字符串。但是没有问题,因为我可以将数字转换为字符串,例如: if (osvi.dwMaj
我已经在我的系统中安装了 Anaconda 2 & 3。 Anaconda 2 包含 python 2.7 & Anaconda 3 包含 python 3.6。 我需要使用命令提示符运行我的 pyt
我正在尝试构建一个 Android 项目,但发生了以下错误 Error:(10, 1) A problem occurred evaluating project ':app'. > Failed t
关闭。这个问题需要更多focused .它目前不接受答案。 想改进这个问题吗? 更新问题,使其只关注一个问题 editing this post . 关闭 4 年前。 Improve this qu
在降级我的 GCC 之前,我想知道是否有办法确定我的机器中的哪些程序/框架或依赖项会中断,以及是否有更好的方法来执行 openpose 安装? (例如,在 CMake 中更改某些内容) 有没有办法在不
我已经在终端的代码sudo apt-get install Shadowsocks-qt5中安装了Shadowsocks-Qt5,然后我可以通过搜索找到启动图标,但是它当我点击图标时打不开。然后我尝试
在网络上找到的文档说,MLLP V2(第 2 版)是用于传输 HL7 版本 3 内容的所有消息传输协议(protocol)的要求。似乎 MLLP 第 2 版主要用于 HL7 第 3 版。 我们可以/应
我正在使用带有 selinium webdriver 的 Protractor 。我的chromeDriver版本是78.0.1,chrome版本是78.0.3904.97。两个版本都匹配,应该不会有
我正在按照教程设置 mysql 数据库并做一些事情。我无法找到数据库资源管理器。我读了很多,但在 Window->show View-> Dataxxx 或右侧上部选项卡中无法正常工作。 最佳答案 从
我已经在 KDE 桌面上安装了 Anaconda 2.0.1。当我运行 python 并看到所有已安装的模块时,我收到此消息“无法将不兼容的 Qt 库(版本 0x40801)与该库(版本 0x4080
我是一名优秀的程序员,十分优秀!