gpt4 book ai didi

c - OpenMP 并行乘法比顺序乘法慢

转载 作者:行者123 更新时间:2023-11-30 19:00:43 25 4
gpt4 key购买 nike

我正在学习OpenMP,并且正在尝试执行一项简单的任务:A[r][c] * X[c] = B[r] (矩阵 vector 乘法)。问题是:顺序代码比并行代码更快,我不知道为什么!我的代码:

#include <omp.h>
#include <time.h>
#include <stdio.h>
#include <stdlib.h>
#include <sys/wait.h>
#include <sys/time.h>
#include <sys/types.h>


// Defined variables
#define row_matriz_A 80000
#define col_matriz_A 800
#define THREADS_NUM 4

// FUNCAO - GERAR MATRIZES
void gerarMatrizes(int r, int c, int mA[], int vX[], int vB[]){...}

// FUNCAO - SEQUENTIAL MULTIPLICATION
void multSequencial(int r, int c, int mA[], int vX[], int vB[]){
// Variables
int i, j, offset, sum;
struct timeval tv1,tv2;
double t1, t2;
// Begin Time
gettimeofday(&tv1, NULL);
t1 = (double)(tv1.tv_sec) + (double)(tv1.tv_usec)/ 1000000.00;
for(i = 0; i < r; i++){
sum = 0;
for(j = 0; j < c; j++){
offset = i * c + j;
sum += mA[offset] * vX[j];
}
vB[i] = sum;
}
// End time
gettimeofday(&tv2, NULL);
t2 = (double)(tv2.tv_sec) + (double)(tv2.tv_usec)/ 1000000.00;
printf("\nO tempo de execucao sequencial foi: %lf segundos.\n", (t2 - t1));
return;
}

// FUNCAO - MULTIPLICACAO PARALELA COM OpenMP
void matvecHost(int r, int c, int mA[], int vX[], int vB[]){
// Variaveis
int tID, i, j, offset, sum;
struct timeval tv1, tv2;
double t1, t2;
// Init vB
for(i = 0; i < r; i++) vB[i] = 0;
// BEGIN Time
gettimeofday(&tv1, NULL);
t1 = (double)(tv1.tv_sec) + (double)(tv1.tv_usec)/ 1000000.00;
omp_set_num_threads(THREADS_NUM);
#pragma omp parallel private(tID, i, j) shared(mA, vB, vX)
{
tID = omp_get_thread_num();
#pragma omp for
for(i = 0; i < r; i++){
sum = 0;
for(j = 0; j < c; j++){
offset = i * c + j;
sum += mA[offset] * vX[j];
}
vB[i] = sum;
}
}
// End time
gettimeofday(&tv2, NULL);
t2 = (double)(tv2.tv_sec) + (double)(tv2.tv_usec)/ 1000000.00;
printf("\nO tempo de execucao OpenMP foi: %lf segundos.\n", (t2 - t1));
return;
}

// FUNCAO - PRINCIPAL
int main(int argc, char * argv[]) {
int row, col;
row = row_matriz_A;
col = col_matriz_A;
int *matrizA = (int *)calloc(row * col, sizeof(int));
int *vectorX = (int *)calloc(col * 1, sizeof(int));
int *vectorB = (int *)calloc(row * 1, sizeof(int));
gerarMatrizes(row, col, matrizA, vectorX, vectorB);
multSequencial(row, col, matrizA, vectorX, vectorB);
matvecHost(row, col, matrizA, vectorX, vectorB);
return 0;
}

之前无效的解决方案:

  • 在我的平方中使用折叠
  • 增加行和列的大小
  • 增加线程数(老师建议使用线程数==线程物理数)
  • 使用 malloc 代替 m[i][j]

编辑 - 答案

我的并行 block 已根据正确答案正确更改:

#pragma omp parallel private(i, j, sum) shared(mA, vB, vX)
{
#pragma omp for
for(i = 0; i < r; i++){
sum = 0;
for(j = 0; j < c; j++){
sum += mA[i * c + j] * vX[j];
}
vB[i] = sum;
}
}

我还是有一些疑问:

  • 如果我在并行 block 内定义 ijsum,它们将被设置为私有(private)自动地?这是否提高了我的代码的速度?

最佳答案

您在 sumoffset 上存在竞争条件 - 这些条件在线程之间共享,而不是线程私有(private)的。

这也可能解释了速度变慢的原因:在 x86 上,CPU 实际上会努力工作以确保对共享变量的访问“有效”。这涉及到每次(!)写入 offsetsum 后刷新缓存行 - 因此所有线程都在疯狂地写入相同的变量,但每个线程都必须等到来自前一个线程(在不同核心上)的写入在刷新后再次到达本地缓存。当然,它会产生完全无意义的结果。

我不知道为什么你要在函数开头声明所有变量 - 这很容易出现此类错误。如果您声明了 ijsumoffset(以及未使用的 tID )在尽可能小的范围内,您永远不会遇到此问题,因为在这种情况下它们将自动成为线程私有(private)的。

关于c - OpenMP 并行乘法比顺序乘法慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59106017/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com