- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我正在尝试优化 parallel-for 循环中的性能,其中我有一个缩减变量(称为 delta)并且我是想知道 OpenMP 库是如何在后台处理它的。
让我们以下面的一段代码为例,我在循环的开始简单地将变量声明为一个缩减变量,如下所示:
#pragma omp parallel shared(delta, A, B, rows, colms) private(i, j)
.
.
.
#pragma omp for reduction(+:delta)
for (i=1; i<=rows; i++){
for (j=1; j<=colms; j++){
delta += fabs(A[i][j]- B[i][j]);
}
}
.
.
.
//end of parallel region
我想知道在计算期间是否每个线程在访问 delta 变量时都设置了一个锁,此外我是否可以通过用数组替换 delta 变量来提高性能 < em>delta[number_of_threads],其中每个线程在计算时会写入数组的不同位置,然后对并行区域之后的所有元素求和。
最佳答案
每个线程在其栈帧上都有自己的“delta”副本:
#pragma omp parallel shared(delta, A, B, rows, colms) private(i, j)
{
double local_delta; // one copy per thread
__omp_init_schedule(1, rows, &lb, &ub);
for (i=lb; i<=ub; i++) {
for (j=1; j<=colms; j++) {
local_delta += fabs(A[i][j]- B[i][j]);
}
}
__omp_reduce(&delta, local_delta); // accumulate thread's delta with shared var
__omp_barrier(); // do the barrier of the for construct
}
以上内容请当作伪代码。实际代码模式将取决于实现、内联和 OpenMP 实现可能执行的各种其他优化。如果您想了解一些有关工作原理的信息,请查看 [1] 和 [2]。
__omp_reduce()
的实现可以是基于树的实现,也可以是使用锁或原子指令的顺序实现。 OpenMP 实现通常相当聪明,可以为机器和/或正在使用的线程数选择正确的算法。
进行 delta[numthreads]
修改可能会使性能降低 100 倍以上,因为这是错误共享的典型示例,如线程的 delta[0]
线程一的 0 和 delta[1]
将在同一个缓存行中,这会导致缓存和内存上的大量流量。更好的方法是引入 patting delta[numthreads * 8]
(假设 delta
是 8 个字节),这样每个线程都有自己的缓存行。但是,您仍然需要执行最终聚合,并且 OpenMP 实现可能仍然做得更好。
[2] https://www.dontknow.de/openmp-stuff/thunk-you-very-much-or-how-do-openmp-compilers-work-part-2/
关于c - OpenMP 中的缩减操作在幕后是如何工作的?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56359957/
我目前正在学习使用 C 和 OpenMP 进行并行编程。 我想编写简单的代码,其中两个共享值由多个线程递增。 首先我使用了减少指令,它按预期工作。然后我改用 关键 启动关键部分的指令 - 它也有效。
我在用 kubectl scale --replicas=0 -f deployment.yaml 停止我所有正在运行的 pod 。请让我知道是否有更好的方法将所有正在运行的 pod 降到零,保持配置
请考虑我从教程中获得的以下代码和随附的解释性图像。其目的是演示 CUDA 的并行缩减。 #include "cuda_runtime.h" #include "device_launch_parame
我有以下“Frankenstein”和减少代码,部分来自 common CUDA reduction slices ,部分来自 CUDA 示例。 __global__ void reduce
学习openMP // array b #pragma omp parallel for // reduction(&&: b[i])? for (i=2; i<=N; i++
我目前正在使用以下 Reduction 函数通过 CUDA 对数组中的所有元素求和: __global__ void reduceSum(int *input, int *input2, int *i
假设我有两个 numpy 数组,形状为 (d, f) 的 A 和形状为 (d,) 的 I 包含 0..n 中的索引,例如 I = np.array([0, 0, 1, 0, 2, 1]) A = np
我有一个例程,它使用一个循环来计算给定下方粒子表面的粒子的最小高度。此例程尝试随机位置并计算最小高度,然后返回 x, y, z 值,其中 z 是找到的最小高度。 此例程可以与omp parallel
每个视频都有一个有趣的时刻集合,每个时刻代表一个截屏有趣的时间或代表整个标题的时间。请注意,boxarts 和 interestingMoments 数组都位于树中的相同深度。使用 Array.zip
我有一个 ImageIcon,用作打开此 skillsFrame 的按钮。此图像大小为 100x100 像素。正如您在屏幕截图中看到的那样,如果我只是放置图像,它太大了(这是预期的)。 我的问题是关于
我的任务是从 [[a]] 矩阵中获取一列。 一个简单的解决方案是 colFields :: Int -> [[a]] -> [a] colFields n c = map (!! n) c 当减少一级
问题是:如果我输入 hadoop jar MY.jar name_my_class /用户/用户/输入/用户/用户/输出 我需要的所有类都在MY.jar中,为什么我仍然收到错误 java.lang.N
我正在尝试使用 Nodejs、mongoose 和 MongoDB 来进行映射缩减操作。我有一个相当平坦的模式结构,我想获取每个“命名”对象的值/日期对列表。 map 缩减功能显然有问题,但我不知道如
我在 DigitalOcean 中设置了一个 Kubernetes 集群。集群配置为使用 HPA(Horizontal Pod Autoscaler)自动扩展。我想防止终止在过去 1 小时内按比例
IBM Cloudant NoSQL 对每秒的查找、写入、查询有一些限制。 在CloudAnt上我可以编写一个DesignDocument“View”。 当我读取一个 View 时,该读取会对哪里产生
就目前情况而言,这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持,但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放,visit
我最近刚刚开始使用 Python 编码,还有很多东西需要学习。我的代码的目标是从单元格中提取字符串,检查其字符长度并用特定缩写替换单词。然后,我将新字符串写入另一个 Excel 工作表中,并在所有数据
我有一个以下形式的 map : Map> START 让 INNER 成为内部映射,即 Map 例如,我想在新 map 中缩小 START map Map END 它们具有相同的键,但具有不同的值。特
给定以下 lambda 表达式,其中 \ 类似于 lambda: (\kf.f(\c.co)km)(\x.dox)(\le.le) 如果我将(\c.co)k转换成ko是不是错了?我这样做了,显然,这是
从 OpenMP 4.0 开始,支持用户定义的缩减。所以我在 C++ 中完全从 here 定义了对 std::vector 的归约。 .它适用于 GNU/5.4.0 和 GNU/6.4.0,但它返回随
我是一名优秀的程序员,十分优秀!