- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我编写了一个涉及四个嵌套 for 循环的串行方法 - 我想使用 OpenACC 并行化此方法(这是我第一次尝试使用它,我对所有指令都不是很熟悉)。
我尝试了以下操作,但看到以下错误:调用 cuStreamSynchronize 返回错误 700:内核执行期间的非法地址
我在下面粘贴了我的方法的简化伪代码版本,我非常感谢您帮助找出并行化这四个嵌套循环结构的最佳方法。
// a, b, and c are input arguments to this method
#pragma acc parallel
for(int j = 0; j < a; j++){
for(int i = 0; i < b; i++){
// computing mins and maxs based on formulas with i, j, a, b, and c
int minX = ...
int maxX = ...
int minY = ...
int maxY = ...
double count = (maxX - minX + 1)*(maxY - minY + 1);
int sum1 = 0;
int sum2 = 0;
int sum3 = 0;
#pragma acc loop
for (int y = minY; y < maxY; y++) {
for (int x = minX; x < maxX; x++) {
#pragma acc routine(function_call_name) seq
sum1 += // some function call;
sum2 += // some function call;
sum3 += // some function call;
}
}
int result1 = (int)(sum1/count);
int result2 = (int)(sum2/count);
int result3 = (int)(sum3/count);
#pragma acc routine(function_call_name) seq
// calling some function call to store result1, result2, result3 in the output
}
}
最佳答案
“非法地址”意味着您的程序正在访问 GPU 上的错误地址。通常,这是由于越界访问、访问设备上的主机地址、使用具有动态数据成员的聚合数据结构而不是“附加”成员(即在父结构中设置设备指针)引起的。不太常见的情况是堆或堆栈溢出。
您如何管理数据?代码中其他地方的数据区域?
如果使用 PGI,请首先尝试针对多核 CPU (-ta=多核),这样您就无需担心数据移动。一旦并行区域开始工作,您就可以返回使用 GPU 并处理数据移动。我建议您首先使用 CUDA 统一内存 (-ta=tesla: Managed),以便 CUDA 驱动程序为您处理数据移动(仅限动态数据)。然后,一旦该方法起作用,请尝试添加数据区域以手动管理数据。
我看到的其他东西:
并行构造需要在外部循环上使用循环指令。
#pragma acc parallel loop
for(int j = 0; j < a; j++){
for(int i = 0; i < b; i++){
您可以考虑根据循环行程计数折叠循环:
#pragma acc parallel loop collapse(2)
for(int j = 0; j < a; j++){
for(int i = 0; i < b; i++){
此外,“例程”指令应装饰例程的原型(prototype)或定义,但不应在计算区域中使用。
如果您在设备例程中使用任何全局变量,请务必将其放入“声明”指令中,以便在设备上创建数据的全局副本。
如果您使用 PGI,请向编译器添加“-Minfo=accel”选项。这将为您提供有关编译器如何并行化代码的编译器反馈消息。
如果您不使用数据指令,编译器将需要隐式复制数据。这些消息将告诉您正在复制哪些数组以及复制的大小。
如果您在理解反馈消息时遇到困难,请发布您的编译输出,我将帮助您完成它们。
关于c - 使用 OpenACC 并行化嵌套循环,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49638621/
关闭。这个问题需要多问focused 。目前不接受答案。 想要改进此问题吗?更新问题,使其仅关注一个问题 editing this post . 已关闭 6 年前。 Improve this ques
#include #include #include #include #include #define THR 10 //Function to test if the output is i
General Information 注意:我对 C、OpenAcc 来说也是个新手。 您好,我正在尝试开发一个图像模糊程序,但首先我想看看是否可以并行化 for 循环和 copyin/copyou
我正在尝试使用 OpenACC 将现有 C 代码卸载到 GPU。在原始的CPU代码中,很多时候需要根据某个参数的值来选择一个数据数组。下面给出了示例 CPU 代码: #include #includ
拜托,我需要一些关于使用 OpenACC 并行计算模型(C++)的帮助。问题如下: vairables W、hbias、vbias(它应该得到每次迭代的更新)和 propup 和 propdown 函
我正在尝试为许多 body 模拟进行 openACC 优化。目前,我正面临导致以下内存问题的问题 call to cuStreamSynchronize returned error 700: Ill
如何在主机 CPU 和 GPU 之间交换二维元素?我尝试将此 2d 元素用作 w[0:(n_hidden*i)-1],但编译器反馈告诉我有问题 这是RBM算法函数: double RBM::propd
我在 C++ 中使用 OpenACC 进行稀疏矩阵计算。我需要在 OpenACC 区域内使用矩阵运算。 是否有与 OpenACC 兼容的稀疏矩阵库? 我用惯了 Eigen,但好像不兼容 OpenACC
我正在研究 LU decomposition的 block diagonal matrices使用 OpenACC。 当我按顺序运行我的代码时,我得到了正确的分解,而当我在 OpecACC 指令下执行
我有一个 C 程序来查找两组多边形是否重叠。用户输入 2 组多边形(每组数据有数千个多边形),程序查看 set1 中的哪个多边形与 set2 中的哪个多边形重叠 我有两个这样的结构: struct g
我想开始开发 OpenACC 程序,我有几个问题要问:是否可以在 AMD gpu 上执行 OpenACC 代码? 如果是这样,我正在寻找适用于 Windows 环境的编译器。我花了将近一个小时什么也没
当我在顶层循环中有一个内核时,为什么我不能使用这 2 个指令: #pragma acc update device(hbias[0:n_hidden],W[0:n_hidden][0:n_visibl
您好,我测试了 OpenACC vs OpenMP vs Nothing,但我得到了奇怪的结果。 代码: #include int main () { int
是否有任何 OpenAcc 编译器支持将包含可分配数组的派生类型复制到 GPU 或从 GPU 复制它们并在加速代码中使用它们? OpenACC 规范 (v2.0) 指出这是可能的,但我无法在任何地方的
我正在学习 OpenACC(使用 PGI 的编译器)并尝试优化矩阵乘法示例。到目前为止,我提出的最快的实现如下: void matrix_mul(float *restrict r, float *a
我是 openacc 的新手,只有高级知识,所以任何帮助和解释我做错的事情都将不胜感激。 我正在尝试加速(并行化)一个不太直接的嵌套循环,该循环使用 openacc 指令更新扁平化(3D 到 1D)数
我正在尝试使用共享内存来缓存 OpenACC 中的内容。 基本上我正在做的是矩阵乘法,我所拥有的是: typedef float ff; // Multiplies two square row-ma
我编写了一个涉及四个嵌套 for 循环的串行方法 - 我想使用 OpenACC 并行化此方法(这是我第一次尝试使用它,我对所有指令都不是很熟悉)。 我尝试了以下操作,但看到以下错误:调用 cuStre
我正在尝试编写一个与 OpenACC 并行的面向对象的 C++ 代码。我能够在 OpenACC 上找到一些 stackoverflow 问题和 GTC 讨论,但找不到面向对象代码的一些真实示例。 在t
OpenACC 有一些编译指示和运行时例程,可用于基本实现相同的事情。 例如有#pragma acc wait和acc_wait()或者#pragma acc update [...]和acc_upd
我是一名优秀的程序员,十分优秀!