- Java 双重比较
- java - 比较器与 Apache BeanComparator
- Objective-C 完成 block 导致额外的方法调用?
- database - RESTful URI 是否应该公开数据库主键?
当我在顶层循环中有一个内核时,为什么我不能使用这 2 个指令:
#pragma acc update device(hbias[0:n_hidden],W[0:n_hidden][0:n_visible])
#pragma acc update device(vbias[0:n_visible)
我需要在下面的代码中更新这些变量 hbias
、vbias
、W
,但它不起作用:
void RBM::contrastive_divergence(int train_X[6][6], double learning_rate, int k) {
double r= rand() / (RAND_MAX + 1.0);
int * input = new int[n_visible];
double *ph_mean = new double[n_hidden];
int *ph_sample = new int[n_hidden];
double *nv_means = new double[n_visible];
int *nv_samples = new int[n_visible];
double *nh_means = new double[n_hidden];
int *nh_samples = new int[n_hidden];
#pragma acc kernels
for (int i = 0; i<train_N; i++) {
for (int j = 0; j< n_visible; j++){
input[j] = train_X[i][j];
}
sample_h_given_v(input, ph_mean, ph_sample,r);
for (int step = 0; step<k; step++) {
if (step == 0) {
gibbs_hvh(ph_sample, nv_means, nv_samples, nh_means, nh_samples,r);
}
else {
gibbs_hvh(nh_samples, nv_means, nv_samples, nh_means, nh_samples,r);
}
}
for (int i = 0; i<n_hidden; i++) {
for (int j = 0; j<n_visible; j++) {
W[i][j] += learning_rate * (ph_mean[i] * input[j] - nh_means[i] * nv_samples[j]) / N;
}
hbias[i] += learning_rate * (ph_sample[i] - nh_means[i]) / N;
}
//this directive
#pragma acc update device(hbias[0:n_hidden],W[0:n_hidden][0:n_visible])
for (int i = 0; i<n_visible; i++) {
vbias[i] += learning_rate * (input[i] - nv_samples[i]) / N;
}
//and this directive
#pragma acc update device(vbias[0:n_visible)
}
delete[] input;
delete[] ph_mean;
delete[] ph_sample;
delete[] nv_means;
delete[] nv_samples;
delete[] nh_means;
delete[] nh_samples;
}
但是当我有许多独立的内核在每个嵌套循环上工作时,我可以更新变量:
void RBM::contrastive_divergence(int train_X[6][6], double learning_rate, int k) {
double r= rand() / (RAND_MAX + 1.0);
int * input = new int[n_visible];
double *ph_mean = new double[n_hidden];
int *ph_sample = new int[n_hidden];
double *nv_means = new double[n_visible];
int *nv_samples = new int[n_visible];
double *nh_means = new double[n_hidden];
int *nh_samples = new int[n_hidden];
for (int i = 0; i<train_N; i++) {
#pragma acc kernels
for (int j = 0; j< n_visible; j++){
input[j] = train_X[i][j];
}
sample_h_given_v(input, ph_mean, ph_sample,r);
#pragma acc kernels
for (int step = 0; step<k; step++) {
if (step == 0) {
gibbs_hvh(ph_sample, nv_means, nv_samples, nh_means, nh_samples,r);
}
else {
gibbs_hvh(nh_samples, nv_means, nv_samples, nh_means, nh_samples,r);
}
}
#pragma acc kernels
{
for (int i = 0; i<unhidden; i++) {
for (int j = 0; j<n_visible; j++) {
W[i][j] += learning_rate * (ph_mean[i] * input[j] - nh_means[i] * nv_samples[j]) / N;
}
hbias[i] += learning_rate * (ph_sample[i] - nh_means[i]) / N;
}
//this directive
#pragma acc update device(hbias[0:n_hidden],W[0:n_hidden][0:n_visible])
}
#pragma acc kernels
{
for (int i = 0; i<n_visible; i++) {
vbias[i] += learning_rate * (input[i] - nv_samples[i]) / N;
}
//and this directive
#pragma acc update device(vbias[0:n_visible)
}
}
delete[] input;
delete[] ph_mean;
delete[] ph_sample;
delete[] nv_means;
delete[] nv_samples;
delete[] nh_means;
delete[] nh_samples;
}
最佳答案
“更新”指令只能在主机代码中使用,因为数据移动必须从主机启动。您不能将它们放在计算区域内。
这段代码有很多问题。首先,对于嵌套循环使用相同的索引变量(在本例中为“i”)可能是不好的做法。尽管范围规则允许这样做,但很难判断代码应该使用哪个“i”。
外部的“i”循环可能无法并行化,因此您不应将“kernels”指令放在该循环之外。也许如果您将“输入”数组私有(private)化,然后在更新 vbias、hbias、W 数组时使用原子,它可能会工作,但您的性能会很差。 (您还需要确定其他数组是否需要私有(private)化或者是全局的,因此需要原子操作)。
我的建议是首先将“#pragma acc parallel loop”放在内部循环周围,一次一个。在继续下一个之前,请确保每个都有效。此外,我非常怀疑“step”循环是可并行化的,因此您很可能需要并行化“gibbs_hvh”子例程内的循环。
由于您使用的是 CUDA 统一内存 (-ta=tesla:managed),因此可能不需要添加数据区域。但是,如果您计划将来不使用托管内存,下一步将是在外部“i”循环周围添加数据指令(或在程序的更高位置,然后使用更新指令在外部“”之后同步数据我“循环)。
关于c++ - 更新指令 OpenACC,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41665671/
关闭。这个问题需要多问focused 。目前不接受答案。 想要改进此问题吗?更新问题,使其仅关注一个问题 editing this post . 已关闭 6 年前。 Improve this ques
#include #include #include #include #include #define THR 10 //Function to test if the output is i
General Information 注意:我对 C、OpenAcc 来说也是个新手。 您好,我正在尝试开发一个图像模糊程序,但首先我想看看是否可以并行化 for 循环和 copyin/copyou
我正在尝试使用 OpenACC 将现有 C 代码卸载到 GPU。在原始的CPU代码中,很多时候需要根据某个参数的值来选择一个数据数组。下面给出了示例 CPU 代码: #include #includ
拜托,我需要一些关于使用 OpenACC 并行计算模型(C++)的帮助。问题如下: vairables W、hbias、vbias(它应该得到每次迭代的更新)和 propup 和 propdown 函
我正在尝试为许多 body 模拟进行 openACC 优化。目前,我正面临导致以下内存问题的问题 call to cuStreamSynchronize returned error 700: Ill
如何在主机 CPU 和 GPU 之间交换二维元素?我尝试将此 2d 元素用作 w[0:(n_hidden*i)-1],但编译器反馈告诉我有问题 这是RBM算法函数: double RBM::propd
我在 C++ 中使用 OpenACC 进行稀疏矩阵计算。我需要在 OpenACC 区域内使用矩阵运算。 是否有与 OpenACC 兼容的稀疏矩阵库? 我用惯了 Eigen,但好像不兼容 OpenACC
我正在研究 LU decomposition的 block diagonal matrices使用 OpenACC。 当我按顺序运行我的代码时,我得到了正确的分解,而当我在 OpecACC 指令下执行
我有一个 C 程序来查找两组多边形是否重叠。用户输入 2 组多边形(每组数据有数千个多边形),程序查看 set1 中的哪个多边形与 set2 中的哪个多边形重叠 我有两个这样的结构: struct g
我想开始开发 OpenACC 程序,我有几个问题要问:是否可以在 AMD gpu 上执行 OpenACC 代码? 如果是这样,我正在寻找适用于 Windows 环境的编译器。我花了将近一个小时什么也没
当我在顶层循环中有一个内核时,为什么我不能使用这 2 个指令: #pragma acc update device(hbias[0:n_hidden],W[0:n_hidden][0:n_visibl
您好,我测试了 OpenACC vs OpenMP vs Nothing,但我得到了奇怪的结果。 代码: #include int main () { int
是否有任何 OpenAcc 编译器支持将包含可分配数组的派生类型复制到 GPU 或从 GPU 复制它们并在加速代码中使用它们? OpenACC 规范 (v2.0) 指出这是可能的,但我无法在任何地方的
我正在学习 OpenACC(使用 PGI 的编译器)并尝试优化矩阵乘法示例。到目前为止,我提出的最快的实现如下: void matrix_mul(float *restrict r, float *a
我是 openacc 的新手,只有高级知识,所以任何帮助和解释我做错的事情都将不胜感激。 我正在尝试加速(并行化)一个不太直接的嵌套循环,该循环使用 openacc 指令更新扁平化(3D 到 1D)数
我正在尝试使用共享内存来缓存 OpenACC 中的内容。 基本上我正在做的是矩阵乘法,我所拥有的是: typedef float ff; // Multiplies two square row-ma
我编写了一个涉及四个嵌套 for 循环的串行方法 - 我想使用 OpenACC 并行化此方法(这是我第一次尝试使用它,我对所有指令都不是很熟悉)。 我尝试了以下操作,但看到以下错误:调用 cuStre
我正在尝试编写一个与 OpenACC 并行的面向对象的 C++ 代码。我能够在 OpenACC 上找到一些 stackoverflow 问题和 GTC 讨论,但找不到面向对象代码的一些真实示例。 在t
OpenACC 有一些编译指示和运行时例程,可用于基本实现相同的事情。 例如有#pragma acc wait和acc_wait()或者#pragma acc update [...]和acc_upd
我是一名优秀的程序员,十分优秀!