- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
__global__ void gpu_Heat (float *h, float *g, float * sum, int N) {
int nbx, bx, nby, by;
float diff = 0.0;
nbx = (N-2)/blockDim.x;
bx = nbx/gridDim.x;
nby = (N-2)/blockDim.y;
by = nby/gridDim.y;
unsigned int ii = blockIdx.x*blockDim.x+threadIdx.x;
unsigned int jj = blockIdx.y*blockDim.y+threadIdx.y;
unsigned int jid = (ii)*(N-2)+(jj);
for (int i=1+ii*bx; i<=min((ii+1)*bx, N-2); i++)
for (int j=1+jj*by; j<=min((jj+1)*by, N-2); j++) {
g[i*N+j]= 0.25 * (h[ i*N + (j-1)]+
h[ i*N +(j+1) ]+
h[ (i-1)*N + j]+
h[ (i+1)*N + j]);
diff = g[i*N+j] - h[i*N+j];
sum[(i-1)*(N-2)+(j-1)] = diff * diff;
}
__syncthreads();
for(unsigned int s=((N-2)*(N-2))/2; s>0; s>>=1){
if(jid<s){
sum[jid]+=sum[jid+s];
}
__syncthreads();
}
}
所以我的问题是 sum[0] 的值包含并行归约的最终结果,每次执行该内核时都会发生变化,即使输入是相同的而且我不知道我在做什么错误的。如果在 CPU 中减少相同的求和矩阵,则执行很好,但在 GPU 中并行减少会给我带来问题。
dim3 Grid = (16,16);
dim3 Block = (16,16);
gpu_Heat<<<Grid,Block>>>(dev_u, dev_uhelp, dev_sum, np);
cudaThreadSynchronize(); // wait for all threads to complete
cudaErrorCheck(cudaMemcpy(param.u,dev_u,np*np*sizeof(float),cudaMemcpyDeviceToHost));
cudaErrorCheck(cudaMemcpy(param.uhelp,dev_uhelp,np*np*sizeof(float),cudaMemcpyDeviceToHost));
cudaErrorCheck(cudaMemcpy(sum,dev_sum,sum_size*sizeof(float),cudaMemcpyDeviceToHost));
我在此处明确显示了由我正在使用的测试中的代码计算的 block 和网格参数。谢谢解答
最佳答案
您正在启动具有多个 block 的 GPU 内核。虽然一个 block 中的线程仍在第一个 for
循环中计算它们的 sum
,但其他一些 block 可能在第二个 for
循环中进行并行归约.这两个 for
循环具有数据依赖性。由于流式多处理器上的 block 调度发生在幕后,并且每次运行可能会有所不同,因此每次都会得到不同的结果。 __syncthreads();
在 for
循环之间同步块(synchronized block)内的线程,但没有用于多个 block 之间同步的机制或指令,除非返回到主机并发布另一个内核。
在您的情况下,即使您简单地将 for
循环分开,您得到的结果仍然可能是错误的,因为您的减少发生在多个 block 中,并且 block 的调度再次不确定。
关于CUDA:sum[0] 的值随每次执行而变化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20961310/
嘿伙计们。 实现背景变化(基本上是幻灯片放映)和过渡效果的常见方法有哪些。我想每隔一段时间改变complte文档背景。 我是一名 ASP.net 开发人员,并且希望大部分内容都可以在 ASP 中实现。
也许,指针已经在修改过程中指向 auto_ptr 的常规指针指向 unique_ptr 和 shared_ptr 我只是想知道已经开发出来的新型指针是否完全覆盖了旧版本(或者您可能认为存在内存泄漏问题
我使用 Android Studio 构建 Android 应用。 我的问题是:当 fragment 改变时,应用程序崩溃。 控制台输出[控制台] 01-06 18:35:21.952 27756-
****澄清**我做了这个 [Fiddle] ( http://jsfiddle.net/sggPv/10/ ) 来帮助澄清情况。 该脚本起初适用于两个表格,但随后当您点击 slider 并将新表格加
我有图标,单击它会将新的 div(列)添加到 div 容器。问题是,当新的 div(列)出现时,按钮不会向右移动。是否可以以某种方式仅在 div 内添加 position:fixed? 这是我的几个屏
我是 Java 新手,继承了现有的 Android 应用程序。原始开发人员选择使用常量接口(interface)。 我的问题是我需要更改其中一些常量来编译生产应用程序与开发应用程序。如果我手动修改一些
在 Apple developer Document 中,我在 UIColor 中发现了一些新东西。 If your app was linked on or after iOS 10 and whe
我没有经常使用 ShareKit,但我只想拥有三个共享选项:Facebook、Twitter 和电子邮件。 ShareKit 提供了更多选项,包括更多按钮。但是,我不想要“更多”选项,只想要三个。 在
我正在构建一个 JS 库,其中一个用例要求我在 DOM 更改时触发一个事件,特别是如果它是一个单页应用程序,例如:github search bar 经过一番研究,我遇到了MutationObserv
我已经设法编写了一个代码来检测任何工作表中特定单元格的值变化,但我一直在努力构建检测和跟踪范围(值)变化的东西。 例如,如果用户决定复制和粘贴某个范围的数据(假设超过 1 个单元格),它不会被宏捕获。
使用 ffmpeg ,我们可以对音频电平进行多少控制?例如,我想在程序的时间轴上映射一个“M”形: t0 - t1 : fade in from 0 to 1 t1 - t2 : play at fu
使用 jQuery 1.7.1,我尝试为下拉列表上的更改事件创建一个事件处理程序。下拉列表会动态添加到 DOM 中。似乎在大多数浏览器上都能很好地工作,但是哦,奇怪的 IE8 想要变得困难。有解决方法
我想制作一个具有可选边框大小的自定义控件。请参阅下面的代码。边框绘制在非客户区,其宽度可以是 0、1 或 2 像素。我已经在 WM_NCPAINT 中成功完成了边框绘制。问题是,在更改控制边框大小的属
我知道这个问题之前已经被问过,而且我实际上已经找到了一些我已经实现的解决方案。不幸的是,我没能得到我想要的。 我以前没有做过AngularJS,我想做的是: 检测网址何时更改 根据网址更改的内容进行一
我有一个 auto-carousel 指令,它循环访问链接元素的子元素。 但是,子级尚未加载到 DOM 中,因为它们的 ng-if 表达式尚未解析。 如何确保父指令知道其 DOM 树已发生更改?
我有一个流程可以通过内容提供商从数据库中获取数据。 fun getDataFlow(): Flow { return flow { emit(Result.Loading)
我有一些有效的代码,但有时它只是“跳转”到其他文本而不考虑间隔。 该代码基本上按时间间隔更改标题的文本。 var text = ["text1", "text2", "text3","text4","
我正在尝试将 onCLick 监听器添加到我的 PreferenceScreen 上的开关,但它不起作用。我尝试了 Java 教程中的代码并将其转换为 Kotlin,但由于某种原因它无法正常工作。 这
我们目前正在尝试升级我们的程序使用的 ffmpeg 版本。跳跃很大,因为我们目前使用的是 ffmpeg 0.8,最新版本是 1.2。 在这些测试中,我使用的是(让我说)我发现的令人惊叹的软件包 her
我有一个流程可以通过内容提供商从数据库中获取数据。 fun getDataFlow(): Flow { return flow { emit(Result.Loading)
我是一名优秀的程序员,十分优秀!