- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我是并行编程的新手,非常感谢您帮助我理解它的工作原理。这是一个人为设计的示例,我希望矩阵的每个单元格中的运算结果都为 50。
结果取决于 [index+1] 数组中的一个值。这在并行编程中效果不佳,因为值不是按顺序计算的,而且我每隔几个单元格就会得到不正确的结果。我的创可贴是将功能分成多个,但我认为应该有更好的解决方案,尽管我不确定要搜索什么。谢谢。
CUDA 代码:
#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include <stdio.h>
#include <stdint.h>
#include <iostream>
#define TILE_WIDTH 16
using namespace std;
__global__ void cuda_arithmetic(int height, int width, float *B, float *C, float *initial_array, float *result_array){
int w = blockIdx.x * blockDim.x + threadIdx.x; // Col // width
int h = blockIdx.y * blockDim.y + threadIdx.y; // Row // height
int index = h * width + w;
if ((w < width) && h < (height)) //initial=20, B=2, C=10, result = 17;
initial_array[index] = powf(C[index],2);
if ((w < (width-1)) && h < (height))
result_array[index] = initial_array[index+1] / B[index];
}
__global__ void cuda_arithmetic_step_1(int height, int width, float *B, float *C, float *initial_array, float *result_array){
int w = blockIdx.x * blockDim.x + threadIdx.x; // Col // width
int h = blockIdx.y * blockDim.y + threadIdx.y; // Row // height
int index = h * width + w;
if ((w < width) && h < (height))
initial_array[index] = powf(C[index],2);
}
__global__ void cuda_arithmetic_step_2(int height, int width, float *B, float *C, float *initial_array, float *result_array){
int w = blockIdx.x * blockDim.x + threadIdx.x; // Col // width
int h = blockIdx.y * blockDim.y + threadIdx.y; // Row // height
int index = h * width + w;
if ((w < (width-1)) && h < (height))
result_array[index] = initial_array[index+1] / B[index];
}
int main(){
int height = 800;
int width = 8192;
float *A = new float[height * width];
float *B = new float[height * width];
float *C = new float[height * width];
float *result = new float[height * width];
for (int i = 0; i < height; i++){
for (int j = 0; j < width; j++){
A[i*width+j] = 20;
B[i*width+j] = 2;
C[i*width+j] = 10;
result[i*width+j] = 17;
}
}
float *gpu_A;
float *gpu_B;
float *gpu_C;
float *gpu_result;
cudaMalloc((void **)&gpu_A, (height * width * sizeof(float)));
cudaMalloc((void **)&gpu_B, (height * width * sizeof(float)));
cudaMalloc((void **)&gpu_C, (height * width * sizeof(float)));
cudaMalloc((void **)&gpu_result, (height * width * sizeof(float)));
cudaMemcpy(gpu_A, A, (height * width * sizeof(float)), cudaMemcpyHostToDevice);
cudaMemcpy(gpu_B, B, (height * width * sizeof(float)), cudaMemcpyHostToDevice);
cudaMemcpy(gpu_C, C, (height * width * sizeof(float)), cudaMemcpyHostToDevice);
cudaMemcpy(gpu_result, result, (height * width * sizeof(float)), cudaMemcpyHostToDevice);
dim3 dimGrid((width - 1) / TILE_WIDTH + 1, (height - 1)/TILE_WIDTH + 1, 1);
dim3 dimBlock(TILE_WIDTH, TILE_WIDTH, 1);
// CODE OPTION
// incorrect result
cuda_arithmetic<<<dimGrid,dimBlock>>>(height, width, gpu_B, gpu_C, gpu_A, gpu_result);
// correct result
//cuda_arithmetic_step_1<<<dimGrid,dimBlock>>>(height, width, gpu_B, gpu_C, gpu_A, gpu_result);
//cuda_arithmetic_step_2<<<dimGrid,dimBlock>>>(height, width, gpu_B, gpu_C, gpu_A, gpu_result);
cudaMemcpy(result, gpu_result, (height * width * sizeof(float)), cudaMemcpyDeviceToHost);
for (int i = 0; i < height; i++){
for (int j = 0; j < (width-1); j++){
if (abs((result[i*(width-1)+j] - 50)) > 0.001){
cout << "error: ";
cout << i << " * " << width-1 << " + " << j << ": " << result[i*(width-1)+j] << endl;
system("pause");
}
}
cout << endl;
}
cout << endl;
cudaFree(gpu_A);
cudaFree(gpu_B);
cudaFree(gpu_C);
cudaFree(gpu_result);
delete[] A;
delete[] B;
delete[] C;
delete[] result;
system("pause");
}
最佳答案
由于您的示例是人为设计的,因此我的回答会有些笼统。
一般来说,您要处理的是全局同步问题。
正如您所发现的,唯一干净的全局同步点是内核启动,因此在必要的同步点之前和之后将您的代码分成几部分将插入一个全局同步,因为内核启动(es) .
另一种方法是考虑必要的同步是否可以本地化。如果是这样,您可以考虑安排您的算法/数据,以便可以在线程 block 内处理必要的同步(其中共享内存和 __syncthreads()
为我们提供了内置的协调/同步功能。)这可能在数据边界(例如线程 block 间边界)方面存在一些挑战。处理边界数据的一种方法是让相邻的线程 block 在边界区域执行冗余计算,以便保证每个线程 block 在计算任何最终结果之前产生所有必要的中间结果。在这种情况下,您可以使用 __syncthreads()
安全地将中间结果的计算与最终结果分开,这是一个线程内 block barrier .
在某些情况下,您可以减少对单个线程的依赖。例如,在您的代码中,您可以让单个线程执行必要的计算:
initial_array[index+1] = powf(C[index+1],2);
和依赖结果计算:
result_array[index] = initial_array[index+1] / B[index];
由于依赖计算保证在计算出必要的中间结果后执行,因此不需要其他同步。您的实际代码可能不适合进行如此微不足道的重写。
顺便说一句,请注意您对 index+1
的使用将超出内核中最后一个线程 block 的范围(w = width -1,h = height-1)。另外,我不认为这个索引是你想要的:
if (abs((result[i*(width-1)+j] - 50)) > 0.001){
我想你可能是这个意思:
if (abs((result[i*(width)+j] - 50)) > 0.001){
通过这些更改,您的 cuda_arithmetic
内核可以为我正确运行(即使它有轻微的越界问题。)
关于c++ - CUDA:有没有办法强制每一行在继续之前完成?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25292048/
从 Redis 获取消息时,onDone:(){print('done')} 从未起作用。 import 'package:dartis/dartis.dart' as redis show PubS
昨天我玩了一些vim脚本,并设法通过循环来对当前输入的内容进行状态栏预测(请参见屏幕截图(灰色+黄色栏))。 问题是,我不记得我是怎么得到的,也找不到我用于该vim魔术的代码片段(我记得它很简单):它
我尝试加载 bash_completion在我的 bash (3.2.25) 中,它不起作用。没有消息等。我在我的 .bashrc 中使用了以下内容 if [ -f ~/.bash_completio
我正在尝试构建一个 bash 完成例程,它将建议命令行标志和合适的标志值。例如在下面 fstcompose 命令我想比赛套路先建议 compose_filter= 标志,然后建议来自 [alt_seq
当我尝试在重定向符号后完成路径时,bash 完成的行为就好像它仍在尝试在重定向之前完成命令的参数一样。 例如: dpkg -l > /med标签 通过在 /med 之后点击 Tab我希望它完成通往 /
我的类中有几个 CAKeyframeAnimation 对象。 他们都以 self 为代表。 在我的animationDidStop函数中,我如何知道调用来自哪里? 是否有任何变量可以传递给 CAKe
我有一个带有 NSDateFormatter 的 NSTextField。格式化程序接受“mm/dd/yy”。 可以自动补全日期吗?因此,用户可以输入“mm”,格式化程序将完成当前月份和年份。 最佳答
有一个解决方案可以使用以下方法完成 NSTextField : - (NSArray *)control:(NSControl *)control textView:(NSTextView *)tex
我正在阅读 Passport 的文档,我注意到 serialize()和 deserialize() done()被调用而不被返回。 但是,当使用 passport.use() 设置新策略时在回调函数
在 ubuntu 11.10 上的 Firefox 8.0 中,尽管 img.complete 为 false,但仍会调用 onload 函数 draw。我设法用 setTimeout hack 解决
假设我有两个与两个并行执行的计算相对应的 future 。我如何等到第一个 future 准备好?理想情况下,我正在寻找类似于Python asyncio's wait且参数为return_when=
我正在寻找一种 Java 7 数据结构,其行为类似于 java.util.Queue,并且还具有“最终项目已被删除”的概念。 例如,应可以表达如下概念: while(!endingQueue.isFi
这是一个简单的问题。 if ($('.dataTablePageList')) { 我想做的是执行一个 if 语句,该语句表示如果具有 dataTablesPageList 类的对象也具有 menu
我用replaceWith批量替换了许多div中的html。替换后,我使用 jTruncate 来截断文本。然而它不起作用,因为在执行时,replaceWith 还没有完成。 我尝试了回调技巧 ( H
有没有办法调用 javascript 表单 submit() 函数或 JQuery $.submit() 函数并确保它完成提交过程?具体来说,在一个表单中,我试图在一个 IFrame 中提交一个表单。
我有以下方法: function animatePortfolio(fadeElement) { fadeElement.children('article').each(function(i
我刚刚开始使用 AndEngine, 我正在像这样移动 Sprite : if(pValueY < 0 && !jumping) { jumping =
我正在使用 asynctask 来执行冗长的操作,例如数据库读取。我想开始一个新 Activity 并在所有异步任务完成后呈现其内容。实现这一目标的最佳方法是什么? 我知道 onPostExecute
我有一个脚本需要命令名称和该命令的参数作为参数。 所以我想编写一个完成函数来完成命令的名称并完成该命令的参数。 所以我可以这样完成命令的名称 if [[ "$COMP_CWORD" == 1 ]];
我的应用程序有一个相当奇怪的行为。我在 BOOT_COMPLETE 之后启动我的应用程序,因此在我启动设备后它是可见的。 GUI 响应迅速,一切正常,直到我调用 finish(),按下按钮时,什么都没
我是一名优秀的程序员,十分优秀!