- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我是 cuda 编程的新手。我想实现大数组的 vector 加法。数组的大小为 100 万。因为我无法创建 100 万个 1d block 。我想过制作 1000x1000 block ,每个 block 中有 1 个线程。
相关主要代码
//Copy to GPU
printf( "GPU\n" );
cudaMemcpy( dev_src1, src1, size * sizeof(int), cudaMemcpyHostToDevice );
cudaMemcpy( dev_src2, src2, size * sizeof(int), cudaMemcpyHostToDevice );
//Exec kernel
int nBlocks = ceil(sqrt(size));
int nThreadsPerBlock = 1;
addVector<<<dim3(nBlocks,nBlocks),nThreadsPerBlock>>>(dev_src1, dev_src2, dev_dest, size );
//Copy results to CPU
cudaMemcpy( dest, dev_dest, size * sizeof(int), cudaMemcpyDeviceToHost );
GPU 内核
__global__ void addVector( int * src1, int * src2, int * dest, int size )
{
int tid = blockIdx.y*blockDim.x + blockIdx.x;
if( tid<size )
dest[tid] = src1[tid] + src2[tid];
}
但是,此后我没有得到正确的结果。我的错误可能是什么以及如何纠正它?
这是我的结果——
0: 0 + 0 = 0
1: 1 + 2 = 3
2: 2 + 4 = 6
3: 3 + 6 = 9
4: 4 + 8 = 12
5: 5 + 10 = 15
6: 6 + 12 = 18
7: 7 + 14 = 21
8: 8 + 16 = 24
9: 9 + 18 = 27
10: 10 + 20 = 266
11: 11 + 22 = 267
12: 12 + 24 = 268
13: 13 + 26 = 269
14: 14 + 28 = 270
15: 15 + 30 = 271
.
.
86: 86 + 172 = 342
87: 87 + 174 = 343
88: 88 + 176 = 344
89: 89 + 178 = 345
90: 90 + 180 = 346
91: 91 + 182 = 347
92: 92 + 184 = 348
93: 93 + 186 = 349
94: 94 + 188 = 350
95: 95 + 190 = 351
96: 96 + 192 = 352
97: 97 + 194 = 353
98: 98 + 196 = 354
99: 99 + 198 = 355
最佳答案
在您当前的情况下,您计算的 tid
不正确。
如果每个 block 有 1 个线程,则 blockDim.x
将为 1。
tid
应计算为:
int tid = blockIdx.y * gridDim.x + blockIdx.x;
但是我不建议为每个 block 创建 1 个线程并创建大量 block 。这显然是低效的,因为内核的占用率会非常低。
推荐的方法是创建一个足够大的 block ,例如每个 block 128 或 256 个线程,然后创建一个足够大的网格以覆盖您的整个数据。
例如:
int nThreadsPerBlock = 256;
int nBlocks = (size + nThreadsPerBlock - 1)/nThreadsPerBlock;
使用这种方法,tid
将被计算为:
int tid = blockIdx.x * blockDim.x + threadIdx.x;
关于c++ - 用于一维矩阵的二维 GPU block ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14580238/
我的 blockly.js 文件中有以下代码 Blockly.Blocks['account_number'] = { // Other type. init: function() {
首先抱歉我的英语不好,我正在开发 Image Splitter 应用程序并且已经完成,但是现在的要求是当图像被分割(分成几 block /chunks)那么图像 block 的每一 block (ch
#value: 消息的返回值,当发送到一个 block 时,是该 block 中最后一句话的值。所以 [ 1 + 2. 3 + 4. ] value 计算结果为 7。我发现有时很难使用。有没有办法显式
我想构建一个包含 3 div 的响应式导航栏相同的 width和 height . 我申请了 inline-block到每个 block ,我得到一个我不理解的行为。 问题是,第三 block 由 2
我希望使用 Blockly 来允许非技术人员用户指定测试脚本。 它的一部分需要一个文件选择器,但是,我看不到 Blockly 有一个。是吗? 实际上,我找不到完整的标准 block 列表。谁有网址?
仅当您位于父 block 内部时,父 block 的 props.isSelected 才为 true,但当您在该 block 的 innerBlocks 内进行编辑时则不然。 如何从父 block
仅当您位于父 block 内部时,父 block 的 props.isSelected 才为 true,但当您在该 block 的 innerBlocks 内进行编辑时则不然。 如何从父 block
我想创建一个具有不同背景颜色 block 和不同悬停颜色 block 的导航栏 block 。我可以分别创建不同的悬停颜色 block 或不同的背景颜色 block ,但不能一起创建。所以请告诉我如何
我正在使用看到的代码 here定期执行代码: #define DELAY_IN_MS 1000 __block dispatch_time_t next = dispatch_time(DISPATC
为什么 block 必须被复制而不是保留?两者在引擎盖下有什么区别?在什么情况下不需要复制 block (如果有)? 最佳答案 通常,当您分配一个类的实例时,它会进入堆并一直存在,直到它被释放。但是,
我想弄清楚我这样做是否正确: 如果我有一个 block ,我会这样做: __weak MyClass *weakSelf = self; [self performBlock:^{
我想制作一个 4 block 导航菜单,虽然我已经显示了一个 block ,然后单击打开第二个 block ,从第二个开始选择并再次单击出现第三个 block ,第四个 block 相同...这是我的
例如,这样更好吗? try { synchronized (bean) { // Write something } } catch (Int
我想让一只乌龟检查前方小块的颜色并决定移动到哪里。如果前面的补丁不是白色的,那么乌龟向左或向右旋转并移动。我的 If 决策结构中出现错误,显示“此处应为 TRUE?FALSE,而不是 block 列表
我想创建一个 block 对角矩阵,其中对角 block 重复一定次数,非对角 block 都是零矩阵。例如,假设我们从一个矩阵开始: > diag.matrix [,1] [,2] [
我是区 block 链新手。突然我有一个问题,我们是否可以通过区 block 号来访问以太坊区 block 链上之前的区 block 数据。 例如我创建了一个block1、block2。 block
我是区 block 链新手。突然我有一个问题,我们是否可以通过区 block 号来访问以太坊区 block 链上之前的区 block 数据。 例如我创建了一个block1、block2。 block
我创建了一个等距环境,全部使用 Javascript 和 HTML5 (2D Canvas),大部分情况下工作正常。我面临的问题是使用不同高度的图 block ,然后对图 block 上的对象索引进行
这是令我困惑的代码: public Integer getInteger(BlockingQueue queue) { boolean interrupted = false; try
我有一个基于 TPL 数据流的应用程序,它仅使用批处理 block 和操作 block 就可以正常工作。 我已经添加了一个 TransformBlock 以尝试在发布到批处理 block 之前从源中转
我是一名优秀的程序员,十分优秀!