- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
当我尝试将节点数组从设备复制回主机时,我在 Node.m[...] 中得到的是零而不是值,即使当我在内核中打印节点时它显示值设置正确。不幸的是,我无法自己发现任何错误,所以我恳请您提供帮助。我使用 visual studio 编译器和计算能力 3 编译代码。来自 this 的代码答案对我有用。
我粘贴了整个代码,但只有有意义的部分是
__global__ void divideLeft(Node * nodes,float * leftSide){...}
和
divideLeft<<<1,1>>>(dNodes,dLeftSide);
ERRCHECK(cudaDeviceSynchronize());
ERRCHECK(cudaGetLastError());
ERRCHECK(cudaMemcpy(nodes,dNodes,sizeof(Node) * heapSize,cudaMemcpyDeviceToHost));
printNode(nodes[3]);
#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include <stdio.h>
#include <conio.h>
#include <new>
#include <cmath>
#define ERRCHECK(ans) { gpuAssert((ans), __FILE__, __LINE__); }
inline void gpuAssert(cudaError_t code, const char *file, int line, bool abort=true,bool wait=true)
{
if (code != cudaSuccess)
{
fprintf(stderr,"GPUassert: %s %s %d\n", cudaGetErrorString(code), file, line);
if (wait) getch();
if (abort) exit(code);
}
}
#define MSIZE 36
#define INPUT_SIZE(N) N*5 - 3*2
#define PARENT(i) (i-1)/2
#define LEFT(i) 2*i + 1
#define RIGHT(i) 2*i + 2
#define BOTTOM_HEAP_NODES_COUNT(N) (N-2)/3 //size of input must be 2+3n,n>1
#define HEAP_SIZE(N) 2*BOTTOM_HEAP_NODES_COUNT(N)-1
#define FIRST_LEVEL_SIZE 19
#define ROW_LENGTH 5
#define FIRST_LVL_MAT_SIZE 5
#define XY(x,y) x*6+y
__constant__ int dHigherTreeLevelThreshold;
__constant__ int dNodesCount;
__constant__ int dLeftSize;
__constant__ int dHeapSize;
__constant__ int dBottomNodes;
__constant__ int dRemainingNodes;
__constant__ int dRightCols;
__constant__ int dInputCount;
struct Node
{
float m[MSIZE];
float *x;
};
__device__ __host__ void printNode(Node node);
__global__ void divideLeft(Node * nodes,float * leftSide)
{
int idx = blockIdx.x*blockDim.x + threadIdx.x;
if(idx>=dBottomNodes)
return;
int nodeIdx = idx + dRemainingNodes - (idx >= dHigherTreeLevelThreshold)*dBottomNodes;
// printf("%d %d\n",idx,nodeIdx);
Node node = nodes[nodeIdx];
idx*=5*3;
node.m[XY(3,3)] = leftSide[idx+2]/3;
node.m[XY(3,2)] = leftSide[idx+3]/2;
node.m[XY(3,1)] = leftSide[idx+4];
node.m[XY(2,3)] = leftSide[idx+6]/2;
node.m[XY(2,2)] = leftSide[idx+7]*2/3;
node.m[XY(2,1)] = leftSide[idx+8];
node.m[XY(2,4)] = leftSide[idx+9];
node.m[XY(1,3)] = leftSide[idx+10];
node.m[XY(1,2)] = leftSide[idx+11];
node.m[XY(1,1)] = leftSide[idx+12];
node.m[XY(1,4)] = leftSide[idx+13];
node.m[XY(1,5)] = leftSide[idx+14];
node.m[XY(4,2)] = leftSide[idx+15];
node.m[XY(4,1)] = leftSide[idx+16];
node.m[XY(4,4)] = leftSide[idx+17]*2/3;
node.m[XY(4,5)] = leftSide[idx+18]/2;
node.m[XY(5,1)] = leftSide[idx+20];
node.m[XY(5,4)] = leftSide[idx+21]/2;
node.m[XY(5,5)] = leftSide[idx+22]/3;
printNode(node);
}
void leftSideInit(float * leftSide,int size)
{
for(int i = 0;i<size;i++)
{
leftSide[i] = 1;//(i+1)%26;
}
}
int main(){
ERRCHECK(cudaSetDevice(0));
int leftCount = 11;
int leftSize = leftCount*5;
int rightSize = 10;
int heapSize = HEAP_SIZE(leftCount);
int bottomNodes = BOTTOM_HEAP_NODES_COUNT(leftCount);
int greatestPowerOfTwo = pow(2,(int)log2(bottomNodes));
int remainingNodes = heapSize - greatestPowerOfTwo;
ERRCHECK(cudaMemcpyToSymbol(dBottomNodes,&bottomNodes,sizeof(int)));
ERRCHECK(cudaMemcpyToSymbol(dHigherTreeLevelThreshold,&greatestPowerOfTwo,sizeof(int)));
ERRCHECK(cudaMemcpyToSymbol(dRemainingNodes,&remainingNodes,sizeof(int)));
ERRCHECK(cudaMemcpyToSymbol(dRightCols,&rightSize,sizeof(int)));
ERRCHECK(cudaMemcpyToSymbol(dHeapSize,&heapSize,sizeof(int)));
float * leftSide = new float[leftSize];
float * rightSide = new float[rightSize];
Node * nodes = new Node[heapSize];
Node * dNodes = nullptr;
float * dLeftSide =nullptr;
leftSideInit(leftSide,leftSize);
ERRCHECK(cudaMalloc(&dNodes,sizeof(Node)* heapSize));
ERRCHECK(cudaMemset(dNodes,0,sizeof(Node)*heapSize));
ERRCHECK(cudaMalloc(&dLeftSide,leftSize*sizeof(float)));
ERRCHECK(cudaMemcpy(dLeftSide,leftSide,leftSize*sizeof(float),cudaMemcpyHostToDevice));
divideLeft<<<1,1>>>(dNodes,dLeftSide);
ERRCHECK(cudaDeviceSynchronize());
ERRCHECK(cudaGetLastError());
ERRCHECK(cudaMemcpy(nodes,dNodes,sizeof(Node) * heapSize,cudaMemcpyDeviceToHost));
printNode(nodes[3]);
delete [] nodes;
cudaFree(dNodes);
ERRCHECK(cudaDeviceReset());
getch();
return 0;
}
__device__ __host__ void printNode(Node node)
{
for(int i= 0;i<6;i++)
printf("%.3f %.3f %.3f %.3f %.3f %.3f\n",node.m[XY(i,0)],node.m[XY(i,1)],node.m[XY(i,2)],node.m[XY(i,3)],node.m[XY(i,4)],node.m[XY(i,5)]);
}
最佳答案
在您的内核中,您制作了您正在处理的 Node
的本地拷贝:
Node node = nodes[nodeIdx];
内核的其余部分继续修改 node
的元素,您的本地拷贝。
但在所有修改完成后,您永远不会将本地拷贝复制回全局拷贝,因此全局拷贝保持不变。
要解决这个问题,一种可能是在内核末尾添加这一行:
nodes[nodeIdx] = node;
顺便说一句,我注意到您的 struct Node
包含一个指针变量:
struct Node
{
float m[MSIZE];
float *x;
};
您应该意识到使用带有嵌入式指针的结构数组可能会有些特殊的复杂性。您实际上还没有使用该变量 (x
),所以我只是将其作为注释提及。您可能需要引用 cuda tag info page有关此概念的规范问题(“在 CUDA 中使用指针数组”)。
关于c++ - cudaMemcpy 结构设备主机不工作,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42180066/
我目前正在尝试基于哈希表构建字典。逻辑是:有一个名为 HashTable 的结构,其中包含以下内容: HashFunc HashFunc; PrintFunc PrintEntry; CompareF
如果我有一个指向结构/对象的指针,并且该结构/对象包含另外两个指向其他对象的指针,并且我想删除“包含这两个指针的对象而不破坏它所持有的指针”——我该怎么做这样做吗? 指向对象 A 的指针(包含指向对象
像这样的代码 package main import "fmt" type Hello struct { ID int Raw string } type World []*Hell
我有一个采用以下格式的 CSV: Module, Topic, Sub-topic 它需要能够导入到具有以下格式的 MySQL 数据库中: CREATE TABLE `modules` ( `id
通常我使用类似的东西 copy((uint8_t*)&POD, (uint8_t*)(&POD + 1 ), back_inserter(rawData)); copy((uint8_t*)&PODV
错误 : 联合只能在具有兼容列类型的表上执行。 结构(层:字符串,skyward_number:字符串,skyward_points:字符串)<> 结构(skyward_number:字符串,层:字符
我有一个指向结构的指针数组,我正在尝试使用它们进行 while 循环。我对如何准确初始化它并不完全有信心,但我一直这样做: Entry *newEntry = malloc(sizeof(Entry)
我正在学习 C,我的问题可能很愚蠢,但我很困惑。在这样的函数中: int afunction(somevariables) { if (someconditions)
我现在正在做一项编程作业,我并没有真正完全掌握链接,因为我们还没有涉及它。但是我觉得我需要它来做我想做的事情,因为数组还不够 我创建了一个结构,如下 struct node { float coef;
给定以下代码片段: #include #include #define MAX_SIZE 15 typedef struct{ int touchdowns; int intercepti
struct contact list[3]; int checknullarray() { for(int x=0;x<10;x++) { if(strlen(con
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: Empty “for” loop in Facebook ajax what does AJAX call
我刚刚在反射器中浏览了一个文件,并在结构构造函数中看到了这个: this = new Binder.SyntaxNodeOrToken(); 我以前从未见过该术语。有人能解释一下这个赋值在 C# 中的
我经常使用字符串常量,例如: DICT_KEY1 = 'DICT_KEY1' DICT_KEY2 = 'DICT_KEY2' ... 很多时候我不介意实际的文字是什么,只要它们是独一无二的并且对人类读
我是 C 的新手,我不明白为什么下面的代码不起作用: typedef struct{ uint8_t a; uint8_t* b; } test_struct; test_struct
您能否制作一个行为类似于内置类之一的结构,您可以在其中直接分配值而无需调用属性? 前任: RoundedDouble count; count = 5; 而不是使用 RoundedDouble cou
这是我的代码: #include typedef struct { const char *description; float value; int age; } swag
在创建嵌套列表时,我认为 R 具有对列表元素有用的命名结构。我有一个列表列表,并希望应用包含在任何列表中的每个向量的函数。 lapply这样做但随后剥离了列表的命名结构。我该怎么办 lapply嵌套列
我正在做一个用于学习目的的个人组织者,我从来没有使用过 XML,所以我不确定我的解决方案是否是最好的。这是我附带的 XML 文件的基本结构:
我是新来的 nosql概念,所以当我开始学习时 PouchDB ,我找到了这个转换表。我的困惑是,如何PouchDB如果可以说我有多个表,是否意味着我需要创建多个数据库?因为根据我在 pouchdb
我是一名优秀的程序员,十分优秀!