- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
这个错误困扰了我很长一段时间,所以我决定将其发布在这里。
调用 cudaMemcpy 时发生此段错误:
CurrentGrid->cdata[i] = new float[size];
cudaMemcpy(CurrentGrid->cdata[i], Grid_dev->cdata[i], size*sizeof(float),\
cudaMemcpyDeviceToHost);
CurrentGrid
和 Grid_dev
分别是指向主机和设备上的 grid
类对象的指针,在此上下文中 i=0。类成员cdata
是一个float类型指针数组。为了调试,在调用 cudaMemcpy 之前,我打印了 Grid_Dev->cdata[i]
每个元素的值、CurrentGrid->cdata[i]
的地址和Grid_dev->cdata[i]
和 size
的值,看起来都不错。但它仍然以“段错误(核心转储)”结束,这是唯一的错误消息。 cuda-memcheck 仅给出“进程未成功终止”。我目前无法使用 cuda-gdb。关于去哪里有什么建议吗?
更新:现在看来我已经通过 cudaMalloc 设备上的另一个浮点指针 A 和 cudaMemcpy Grid_dev->cdata[i] 的值到 A,然后 cudaMemcpy A 到主机解决了这个问题。所以上面写的代码段就变成了:
float * A;
cudaMalloc((void**)&A, sizeof(float));
...
...
cudaMemcpy(&A, &(Grid_dev->cdata[i]), sizeof(float *), cudaMemcpyDeviceToHost);
CurrentGrid->cdata[i] = new float[size];
cudaMemcpy(CurrentGrid->cdata[i], A, size*sizeof(float), cudaMemcpyDeviceToHost);
我这样做是因为 valgrind 弹出“无效读取大小 8”,我认为它指的是 Grid_dev->cdata[i]
。我再次用gdb检查了一下,打印出Grid_dev->cdata[i]
的值为NULL。所以我想即使在这个 cudaMemcpy 调用中我也不能直接取消引用设备指针。但为什么 ?根据本条底部的评论thread ,我们应该能够在 cudaMemcpy 函数中取消引用设备指针。
另外,我不知道cudaMalloc和cudaMemcpy如何工作的底层机制,但我认为通过cudaMalloc一个指针,这里说A,我们实际上分配这个指针指向设备上的某个地址。并通过 cudaMemcpy 将 Grid_dev->cdata[i]
复制到 A(如上面修改后的代码所示),我们重新分配指针 A 以指向数组。那么当 A 被 cudaMalloced 时,我们是否会丢失 A 所指向的先前地址的轨迹?这会导致内存泄漏什么的吗?如果是,我应该如何正确解决这种情况?谢谢!
作为引用,我将发生此错误的完整函数的代码放在下面。
非常感谢!
__global__ void Print(grid *, int);
__global__ void Printcell(grid *, int);
void CopyDataToHost(param_t p, grid * CurrentGrid, grid * Grid_dev){
cudaMemcpy(CurrentGrid, Grid_dev, sizeof(grid), cudaMemcpyDeviceToHost);
#if DEBUG_DEV
cudaCheckErrors("cudaMemcpy1 error");
#endif
printf("\nBefore copy cell data\n");
Print<<<1,1>>>(Grid_dev, 0); //Print out some Grid_dev information for
cudaDeviceSynchronize(); //debug
int NumberOfBaryonFields = CurrentGrid->ReturnNumberOfBaryonFields();
int size = CurrentGrid->ReturnSize();
int vsize = CurrentGrid->ReturnVSize();
CurrentGrid->FieldType = NULL;
CurrentGrid->FieldType = new int[NumberOfBaryonFields];
printf("CurrentGrid size is %d\n", size);
for( int i = 0; i < p.NumberOfFields; i++){
CurrentGrid->cdata[i] = NULL;
CurrentGrid->vdata[i] = NULL;
CurrentGrid->cdata[i] = new float[size];
CurrentGrid->vdata[i] = new float[vsize];
Printcell<<<1,1>>>(Grid_dev, i);//Print out element value of Grid_dev->cdata[i]
cudaDeviceSynchronize();
cudaMemcpy(CurrentGrid->cdata[i], Grid_dev->cdata[i], size*sizeof(float),\
cudaMemcpyDeviceToHost); //where error occurs
#if DEBUG_DEV
cudaCheckErrors("cudaMemcpy2 error");
#endif
printf("\nAfter copy cell data\n");
Print<<<1,1>>>(Grid_dev, i);
cudaDeviceSynchronize();
cudaMemcpy(CurrentGrid->vdata[i], Grid_dev->vdata[i], vsize*sizeof(float),\
cudaMemcpyDeviceToHost);
#if DEBUG_DEV
cudaCheckErrors("cudaMemcpy3 error");
#endif
}
cudaMemcpy(CurrentGrid->FieldType, Grid_dev->FieldType,\
NumberOfBaryonFields*sizeof(int), cudaMemcpyDeviceToHost);
#if DEBUG_DEV
cudaCheckErrors("cudaMemcpy4 error");
#endif
}
编辑:这是来自 valgrind 的信息,我试图从中找出内存泄漏发生的位置。
==19340== Warning: set address range perms: large range [0x800000000, 0xd00000000) (noaccess)
==19340== Warning: set address range perms: large range [0x200000000, 0x400000000) (noaccess)
==19340== Invalid read of size 8
==19340== at 0x402C79: CopyDataToHost(param_t, grid*, grid*) (CheckDevice.cu:48)
==19340== by 0x403646: CheckDevice(param_t, grid*, grid*) (CheckDevice.cu:186)
==19340== by 0x40A6CD: main (Transport.cu:81)
==19340== Address 0x2003000c0 is not stack'd, malloc'd or (recently) free'd
==19340==
==19340==
==19340== Process terminating with default action of signal 11 (SIGSEGV)
==19340== Bad permissions for mapped region at address 0x2003000C0
==19340== at 0x402C79: CopyDataToHost(param_t, grid*, grid*) (CheckDevice.cu:48)
==19340== by 0x403646: CheckDevice(param_t, grid*, grid*) (CheckDevice.cu:186)
==19340== by 0x40A6CD: main (Transport.cu:81)
==19340==
==19340== HEAP SUMMARY:
==19340== in use at exit: 2,611,365 bytes in 5,017 blocks
==19340== total heap usage: 5,879 allocs, 862 frees, 4,332,278 bytes allocated
==19340==
==19340== LEAK SUMMARY:
==19340== definitely lost: 0 bytes in 0 blocks
==19340== indirectly lost: 0 bytes in 0 blocks
==19340== possibly lost: 37,416 bytes in 274 blocks
==19340== still reachable: 2,573,949 bytes in 4,743 blocks
==19340== suppressed: 0 bytes in 0 blocks
==19340== Rerun with --leak-check=full to see details of leaked memory
==19340==
==19340== For counts of detected and suppressed errors, rerun with: -v
==19340== ERROR SUMMARY: 1 errors from 1 contexts (suppressed: 2 from 2)
最佳答案
我相信我知道问题所在,但要确认问题所在,查看您用于在设备上设置 Grid_dev
类的代码会很有用。
当要在设备上使用类或其他数据结构时,并且该类中具有引用内存中其他对象或缓冲区的指针(对于将在设备上使用的类,大概在设备内存中) ),那么让这个顶级类在设备上可用的过程就变得更加复杂。
假设我有一堂这样的课:
class myclass{
int myval;
int *myptr;
}
我可以在主机上实例化上述类,然后malloc
一个int
数组并将该指针分配给myptr
,等等就可以了。为了使此类在设备上可用且仅在设备上可用,过程可能类似。我可以:
myclass
myclass
的实例化对象复制到步骤 1 中的设备指针malloc
或new
为myptr
分配设备存储如果我不想访问主机上为 myptr
分配的存储,上面的序列就可以了。但如果我确实希望主机可以看到该存储,我需要不同的顺序:
myclass
,我们称之为 mydevobj
myclass
的实例化对象复制到步骤 1 中的设备指针 mydevobj
myhostptr
int
在设备上存储 myhostptr
myhostptr
的指针值&(mydevobj->myptr)
之后,您可以将嵌入指针myptr
指向的数据cudaMemcpy
到上分配的区域(通过
cudaMalloc
) >myhostptr
请注意,在步骤 5 中,因为我正在获取此指针位置的地址,所以此 cudaMemcpy 操作仅需要主机上的 mydevobj
指针,该指针仅在 cudaMemcpy 操作中有效。
设备指针myint
的值将被正确设置来执行您尝试执行的操作。如果您随后想要将 cudaMemcpy 数据传入或传出 myint
到主机,则可以在任何 cudaMemcpy 调用中使用指针 myhostptr
,而不是 mydevobj->myptr
。如果我们尝试使用mydevobj->myptr
,则需要取消引用mydevobj
,然后使用它来检索存储在myptr
中的指针,然后使用该指针作为到/从位置的拷贝。这在主机代码中是 Not Acceptable 。如果你尝试这样做,你会遇到段错误。 (请注意,通过类比,我的 mydevobj
就像您的 Grid_dev
,我的 myptr
就像您的 cdata
)
总的来说,这是一个在你第一次遇到它时需要仔细思考的概念,所以像这样的问题在 SO 上会出现一些频率。您可能想研究其中一些问题以查看代码示例(因为您尚未提供设置 Grid_dev
的代码):
关于c++ - cudaMemcpy 段错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23304015/
#include using namespace std; class C{ private: int value; public: C(){ value = 0;
这个问题已经有答案了: What is the difference between char a[] = ?string?; and char *p = ?string?;? (8 个回答) 已关闭
关闭。此题需要details or clarity 。目前不接受答案。 想要改进这个问题吗?通过 editing this post 添加详细信息并澄清问题. 已关闭 7 年前。 此帖子已于 8 个月
除了调试之外,是否有任何针对 c、c++ 或 c# 的测试工具,其工作原理类似于将独立函数复制粘贴到某个文本框,然后在其他文本框中输入参数? 最佳答案 也许您会考虑单元测试。我推荐你谷歌测试和谷歌模拟
我想在第二台显示器中移动一个窗口 (HWND)。问题是我尝试了很多方法,例如将分辨率加倍或输入负值,但它永远无法将窗口放在我的第二台显示器上。 关于如何在 C/C++/c# 中执行此操作的任何线索 最
我正在寻找 C/C++/C## 中不同类型 DES 的现有实现。我的运行平台是Windows XP/Vista/7。 我正在尝试编写一个 C# 程序,它将使用 DES 算法进行加密和解密。我需要一些实
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visit the help center . 关闭 1
有没有办法强制将另一个 窗口置于顶部? 不是应用程序的窗口,而是另一个已经在系统上运行的窗口。 (Windows, C/C++/C#) 最佳答案 SetWindowPos(that_window_ha
假设您可以在 C/C++ 或 Csharp 之间做出选择,并且您打算在 Windows 和 Linux 服务器上运行同一服务器的多个实例,那么构建套接字服务器应用程序的最明智选择是什么? 最佳答案 如
你们能告诉我它们之间的区别吗? 顺便问一下,有什么叫C++库或C库的吗? 最佳答案 C++ 标准库 和 C 标准库 是 C++ 和 C 标准定义的库,提供给 C++ 和 C 程序使用。那是那些词的共同
下面的测试代码,我将输出信息放在注释中。我使用的是 gcc 4.8.5 和 Centos 7.2。 #include #include class C { public:
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它,visit the help center 。 已关
我的客户将使用名为 annoucement 的结构/类与客户通信。我想我会用 C++ 编写服务器。会有很多不同的类继承annoucement。我的问题是通过网络将这些类发送给客户端 我想也许我应该使用
我在 C# 中有以下函数: public Matrix ConcatDescriptors(IList> descriptors) { int cols = descriptors[0].Co
我有一个项目要编写一个函数来对某些数据执行某些操作。我可以用 C/C++ 编写代码,但我不想与雇主共享该函数的代码。相反,我只想让他有权在他自己的代码中调用该函数。是否可以?我想到了这两种方法 - 在
我使用的是编写糟糕的第 3 方 (C/C++) Api。我从托管代码(C++/CLI)中使用它。有时会出现“访问冲突错误”。这使整个应用程序崩溃。我知道我无法处理这些错误[如果指针访问非法内存位置等,
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。 关闭 7 年前。
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。 要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的,因为
我有一些 C 代码,将使用 P/Invoke 从 C# 调用。我正在尝试为这个 C 函数定义一个 C# 等效项。 SomeData* DoSomething(); struct SomeData {
这个问题已经有答案了: Why are these constructs using pre and post-increment undefined behavior? (14 个回答) 已关闭 6
我是一名优秀的程序员,十分优秀!