visual-c++ - CPU 和 GPU 代码与 CUDA 之间的内存布局不匹配-6ren

visual-c++ - CPU 和 GPU 代码与 CUDA 之间的内存布局不匹配

转载作者：行者123 更新时间：2023-12-04 04:56:57

25

4

我正在经历一个非常奇怪的情况。我有这个模板结构:

#ifdef __CUDACC__
#define __HOSTDEVICE __host__ __device__
#else
#define __HOSTDEVICE
#endif

template <typename T>
struct matrix
{
    T* ptr;
    int col_size, row_size;
    int stride;
    // some host & device methods
};

struct dummy1 {};
struct dummy2 : dummy1 {};

template <typename T>
struct a_functor : dummy2
{
    matriz<T> help_m;
    matrix<T> x, y;
    T *x_ptr, *y_ptr;
    int bsx, ind_thr;
    __HOSTDEVICE void operator()(T* __x, T* __y)
    {
        // functor code
    }
};

我已经构造了我的代码以分离 cpp 和 cu 文件，因此 a_functor 对象在 cpp 文件中创建并在内核函数中使用。问题是，在内核中执行 operator() 时，我发现了一些仅查看代码无法解释的随机行为。就像我的结构有点损坏。因此，在 a_functor 对象上调用 sizeof()，我发现:

CPU 代码(内核外的 .cpp 和 .cu):64 字节

GPU 代码(内核内部):68 字节

显然有某种不匹配破坏了整个东西。更进一步，我跟踪了 struct 参数指针和 struct 本身之间的距离 - 尝试检查生成的内存布局 - 这是我发现的:

a_functor foo;
// CPU
(char*)(&foo.help_m)    - (char*)(&foo)   = 0
(char*)(&foo.x)         - (char*)(&foo)   = 16
(char*)(&foo.y)         - (char*)(&foo)   = 32
(char*)(&foo.x_ptr)     - (char*)(&foo)   = 48
(char*)(&foo.y_ptr)     - (char*)(&foo)   = 52
(char*)(&foo.bsx)       - (char*)(&foo)   = 56
(char*)(&foo.ind_thr)   - (char*)(&foo)   = 60

// GPU - inside a_functor::operator(), in-kernel
(char*)(&this->help_m)  - (char*)(this)   = 4
(char*)(&this->x)       - (char*)(this)   = 20
(char*)(&this->y)       - (char*)(this)   = 36
(char*)(&this->x_ptr)   - (char*)(this)   = 52
(char*)(&this->y_ptr)   - (char*)(this)   = 56
(char*)(&this->bsx)     - (char*)(this)   = 60
(char*)(&this->ind_thr) - (char*)(this)   = 64

我真的不明白为什么 nvcc 为我的结构生成了这个内存布局(那 4 个字节应该是/做什么!？!)。我认为这可能是一个对齐问题，我尝试明确对齐 a_functor，但我不能，因为它是在内核中按值传递的

template <typename T, typename Str>
__global__ void mykernel(Str foo, T* src, T*dst);

当我尝试编译时，我得到

错误:无法将显式对齐太大的参数传递给全局 win32平台上的例程

所以，为了解决这个奇怪的情况(......我确实认为这是一个 nvcc 错误)，我该怎么办？我唯一能想到的就是调整对齐并通过指针将我的结构传递给内核以避免上述错误。但是，我真的想知道:为什么内存布局不匹配？!真的没意思。。。

更多信息:我正在使用 Visual Studio 2008，在 Windows XP 32 位平台上使用 MSVC 进行编译。我安装了最新的 CUDA Toolkit 5.0.35。我的卡是 GeForce GTX 570(计算能力 2.0)。

最佳答案

从评论看来，您实际运行的代码和您发布的代码之间可能存在差异，因此在没有人能够重现问题的情况下，很难给出模糊的答案。也就是说，在 Windows 上，有些情况下结构的布局和大小在 CPU 和 GPU 之间可能不同，这些是 documented在编程指南中:

On Windows, the CUDA compiler may produce a different memory layout, compared to the host Microsoft compiler, for a C++ object of class type T that satisfies any of the following conditions:

T has virtual functions or derives from a direct or indirect base class that has virtual functions;

T has a direct or indirect virtual base class;

T has multiple inheritance with more than one direct or indirect empty base class.

The size for such an object may also be different in host and device code. As long as type T is used exclusively in host or device code, the program should work correctly. Do not pass objects of type T between host and device code (e.g., as arguments to global functions or through cudaMemcpy*() calls).

第三种情况可能适用于您有一个空基类的情况，您在实际代码中是否有多重继承？

关于visual-c++ - CPU 和 GPU 代码与 CUDA 之间的内存布局不匹配，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16641004/

25

4

0

文章推荐： backbone.js - 低耦合 : add a model to a collection of a different view

文章推荐： sublimetext2 - 如何在 Sublime Text 2 中设置侧边栏的宽度？

文章推荐： google-compute-engine - 实时更新Google Compute Engine实例类型

文章推荐： php - 简单的xml添加属性

android - sw320dp 布局 block xlarge 布局
我为 S3 做了一个额外的布局(所有布局的反叛)，人们说，使用 layout-sw320dp 对 s3 有好处。一切正常，s3 选择了这个文件夹，布局在 s3 上看起来很棒。但是当我尝试在 10"平
html - 未对齐的 CSS 布局 - 具有固定中心的 3 col 布局
我是 CSS 的新手，我正在尝试创建一个 3 列布局。也应该有一个居中的页脚。页面的总高度应该填满当前的屏幕。宽度似乎不对。目前，页脚在尺寸和位置上似乎都没有对齐。 I have attached
Java游戏-布局
已关闭。这个问题是 off-topic 。目前不接受答案。想要改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。已关闭10 年前。 Improve th
android确定设备是否为从右到左的语言/布局
有没有办法确定设备是从右到左的语言(比如阿拉伯语)而不是从左到右的语言(英语)？需要与旧 API 级别(低至 10)兼容的东西解决方案我最终在接受的答案中使用了 xml 方法。更进一步，我还添加
QT 布局 - 初始方向
我是 QT 的新手。我试图通过实现下面看到的这个小窗口来理解布局机制。它在作为主窗口的 QWidget 下具有以下元素: 一个延伸到所有客户区域的大型 QWidget。窗口顶部的两个 QWidget
Extjs Accordion 布局
Accordion 布局是堆叠面板布局，因为此时只有一个面板可见，但我想同时显示两个面板可见，所以我们可以使用 Accordion 面板来做到这一点吗？？最佳答案您不能扩展现有的 Accordio
sql - 简单的数据库表设计/布局
我只是想知道，作为一个假设示例，针对以下场景布局表格的最佳方式是什么: 假设我正在编写一个用于跟踪学生出勤的应用程序。每年年初，我都想添加所有学生(我将手动执行此操作 - 现在，是否应该为这里的每个学
SVN 布局——最佳实践
在 CVS 中，我们的项目中有多个目录。有一个夜间构建，它必须从同一个 CVS 项目的不同目录中提取东西才能构建夜间构建。所以我应该记住这一点，如果我们迁移到 SVN，我必须修改构建脚本以从不同的存
窗口上的 WPF 布局
我在 WPF Windows 上有几个列表框，带有 Height="Auto" Width="Auto"在表格上设置表单大小在不同分辨率下完美匹配，但问题是当我按下最大化按钮时，在表单调整大小时会看
WPF 布局，我可以清理它吗？
仅供引用，我是 WPF 的新手。我正在我的 WPF 应用程序中创建一个侧边栏并想要圆角。我学到的不是可以附加到网格的属性。另外，我尝试将文本块放在边框控件中，但我收到的错误消息说“ child 只能
codeigniter - 如何使用基本设计样式创建母版页(布局)
我是CodeIgniter的新手。我想使用包含菜单，页脚等的基本样式创建母版页或布局。我不想在所有页面中编写重复的内容并为所有页面自动加载。例如，我可以在asp.net中创建母版页，或者在asp.ne
一个窗口的 eclipse 布局
我正在使用它来调试应用程序。调试的时候发现底部显示了一个窗口中变量的值，如图- 但是，当我显示表达式时，我得到这样的布局 - 我的问题是，是否可以更改变量窗口的布局也可以在右侧显示值，因为这对我来说很
Magento XML 布局
上面的代码中，放置“as=”footer_links”是什么意思？最佳答案 as="x" 语法定义模板可用来调用 block 的名称。因此，对于以下内容: 在outer_block.p
c++ - RegGetValueA格式/布局
我试图编写一个检查注册表值的功能，以查看Windows上的控制台是否启用了颜色。 Computer\HKEY_CURRENT_USER\Console\VirtualTerminalLevel 如果您
动态添加区域到 Marionette 布局
我有一个布局，但无法提前定义其所有区域，因为它们是未知的。稍后创建了 ItemView，我想使用 View 的 ID 作为区域名称在布局中创建一个新区域，这样我就可以说: layout.dynami
以多列和行作为启动任务的 ConEmu 布局
我们有一个相当复杂的 gulp 构建过程，涉及多个模块，每个模块都有一个或两个 watch 。我想在一个仪表板中监控这一点，如下所示: 每一列都是一个模块，列内的每一行都是后续的构建步骤。一旦第 1
Java JFrame 布局
这就是问题所在，我有一个 MainWindow 类，它在一个设置例程中扩展了 JFrame，我将该类的布局设置为新的 CardLayout()。这一切都工作正常，但是当我从 JFrame 请求布局并将
Java JFrame 布局
我正在制作一个简单的迷宫程序，用户可以在其中创建墙壁、路径、起点和终点，单击“解决”，迷宫将被解决。为此，我有一个大小为 640x480 的 java JFrame。在 JFrame 的左侧，我有一个
一个窗口的 eclipse 布局
我正在使用它来调试应用程序。调试的时候发现底部显示了一个窗口中变量的值，如图- 但是，当我显示表达式时，我得到这样的布局 - 我的问题是，是否可以更改变量窗口的布局也可以在右侧显示值，因为这对我来说很
JavaFX VBox 布局
我已经编写了使用 VBox 作为布局的代码。我希望按钮出现在顶行，然后绘制 2 条水平线，在 400x400 场景中应位于 y=200 和 300 处。但输出显示了我给出的不同坐标处的线条。我知道这

首页

博学

6Ren·AI

商城

visual-c++ - CPU 和 GPU 代码与 CUDA 之间的内存布局不匹配