cuda - CUDA 中未对齐的地址-6ren

cuda - CUDA 中未对齐的地址

转载作者：行者123 更新时间：2023-12-01 04:27:18

24

4

谁能告诉我 CUDA 内核中的以下代码有什么问题:

__constant__ unsigned char MT[256] = {
    0xde, 0x6f, 0x6f, 0xb1, 0xde, 0x6f, 0x6f, 0xb1, 0x91, 0xc5, 0xc5, 0x54, 0x91, 0xc5, 0xc5, 0x54,....};

typedef unsinged int U32;

__global__ void Kernel (unsigned int  *PT, unsigned int  *CT, unsigned int  *rk)
{

    long int i;
    __shared__ unsigned char sh_MT[256];    

    for (i = 0; i < 64; i += 4)
        ((U32*)sh_MT)[threadIdx.x + i] = ((U32*)MT)[threadIdx.x + i];

    __shared__ unsigned int sh_rkey[4];
    __shared__ unsigned int sh_state_pl[4];
    __shared__ unsigned int sh_state_ct[4];

    sh_state_pl[threadIdx.x] = PT[threadIdx.x];
    sh_rkey[threadIdx.x] = rk[threadIdx.x];
    __syncthreads();


    sh_state_ct[threadIdx.x] = ((U32*)sh_MT)[sh_state_pl[threadIdx.x]]^\
    ((U32*)(sh_MT+3))[((sh_state_pl[(1 + threadIdx.x) % 4] >> 8) & 0xff)] ^ \
    ((U32*)(sh_MT+2))[((sh_state_pl[(2 + threadIdx.x) % 4] >> 16) & 0xff)] ^\
    ((U32*)(sh_MT+1))[((sh_state_pl[(3 + threadIdx.x) % 4] >> 24) & 0xff )];


    CT[threadIdx.x] = sh_state_ct[threadIdx.x];
}

在这行代码中，

((U32*)(sh_MT+3))......

CUDA 调试器给了我错误信息:
地址未对齐

我该如何解决这个错误？

我在 MVSC 中使用 CUDA 7，我使用 1 个块和 4 个线程来执行内核函数，如下所示:

__device__ unsigned int *state;
__device__ unsigned int *key;
__device__ unsigned int *ct;
.
.
main()
{
cudaMalloc((void**)&state, 16);
cudaMalloc((void**)&ct, 16);
cudaMalloc((void**)&key, 16);
//cudamemcpy(copy some values to => state , ct, key);   
Kernel << <1, 4 >> >(state, ct, key); 
}

请记住，我无法更改我的“MT 表”类型。
预先感谢您的任何建议或回答。

最佳答案

错误消息的意思是指针未与处理器所需的边界对齐。
来自 CUDA Programming Guide, section 5.3.2 :

Global memory instructions support reading or writing words of size equal to 1, 2, 4, 8, or 16 bytes. Any access (via a variable or a pointer) to data residing in global memory compiles to a single global memory instruction if and only if the size of the data type is 1, 2, 4, 8, or 16 bytes and the data is naturally aligned (i.e., its address is a multiple of that size).

这就是调试器试图告诉您的:基本上，您不应该从未在 32 位边界对齐的地址取消引用指向 32 位值的指针。
你可以做 (U32*)(sh_MT)和 (U32*)(sh_MT+4)很好，但不是 (U32*)(sh_MT+3)或诸如此类。
您可能必须分别读取字节并将它们连接在一起。

关于cuda - CUDA 中未对齐的地址，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37323053/

24

4

0

文章推荐： java - 请求 URL 参数破坏输入流 Java

文章推荐： jquery - 滚动到 div

文章推荐： php - 使用 laravel 5 调用 python gearman worker

文章推荐： jQuery AJAX 成功背景

dns - 域位于一个 IP 地址，子域位于不同的 IP 地址
目前，我有以下设置: A记录: mydomain.com - aaa.aaa.aaa.aaa subdomain.mydomain.com - aaa.aaa.aaa.aaa NS记录: mydoma
nHibernate 将实体映射到多个不同的父实体(例如，地址 -> 公司、地址 -> 客户端)
有人可以帮助我以最佳方式在流畅的 nHibernate 中映射以下情况吗？ Address 类用于 Client 和 Company。如何在 SQL 中最有效地存储它？映射应该是什么样的？我已经考虑过
C# - 一个 MAC 地址，多个源 IP 地址
我正在尝试编写一个 Windows 应用程序，它将在来自 PC 的以太网链接上生成流量。我想使用 webBrowser 控件不断拉取网页以产生流量。在这种情况下，我希望每个 webBrowser
sockets - 如何确定将使用哪个网络接口(interface)(IP 地址)将数据包发送到特定 IP 地址？
我正在编写一个 SIP 堆栈，我需要在消息中插入一个 IP 地址。该地址必须是用于发送消息的地址。我知道目标 IP 并且需要确定将用于发送消息的 NIC(其地址).... 最佳答案为了扩展 Remy
python - 如何使用 IP 地址 python 获取 MAC 地址
如何使用 IP 地址获取 MAC 地址，但以下代码不起作用 packet = ARP(op=ARP.who_has,psrc="some ip",pdst = ip) response = srp(p
iphone - 获取连接到 LAN 的设备的 IP 地址/MAC 地址
目前我想知道如何实现对本地无线网络(路由器)的获取请求以获取当前连接到当前连接的 LAN 的所有设备.... 所以我做了一些研究，显然“nmap”是一个终端/命令提示符命令，它将连接的设备返回到本地无
objective-c - 获取另一台计算机的 MAC 地址，给定其 IP 地址
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicates: how to find MAC address in MAC OS X programmatically
ios - 是否有可能以某种方式将 IPV6 地址转换为 IPV4 地址，或者始终检索 IPV4 地址？
我们正在为 ipad 开发一个 iOS 应用程序，它使用 bonjour 与其他设备连接，使用 couchbaseListener 与对等数据库进行复制。我们观察到，每当 [nsnetservice
如果使用 AWS 弹性 IP 地址，Cassandra 无法联系种子...仅适用于私有(private) IP 地址
我创建了 3 个实例，其中 3 个弹性 IP 地址指向这些实例。我做了 dsc 的 yum 安装:dsc12.noarch 1.2.13-1 @datastax 并且/etc/cassandra/d
azure - 通过 Python SDK 获取规模集中虚拟机的私有(private) IP 地址(规模集中没有公共(public) IP 地址)
我正在尝试获取规模集中所有虚拟机的私有(private) IP 地址列表(没有一个虚拟机故意拥有任何公共(public) IP 地址)。我找到了如何从 az cli 获取此内容，如下所示: az vm
azure - 通过 Python SDK 获取规模集中虚拟机的私有(private) IP 地址(规模集中没有公共(public) IP 地址)
我正在尝试获取规模集中所有虚拟机的私有(private) IP 地址列表(没有一个虚拟机故意拥有任何公共(public) IP 地址)。我找到了如何从 az cli 获取此内容，如下所示: az vm
c# - IPv4 地址 0.0.0.0 和 IPv6 地址::0 是不能用作目标地址的未指定地址
我正在尝试与该端口上的任何 IP 建立连接。最初，我将其设置为 10.0.0.7，这是我网络上另一台计算机的 IP，因此我可以测试客户端/服务器。但是，我希望它可以与任何计算机一起使用而不必将 IP
MySQL/MariaDB 绑定(bind)地址服务器公共(public)地址或者::或 0.0.0.0？
作为序言，我开发了自己的 CRM(类似于 SalesForce 或 SAP)，其“规模”要小得多，因为它面向服务，而不是销售。我在 Ubuntu 16.04 服务器上使用 MySql 或 MariaD
重载函数的C++地址
在我的项目中，我想做如下事情: static void test0(void) { printf("%s [%d]\n", __func__, __LINE__); } static void
套接字和多个 IP 地址
我的机器上有两个网卡，配置了两个独立的 IP 地址。两个 IP 地址都属于同一个网络。我是否正确地说，当我创建一个特定于这些 IP 地址之一的套接字时？更新: 这是我的情况: 我有一个位于 192.
SQL 数据库设计最佳实践(地址)
当然，我意识到没有一种“正确的方法”来设计 SQL 数据库，但我想就我的特定场景中的优劣获得一些意见。目前，我正在设计一个订单输入模块(带有 SQL Server 2008 的 Windows .N
elasticsearch - Elasticsearch最佳实践(地址)
我们将保存大量地址数据(在我公司的眼中，每个客户大约有150.000至500.000行)。地址数据包含约5列: 名称1 名称2 街(+否) 邮政编码市也许以后再添加一些东西(例如电话，邮件等)
验证码 IP 地址
好的，我们在生产中实现了 Recaptcha。我们收到错误是因为它无法到达使用该服务所需的 IP 地址。我们为 IP 地址打开一个端口以到达 Google。没问题。我们这样做并显式配置该 IP 地址以
使用联系表发送的电子邮件显示管理员 "from"地址，而不是访客电子邮件
此页面使用 Drupals 联系表发送电子邮件:http://www.westlake.school.nz/contact 问题是，学校员工使用 outlook。当他们收到来自 parent 等的电子
ios - 地址/邮政编码为NSString到CLLocation
是否可以将用户输入的邮政编码转换为文本框并将其转换为CLLocation？我正在尝试比较其当前位置与地址或邮政编码之间的距离，如果可以从NSString中创建CLLocation，这将很容易。最佳答

首页

博学

6Ren·AI

商城

cuda - CUDA 中未对齐的地址