memory - 如何访问内核中的常量内存？-6ren

memory - 如何访问内核中的常量内存？

转载作者：行者123 更新时间：2023-12-02 06:06:34

25

4

我无法访问常驻内存中的数据，我也不知道为什么。这是我的代码片段:

#define N 10
__constant__ int constBuf_d[N];

__global__ void foo( int *results, int *constBuf )
{
    int tdx = threadIdx.x;
    int idx = blockIdx.x * blockDim.x + tdx;

    if( idx < N )
    {
         results[idx] = constBuf[idx];
    }
}

// main routine that executes on the host
int main(int argc, char* argv[])
{
    int *results_h = new int[N];
    int *results_d = NULL;

    cudaMalloc((void **)&results_d, N*sizeof(int));

    int arr[10] = { 16, 2, 77, 40, 12, 3, 5, 3, 6, 6 };

    int *cpnt;
    cudaError_t err = cudaGetSymbolAddress((void **)&cpnt, "constBuf_d");

    if( err )
        cout << "error!";

    cudaMemcpyToSymbol((void**)&cpnt, arr, N*sizeof(int), 0, cudaMemcpyHostToDevice);

    foo <<< 1, 256 >>> ( results_d, cpnt );

    cudaMemcpy(results_h, results_d, N*sizeof(int), cudaMemcpyDeviceToHost);

    for( int i=0; i < N; ++i )
        printf("%i ", results_h[i] );
}

出于某种原因，我在 results_h 中只得到“0”。我正在使用功能为 1.1 的卡运行 CUDA 4.0。

有什么想法吗？谢谢!

最佳答案

如果您在代码中添加适当的错误检查，您会发现 cudaMemcpyToSymbol 因设备符号无效错误而失败。您要么需要按名称传递符号，要么改用 cudaMemcpy。所以这个:

cudaGetSymbolAddress((void **)&cpnt, "constBuf_d");
cudaMemcpy(cpnt, arr, N*sizeof(int), cudaMemcpyHostToDevice);

或

cudaMemcpyToSymbol("constBuf_d", arr, N*sizeof(int), 0, cudaMemcpyHostToDevice);

或

cudaMemcpyToSymbol(constBuf_d, arr, N*sizeof(int), 0, cudaMemcpyHostToDevice);

会起作用。话虽如此，将常量内存地址作为参数传递给内核是使用常量内存的错误方法 - 它会阻止编译器生成指令以通过常量内存缓存访问内存。比较为您的内核生成的 1.2 PTX 计算能力:

    .entry _Z3fooPiS_ (
        .param .u32 __cudaparm__Z3fooPiS__results,
        .param .u32 __cudaparm__Z3fooPiS__constBuf)
    {
    .reg .u16 %rh<4>;
    .reg .u32 %r<12>;
    .reg .pred %p<3>;
    .loc    16  7   0
$LDWbegin__Z3fooPiS_:
    mov.u16     %rh1, %ctaid.x;
    mov.u16     %rh2, %ntid.x;
    mul.wide.u16    %r1, %rh1, %rh2;
    cvt.s32.u16     %r2, %tid.x;
    add.u32     %r3, %r2, %r1;
    mov.u32     %r4, 9;
    setp.gt.s32     %p1, %r3, %r4;
    @%p1 bra    $Lt_0_1026;
    .loc    16  14  0
    mul.lo.u32  %r5, %r3, 4;
    ld.param.u32    %r6, [__cudaparm__Z3fooPiS__constBuf];
    add.u32     %r7, %r6, %r5;
    ld.global.s32   %r8, [%r7+0];
    ld.param.u32    %r9, [__cudaparm__Z3fooPiS__results];
    add.u32     %r10, %r9, %r5;
    st.global.s32   [%r10+0], %r8;
$Lt_0_1026:
    .loc    16  16  0
    exit;
$LDWend__Z3fooPiS_:
    } // _Z3fooPiS_

使用这个内核:

__global__ void foo2( int *results )
{
    int tdx = threadIdx.x;
    int idx = blockIdx.x * blockDim.x + tdx;

    if( idx < N )
    {
         results[idx] = constBuf_d[idx];
    }
}

产生

    .entry _Z4foo2Pi (
        .param .u32 __cudaparm__Z4foo2Pi_results)
    {
    .reg .u16 %rh<4>;
    .reg .u32 %r<12>;
    .reg .pred %p<3>;
    .loc    16  18  0
$LDWbegin__Z4foo2Pi:
    mov.u16     %rh1, %ctaid.x;
    mov.u16     %rh2, %ntid.x;
    mul.wide.u16    %r1, %rh1, %rh2;
    cvt.s32.u16     %r2, %tid.x;
    add.u32     %r3, %r2, %r1;
    mov.u32     %r4, 9;
    setp.gt.s32     %p1, %r3, %r4;
    @%p1 bra    $Lt_1_1026;
    .loc    16  25  0
    mul.lo.u32  %r5, %r3, 4;
    mov.u32     %r6, constBuf_d;
    add.u32     %r7, %r5, %r6;
    ld.const.s32    %r8, [%r7+0];
    ld.param.u32    %r9, [__cudaparm__Z4foo2Pi_results];
    add.u32     %r10, %r9, %r5;
    st.global.s32   [%r10+0], %r8;
$Lt_1_1026:
    .loc    16  27  0
    exit;
$LDWend__Z4foo2Pi:
    } // _Z4foo2Pi

请注意，在第二种情况下，constBuf_d 是通过 ld.const.s32 而不是 ld.global.s32 访问的，所以使用该常量内存缓存。

关于memory - 如何访问内核中的常量内存？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8773503/

25

4

0

文章推荐： .net - 在 vb.net 4.0 中对字典的整数值字段求和

文章推荐： apache-flex - 使用 FlashDevelop 打开 Adobe Flex 项目

C++ *常量 *常量
我试图为此搜索答案，但我发现很难找到这种“确切”的例子。我对指向指针的指针知之甚少，我觉得除了指向某物的指针之外，还有更多东西隐藏在它的表层之下。那么你们会如何翻译呢？ void free(sham
c++ - 常量 CFoo &bar() 常量
我有一个类的属性，比如const CFoo &bar() const，这是什么意思？最佳答案 bar 方法返回对 const CFoo 的引用(即 bar 之前的 const CFoo & 部分)，
c++ - 常量 int = int 常量？
例如是 int const x = 3; 有效代码？如果是的话，意思是一样的 const int x = 3; ? 最佳答案它们都是有效的代码并且它们都是等价的。对于指针类型，尽管它们都是有效代码
c++ - 常量 T & 与 T & 常量。有什么不同？
我知道 f(const T& obj) // (1) g(T const& obj) // (2) 是一样的。(我们不能改变f和g中obj的值)。但是什么 h(T & const) // (3) 真
PHP基础教程六之函数、常量
本节讲解的内容 include和include_once require和require_once 常量引入文件和常量结合案列变量操作函数输出语句前言在上篇文章中，我们讨论了函数的应用，但是
JavaScript 常量
我们知道我们可以保护变量的值，因此用户无法更改现有变量的值!这对对象来说没有什么问题吗？？例如.. const x = 5; x = 10; alert(x) // will be returned
常量 for 循环产生错误的结果
我正准备为 CUDA 设备编写直方图内核。它基于 NVIDIA's paper . 这个想法是每个线程计算某个部分(在我的例子中是体积)的部分直方图并将其写入共享内存块。然而，我遇到了一个奇怪的算法问
C# 常量
常量是固定值，程序执行期间不会改变。常量可以是任何基本数据类型，比如整数常量、浮点常量、字符常量或者字符串常量，还有枚举常量。常量可以被当作常规的变量，只是它们的值在定义后不能被修改。整数常
perl - 如何区分函数参数中的变量和文字/常量
在这种情况下，如何识别是否有变量或字面量传递给函数 f()？如何实现passed_as_constant()检查(见下面代码)？ sub f { my $refStr=\$_[0]; ret
Python win32com 常量
我目前想知道如何在 python 中列出 win32com 中的常量，例如使用 excel win32com.client.Dispatch('Excel.Application') 有没有办法使用
IF 内的 PHP 常量
这个问题在这里已经有了答案: PHP | define() vs. const (9 个回答) 关闭8年前。在 PHP 中遇到常量问题想知道是否有人可以解释: 这行得通 const _ROOT =
rust - 常量、常规不可变变量和静态变量之间有什么区别？
我正在学习 Rust，到目前为止，似乎有 3 种声明变量的方法: const A: u8 = 42; static A: u8 = 42; let A: u8 = 42; 我知道你不能有一个可变的 c
d - 表达式是否忽略不可变/常量？
我正在使用函数模板 void _createAttr(T)(args..., in T[]) 并使用测试 T 的类型函数中的 static if(is(T == char)) 。当我打电话时， _c
Erlang:在编译时计算数据结构文字(常量)？
这可能是一个天真的问题，我怀疑答案是"is"，但我没有运气在这里和其他地方搜索“erlang编译器优化常量”等术语。无论如何，erlang 编译器是否可以(将)在编译时创建一个常量或文字的数据结构，并
JavaScript， react 常量
我刚遇到这段 Java 脚本代码: const { myKey, uname, issorted, title, hClick, } = this.props; 请告诉我这是什么意
java - 访问扩展类中的属性/常量
我正在努力实现以下目标: 我有一个父类，有一些逻辑。在子类中，我“重新定义”常量/属性。有没有办法让子属性可以通过父类中定义的方法访问？或者更具体地说 - 有什么方法可以强制“out”方法在下面的示例
Java外部类访问内部类接口(interface)常量
如果这是个愚蠢的问题，请原谅。我有一个带有内部类接口(interface)的“fragment ”外部类。该接口(interface)仅由另一个 Activity 类使用“implements Ou
python - 当字典被覆盖时如何修复类变量/常量？
我是 python 新手，尝试使用默认值并为类实例自定义它们。因此，在这个示例中，我定义了一个 DEFAULT_STRING 和一个 DEFAULT_SETTINGS 变量，可以使用 customi
C# XML 常量
在 integer.xml 中，其形式为 0x001 0x002 是代码和 xml 文件都需要的存储常量。 C# 识别 Droid.Resource.Integer.foo，但它有一些大的
跨平台访问 C 常量
是否有跨平台(即跨 Linux、BSD 和 OS X，最好是所有 POSIX)我可以纯粹基于字符串以编程方式访问诸如 O_RDWR 之类的常量>“O_RDWR”？我正在编写一些(非 C)代码，这些代

首页

博学

6Ren·AI

商城

memory - 如何访问内核中的常量内存？