cuda - 常量内存中的推力::device

cuda - 常量内存中的推力::device_vector

转载作者：行者123 更新时间：2023-12-04 07:55:08

29

4

我有一个需要在设备上多次引用的浮点数组，所以我相信存储它的最佳位置是 __ 常量 __ 内存(使用 this reference )。数组(或向量)在初始化时需要在运行时写入一次，但由多个不同的函数读取数百万次，因此每次函数调用不断复制到内核似乎是一个坏主意。

const int n = 32;
__constant__ float dev_x[n]; //the array in question

struct struct_max : public thrust::unary_function<float,float> {
    float C;
    struct_max(float _C) : C(_C) {}
    __host__ __device__ float operator()(const float& x) const { return fmax(x,C);}
};
void foo(const thrust::host_vector<float> &, const float &);

int main() {
    thrust::host_vector<float> x(n);
    //magic happens populate x
    cudaMemcpyToSymbol(dev_x,x.data(),n*sizeof(float));

    foo(x,0.0);
    return(0);
}

void foo(const thrust::host_vector<float> &input_host_x, const float &x0) {
    thrust::device_vector<float> dev_sol(n);
    thrust::host_vector<float> host_sol(n);

    //this method works fine, but the memory transfer is unacceptable
    thrust::device_vector<float> input_dev_vec(n);
    input_dev_vec = input_host_x; //I want to avoid this
    thrust::transform(input_dev_vec.begin(),input_dev_vec.end(),dev_sol.begin(),struct_max(x0));
    host_sol = dev_sol; //this memory transfer for debugging

    //this method compiles fine, but crashes at runtime
    thrust::device_ptr<float> dev_ptr = thrust::device_pointer_cast(dev_x);
    thrust::transform(dev_ptr,dev_ptr+n,dev_sol.begin(),struct_max(x0));
    host_sol = dev_sol; //this line crashes
}

我尝试添加一个全局推力::device_vector dev_x(n)，但它在运行时也崩溃了，并且会在 __ global __ 内存中而不是 __ constant__ 内存中

如果我只是丢弃推力库，这一切都可以工作，但是有没有办法将推力库与全局变量和设备常量内存一起使用？

最佳答案

好问题!你不能投 __constant__数组就好像它是一个普通的设备指针一样。

我会回答你的问题(在下面一行之后)，但首先:这是对 __constant__ 的错误使用，这不是你真正想要的。 CUDA 中的常量缓存针对warp 中跨线程的统一访问进行了优化。这意味着经纱中的所有线程同时访问相同的位置。如果 warp 的每个线程访问不同的常量内存位置，则访问将被序列化。因此，连续线程访问连续内存位置的访问模式将比统一访问慢 32 倍。你真的应该只使用设备内存。如果你需要一次写入数据，但读取它很多次，那么只需使用一个device_vector:初始化它一次，然后多次读取它。

要执行您的要求，您可以使用 thrust::counting_iterator作为 thrust::transform 的输入生成一系列索引到您的 __constant__大批。那么你的仿函数的operator()需要一个 int索引操作数而不是 float value 操作数，并在常量内存中查找。

(请注意，这意味着您的仿函数现在只有 __device__ 代码。如果您需要可移植性，您可以轻松地重载运算符以获取浮点数并在主机数据上对其进行不同的调用。)

我修改了您的示例以初始化数据并打印结果以验证它是否正确。

#include <stdio.h>
#include <stdlib.h>
#include <thrust/device_vector.h>
#include <thrust/host_vector.h>
#include <thrust/iterator/counting_iterator.h>

const int n = 32;
__constant__ float dev_x[n]; //the array in question

struct struct_max : public thrust::unary_function<float,float> {
    float C;
    struct_max(float _C) : C(_C) {}

    // only works as a device function
    __device__ float operator()(const int& i) const { 
        // use index into constant array
        return fmax(dev_x[i],C); 
    }
};

void foo(const thrust::host_vector<float> &input_host_x, const float &x0) {
    thrust::device_vector<float> dev_sol(n);
    thrust::host_vector<float> host_sol(n);

    thrust::device_ptr<float> dev_ptr = thrust::device_pointer_cast(dev_x);
    thrust::transform(thrust::make_counting_iterator(0),
                      thrust::make_counting_iterator(n),
                      dev_sol.begin(),
                      struct_max(x0));
    host_sol = dev_sol; //this line crashes

    for (int i = 0; i < n; i++)
        printf("%f\n", host_sol[i]);
}

int main() {
    thrust::host_vector<float> x(n);

    //magic happens populate x
    for (int i = 0; i < n; i++) x[i] = rand() / (float)RAND_MAX;

    cudaMemcpyToSymbol(dev_x,x.data(),n*sizeof(float));

    foo(x, 0.5);
    return(0);
}

关于cuda - 常量内存中的推力::device_vector，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17064096/

29

4

0

文章推荐： feedly - 如何在 feedly 中查找提要的订阅者数量

文章推荐： hyperledger-fabric - Hyperledger Composer 点对点连接未建立

文章推荐： hyperledger-fabric - 主要区别 Hyperledger Fabric 和 BigchainDB

C++ *常量 *常量
我试图为此搜索答案，但我发现很难找到这种“确切”的例子。我对指向指针的指针知之甚少，我觉得除了指向某物的指针之外，还有更多东西隐藏在它的表层之下。那么你们会如何翻译呢？ void free(sham
c++ - 常量 CFoo &bar() 常量
我有一个类的属性，比如const CFoo &bar() const，这是什么意思？最佳答案 bar 方法返回对 const CFoo 的引用(即 bar 之前的 const CFoo & 部分)，
c++ - 常量 int = int 常量？
例如是 int const x = 3; 有效代码？如果是的话，意思是一样的 const int x = 3; ? 最佳答案它们都是有效的代码并且它们都是等价的。对于指针类型，尽管它们都是有效代码
c++ - 常量 T & 与 T & 常量。有什么不同？
我知道 f(const T& obj) // (1) g(T const& obj) // (2) 是一样的。(我们不能改变f和g中obj的值)。但是什么 h(T & const) // (3) 真
PHP基础教程六之函数、常量
本节讲解的内容 include和include_once require和require_once 常量引入文件和常量结合案列变量操作函数输出语句前言在上篇文章中，我们讨论了函数的应用，但是
JavaScript 常量
我们知道我们可以保护变量的值，因此用户无法更改现有变量的值!这对对象来说没有什么问题吗？？例如.. const x = 5; x = 10; alert(x) // will be returned
常量 for 循环产生错误的结果
我正准备为 CUDA 设备编写直方图内核。它基于 NVIDIA's paper . 这个想法是每个线程计算某个部分(在我的例子中是体积)的部分直方图并将其写入共享内存块。然而，我遇到了一个奇怪的算法问
C# 常量
常量是固定值，程序执行期间不会改变。常量可以是任何基本数据类型，比如整数常量、浮点常量、字符常量或者字符串常量，还有枚举常量。常量可以被当作常规的变量，只是它们的值在定义后不能被修改。整数常
perl - 如何区分函数参数中的变量和文字/常量
在这种情况下，如何识别是否有变量或字面量传递给函数 f()？如何实现passed_as_constant()检查(见下面代码)？ sub f { my $refStr=\$_[0]; ret
Python win32com 常量
我目前想知道如何在 python 中列出 win32com 中的常量，例如使用 excel win32com.client.Dispatch('Excel.Application') 有没有办法使用
IF 内的 PHP 常量
这个问题在这里已经有了答案: PHP | define() vs. const (9 个回答) 关闭8年前。在 PHP 中遇到常量问题想知道是否有人可以解释: 这行得通 const _ROOT =
rust - 常量、常规不可变变量和静态变量之间有什么区别？
我正在学习 Rust，到目前为止，似乎有 3 种声明变量的方法: const A: u8 = 42; static A: u8 = 42; let A: u8 = 42; 我知道你不能有一个可变的 c
d - 表达式是否忽略不可变/常量？
我正在使用函数模板 void _createAttr(T)(args..., in T[]) 并使用测试 T 的类型函数中的 static if(is(T == char)) 。当我打电话时， _c
Erlang:在编译时计算数据结构文字(常量)？
这可能是一个天真的问题，我怀疑答案是"is"，但我没有运气在这里和其他地方搜索“erlang编译器优化常量”等术语。无论如何，erlang 编译器是否可以(将)在编译时创建一个常量或文字的数据结构，并
JavaScript， react 常量
我刚遇到这段 Java 脚本代码: const { myKey, uname, issorted, title, hClick, } = this.props; 请告诉我这是什么意
java - 访问扩展类中的属性/常量
我正在努力实现以下目标: 我有一个父类，有一些逻辑。在子类中，我“重新定义”常量/属性。有没有办法让子属性可以通过父类中定义的方法访问？或者更具体地说 - 有什么方法可以强制“out”方法在下面的示例
Java外部类访问内部类接口(interface)常量
如果这是个愚蠢的问题，请原谅。我有一个带有内部类接口(interface)的“fragment ”外部类。该接口(interface)仅由另一个 Activity 类使用“implements Ou
python - 当字典被覆盖时如何修复类变量/常量？
我是 python 新手，尝试使用默认值并为类实例自定义它们。因此，在这个示例中，我定义了一个 DEFAULT_STRING 和一个 DEFAULT_SETTINGS 变量，可以使用 customi
C# XML 常量
在 integer.xml 中，其形式为 0x001 0x002 是代码和 xml 文件都需要的存储常量。 C# 识别 Droid.Resource.Integer.foo，但它有一些大的
跨平台访问 C 常量
是否有跨平台(即跨 Linux、BSD 和 OS X，最好是所有 POSIX)我可以纯粹基于字符串以编程方式访问诸如 O_RDWR 之类的常量>“O_RDWR”？我正在编写一些(非 C)代码，这些代

首页

博学

6Ren·AI

商城

cuda - 常量内存中的推力::device_vector