algorithm - CUDA中基于索引的流压缩和转换-6ren

algorithm - CUDA中基于索引的流压缩和转换

转载作者：塔克拉玛干更新时间：2023-11-03 05:37:28

26

4

我有一个 float 组，我想对其执行 stram 压缩操作，如下所示:Parallel Prefix Sum (Scan) with CUDA ，然后根据值和地址或原始元素应用转换。

例如，我有一个值为 {10,-1, -10, 2} 的数组，我想返回绝对值大于 5 的所有元素，并应用一个取值及其值的转换数组中的地址。这里的结果是 {transform(10,0),transform(-10,2)}。

我正在尝试对此使用推力，但这段代码将经常在大型数组上运行，因此理想情况下它不会使用缓冲区和数组的多次遍历。

是否可以在不分配二级数组并进行多次遍历的情况下做我想做的事情？如果是，这样的代码是否存在于野外？或者至少有人对我可以编写哪些推力函数或任何其他库来实现我的目标有任何指示吗？

最佳答案

是的，可以通过单个推力算法调用推力(我假设这就是您所说的“无需...进行多次遍历”的意思)并且无需“分配辅助数组”。

一种方法是将数据数组加上索引/“地址”数组(通过 thrust::counting_iterator，避免分配)传递给 thrust::transform_iterator 创建你的“转换”操作(与适当的仿函数结合)。

然后您可以将上述转换迭代器传递给适当的 thrust stream compaction algorithm选择所需的值。

这是一种可能的方法:

$ cat t1044.cu
#include <thrust/device_vector.h>
#include <thrust/iterator/counting_iterator.h>
#include <thrust/iterator/transform_iterator.h>
#include <thrust/iterator/zip_iterator.h>
#include <thrust/copy.h>
#include <math.h>

#include <iostream>

__host__ __device__ int my_transform(int data, int idx){
  return (data - idx);  //put whatever transform you want here
}

struct my_transform_func : public thrust::unary_function<thrust::tuple<int, int>, int>
{

  __host__ __device__
  int operator()(thrust::tuple<int, int> &t){
    return my_transform(thrust::get<0>(t), thrust::get<1>(t));
    }
};

struct my_test_func
{
  __host__ __device__
  bool operator()(int data){
    return (abs(data) > 5);
    }
};



int main(){

  int data[] = {10,-1,-10,2};
  int dsize = sizeof(data)/sizeof(int);

  thrust::device_vector<int> d_data(data, data+dsize);
  thrust::device_vector<int> d_result(dsize);
  int rsize = thrust::copy_if(thrust::make_transform_iterator(thrust::make_zip_iterator(thrust::make_tuple(d_data.begin(), thrust::counting_iterator<int>(0))), my_transform_func()), thrust::make_transform_iterator(thrust::make_zip_iterator(thrust::make_tuple(d_data.end(), thrust::counting_iterator<int>(dsize))), my_transform_func()), d_data.begin(), d_result.begin(), my_test_func()) - d_result.begin();
  thrust::copy_n(d_result.begin(), rsize, std::ostream_iterator<int>(std::cout, ","));
  std::cout << std::endl;
  return 0;
}
$ nvcc -o t1044 t1044.cu
$ ./t1044
10,-12,
$

对这种方法的一些可能的批评:

它似乎加载了两次 d_data 元素(一次用于转换操作，一次用于模板)。但是，CUDA 优化编译器可能会识别最终生成的线程代码中的冗余负载，并将其优化掉。
看起来我们正在对每个数据元素执行转换操作，无论我们是否打算将其保存在结果中。再一次，推力 copy_if 实现实际上可能会推迟数据加载操作，直到做出模板决定之后。如果真是这样，那么转换可能只在需要的基础上完成。即使总是这样做，这也可能是一个无关紧要的问题，因为许多推力操作往往受加载/存储或内存带宽限制，而不是计算限制。然而，一个有趣的替代方法可能是使用@m.s 创建的改编。 here它创建了一个应用于输出迭代器步骤的转换，这可能会将转换操作限制为仅对实际保存在结果中的数据元素执行，尽管我也没有仔细检查过.
正如下面评论中提到的，这种方法确实分配了临时存储空间(推力在幕后这样做，作为 copy_if 操作的一部分)，当然我明确地分配了 O (n) 结果的存储。我怀疑推力分配(单个 cudaMalloc)可能也用于 O(n) 存储。虽然完全不需要任何类型的额外存储就可以完成所有要求的事情(并行前缀和、流压缩、数据转换)(所以也许请求是针对就地操作)，但我认为制作一个如果这种算法完全可行的话，它可能会对性能产生重大的负面影响(我不清楚并行前缀和可以在绝对没有任何类型的额外存储的情况下实现，更不用说将其与流压缩耦合，即数据平行移动)。由于 thrust 释放了它使用的所有此类临时存储，因此不会有太多与频繁使用此方法相关的存储问题。唯一剩下的问题(我猜)是性能。如果性能是一个问题，那么与临时分配相关的时间开销应该通过将上述算法与 thrust custom allocator 耦合来大部分消除。 (另见 here )，这将分配一次所需的最大存储缓冲区，然后在每次使用上述算法时重新使用该缓冲区。

关于algorithm - CUDA中基于索引的流压缩和转换，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34790307/

26

4

0

文章推荐： php - 尝试在 Docker 官方镜像中将 freetype 添加到 php-gd

文章推荐： php - 尽管 Laravel 中的 token 正确，Ajax 调用仍返回 419 错误

文章推荐： algorithm - 使用 bfs 或 dfs 打印排列

c++ - 将迭代器存储到字符串中(转换、转换、追加？)
我正在尝试将一个字符串逐个字符地复制到另一个字符串中。目的不是复制整个字符串，而是复制其中的一部分(我稍后会为此做一些条件......) 但我不知道如何使用迭代器。你能帮帮我吗？ std::stri
C++:转换/转换 void 指针到结构引用
我想将 void 指针转换为结构引用。结构的最小示例: #include "Interface.h" class Foo { public: Foo() : mAddress((uint
javascript - 为什么一个元素从窗口的左上角开始它的 css3 转换/转换？
这有点烦人:我有一个 div，它从窗口的左上角开始过渡，即使它位于文档的其他任何位置。我试过 usign -webkit-transform-origin 但没有成功，也许我用错了。有人可以帮助我吗？
html - 有什么方法可以检测 CSS3 转换/转换/动画的过程状态？
假设，如果将 CSS3 转换/转换/动画分配给 DOM 元素，我是否可以检测到该过程的状态？我想这样做的原因是因为我正在寻找类似过渡链的东西，例如，在前一个过渡之后运行一个过渡。最佳答案我在 h
CSS 转换/转换 - 谷歌浏览器中的 "shaky"图像
最近我遇到了“不稳定”屏幕，这很可能是由 CSS 转换引起的。事实上，它只发生在 Chrome 浏览器上(可能还有 Safari，因为一些人也报告了它)。知道如何让它看起来光滑吗？此外，您可能会注意
jquery - CSS3 转换(转换)在 Firefox 中不起作用，但在 Chrome 和 Safari 中起作用
我正在开发一个简单的 slider ，它使用 CSS 过渡来为幻灯片设置动画。我用一些基本样式和一些 javascript 创建了一支笔 here .注意:由于 Codepen 使用 Prefixfr
Linq 转换
我正在使用以下代码返回 IList: public IList FindCodesByCountry(string country) { var query =
转换、计算的RESTful设计
如何设计像这样的操作: 计算转化翻译例如:从“EUR”转换为“CNY”金额“100”。这是 /convert?from=EUR&to=CNY&amount=100 RESTful 吗？最佳答
Jquery 转换
我使用 jquery 组合了一个图像滚动器，如下所示 function rotateImages(whichHolder, start) { var images = $('#' +which
CSS 转换
如何使用 CSS (-moz-transform) 更改一个如下所示的 div: 最佳答案你可以看看Mozilla Developer Center .甚至还有例子。但是，在我看来，您的具体示例不
CSS 转换
我需要帮助我正在尝试在选中和未选中的汉堡菜单上实现动画。我能够为菜单设置动画，但我不知道如何在转换为 0 时为左菜单动画设置动画 &__menu { transform: translateX(
swift :转换
我正在为字典格式之间的转换而苦苦挣扎:我正在尝试将下面的项目数组转换为下面的结果数组。本质上是通过在项目第一个元素中查找重复项，然后仅在第一个参数不同时才将文件添加到结果集中。 var items:[
具有相同布局的不同类型之间的C++转换
如果我有两个定义相同的结构，那么在它们之间进行转换的最佳方式是什么？ struct A { int i; float f; }; struct B { int i; float f; }; void
Javascript 转换
我编写了一个 javascript 代码，可以将视口(viewport)从一个链接滑动到另一个链接。基本上一切正常，你怎么能在那里看到http://jsfiddle.net/DruwJ/8/ 我现在的
meteorjs 图像上传/转换
我需要将文件上传到 meteor ，对其进行一些图像处理(必要时进行图像转换，从图像生成缩略图)，然后将其存储在外部图像存储服务器(s3)中。这应该尽可能快。您对 nodejs 图像处理库有什么建议
KDB+，转换，左操作数
刚开始接触KDB+，有一些问题很难从Q for Mortals中得到。说，这里 http://code.kx.com/wiki/JB:QforMortals2/casting_and_enumera
JSF float 转换
我在这里的一个项目中使用 JSF 1.2 和 IceFaces 1.8。我有一个页面，它基本上是一大堆浮点数字段的大编辑网格。这是通过 inputText 实现的页面上的字段指向具有原始值的值对象
SceneKit 转换 ScnMatrix4
ScnMatrix4 是一个 4x4 矩阵。我的问题是什么矩阵行对应于位置(ScnVector3)，旋转(ScnVector4)，比例(ScnVector3)。第 4 行是空的吗？编辑: 我玩弄了
Scala map 转换
恐怕我是 Scala 新手: 我正在尝试根据一些简单的逻辑将 Map 转换为新 Map: val postVals = Map("test" -> "testing1", "test2" -> "te
基于配置文件的 XSLT 转换
输入: This is sample 1 This is sample 2 输出: ~COLOR~[Green]This is sample 1~COLOR~[Red]This is sam

首页

博学

6Ren·AI

商城

algorithm - CUDA中基于索引的流压缩和转换