sorting - 如何使用 Thrust 对矩阵的行进行排序？-6ren

sorting - 如何使用 Thrust 对矩阵的行进行排序？

转载作者：行者123 更新时间：2023-12-01 07:18:37

27

4

我有一个 5000x500 的矩阵，我想用 cuda 分别对每一行进行排序。我可以使用 arrayfire 但这只是一个 for 循环，它应该是效率不高的推力::排序。

https://github.com/arrayfire/arrayfire/blob/devel/src/backend/cuda/kernel/sort.hpp

for(dim_type w = 0; w < val.dims[3]; w++) {
            dim_type valW = w * val.strides[3];
            for(dim_type z = 0; z < val.dims[2]; z++) {
                dim_type valWZ = valW + z * val.strides[2];
                for(dim_type y = 0; y < val.dims[1]; y++) {

                    dim_type valOffset = valWZ + y * val.strides[1];

                    if(isAscending) {
                        thrust::sort(val_ptr + valOffset, val_ptr + valOffset + val.dims[0]);
                    } else {
                        thrust::sort(val_ptr + valOffset, val_ptr + valOffset + val.dims[0],
                                     thrust::greater<T>());
                    }
                }
            }
        }

有没有办法融合推力操作以使排序并行运行？事实上，我正在寻找的是一种将 for 循环迭代融合到其中的通用方法。

最佳答案

我可以想到两种可能性，@JaredHoberock 已经提出了其中一种可能性。我不知道在推力中融合 for 循环迭代的通用方法，但第二种方法是更通用的方法。我的猜测是，在这种情况下，第一种方法将是两种方法中更快的方法。

使用矢量化排序。如果要由嵌套 for 循环排序的区域不重叠，则可以使用 2 个背靠背稳定排序操作进行矢量化排序，如 here 所述。 .

Thrust v1.8(可用于 CUDA 7 RC，或通过从 thrust github repository 直接下载包括 support for nesting thrust algorithms，通过在传递给另一个推力算法的自定义仿函数中包含推力算法调用。如果您使用 thrust::for_each 操作选择您需要执行的单个排序，您可以使用单个推力算法调用运行这些排序，方法是在传递给 thrust::sort 的仿函数中包含 thrust::for_each 操作。

这是 3 种方法之间的完整比较:

原始的循环排序方法

矢量化/批量排序

嵌套排序

在每种情况下，我们都对相同的 16000 组进行排序，每组 1000 个整数。

$ cat t617.cu
#include <thrust/device_vector.h>
#include <thrust/device_ptr.h>
#include <thrust/host_vector.h>
#include <thrust/sort.h>
#include <thrust/execution_policy.h>
#include <thrust/generate.h>
#include <thrust/equal.h>
#include <thrust/sequence.h>
#include <thrust/for_each.h>
#include <iostream>
#include <stdlib.h>

#define NSORTS 16000
#define DSIZE 1000

int my_mod_start = 0;
int my_mod(){
  return (my_mod_start++)/DSIZE;
}

bool validate(thrust::device_vector<int> &d1, thrust::device_vector<int> &d2){
  return thrust::equal(d1.begin(), d1.end(), d2.begin());
}


struct sort_functor
{
  thrust::device_ptr<int> data;
  int dsize;
  __host__ __device__
  void operator()(int start_idx)
  {
    thrust::sort(thrust::device, data+(dsize*start_idx), data+(dsize*(start_idx+1)));
  }
};



#include <time.h>
#include <sys/time.h>
#define USECPSEC 1000000ULL

unsigned long long dtime_usec(unsigned long long start){

  timeval tv;
  gettimeofday(&tv, 0);
  return ((tv.tv_sec*USECPSEC)+tv.tv_usec)-start;
}

int main(){
  cudaDeviceSetLimit(cudaLimitMallocHeapSize, (16*DSIZE*NSORTS));
  thrust::host_vector<int> h_data(DSIZE*NSORTS);
  thrust::generate(h_data.begin(), h_data.end(), rand);
  thrust::device_vector<int> d_data = h_data;

  // first time a loop
  thrust::device_vector<int> d_result1 = d_data;
  thrust::device_ptr<int> r1ptr = thrust::device_pointer_cast<int>(d_result1.data());
  unsigned long long mytime = dtime_usec(0);
  for (int i = 0; i < NSORTS; i++)
    thrust::sort(r1ptr+(i*DSIZE), r1ptr+((i+1)*DSIZE));
  cudaDeviceSynchronize();
  mytime = dtime_usec(mytime);
  std::cout << "loop time: " << mytime/(float)USECPSEC << "s" << std::endl;

  //vectorized sort
  thrust::device_vector<int> d_result2 = d_data;
  thrust::host_vector<int> h_segments(DSIZE*NSORTS);
  thrust::generate(h_segments.begin(), h_segments.end(), my_mod);
  thrust::device_vector<int> d_segments = h_segments;
  mytime = dtime_usec(0);
  thrust::stable_sort_by_key(d_result2.begin(), d_result2.end(), d_segments.begin());
  thrust::stable_sort_by_key(d_segments.begin(), d_segments.end(), d_result2.begin());
  cudaDeviceSynchronize();
  mytime = dtime_usec(mytime);
  std::cout << "vectorized time: " << mytime/(float)USECPSEC << "s" << std::endl;
  if (!validate(d_result1, d_result2)) std::cout << "mismatch 1!" << std::endl;
  //nested sort
  thrust::device_vector<int> d_result3 = d_data;
  sort_functor f = {d_result3.data(), DSIZE};
  thrust::device_vector<int> idxs(NSORTS);
  thrust::sequence(idxs.begin(), idxs.end());
  mytime = dtime_usec(0);
  thrust::for_each(idxs.begin(), idxs.end(), f);
  cudaDeviceSynchronize();
  mytime = dtime_usec(mytime);
  std::cout << "nested time: " << mytime/(float)USECPSEC << "s" << std::endl;
  if (!validate(d_result1, d_result3)) std::cout << "mismatch 2!" << std::endl;
  return 0;
}
$ nvcc -arch=sm_20 -std=c++11 -o t617 t617.cu
$ ./t617
loop time: 8.51577s
vectorized time: 0.068802s
nested time: 0.567959s
$

笔记:

这些结果会因 GPU 而异。

“嵌套”时间/方法在支持动态并行的 GPU 上可能会有很大差异，因为这将影响推力如何运行嵌套排序函数。要使用动态并行性进行测试，请将编译开关从 -arch=sm_20 更改为至 -arch=sm_35 -rdc=true -lcudadevrt

此代码需要 CUDA 7 RC。我用的是 Fedora 20。

嵌套排序方法也会从设备端分配，因此我们必须使用 cudaDeviceSetLimit 大幅增加设备分配堆。 .

如果您使用动态并行，并且根据您运行的 GPU 类型，使用 cudaDeviceSetLimit 保留的内存量可能需要增加 8 倍。

关于sorting - 如何使用 Thrust 对矩阵的行进行排序？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28150098/

27

4

0

文章推荐： scala - Scala future 的理解失败

文章推荐： ruby-on-rails - rails 阻止在 before_create 回调中创建对象

文章推荐： jetty - 带有嵌入式 Jetty 的跨源过滤器

文章推荐： Jquery 用按钮动画高度变化

sorting - 性能 : Sorting Slice vs Sorting Type (of Slice) with Sort implementation
我在玩一些代码挑战时发现自定义排序(排序接口(interface)的实现)比仅针对 slice 的原始结构要快得多。这是为什么？将 slice 转换为类型是否会产生一些魔力(例如转换为指向结构的指针
reactjs - 未找到规则 'simple-import-sort/sort' 的定义 simple-import-sort/sort
我正在使用 simple-import-sort eslint 插件进行 react 。我想我的 .eslintrc.js是对的，但我无法使这个特定的插件工作。我在文件的第一行收到以下错误: 未找到规
sorting - sort.Slice排序不正确
Closed. This question is not reproducible or was caused by typos。它当前不接受答案。想改善这个问题吗？更新问题，以便将其作为on-to
golang 不能在 sort.Sort 的参数中使用类型作为类型 sort.Interface
好的，所以我是 Go 的新手，我正在努力让自己熟悉按函数排序。我可能误解了什么，所以如果我错了请纠正我。我正在尝试创建一个包含字段 key 和 value 的 Nodes 数组。我想创建一个自定义排
sorting - `take n (sort xs)` ("sorted prefix") 问题的内存高效算法
我想从惰性列表中取出 n 个最大的元素。我听说在 Data.List.sort 中实现的合并排序是惰性的，它不会产生不必要的元素。就比较而言，这可能是正确的，但在内存使用方面肯定不是这样。下面的程序
javascript - 两个回调作为 Array.sort() 的参数，而不是 Array.sort().sort()
这个问题已经有答案了: Javascript sort function. Sort by First then by Second (10 个回答) 已关闭 3 年前。我正在尝试返回已排序产品的列
c++ - 成对 vector : first pair values are non-sorted and second pair values are sorted: how to find a sorted value when having the non-sorted one
我有一个 vector 对，如下所示。第一对值未排序，第二对值已排序(从零开始)。我可能想通过实现 std::vector 和 std::pair 来存储数据。当我有第一对值(未排序)时，找到相应的第
nstableview - swift 3 : Sort (formerly sort-in-place) array by sort descriptors
直到现在(Swift 2.2)我一直愉快地使用来自 this answer 的代码- 它迅速，优雅，它像梦一样工作。 extension MutableCollectionType where Ind
sorting - Golang Sort :does not implement sort. 接口(interface)(缺少 Len 方法)
我在我的 Go 应用程序中实现排序界面时遇到问题。这是相关代码: type Group struct { Teams []*Team } type Team struct { Point
sorting - table.sort 使用什么算法？
我很好奇 Lua 的默认算法是什么 table.sort使用，只是因为它比我遇到的其他一些排序算法慢。我也很好奇 Lua 的 table.sort是在引擎中用 C 编写的，或者如果它在 Lua 中的库
sorting - "partially sorted"的数学定义
例如，插入排序被描述为部分排序数组的有效算法。但如何精确定义“部分排序”呢？最佳答案这是一个只有少数元素不合适的数组。如果没有指定百分比或其他阈值，则部分排序和未排序之间没有严格的区别。正式定义
sorting - Thrust::sort 有多快以及最快的基数排序实现是什么
我是 GPU 编程的新手。最近，我正在尝试根据一个教程实现gpu bvh构建算法:http://devblogs.nvidia.com/parallelforall/thinking-parallel
sorting - Gnumeric Sort 函数
有人可以指导我 Gnumeric 排序函数的详细说明(链接)吗？ Gnumeric 手册很简短并且没有示例。我无法通过搜索引擎找到任何合适的信息，甚至 Stackoverflow 上也只有六个不合适的
Python sort and sorted -- 列表的列表如何精确排序？
在 Python 中使用什么精确规则来对列表进行排序，其中元素是列表？这可以表示为“key”或“cmp”吗功能？问题来自于有两件事考虑:长度和它们位置的值。 sorted([ [ 0, 1, 2
go - sort.Sort 不修改数组
下面的代码应该创建一个整数数组 (a) 并对它进行排序，但是 sort.Sort 似乎没有修改变量。 package main import ( "fmt" "sort" ) type
sorting - golang sort.Sort随机输出并且是错误的
我有一个应用于结构的自定义排序函数。完整代码是 here on play.golang.org . type Stmt struct { Name string After []st
对python3 sort sorted 函数的应用详解
python3 sorted取消了对cmp的支持。 python3 帮助文档： ?
algorithm - Shellsort - 如果一个数组是 g-sorted 然后 h-sorted，数组仍然是 g-sorted
以下是来自普林斯顿的 coursera 算法类(class)的练习。如果一个数组既是 3 次排序又是 5 次排序，那么它是否也是 6 次、7 次、8 次、9 次和 10 次排序？我知道任何序列如果先
algorithm - "A g-sorted array remains g-sorted even after h-sorting it"的含义是什么？
当我看到上面的语句时，我正在阅读 shell-sorting。这意味着什么？它对我看待 shell 排序的方式有何不同？ PS:我不是在寻找声明的证据。最佳答案好吧，你可能暗示下一个排序阶段不会“
mysql Sort aborted: Out of sort memory, consider increasing server sort buffer size的解决方法
今天在检查mysql服务器的时候提示Sort aborted: Out of sort memory, consider increasing server sort buffer size，安装字

首页

博学

6Ren·AI

商城

sorting - 如何使用 Thrust 对矩阵的行进行排序？