optimization - 加快许多箱/几个箱的 CUDA 原子计算-6ren

optimization - 加快许多箱/几个箱的 CUDA 原子计算

转载作者：行者123 更新时间：2023-12-03 16:16:26

我正在尝试优化我在 CUDA 中的直方图计算。它为我提供了相对于相应 OpenMP CPU 计算的出色加速。但是，我怀疑(根据直觉)大多数像素都落入了几个桶中。为了论证的缘故，假设我们有 256 个像素落入让我们说，两个桶。

最简单的方法是这样做似乎是

将变量加载到共享内存中

如果需要，对 unsigned char 等进行矢量化加载。

在共享内存中进行原子添加

对全局进行合并写入。

像这样的东西:

__global__ void shmem_atomics_reducer(int *data, int *count){
  uint tid = blockIdx.x*blockDim.x + threadIdx.x;

  __shared__ int block_reduced[NUM_THREADS_PER_BLOCK];
  block_reduced[threadIdx.x] = 0;

  __syncthreads();

    atomicAdd(&block_reduced[data[tid]],1);
  __syncthreads();

  for(int i=threadIdx.x; i<NUM_BINS; i+=NUM_BINS)
    atomicAdd(&count[i],block_reduced[i]);

}

当我们减少 bin 的数量时，这个内核的性能(自然地)下降，从 32 个 bin 的大约 45 GB/s 降低到 1 个 bin 的 10 GB/s 左右。争用和共享内存库冲突作为原因给出。我不知道是否有任何方法可以以任何重要的方式删除这些计算中的任何一个。

我还一直在尝试来自 parallelforall 博客的另一个(美丽的)想法，其中涉及使用 __ballot 来获取扭曲结果，然后使用 __popc() 来减少扭曲级别。

__global__ void ballot_popc_reducer(int *data, int *count ){
  uint tid = blockIdx.x*blockDim.x + threadIdx.x;
  uint warp_id = threadIdx.x >> 5;

  //need lane_ids since we are going warp level
  uint lane_id = threadIdx.x%32;

  //for ballot
  uint warp_set_bits=0;

   //to store warp level sum
  __shared__ uint warp_reduced_count[NUM_WARPS_PER_BLOCK];
   //shared data
  __shared__ uint s_data[NUM_THREADS_PER_BLOCK];

 //load shared data - could store to registers
  s_data[threadIdx.x] = data[tid];

  __syncthreads();


//suspicious loop - I think we need more parallelism
  for(int i=0; i<NUM_BINS; i++){
      warp_set_bits = __ballot(s_data[threadIdx.x]==i);

      if(lane_id==0){
        warp_reduced_count[warp_id] = __popc(warp_set_bits);
      }

     __syncthreads();

      //do warp level reduce 
      //could use shfl, but it does not change the overall picture
      if(warp_id==0){
        int t = threadIdx.x;
        for(int j = NUM_WARPS_PER_BLOCK/2; j>0; j>>=1){
          if(t<j) warp_reduced_count[t] += warp_reduced_count[t+j];
          __syncthreads();
        }
      }                                                                                                                                                                                                                                                                



      __syncthreads();


      if(threadIdx.x==0){
        atomicAdd(&count[i],warp_reduced_count[0]);
        }  

    }                                                                                                                                                                                                                                             

  }

这为单个 bin 案例(1 个 bin 为 35-40 GB/s，而 10-15 GB/s 使用原子)，但是当我们增加 bin 数量时性能会急剧下降。当我们使用 32 个 bin 运行时，性能下降到大约 5 GB/s。原因可能是因为单线程循环遍历所有 bin，要求 NUM_BINS 循环的并行化。

我尝试了几种并行化 NUM_BINS 循环的方法，但似乎都没有正常工作。例如，可以(非常不雅地)操纵内核为每个 bin 创建一些 block 。这似乎表现相同，可能是因为我们将再次遭受多个 block 尝试从全局内存中读取的争用。另外，程序很笨拙。同样，在 y 方向上对 bin 进行并行化也会产生同样令人沮丧的结果。

我尝试的另一个想法是动态并行，为每个 bin 启动一个内核。这是灾难性的缓慢，可能是由于子内核没有真正的计算工作和启动开销。

最有希望的方法似乎是 - 来自 Nicholas Wilt 的 article

使用这些所谓的私有(private)化直方图，其中包含共享内存中每个线程的 bin，这在表面上对 shmem 的使用非常重要(我们在 Maxwell 上每个 SM 只有 48 kB)。

也许有人可以对这个问题有所了解？我觉得应该去改变算法而不是使用直方图，使用不那么频繁的东西。否则，我想我们只使用原子版本。

编辑:我的问题的上下文是计算用于模式分类的概率密度函数。我们可以通过使用非参数方法(例如 Parzen Windows 或 Kernel Density Estimation)来计算近似直方图(更准确地说是 pdf)。然而，这并没有克服维度问题，因为我们需要对每个 bin 的所有数据点求和，当 bin 的数量变大时，这会变得很昂贵。见这里: Parzen

最佳答案

我在使用聚类时遇到了类似的挑战，但最终，最好的解决方案是使用扫描模式对处理进行分组。所以，我不认为它对你有用。既然你要求这方面的一些经验，我会和你分享我的。

问题

在您的第一个代码中，我猜想通过减少箱数来处理低性能与扭曲停顿有关，因为您对每个评估数据执行的处理很少。当 bin 数量增加时，该内核的处理和全局内存负载(数据信息)之间的关系也会增加。您可以通过 Nsight 的性能分析中的“问题效率”实验非常轻松地检查这一点。可能你得到的循环率很低，至少有一个清晰的经线(经线问题效率)。

由于我无法将可识别扭曲的数量提高到接近 95%，因此我放弃了这种方法，因为在某些情况下它会变得更糟(内存依赖性使我 90% 的处理周期停滞不前。

如果垃圾箱的数量不是很大，则洗牌和减少投票非常有用。如果它太大，则应该为每个 bin 过滤器激活少量线程。所以你最终可能会出现很多代码分歧，这对于并行处理来说是非常不可取的。您可以尝试对分歧进行分组以消除分支并获得良好的控制流，因此整个扭曲/ block 呈现类似的处理，但跨 block 的机会很多。

一个可行的解决方案

我不知道在哪里，但是我看到了针对您的问题的非常好的解决方案。你试过this one ?

您也可以使用 vectorized load并尝试类似的方法，但我不确定它会在多大程度上提高您的性能:

__global__ hist(int4 *data, int *count, int N, int rem, unsigned int init) {

__shared__ unsigned int sBins[N_OF_BINS]; // you may want to declare this one dinamically
int idx = blockIdx.x * blockDim.x + threadIdx.x;
if (threadIdx.x < N_OF_BINS) sBins[threadIdx.x] = 0; 

for (int i = 0; i < N; i+= warpSize) {
    atomicAdd(&sBins[data[i + init].w], 1);
    atomicAdd(&sBins[data[i + init].x], 1);
    atomicAdd(&sBins[data[i + init].y], 1);
    atomicAdd(&sBins[data[i + init].z], 1);
}

//process remaining elements if the data is not multiple of 4
// using recast and a additional control
for (int i = 0; i < rem; i++) {
    atomicAdd(&sBins[reinterpret_cast<int*>(data)[N * 4 + init + i]], 1);
} 
//update your histogram data here
}

关于optimization - 加快许多箱/几个箱的 CUDA 原子计算，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39543302/

文章推荐： assembly - 在此 x86 指令中， %r11d 中的 d 指的是什么？

文章推荐： cocoa - Dropbox 和 Xcode

文章推荐： cocoa - cocoa 应用程序的卸载程序

optimization - 优化错误: Box constraint optimization (Julia Optim.jl)
我正在尝试运行以下代码片段，以使曲线适合一些经验数据，但在Julia Optim.jl包中，optimize()方法一直存在问题。我正在使用Julia v1.1.0，并安装了所有正确的软件包。我不断收
optimization - "the optimized delay"是一个神话还是真实的？
时不时你会听到一些故事，这些故事旨在说明某人在某件事上有多擅长，有时你会听到这个人如何热衷于代码优化，以至于他优化了他的延迟循环。因为这听起来确实是一件奇怪的事情，因为启动“计时器中断”而不是优化的
optimization - z3py 中的 Optimize() 未找到最佳解决方案
我正在尝试使用 z3py 作为优化求解器来最大化从一张纸上切出的长方体的体积。 python API 提供了 Optimize() 对象，但使用它似乎不可靠，给我的解决方案显然不准确。我尝试使用 h
optimization - C/C++专访: Code Optimization
我今天接受了采访。这个问题是为了优化下面的代码。如果我们将在 for 循环之后看到下面的代码，那么下面有四个“if-else”步骤。所以，面试官要求我将其优化为 3 if-else 行。我已经尝试了很
optimization - Optim.jl : negative inverse Hessian
我使用BFGS算法使用Optim.jl库来最小化Julia中的函数。今天，我问了一个关于同一个库的question，但是为了避免混淆，我决定将它分成两部分。我还想对优化后的负逆黑森州进行估算，以进行
optimization - Haskell 平台 : nested functions and optimization
在 haskell 平台中实现许多功能时有一个非常常见的模式让我很困扰，但我找不到解释。这是关于使用嵌套函数进行优化。 where 子句中的嵌套函数旨在进行尾递归的原因对我来说非常清楚(如 lengt
optimization - 如何使用 Optim 最小化 Julia 中的多元成本函数？
我目前正试图利用 Julia 中的 Optim 包来最小化成本函数。成本函数是 L2 正则化逻辑回归的成本函数。其构造如下； using Optim function regularised_cost
python 壁虎 : optimizing performance of nonlinear optimization
我正在使用 GEKKO‍ 来解决非线性规划问题。我的目标是将 GEKKO‍ 性能与替代方案进行比较，因此我想确保我从 GEKKO‍ 中获得其所能提供的最佳性能。有n个二元变量，每个变量都分配有一个权
optimization - "parameter optimization of SVM by PSO"是什么意思？
我可以手动更改参数C和epsilon以获得优化结果，但我发现有PSO(或任何其他优化算法)对SVM进行参数优化。没有算法。什么意思:PSO如何自动优化SVM参数？我读了几篇关于这个主题的论文，但我仍然
optimization - scipy.optimize.fmin_l_bfgs_b 返回 'ABNORMAL_TERMINATION_IN_LNSRCH'
我正在使用 scipy.optimize.fmin_l_bfgs_b 来解决高斯混合问题。混合分布的均值通过回归建模，其权重必须使用 EM 算法进行优化。 sigma_sp_new, func_val
optimization - 我可以将 "null pointer optimization"用于我自己的非指针类型吗？
当你有一个 Option ，编译器知道 NULL永远不是 &T 的可能值, 和 encodes the None variant as NULL instead .这样可以节省空间: use std:
optimization - 我可以将 "null pointer optimization"用于我自己的非指针类型吗？
当你有一个 Option ，编译器知道 NULL永远不是 &T 的可能值, 和 encodes the None variant as NULL instead .这样可以节省空间: use std:
optimization - 使用 Inf 作为界限时，Optim.jl 单变量有界优化会混淆输出
以下是说明我的问题的独立示例。 using Optim χI = 3 ψI = 0.5 ϕI(z) = z^-ψI λ = 1.0532733 V0 = 0.8522423425 zE = 0.598
optimization - 优化MySQL查询: Is it always possible to optimize a query so that it doesn't use "ALL"
根据MySQL文档关于Optimizing Queries With Explain : * ALL: A full table scan is done for each combination o
google-optimize - Google Optimize : Unable to preview experience. 请确保启用cookies并重启浏览器
我无法预览我的 Google 优化工具体验。 Google 优化抛出以下错误: 最佳答案我也经常遇到这种情况。 Google 给出的建议是错误的。清除 cookie 并重新启动浏览器并不能解决问题。
r - 在 R 中使用 optim() 或 optimize() 函数
我一直在尝试使用 optim()或 optimize()函数来最小化绝对预测误差的总和。我有 2 个向量，每个长度为 28，1 个包含预测数据，另一个包含过去 28 天的实际数据。 fcst和 ac
optimization - 编译器优化: Where/how can I get a feel for what the payoff is for different optimizations?
在我对各种编译器书籍和网站的独立研究中，我了解到编译器可以优化正在编译的代码的许多不同方法，但我很难弄清楚每种优化会带来多少好处给予。大多数编译器编写者如何决定首先实现哪些优化？或者哪些优化值得付出
asp.net-optimization - 使用 System.Web.Optimizations 对特定包进行条件缩小
我在我的项目中使用 System.Web.Optimizations BundleConfig。我在我的网站上使用的特定 jQuery 插件遇到了问题。如果我将文件添加到我的 ScriptBundle
javascript - 报错: webpack. optimize.CommonsChunkPlugin已被移除，请改用config.optimization.splitChunks
我收到这个错误 Error: webpack.optimize.CommonsChunkPlugin has been removed, please use config.optimization.
python - Scipy:optimize.fmin 和 optimize.leastsq 之间的区别
scipy的optimize.fmin和optimize.leastsq有什么区别？它们似乎在 this example page 中以几乎相同的方式使用.我能看到的唯一区别是 leastsq 实际上

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

optimization - 加快许多箱/几个箱的 CUDA 原子计算