c++ - CUDA 归约和样本 : data racing?-6ren

c++ - CUDA 归约和样本 : data racing?

转载作者：太空宇宙更新时间：2023-11-04 13:31:51

24

4

我是 CUDA 的新手，目前我正在研究与我的最终目标相关的总和减少样本。

提供的文档描述了如何优化内核以快速减少跨 block 的大型数组。 reduction_kernel.cu 中的宿主函数 reduce 使用模板在编译时优化各种内核。

template <class T>
void reduce(int size, int threads, int blocks,
            int whichKernel, T *d_idata, T *d_odata)
{
    // 
    // Long list with switch statement to have all optimized functions at compile-time
    //

    // amongst which (for instance):
    case 32:
        reduce5<T,  32><<< dimGrid, dimBlock, smemSize >>>(d_idata, d_odata, size);
        break;

编辑:内核 reduce5 用 d_idata 的部分和填充 d_odata。更具体地说，它将 g_idata 的元素与索引 2*blockSize*blockIdx.x 相加到 2*blockSize*(blockIdx.x + 1)(不包含)并将结果存储在 g_odata[blockIdx.x] 中。 (编辑结束)

总和是通过跨 block 减少直到剩下一个 block 来获得的。主机代码用于通过在简化阵列上重复启动内核来跨“级别”同步内核。 reduction.cpp 中的相关代码位:

template <class T>
T benchmarkReduce(int n, numThreads, numBlocks, /* more args */, 
                  T *h_odata, T *d_idata, T *d_odata) {

    // first kernel launch
    reduce<T>(n, numThreads, numBlocks, whichKernel, d_idata, d_odata);

    // repeated kernel launches
    int s=numBlocks;
    int kernel = whichKernel;

    while (s > cpuFinalThreshold)
    {   
        int threads = 0, blocks = 0;
        getNumBlocksAndThreads(kernel, s, maxBlocks, maxThreads, blocks, threads);

        reduce<T>(s, threads, blocks, kernel, d_odata, d_odata);

        if (kernel < 3) 
            s = (s + threads - 1) / threads;
        else
            s = (s + (threads*2-1)) / (threads*2);  
    }
}

我对第一个内核调用很满意，它将 d_idata 的部分和存储在 d_odata 中。我担心的是第二次内核启动(在 while 循环内):也就是说，内核将读取和写入 d_odata，这可能导致数据竞争。例如，第二个 block 可以在第一个 block 读取其原始值之前将其部分和写入d_odata[1]；这是第一个 block 的部分和所必需的。

我是否遗漏了一个细节？

最佳答案

这已在 CUDA 8.0 包中修复。 CUDA 8.0 应该很快就会可用。

关于c++ - CUDA 归约和样本 : data racing?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31115128/

24

4

0

文章推荐： java - web.xml 如何知道特定 jar 中存在的 servlet

文章推荐： php - 如何在 PHP 中添加 href 链接？

ios - 约 25 台设备的设备间通信
我需要将大约 25 台客户端设备连接到一台服务器设备(都将是 iOS，尽管 Android 会更好)。我知道这个问题有几种解决方案，我自己倾向于 MultipeerConnectivity，但同时存在
android - 管理大量数据(约 400Mb)
我正在考虑为 Android 开发鸟类目录。它将包含许多图片和音频文件，大约 400Mb。我是从这个世界开始的，但经过一些阅读后，我没有找到太多关于此类应用程序的信息。我有以下问题: 1.- 我有哪
iPhone 指南针显示错误的航向俯仰角 > 约 45°
这可能很难解释几何形状，所以我会小心拼写。这在标准 compas 应用程序和 CLLocationManager 中的数据中可见。 1)纵向手持手机时，假设俯仰角为0° 2) 当相机向上指向天空时(例
python - 替代非常大的字典(约 4000 万个键)
我有一个相当大的字典，其中包含大约 4000 万个键，我天真地通过将 {key: value, key: value, ...} 写入文本文件来存储这些键。我没有考虑到我永远无法实际访问这些数据这一事
java - 为什么当记录 > 约 600 条时查询性能急剧下降
当我在 Oracle 中使用大于约 600 条记录的“INSERT ALL”查询时，为什么查询性能会急剧下降？你能教我吗？我使用的是 Spring + Mybatis + Oracle 以下是我的查
javascript - GreaseMonkey @include 约 :newtab
我有一个要在每个页面上运行的脚本。要做到这一点非常简单，我只需设置 @include * 即可完成。它显示在每个页面上，由我在代码中分配给它的热键组合激活。它按预期工作，没有问题。但是，我希望它也可
android - 将大文件(约 2MB)上传到服务器
我正在开发一个 Android 移动应用程序，它具有按顺序向服务器上传文件的功能。我想在编写客户端服务器通信代码时牢记一个标准。由于要从移动设备上传的文件大小约为 2MB，我们需要将文件分成多个部
python - 内部加入巨大的数据框(约 200 万列)
我正在尝试根据在每个数据框中找到的一列(称为“名称”)中的匹配值来连接两个数据框(df1 和 df2) .我已经尝试使用 R 的 inner_join 函数以及 Python 的 pandas mer
database - 存储大量写入和高聚合的时间序列数据的最佳方式。 (约 10 亿点)
我正在寻找一种方法来存储带有时间戳的数据。每个时间戳可能有 1 到 10 个数据字段。我可以使用简单的数据解决方案或 SQL 将数据存储为 (time, key, value) 吗？这与我可以存储
c# - 流式音频播放延迟(约 200 毫秒)
我有一个播放流式音频数据的应用程序(如聊天客户端)。该工作流程包括三个简单的步骤: 首先发送文件头信息(采样率、每个样本的位数和 channel 数)。根据上述参数初始化音频waveout设备。音
c++ - 小词汇量语音识别(约 20 个单词)
我目前正在为我的大学做一个项目。任务是编写语音识别系统，该系统将在后台的手机上运行，等待几个命令(例如，调用 0 123 ...)。这是一个 2 个月的项目，因此不必非常准确。可接受的噪音量可以
python - 将大文本文件(约 50GB)拆分为多个文件
我想将一个大约 50GB 的大文本文件拆分成多个文件。文件中的数据是这样的-[x=0-9之间的任意整数] xxx.xxx.xxx.xxx xxx.xxx.xxx.xxx xxx.xxx.xxx.xxx
约 15 位开发人员的 Mercurial 工作流程 - 我们应该使用命名分支吗？
我的团队刚刚开始使用 Mercurial 和中央存储库。我们让 Hudson 构建了“默认”分支的尖端——这基本上是我们的主线。我们的旧 VCS 有一个 checkin 政策，即必须在 checkin
python - 我应该重复打开/关闭文件还是长时间保持打开状态(约 1 周)？
我正在为马尔可夫链蒙特卡罗反演程序实现数据收集。然而，MCMC 运行可能需要一周或更长时间才能完成!在运行开始时打开文件会更好吗: with h5py.File('my_data.hdf5', 'r+
c - fread、fwrite 适用于大尺寸视频文件(约 180MB)
我想读取视频文件并保存为二进制文件并再次写入视频文件。我用 180MB 视频进行了测试。我使用了 fread 函数，但它发生了段错误，因为视频的数组大小很小。这些是我的问题: 我使用 160*102
mysql - 类似于中等表(约 3m 条记录)上的查询性能
我有一个小问题。我有一个包含大约 300 万个城市的表，我需要对其运行 like 查询。问题是，完成查询大约需要 9 秒。有什么想法可以让它变得非常快吗？查询是: SELECT * FROM `c
linux - 很长时间(约 20 秒)未发送信号
进程从信号处理程序中发送给自身的信号在大约 20 秒内无法传递，然后它被传递了。可能的原因是什么？我想知道一般可能的原因。我正在查看的实际代码是 here 最佳答案很可能，您正在从信号处理程序
node.js - 约 5000 毫秒的 QLDB 高延迟
我正在使用“aws-sdk:^2.576.0”和“amazon-qldb-driver-nodejs:0.1.0-preview.2”，并遵循 node-sdk's sample code for q
iphone - 使用 .@count 谓词进行简单获取需要很长时间(约 30 秒)
我有 2 个实体，A 和 B，它们具有多对多关系。 A 实体大约有 10,000 个对象，B 大约有 20 个对象。基本上，A 对象可以与一个或多个 B 对象相关，并且 B 对象会跟踪它们连接到哪些
java - 约 10 秒后与 Airflow docker 容器断开连接
我成功创建并启动了这个容器: https://github.com/puckel/docker-airflow 通过运行: docker build --rm --build-arg AIRFLOW_

首页

博学

6Ren·AI

商城

c++ - CUDA 归约和样本 : data racing?