cuda - 使用 OpenCL 的累积数组求和-6ren

cuda - 使用 OpenCL 的累积数组求和

转载作者：行者123 更新时间：2023-12-04 17:28:14

28

4

我正在使用 OpenCL 计算 n 维点之间的欧几里得距离。我得到两个 n 维点列表，我应该返回一个数组，其中只包含从第一个表中的每个点到第二个表中的每个点的距离。

我的方法是执行常规的双循环(对于 Table1 中的每个点{对于 Table2 中的每个点{...}}，然后对并行中的每对点进行计算。

然后欧几里德距离被分成 3 部分:
1.取点中各个维度的差异
2. 对差异进行平方(仍然适用于每个维度)
3. 将 2 中获得的所有值相加。
4. 取3中得到的值的平方根。(本例中省略了这一步。)

一切都像魅力一样，直到我尝试累积所有差异的总和(即，执行上述过程的第 3 步，下面代码的第 49 行)。

作为测试数据，我使用 DescriptorLists，每个 2 点:
DescriptorList1: 001,002,003,...,127,128; (p1)
129,130,131,...,255,256； (p2)

DescriptorList2: 000,001,002,...,126,127; (p1)
128,129,130,...,254,255； (p2)

所以结果向量应该有以下值:128, 2064512, 2130048, 128
现在我得到的随机数随着每次运行而变化。

我感谢任何帮助或指导我做错了什么。希望一切都清楚我正在工作的场景。

#define BLOCK_SIZE 128

typedef struct
{
    //How large each point is
    int length;
    //How many points in every list
    int num_elements;
    //Pointer to the elements of the descriptor (stored as a raw array)
    __global float *elements;
} DescriptorList;

__kernel void CompareDescriptors_deb(__global float *C, DescriptorList A, DescriptorList B, int elements, __local float As[BLOCK_SIZE])
{

    int gpidA = get_global_id(0);

    int featA = get_local_id(0);

    //temporary array  to store the difference between each dimension of 2 points
    float dif_acum[BLOCK_SIZE];

    //counter to track the iterations of the inner loop
    int loop = 0;

    //loop over all descriptors in A
    for (int i = 0; i < A.num_elements/BLOCK_SIZE; i++){

        //take the i-th descriptor. Returns a DescriptorList with just the i-th
        //descriptor in DescriptorList A
        DescriptorList tmpA = GetDescriptor(A, i);

        //copy the current descriptor to local memory.
        //returns one element of the only descriptor in DescriptorList tmpA
        //and index featA
        As[featA] = GetElement(tmpA, 0, featA);
        //wait for all the threads to finish copying before continuing
        barrier(CLK_LOCAL_MEM_FENCE);

        //loop over all the descriptors in B
        for (int k = 0; k < B.num_elements/BLOCK_SIZE; k++){
            //take the difference of both current points
            dif_acum[featA] = As[featA]-B.elements[k*BLOCK_SIZE + featA];
            //wait again
            barrier(CLK_LOCAL_MEM_FENCE);
            //square value of the difference in dif_acum and store in C
            //which is where the results should be stored at the end.
            C[loop] = 0;
            C[loop] += dif_acum[featA]*dif_acum[featA];
            loop += 1;
            barrier(CLK_LOCAL_MEM_FENCE);
        }
    }
}

最佳答案

您的问题在于这些代码行:

C[loop] = 0;
C[loop] += dif_acum[featA]*dif_acum[featA];

您工作组中的所有线程(好吧，实际上是您的所有线程，但让我们稍后再谈)都试图在没有任何同步的情况下同时修改此数组位置。有几个因素使这真的很成问题:

工作组不能保证完全并行工作，这意味着对于某些线程 C[loop] = 0 可以在其他线程已经执行下一行

之后调用。

那些并行执行的人都从 C[loop] 读取相同的值，用它们的增量修改它并尝试写回相同的地址。我不完全确定写回的结果是什么(我认为其中一个线程成功写回，而其他线程失败，但我不完全确定)，但无论哪种方式都是错误的。

现在让我们解决这个问题:
虽然我们可以使用原子来让它在全局内存上工作，但它不会很快，所以让我们在本地内存中积累:

local float* accum;
...
accum[featA] = dif_acum[featA]*dif_acum[featA];
barrier(CLK_LOCAL_MEM_FENCE);
for(unsigned int i = 1; i < BLOCKSIZE; i *= 2)
{
    if ((featA % (2*i)) == 0)
        accum[featA] += accum[featA + i];
    barrier(CLK_LOCAL_MEM_FENCE);
}
if(featA == 0)
    C[loop] = accum[0];

当然，您可以为此重用其他本地缓冲区，但我认为这一点很明确(顺便说一句:您确定将在本地内存中创建 dif_acum 吗，因为我想我在某处读到了这不会放在本地内存中，这将使预加载 A 到本地内存有点毫无意义)。

关于此代码的其他一些要点:

您的代码似乎仅适用于工作组(您既不使用 groupid 也不使用 global id 来查看要处理的项目)，为了获得最佳性能，您可能希望使用更多。

可能是个人喜好，但对我来说，使用 get_local_size(0) 似乎更好对于工作组大小而不是使用定义(因为您可能会在主机代码中更改它而没有意识到您应该将您的 opencl 代码更改为)

代码中的屏障都是不必要的，因为没有线程访问本地内存中由另一个线程写入的元素。因此，您不需要为此使用本地内存。

考虑到最后一个子弹，你可以简单地做:

float As = GetElement(tmpA, 0, featA);
...
float dif_acum = As-B.elements[k*BLOCK_SIZE + featA];

这将使代码(不考虑前两个项目符号):

__kernel void CompareDescriptors_deb(__global float *C, DescriptorList A, DescriptorList B, int elements, __local float accum[BLOCK_SIZE])
{
   int gpidA = get_global_id(0);
   int featA = get_local_id(0);
   int loop = 0;
   for (int i = 0; i < A.num_elements/BLOCK_SIZE; i++){
       DescriptorList tmpA = GetDescriptor(A, i);
       float As = GetElement(tmpA, 0, featA);
       for (int k = 0; k < B.num_elements/BLOCK_SIZE; k++){
           float dif_acum = As-B.elements[k*BLOCK_SIZE + featA];

           accum[featA] = dif_acum[featA]*dif_acum[featA];
           barrier(CLK_LOCAL_MEM_FENCE);
           for(unsigned int i = 1; i < BLOCKSIZE; i *= 2)
           {
              if ((featA % (2*i)) == 0)
                 accum[featA] += accum[featA + i];
              barrier(CLK_LOCAL_MEM_FENCE);
           }
           if(featA == 0)
              C[loop] = accum[0];
           barrier(CLK_LOCAL_MEM_FENCE);

           loop += 1;
        }
    }
}

关于cuda - 使用 OpenCL 的累积数组求和，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3770533/

28

4

0

文章推荐： flash - 如何使用透明 BitmapData 作为掩码

文章推荐： xmpp - 连接到 XMPP 服务器时 SASL 授权失败

文章推荐： .net - NSubstitute 是否支持 ref 参数？

java - 累积 getClickCount()
美好的一天! 我正在制作一个出勤检查程序，单击一次时显示橙色按钮，单击两次时显示红色按钮，单击 3 次时显示黑色按钮。我在如何累积 getClickCount() 值方面遇到问题，因为对于按钮要注册
ColdFusion 更新 - 累积？
我似乎无法在 Adobe 网站上找到明确的答案。使用 ColdFusion 10,11 甚至 2016，更新(修补程序)是否累积？例如，ColdFusion 的修补程序高达 hotfix_023
随机森林回归 - 累积 MSE？
我是随机森林新手，我有一个关于回归的问题。我正在使用 R 包 randomForests 来计算 RF 模型。我的最终目标是选择对预测连续性状很重要的变量集，因此我正在计算一个模型，然后删除准确度平
java - 累积/刷新消息的设计模式
目前我们有一个发布/消费者服务，消费者将收到的消息写入 AWS S3。我们目前每月编写超过 100.000.000 个对象。但是，我们可以根据一些规则对这些消息进行分组，以节省一些钱。这些规则可以是这
haskell - 是否有不可折叠的东西的 map 累积？
假设我有一个二叉树: data BinTree a = Nil | Branch a (BinTree a) (BinTree a) 我想在这样的结构上做一个累积映射: mapAccum ::
r - 非参数逆(累积)分布函数
我正在使用内核估计，我应用了 density函数从 R 到我的数据文件(双变量)，经过几次统计处理后，我需要转换这些数据，这就是我的问题: 是否有非参数方法的逆累积分布函数？我尝试过 Google、
sql - 如何获得不同值的运行(累积)字符串聚合
不确定以前是否有人问过这个问题，尝试搜索它但找不到任何相关内容。我试图获得一个累积的字符串聚合，即仅运行不同值的聚合。这是我正在寻找的结果的示例。我尝试使用 string_agg 函数，但它仅在用
R 累积 bind.rows
我想找到累积的 bind.rows。这是我想要实现的小例子。我将使用 dslabs 包中的 gapminder 数据集进行演示。 library(tidyverse) library(dslabs)
linux - 累积 CPU 时间到底是什么
在 Linux 中使用 tomcat 进程时，我们观察到时间字段显示5506:34(累积 CPU 时间)。在探索时，这是在进程的整个生命周期中运行所花费的 CPU 时间的百分比。由于这是一个 Jav
python - 使用 pyparsing 累积
我有一些数据可以使用 pyparsing 中的 OneorMore 函数进行解析。比如， fun = OneorMore( foo.setResultsName("foo") + bar.setRe
python - Pandas 累积/元素方式
我试图弄清楚是否有一种简单的方法可以解决 pandas 的以下问题。假设我有四个容器，A、B、C、D，每个容器都有特定的体积。假设我现在得到了一定量的液体，我想用它来填充这些容器。我怎样才能想出一个“
python - numpy:累积 'greater' 操作
我正在尝试编写一个函数来检测所有上升沿 - 向量中值超过特定阈值的索引。这里描述了类似的东西:Python rising/falling edge oscilloscope-like trigger
在 R 中运行(累积)产品？
这个问题在这里已经有了答案: Multiplying elements of a column in skipping an element after each iteration (3 个答案)
python - pandas 扩展(累积)value_counts
有没有办法获取数据框中每一行的值计数？ |f1|f2| ------- v1 | a value_counts -> {a:1} v2 | a value_counts -> {a:2} v3 |
c# - mstest 如何创建对同一对象(累积)起作用的测试方法？
我目前正在尝试对我正在构建的计算器(使用复合模式)进行测试。第一种方法应该添加 75 美元，效果很好，但是当第二种方法运行时，“服务”被重置并且有0 美元作为工作成本。如果我将这两种方法合二为一，那么
java - 累积 Java Stream，然后才处理它
我有一个如下所示的文档: 数据.txt 100, "some text" 101, "more text" 102, "even more text" 我使用正则表达式处理它并返回一个新的处理文档，如
javascript - 累积 promise 值 "functionally"
假设我有这个: function getAllPromises(key: string, val: any): Promise { const subDeps = someHash[key]; c
mysql - 根据条件 fork 累积 _sum
我在 mysql 中有表“cumul_sum”，我想根据条件划分“cumulative”列，即如果此列中的值 >= 70，则这些值应存储在名为“others”的新列中"并且前面应该存放对应的sku_i
c++ - 改变 switch() 中的数据，累积
我正在做一个用 C++ 刺激 ATM 的项目，但在使用累加器时遇到了一些问题，我的问题是:我正在使用开关(这里是情况 1)来更改在包含的函数中声明的 2 个变量的值switch()，但是值只在情况 1
c++ - 累积 vector C++ 中的所有其他元素
我希望能够使用 accumulate 对 vector 中的每隔一对元素进行累加。我尝试了以下但没有成功，为非空、非零 vector 返回错误 return std::accumulate(vec.b

首页

博学

6Ren·AI

商城

cuda - 使用 OpenCL 的累积数组求和