performance - 改进感知器神经网络的 OpenCL 内核-6ren

performance - 改进感知器神经网络的 OpenCL 内核

转载作者：行者123 更新时间：2023-12-01 02:19:24

24

4

我之前一直在做很多 OpenGL 和着色器，现在，我决定尝试一下 OpenCL。我看了一些在线教程，并开始阅读有关该主题的书籍。为了更好地理解，并且因为我相信最好的学习方式是聪明地尝试并从这样做时出现的问题中学习，我决定开始为一个完全连接的感知器实现一个内核。

对于那些不知道那是什么的人，我将解释其基本思想。它是一个神经网络，其中一层的每个神经元都连接到下一层的每个神经元。每个神经元只有一个 Action 要执行:执行来自前一层的所有神经元的总和，由每个神经元的不同值加权。

这看起来很容易实现，在阅读了论文“使用 OpenCL 进行并行神经网络训练”后，我通过以下方式实现了它

每一层都依赖于前一层，它们由主机按顺序运行

为了计算一个层，我使用层内神经元数量的全局工作大小运行我的内核(可能非常大，例如数万)。这使得所有神经元都相互独立地执行其总和。

每个神经元(由其 global_work_id 标识)与来自前一层的所有神经元执行加权求和。

这是我功能齐全的 opencl 内核:

/**
* @brief Computes one layer of the perceptron given the previous one and the
* weights
* The kernel is run once for each layer.
* The work items are each tasked with computing the output of a single neuron
* of the out layer.
*
* @param out_layer_size
*   Size of the output layer (number of elements in the output array that will
*   contain the result for each neuron).
* @param in_layer_size
*   Number of elements of the input layer
* @param in_value
*   Values of the neuron in the previous layer
* @param in_weights
*   Array containing the weights for each input neuron. It is organised as a
*   two dimensional matrix, written by concatenating each line in the array
*   [ w11, w12, w13, ...
*     w21, w22, w23, ...
*     ..., ..., ..., ...
*   ]
*   Where wij is the weight linking the neuron i of the input layer to the
*   neuron j of the output layer
* @param out_values
*   Computed values for the current layer
*/
void kernel perceptron(global const int* in_layer_size, global const int* out_layer_size, global const float *in_value, global const float* in_weights, global float* out_values)
{
    private const int global_id = get_global_id(0);
    private const int out_layer_s = *out_layer_size;
    private const int in_layer_s = *in_layer_size;
    private const int offset = out_layer_s * global_id;

    private float sum = 0.;
    for(int i=0; i < in_layer_s; i++) {
        sum += in_weights[i*out_layer_s+global_id] * in_value[i];
    }
    //out_values[global_id] = sigma(sum);
    out_values[global_id] = sum;
}

这是我调用它的方式:

queue.enqueueNDRangeKernel(kernel, cl::NullRange,cl::NDRange(number of neurons within layer),cl::NullRange);

我意识到这个内核的瓶颈是加权和的实现。如果有人能解释我如何改进它以使其更快，那将非常有帮助。

我可能没有正确使用不同的内存区域，我主要考虑的是我什至不使用的本地内存。

只是为了让您了解性能(即在 Nvidia GTX 660M 上)，我将向您展示我取得的一些成绩。每个值是每层的神经元数量:

2500、10000、2500:0.018s ~ 60FPS。它比我的处理器(运行频率为 2.40GHz 的英特尔酷睿 i7)快 4 到 5 倍

100 000, 100 000, 500: 140s -> 我想这并不奇怪，因为第二层中的每个神经元都必须执行 100 000 个元素的加权和。在我的处理器上运行它会产生大致相同的结果。

最佳答案

正如您所说，瓶颈是加权总和。这并不难，因为在每一层，与算术运算的数量相比，每个 WI(工作项)都在执行大量 IO 操作。我没有神经网络方面的经验，但对我来说，问题看起来像是 GPU 上糟糕的内存访问模式。

潜在地，这可以通过将您的 WI 组织到本地 WG(工作组)中来解决。由于每个 WI 都需要处理上一个的所有数据。层，我猜WG中的所有WI都可以将一些数据加载到本地内存中，处理它们而不是下一组数据。这将使您的算法对缓存更加友好。内核伪代码如下:

void kernel Kernel(
__global const int  in_layer_size, 
__global const int  out_layer_size, 
__global const float    *in_value, 
__global const float    *in_weights, 
__global float      *out_values){

__local float buffer[SOME_SIZE];
__global const float* p_in  = in_value;
__global float* p_out = out_values;

const int 
    global_id   = get_global_id(0),
    local_id    = get_local_id(0),
    num_buffers = in_layer_size / SOME_SIZE,
    offset      = out_layer_size * global_id;

float sum = 0.0f;
for(int i=0; i < num_buffers; i++){
    buffer[local_id] = p_in[local_id];
    barrier(CLK_LOCAL_MEM_FENCE);

    //Process all data inside buffer by every WI in WG
    //...

    p_in += SOME_SIZE;
    out_values += SOME_SIZE;
    }

//...
return;

}

因此，您正在滑动固定大小的窗口并计算其中的数据，然后转到下一个窗口。所有数据操作都是独立完成的，工作项只同时使用相同的数据。本地组的最佳大小取决于设备和内核。

关于performance - 改进感知器神经网络的 OpenCL 内核，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21651723/

24

4

0

文章推荐： javascript - 一个长 If 条件与许多带有检查点的较小条件

文章推荐： javascript - grep : Find all patterns like obj && obj. 属性

文章推荐： JavaScript:如何将数据添加到 JSON 文件内的数组

检查不良做法/改进
我对编码还比较陌生，但并非完全没有经验。处理有关金融计算器的学校作业。如果你们中的任何人可以查看我的代码以了解不良做法/可能的改进等，那就太好了。我确实添加了一个“动画”启动(有很多 printf
小目标检测改进拆分拼接
小目标Trick 论文链接： https://paperswithcode.com/paper/slicing-aided-hyper-inference-and-fine-tuning 代码链接：h
javascript - 改进 if 语句链
if (firstPositionCpc && (firstPosition > 0 && firstPositionCpc 0 && topOfPageCpc 0 && firstPageCpc
SQL 改进 - UNION？
我有 2 个表:“packages”和“items”。 “packages”有以下列:pack_id | item_id “items”有以下列......:item_id |输入一个包可以有多个
python - Pandas 改进
我目前有一个 Pandas Dataframe，我在其中执行列之间的比较。我发现一种情况，在进行比较时存在空列，由于某种原因比较返回 else 值。我添加了一个额外的语句来将其清理为空。看看我是否可以
具有四舍五入的主日期时间键的 MySQL 改进
我正在处理一个查询，通过首先舍入它们的主要日期时间键来连接一个数据库中的多个表。数据库包含来自 openhab 的性能数据，每个表只有一个名为 Time 的主日期时间行和一个名为 Value 的值行。
即发即弃的 C# 改进
问候我有一个程序创建一个类的多个实例，在所有实例上运行相同的长时间运行的 Update 方法并等待完成。我从 this question 开始关注 Kev 的方法将更新添加到 ThreadPool.
c - 对我的简单二十一点程序的建议/改进
我想在下学期的类(class)中取得领先，所以我制作了这个基本版本的 Blackjack 来开始理解 C 的基础知识，我希望您有任何想法可以帮助我更好地理解 C 和其正常的编码实践。 C 中的很多东西
javascript - 需要更好的解决方案/改进
我有一个要求，比如: 给定一个数组，其中包含随机数。需要输出元素出现的次数，有自带解决方案: var myArr = [3,2,1,2,3,1,4,5,4,6,7,7,9,1,123,0,123];
sql - min() 改进
这是我的数据库项目。表user_ select id, name from user_; id | name ----+---------- 1 | bartek 2 | bartek
bash - 改进 for 循环的执行
我已经完成了一个小批量脚本来调整(动态)一些图像的大小: for a in *.{png,PNG,jpg,JPG,jpeg,JPEG,bmp,BMP} ; do convert "$a" -resiz
列表理解中函数的 Pythonic 改进？
是否有更 pythonic 的方法来执行以下代码？我想在一行中完成 parsed_rows 是一个可以返回大小为 3 或 None 的元组的函数。 parsed_rows = [ parse_row(
选项转换器的 Javascript 改进
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 9 年前。 Improv
python - 列表到字典 - 改进？
下面的代码完成了我想要的，但还有其他更像 python 风格的方式吗？文件格式: key1:value1,key2:value2,... key21:value21,key22:value22,..
java - 检查字符串中是否存在字符集 - 改进
如果两个英文单词只包含相同的字母，则它们是相似的。例如，food 和 good 不相似，但 dog 和 good 相似。 (如果A与B相似，则A中的所有字母都包含在B中，B中的所有字母都包含在A中。)
c - 强平衡树 - 改进
我有以下结构来表示二叉树: typedef struct node *pnode; typedef struct node { int val; pnode left; pnode
algorithm - 改进 a* 搜索以在三角环境中寻找路径
我有一个区域，它由受约束的 delaunay 三角剖分表示。我正在解决在两点之间寻找路径的问题。我正在使用 Marcelo Kallmann 提供的论文作为解决此问题的引用点。然而，而不是使用 Kal
java - 使用正则表达式的性能开销/改进
如果我需要检查文本(字符串)中是否存在单词 A 或单词 B，如果我这样做会有性能差异: if(text.contains(wordA) || text.contains(wordB)) 要使用一些正则
xml - Xpath 改进
Adjust To 我有上面这个简单的页面，上面有一个标签和一个文本框。我想在文本框中输入文本。对我有帮助的 XPATH 是 //*[contains(tex
elisp - 改进 Elisp 条件表达式
以下伪代码的elisp代码 if "the emacs version is less than 23.1.x" do something else something-else 写成 (if

首页

博学

6Ren·AI

商城

performance - 改进感知器神经网络的 OpenCL 内核