- Java 双重比较
- java - 比较器与 Apache BeanComparator
- Objective-C 完成 block 导致额外的方法调用?
- database - RESTful URI 是否应该公开数据库主键?
我目前正在使用以下 Reduction 函数通过 CUDA 对数组中的所有元素求和:
__global__ void reduceSum(int *input, int *input2, int *input3, int *outdata, int size){
extern __shared__ int sdata[];
unsigned int tID = threadIdx.x;
unsigned int i = tID + blockIdx.x * (blockDim.x * 2);
sdata[tID] = input[i] + input[i + blockDim.x];
__syncthreads();
for (unsigned int stride = blockDim.x / 2; stride > 32; stride >>= 1)
{
if (tID < stride)
{
sdata[tID] += sdata[tID + stride];
}
__syncthreads();
}
if (tID < 32){ warpReduce(sdata, tID); }
if (tID == 0)
{
outdata[blockIdx.x] = sdata[0];
}
}
但是,正如您从函数参数中看到的那样,我希望能够在一个缩减函数中对三个单独的数组求和。很明显,一个简单的方法是启动内核 3 次,每次都传递一个不同的数组,这当然可以正常工作。不过我现在只是把它写成一个测试内核,真正的内核最终会采用一个结构数组,我需要对每个结构的所有 X、Y 和 Z 值执行加法,这就是为什么我需要将它们全部汇总到一个内核中。
我已经为所有三个数组初始化并分配了内存
int test[1000];
std::fill_n(test, 1000, 1);
int *d_test;
int test2[1000];
std::fill_n(test2, 1000, 2);
int *d_test2;
int test3[1000];
std::fill_n(test3, 1000, 3);
int *d_test3;
cudaMalloc((void**)&d_test, 1000 * sizeof(int));
cudaMalloc((void**)&d_test2, 1000 * sizeof(int));
cudaMalloc((void**)&d_test3, 1000 * sizeof(int));
我不确定我应该为这种内核使用什么网格和 block 维度,我也不完全确定如何修改缩减循环以按照我的需要放置数据,即输出数组:
Block 1 Result|Block 2 Result|Block 3 Result|Block 4 Result|Block 5 Result|Block 6 Result|
Test Array 1 Sums Test Array 2 Sums Test Array 3 Sums
我希望这是有道理的。或者有没有更好的方法只有一个归约函数但能够返回 Struct.X、Struct.Y 或 struct.Z 的总和?
结构如下:
template <typename T>
struct planet {
T x, y, z;
T vx, vy, vz;
T mass;
};
我需要将所有 VX 相加并存储,将所有 VY 相加并存储,将所有 VZ 相加并存储。
最佳答案
Or is there a better way to have only one reduction function but be able to return the summation of Struct.X, Struct.Y or struct.Z?
通常加速计算的主要焦点是速度。 GPU 代码的速度(性能)通常在很大程度上取决于数据存储和访问模式。因此,尽管正如您在问题中指出的那样,我们可以通过多种方式实现解决方案,但让我们专注于应该相对较快的事情。
像这样的归约没有太多的算术/操作强度,因此我们对性能的关注主要围绕数据存储以实现高效访问。当访问全局内存时,GPU 通常会以大块的形式进行——32 字节或 128 字节的 block 。为了有效地使用内存子系统,我们希望在每个请求中使用所请求的所有 32 或 128 个字节。
但是你的结构隐含的数据存储模式:
template <typename T>
struct planet {
T x, y, z;
T vx, vy, vz;
T mass;
};
几乎排除了这一点。对于此问题,您关心 vx
、vy
和 vz
。这 3 个项目在给定的结构(元素)中应该是连续的,但是在这些结构的数组中,它们将被其他结构项目的必要存储分开,至少:
planet0: T x
T y
T z ---------------
T vx <-- ^
T vy <-- |
T vz <-- 32-byte read
T mass |
planet1: T x |
T y v
T z ---------------
T vx <--
T vy <--
T vz <--
T mass
planet2: T x
T y
T z
T vx <--
T vy <--
T vz <--
T mass
(为了举例,假设T
是float
)
这指出了 GPU 中结构数组 (AoS) 存储格式的一个主要缺点。由于 GPU 的访问粒度(32 字节),从连续结构访问相同元素是低效的。在这种情况下,通常的性能建议是将 AoS 存储转换为 SoA(数组结构):
template <typename T>
struct planets {
T x[N], y[N], z[N];
T vx[N], vy[N], vz[N];
T mass[N];
};
以上只是一个可能的示例,可能不是您实际使用的示例,因为该结构没有什么用处,因为我们只有一个结构用于 N
行星。关键是,现在当我访问连续行星的 vx
时,各个 vx
元素在内存中都是相邻的,所以 32 字节的读取给了我 32 字节的 vx
数据,没有浪费或未使用的元素。
经过这样的改造,从代码组织的角度来看,归约问题又变得相对简单了。您可以使用与单个数组缩减代码基本相同的代码,连续调用 3 次,或者直接扩展内核代码以独立处理所有 3 个数组。 “三合一”内核可能看起来像这样:
template <typename T>
__global__ void reduceSum(T *input_vx, T *input_vy, T *input_vz, T *outdata_vx, T *outdata_vy, T *outdata_vz, int size){
extern __shared__ T sdata[];
const int VX = 0;
const int VY = blockDim.x;
const int VZ = 2*blockDim.x;
unsigned int tID = threadIdx.x;
unsigned int i = tID + blockIdx.x * (blockDim.x * 2);
sdata[tID+VX] = input_vx[i] + input_vx[i + blockDim.x];
sdata[tID+VY] = input_vy[i] + input_vy[i + blockDim.x];
sdata[tID+VZ] = input_vz[i] + input_vz[i + blockDim.x];
__syncthreads();
for (unsigned int stride = blockDim.x / 2; stride > 32; stride >>= 1)
{
if (tID < stride)
{
sdata[tID+VX] += sdata[tID+VX + stride];
sdata[tID+VY] += sdata[tID+VY + stride];
sdata[tID+VZ] += sdata[tID+VZ + stride];
}
__syncthreads();
}
if (tID < 32){ warpReduce(sdata+VX, tID); }
if (tID < 32){ warpReduce(sdata+VY, tID); }
if (tID < 32){ warpReduce(sdata+VZ, tID); }
if (tID == 0)
{
outdata_vx[blockIdx.x] = sdata[VX];
outdata_vy[blockIdx.x] = sdata[VY];
outdata_vz[blockIdx.x] = sdata[VZ];
}
}
(在浏览器中编码 - 未经测试 - 只是您作为“引用内核”显示的内容的扩展)
上述 AoS -> SoA 数据转换也可能在代码的其他地方带来性能优势。由于建议的内核将同时处理 3 个数组,因此网格和 block 维度应该与您在单数组情况下用于引用内核的维度完全相同。共享内存存储需要每个 block 增加(三倍)。
关于c++ - 具有多个数组的共享内存的 CUDA 缩减,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35632983/
只是想知道是否有可能找出谁从 Windows 共享中读取了文件(最好使用 .NET,但 win32 native 可以)? 我想做的是创建类似 awstats 的东西对于 Windows 共享,这样我
是否可以列出 Intent.ACTION_SEND ?我的意思是我需要知道是否有人通过 action_send 在 Facebook 上分享或在 Twitter 上发推文。 最佳答案 也许你想要一个更
我正在使用 Google Apps 应用程序。实际上,我想在不使用密码的情况下访问另一个 ID。我使用了 OAuth,它运行良好。但我无法分享特定人的日历。我尝试了以下代码。 GoogleOAuthP
我怎样才能只创建模拟器...可能吗?我知道,设备需要分发证书。 最佳答案 您只需将应用程序目录从 iPhone 模拟器复制到另一个实例/操作系统版本,它就应该可以工作。 因此,如果您想分发 3.1.3
我想使用多阶段构建来避免每次构建应用程序时都下载我的 Java 项目所需的所有 Maven 依赖项。 我正在考虑在第一阶段解决 Maven 依赖项,然后在第二阶段构建应用程序,这将需要访问在前一阶段下
我正在寻找保护用户下载内容的初步想法。用户下载充满有趣资源的 zip 文件,这些资源被提取到本地文件系统中以供应用程序使用。我的目标是防止用户通过互联网将下载的资源共享给其他用户(假设他们获得了对文件
我想知道在具有移动和桌面版本的网站上共享身份验证、 session 管理等的最佳方法是什么。我们正在运行 Tomcat,并且更愿意将移动站点和桌面站点的应用程序保持在不同的节点上。 我看过类似的帖子,
我发现了这个单例的实现。我怎样才能创建指向它的指针或共享指针?` 为什么这不起作用?自动测试 = Singleton::Instance(); class Singleton { public: st
我有一个 heroku 项目,我想与其他人分享。作为the instructions describe ,我使用 virtualenv 来管理环境和依赖项。有没有办法在新机器上从 requiremen
Maven 将所有 jar 存储在本地存储库 ~/.m2/repository/ 下。用户多时占用空间大。 那么,是否可以由多个用户共享这个本地存储库,或许在不同的目录结构下? 最佳答案 简单的回答
为什么共享 worker 在重新加载页面时死了?应该是复活了我该如何解决这个问题? 重装前 重新加载后(在example.com上按F5) parent worker var port = new S
我正在开发多个小型应用程序,这些应用程序将共享通用和共享模块和 Assets 。 关于如何创建项目结构的部分在这里回答:https://stackoverflow.com/a/61254557/135
我在 RHEL 上安装了 jenkins (localhost:8080),我能够成功地构建代码 现在,我想设置主/从代理。 我的笔记本电脑将充当“Master Jenkins”,而我同事的笔记本电脑
我有这种方法可以根据我使用的 EXTRA_STREAM 共享文本文件或图片。我有这两个我可以选择 i.putExtra(Intent.EXTRA_STREAM, uri); i.putExtra(In
我正在使用 R 中的一个数据分析项目,我正在使用 R 中的敏感私有(private)数据进行一些逻辑和多级建模。我爱上了 。预订 包,我已经创建了一本关于我们的工作流程和分析管道的相当广泛的书。问题是
我正在构建的应用程序需要在 UITabBarController 框架内为多个 View (及其 subview )显示共享的自定义 UIToolbar。自定义工具栏的内容在所有 View 中都是相同
我有多个应用程序,我想共享相同的 eslint 配置: - project_root/ - app1/ - node_modules/ - eslint.rc
我有多个 Electron 应用程序。一个是主应用程序,其他几个功能应用程序。主应用程序上的按钮很少,这将导致功能应用程序打开。这里的问题是每个应用程序都有一个主进程,该进程导致要利用更多的CPU。是
我正在开发一个 Node.js 后端,它通过 websocket 与一些桌面客户端进行通信,而服务器端的通信是从 Web 前端发起的。一切正常,因为我将 SockJS Connection 实例存储在
我对托管多个网站的服务器上的多个用户帐户使用私有(private) SSH key 和无密码条目。 我为每个用户帐户使用相同的私钥。 (因为我很懒?或者那是“正确”的方式)。 我现在想授权该国不同地区
我是一名优秀的程序员,十分优秀!