- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我使用 NVIDIA Visual Profiler 来分析我的代码。测试内核是:
//////////////////////////////////////////////////////////////// Group 1
static __global__ void gpu_test_divergency_0(float *a, float *b)
{
int tid = threadIdx.x + blockIdx.x * blockDim.x;
if (tid < 0)
{
a[tid] = tid;
}
else
{
b[tid] = tid;
}
}
static __global__ void gpu_test_divergency_1(float *a, float *b)
{
int tid = threadIdx.x + blockIdx.x * blockDim.x;
if (tid == 0)
{
a[tid] = tid;
}
else
{
b[tid] = tid;
}
}
static __global__ void gpu_test_divergency_2(float *a, float *b)
{
int tid = threadIdx.x + blockIdx.x * blockDim.x;
if (tid >= 0)
{
a[tid] = tid;
}
else
{
b[tid] = tid;
}
}
static __global__ void gpu_test_divergency_3(float *a, float *b)
{
int tid = threadIdx.x + blockIdx.x * blockDim.x;
if (tid > 0)
{
a[tid] = tid;
}
else
{
b[tid] = tid;
}
}
//////////////////////////////////////////////////////////////// Group 2
static __global__ void gpu_test_divergency_4(float *a, float *b)
{
int tid = threadIdx.x + blockIdx.x * blockDim.x;
if (tid < 0)
{
a[tid] = tid + 1;
}
else
{
b[tid] = tid + 2;
}
}
static __global__ void gpu_test_divergency_5(float *a, float *b)
{
int tid = threadIdx.x + blockIdx.x * blockDim.x;
if (tid == 0)
{
a[tid] = tid + 1;
}
else
{
b[tid] = tid + 2;
}
}
static __global__ void gpu_test_divergency_6(float *a, float *b)
{
int tid = threadIdx.x + blockIdx.x * blockDim.x;
if (tid >= 0)
{
a[tid] = tid + 1;
}
else
{
b[tid] = tid + 2;
}
}
static __global__ void gpu_test_divergency_7(float *a, float *b)
{
int tid = threadIdx.x + blockIdx.x * blockDim.x;
if (tid > 0)
{
a[tid] = tid + 1;
}
else
{
b[tid] = tid + 2;
}
}
//////////////////////////////////////////////////////////////// Group 3
static __global__ void gpu_test_divergency_8(float *a, float *b)
{
int tid = threadIdx.x + blockIdx.x * blockDim.x;
if (tid < 0)
{
a[tid] = tid + 1.0;
}
else
{
b[tid] = tid + 2.0;
}
}
static __global__ void gpu_test_divergency_9(float *a, float *b)
{
int tid = threadIdx.x + blockIdx.x * blockDim.x;
if (tid == 0)
{
a[tid] = tid + 1.0;
}
else
{
b[tid] = tid + 2.0;
}
}
static __global__ void gpu_test_divergency_10(float *a, float *b)
{
int tid = threadIdx.x + blockIdx.x * blockDim.x;
if (tid >= 0)
{
a[tid] = tid + 1.0;
}
else
{
b[tid] = tid + 2.0;
}
}
static __global__ void gpu_test_divergency_11(float *a, float *b)
{
int tid = threadIdx.x + blockIdx.x * blockDim.x;
if (tid > 0)
{
a[tid] = tid + 1.0;
}
else
{
b[tid] = tid + 2.0;
}
}
当我使用 <<< 1, 32 >>> 启动测试内核时,我从分析器中得到了这样的结果:
gpu_test_divergency_0 : Branch Efficiency = 100% branch = 1 divergent branch = 0
gpu_test_divergency_1 : Branch Efficiency = 100% branch = 1 divergent branch = 0
gpu_test_divergency_2 : Branch Efficiency = 100% branch = 1 divergent branch = 0
gpu_test_divergency_3 : Branch Efficiency = 100% branch = 1 divergent branch = 0
gpu_test_divergency_4 : Branch Efficiency = 100% branch = 3 divergent branch = 0
gpu_test_divergency_5 : Branch Efficiency = 100% branch = 3 divergent branch = 0
gpu_test_divergency_6 : Branch Efficiency = 100% branch = 2 divergent branch = 0
gpu_test_divergency_7 : Branch Efficiency = 100% branch = 3 divergent branch = 0
gpu_test_divergency_8 : Branch Efficiency = 100% branch = 3 divergent branch = 0
gpu_test_divergency_9 : Branch Efficiency = 75% branch = 4 divergent branch = 1
gpu_test_divergency_10 : Branch Efficiency = 100% branch = 2 divergent branch = 0
gpu_test_divergency_11 : Branch Efficiency = 75% branch = 4 divergent branch = 1
当我使用 <<< 1, 64 >>> 启动测试内核时,我从分析器中得到了这样的结果:
gpu_test_divergency_0 : Branch Efficiency = 100% branch = 2 divergent branch = 0
gpu_test_divergency_1 : Branch Efficiency = 100% branch = 2 divergent branch = 0
gpu_test_divergency_2 : Branch Efficiency = 100% branch = 2 divergent branch = 0
gpu_test_divergency_3 : Branch Efficiency = 100% branch = 2 divergent branch = 0
gpu_test_divergency_4 : Branch Efficiency = 100% branch = 6 divergent branch = 0
gpu_test_divergency_5 : Branch Efficiency = 100% branch = 6 divergent branch = 0
gpu_test_divergency_6 : Branch Efficiency = 100% branch = 4 divergent branch = 0
gpu_test_divergency_7 : Branch Efficiency = 100% branch = 5 divergent branch = 0
gpu_test_divergency_8 : Branch Efficiency = 100% branch = 6 divergent branch = 0
gpu_test_divergency_9 : Branch Efficiency = 85.7% branch = 7 divergent branch = 1
gpu_test_divergency_10 : Branch Efficiency = 100% branch = 4 divergent branch = 0
gpu_test_divergency_11 : Branch Efficiency = 83.3% branch = 6 divergent branch = 1
我在 Linux 上使用 CUDA Capability 2.0 和 NVIDIA Visual Profiler v4.2 的“GeForce GTX 570”。根据文件:
“分支”-“执行内核的线程采用的分支数。如果 warp 中至少有一个线程采用分支,则此计数器将递增 1。”
“发散分支” - “一个 warp 中发散分支的数量。如果 warp 中至少有一个线程通过数据依赖项发散(即遵循不同的执行路径),则此计数器将递增 1条件分支。”
但我对结果真的很困惑。为什么每个测试组的“分支”数量不同?为什么只有第三个测试组似乎有正确的“发散分支”?
@JackOLantern:我在 Release模式下编译。我按照你的方法拆了它。 “gpu_test_divergency_4”的结果和你的完全一样,但是“gpu_test_divergency_0”的结果不同:
Function : _Z21gpu_test_divergency_0PfS_
/*0000*/ /*0x00005de428004404*/ MOV R1, c [0x1] [0x100];
/*0008*/ /*0x94001c042c000000*/ S2R R0, SR_CTAid_X;
/*0010*/ /*0x84009c042c000000*/ S2R R2, SR_Tid_X;
/*0018*/ /*0x20009ca320044000*/ IMAD R2, R0, c [0x0] [0x8], R2;
/*0020*/ /*0xfc21dc23188e0000*/ ISETP.LT.AND P0, pt, R2, RZ, pt;
/*0028*/ /*0x0920de0418000000*/ I2F.F32.S32 R3, R2;
/*0030*/ /*0x9020204340004000*/ @!P0 ISCADD R0, R2, c [0x0] [0x24], 0x2;
/*0038*/ /*0x8020804340004000*/ @P0 ISCADD R2, R2, c [0x0] [0x20], 0x2;
/*0040*/ /*0x0000e08590000000*/ @!P0 ST [R0], R3;
/*0048*/ /*0x0020c08590000000*/ @P0 ST [R2], R3;
/*0050*/ /*0x00001de780000000*/ EXIT;
我想,正如您所说,转换指令(在本例中为 I2F)不会添加额外的分支。
但我看不到这些反汇编代码与 Profiler 结果之间的关系。我从另一篇文章(https://devtalk.nvidia.com/default/topic/463316/branch-divergent-branches/)了解到,发散分支是根据 SM 上的实际线程(warp)运行情况计算的。所以我估计我们不能仅仅根据这些反汇编代码来推导出每次实际运行的分支发散。我对吗?
最佳答案
跟进 - 使用 VOTE Intrinsics 检查线程分歧
我认为检查 warps 内线程分歧的最佳方法是使用投票内在函数,尤其是 __ballot
和 __popc
内在函数。关于 __ballot
和 __popc
的很好的解释可以在 Shane Cook,CUDA Programming,Morgan Kaufmann 的书中找到。
__ballot
的原型(prototype)如下
unsigned int __ballot(int predicate);
如果谓词非零,__ballot
返回一个设置了第 N
位的值,其中 N
是 threadIdx.x
.
另一方面,__popc
返回使用 32
位参数设置的位数。
因此,通过联合使用 __ballot
、__popc
和 atomicAdd
,可以检查 warp 是否发散。
为此,我设置了如下代码
#include <cuda.h>
#include <stdio.h>
#include <iostream>
#include <cuda.h>
#include <cuda_runtime.h>
__device__ unsigned int __ballot_non_atom(int predicate)
{
if (predicate != 0) return (1 << (threadIdx.x % 32));
else return 0;
}
__global__ void gpu_test_divergency_0(unsigned int* d_ballot, int Num_Warps_per_Block)
{
int tid = threadIdx.x + blockIdx.x * blockDim.x;
const unsigned int warp_num = threadIdx.x >> 5;
atomicAdd(&d_ballot[warp_num+blockIdx.x*Num_Warps_per_Block],__popc(__ballot_non_atom(tid > 2)));
// atomicAdd(&d_ballot[warp_num+blockIdx.x*Num_Warps_per_Block],__popc(__ballot(tid > 2)));
}
#include <conio.h>
int main(int argc, char *argv[])
{
unsigned int Num_Threads_per_Block = 64;
unsigned int Num_Blocks_per_Grid = 1;
unsigned int Num_Warps_per_Block = Num_Threads_per_Block/32;
unsigned int Num_Warps_per_Grid = (Num_Threads_per_Block*Num_Blocks_per_Grid)/32;
unsigned int* h_ballot = (unsigned int*)malloc(Num_Warps_per_Grid*sizeof(unsigned int));
unsigned int* d_ballot; cudaMalloc((void**)&d_ballot, Num_Warps_per_Grid*sizeof(unsigned int));
for (int i=0; i<Num_Warps_per_Grid; i++) h_ballot[i] = 0;
cudaMemcpy(d_ballot, h_ballot, Num_Warps_per_Grid*sizeof(unsigned int), cudaMemcpyHostToDevice);
gpu_test_divergency_0<<<Num_Blocks_per_Grid,Num_Threads_per_Block>>>(d_ballot,Num_Warps_per_Block);
cudaMemcpy(h_ballot, d_ballot, Num_Warps_per_Grid*sizeof(unsigned int), cudaMemcpyDeviceToHost);
for (int i=0; i<Num_Warps_per_Grid; i++) {
if ((h_ballot[i] == 0)||(h_ballot[i] == 32)) std::cout << "Warp " << i << " IS NOT divergent- Predicate true for " << h_ballot[i] << " threads\n";
else std::cout << "Warp " << i << " IS divergent - Predicate true for " << h_ballot[i] << " threads\n";
}
getch();
return EXIT_SUCCESS;
}
请注意,我现在正在计算能力为 1.2 的卡上运行代码,因此在上面的示例中,我使用的是 __ballot_non_atom
,它是 的非固有等效项__ballot
,因为 __ballot
仅适用于 >= 2.0 的计算能力。换句话说,如果你有一张计算能力>=2.0的卡,请取消注释内核函数中使用__ballot
的指令。
使用上面的代码,您可以通过简单地更改内核函数中的相关谓词来使用上面的所有内核函数。
上一个答案
我在 release 模式下为计算能力 2.0
编译了你的代码,我使用 -keep
来保留中间文件和 cuobjdump
实用程序来生成两个内核的反汇编,即:
static __global__ void gpu_test_divergency_0(float *a, float *b)
{
int tid = threadIdx.x + blockIdx.x * blockDim.x;
if (tid < 0) a[tid] = tid;
else b[tid] = tid;
}
和
static __global__ void gpu_test_divergency_4(float *a, float *b)
{
int tid = threadIdx.x + blockIdx.x * blockDim.x;
if (tid < 0) a[tid] = tid + 1;
else b[tid] = tid + 2;
}
结果如下
gpu_test_divergency_0
/*0000*/ MOV R1, c[0x1][0x100]; /* 0x2800440400005de4 */
/*0008*/ S2R R0, SR_CTAID.X; /* 0x2c00000094001c04 */
/*0010*/ S2R R2, SR_TID.X; /* 0x2c00000084009c04 */
/*0018*/ IMAD R2, R0, c[0x0][0x8], R2; /* 0x2004400020009ca3 */
/*0020*/ ISETP.LT.AND P0, PT, R2, RZ, PT; /* 0x188e0000fc21dc23 */
/*0028*/ I2F.F32.S32 R0, R2; /* 0x1800000009201e04 */
/*0030*/ @!P0 ISCADD R3, R2, c[0x0][0x24], 0x2; /* 0x400040009020e043 */
/*0038*/ @P0 ISCADD R2, R2, c[0x0][0x20], 0x2; /* 0x4000400080208043 */
/*0040*/ @!P0 ST [R3], R0; /* 0x9000000000302085 */
/*0048*/ @P0 ST [R2], R0; /* 0x9000000000200085 */
/*0050*/ EXIT ; /* 0x8000000000001de7 */
和
gpu_test_divergency_4
/*0000*/ MOV R1, c[0x1][0x100]; /* 0x2800440400005de4 */
/*0008*/ S2R R0, SR_CTAID.X; /* 0x2c00000094001c04 */ R0 = BlockIdx.x
/*0010*/ S2R R2, SR_TID.X; /* 0x2c00000084009c04 */ R2 = ThreadIdx.x
/*0018*/ IMAD R0, R0, c[0x0][0x8], R2; /* 0x2004400020001ca3 */ R0 = R0 * c + R2
/*0020*/ ISETP.LT.AND P0, PT, R0, RZ, PT; /* 0x188e0000fc01dc23 */ If statement
/*0028*/ @P0 BRA.U 0x58; /* 0x40000000a00081e7 */ Branch 1 - Jump to 0x58
/*0030*/ @!P0 IADD R2, R0, 0x2; /* 0x4800c0000800a003 */ Branch 2 - R2 = R0 + 2
/*0038*/ @!P0 ISCADD R0, R0, c[0x0][0x24], 0x2; /* 0x4000400090002043 */ Branch 2 - Calculate gmem address
/*0040*/ @!P0 I2F.F32.S32 R2, R2; /* 0x180000000920a204 */ Branch 2 - R2 = R2 after int to float cast
/*0048*/ @!P0 ST [R0], R2; /* 0x900000000000a085 */ Branch 2 - gmem store
/*0050*/ @!P0 BRA.U 0x78; /* 0x400000008000a1e7 */ Branch 2 - Jump to 0x78 (exit)
/*0058*/ @P0 IADD R2, R0, 0x1; /* 0x4800c00004008003 */ Branch 1 - R2 = R0 + 1
/*0060*/ @P0 ISCADD R0, R0, c[0x0][0x20], 0x2; /* 0x4000400080000043 */ Branch 1 - Calculate gmem address
/*0068*/ @P0 I2F.F32.S32 R2, R2; /* 0x1800000009208204 */ Branch 1 - R2 = R2 after int to float cast
/*0070*/ @P0 ST [R0], R2; /* 0x9000000000008085 */ Branch 1 - gmem store
/*0078*/ EXIT ; /* 0x8000000000001de7 */
从上面的反汇编中,我希望你的分支发散测试的结果是相同的。
您是在 Debug模式还是 Release模式下编译?
关于linux - CUDA - 关于 “branch” 和 “divergent branch” 的 Visual Profiler 结果的混淆 (2),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19334589/
我试图理解 Haskell 2010 Report section 3.17.2 “模式匹配的非正式语义”。其中大部分与模式匹配成功或失败相关似乎很简单,但是我很难理解被描述为模式匹配“发散”的情况。
我最近开始使用一台新机器,在我早些时候在 Github 上在线解决了一些问题而忘记 pull 之后,试图推送到一个分支时注意到并注意到了这个错误提示。 所以我 pull 了,通常当我这样做时,我会得到
我想知道是否有任何涵盖 RSI-Divergence 的 Python 库(快速和慢速之间的差异 RSI )或有关如何在 Python 中实现其算法的任何指导。 已提问:Programmaticall
我创建了一个小示例程序来尝试找出为什么没有编译更大的程序。 val o1: Ordered[Int] = 1 val o2: Ordered[Int] = 2 println(o1 java.lan
其他答案建议使用"-Xlog-implicits"选项来调试“发散的隐式扩展”错误。但是,它还会在与这些错误无关的位置记录很多隐式内容。有什么方法可以限制它仅解释产生编译错误的地方吗? 最佳答案 如果
在从 mallet 中的各种文档中获得各种概率分布后,我应用以下代码来计算第一个和第二个文档之间的 KL 散度: Maths.klDivergence(double[] d1,doub
我有两个 GMM,用于在同一空间中拟合两组不同的数据,我想计算它们之间的 KL 散度。 目前我正在使用 sklearn ( http://scikit-learn.org/stable/modules
我有这个数据: df <- data.frame(x = 1:10, y = 1:10, value = c(seq(from =
我需要构建一个轴标题,其中字符串左对齐和字符串右对齐。 我尝试使用 css 样式作为标题文本属性,但它不起作用: Highcharts.chart('container', { xAxis:
介绍 我正在尝试构建一个 GLM,根据鱼群的大小和年龄来模拟鱼群所产卵的数量(质量)。 因此,变量是: eggW:产蛋总质量,连续正变量,范围在 300 到 30000 之间。 fishW:鱼的质量,
我在 github 上有一个开源的 ruby 项目,我的 master 分支代表已经发布的内容,我的 dev 分支代表接下来要发布的内容。 master 分支在 dev 分支后面有 80 多个提交
我目前正在尝试在 Keras 中实现 siamese-net,我必须在其中实现以下损失函数: loss(p ∥ q) = Is · KL(p ∥ q) + Ids · HL(p ∥ q) detail
假设我有以下情况: 有一个用户 Foo 的主要存储库。 User Bar fork 这个存储库,所以两个存储库是同步的。现在用户 Bar 实现了一个特性并创建了一个名为“barbranch”的本地分支
在下面的代码中,我尝试使用 shapeless 派生类型类实例。但是,在更复杂的 case 类(转换为更复杂的 HList)的情况下,编译器给了我一个“发散的隐式扩展”,即使它似乎没有两次解析同一种隐
我想知道List(3,2,1).toIndexedSeq.sortBy(x=>x)为什么不起作用: scala> List(3,2,1).toIndexedSeq.sortBy(x=>x) // Wr
def MyFun(result: ListBuffer[(String, DateTime, List[(String, Int)])]): String = { val json = (r
我正在努力学习 Scala for the Impatient 并努力为第 10 章第二个练习的解决方案编写测试:通过将 scala.math.Ordered[Point] 混合到 java.awt.
我的情况:warp 中的每个线程都在其自己完全独立且不同的数据数组上运行。所有线程循环遍历它们的数据数组。每个线程的循环迭代次数不同。 (这会产生成本,我知道)。 在for循环中,每个线程计算完三个
使用以下代码,我在 Scala 2.10 中遇到“发散隐式扩展”错误,即使有一种独特的方式来构造隐式: class Foo { trait Foo[A] abstract class Bar[
当我使用 克隆远程存储库时 git clone 'repo_url' git pull git status 我收到这条消息 - On branch master Your branch and 'o
我是一名优秀的程序员,十分优秀!