- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
经常在tensorflow代码中看到transpose的实现。我想知道为什么有人会想要将 NHWC 张量转置为 NCHW。请给我一个很好的例子及其背后的原因。
最佳答案
而不是引用文档。您应该阅读 CUDA 的工作原理并思考如何实现大多数操作。
NCHW 通常比 NHWC 更快的原因是 CUDA 内核的编写方式。在 CUDA 中你需要指定每个线程在做什么
const int threads = 32;
dim3 block(threads, threads);
dim3 grid(up2(W / 2, threads), up2(H, threads), B);
kernel<Dtype> <<< grid, block>>> (args ...)
这里有 3 个索引 threadId.z, threadId.y, threadId.x
。这些线程被组织成 warp(硬件设计)。
并且您想要合并内存事务,这意味着线程的排序方式使 GPU 可以很好地快速运行。
总结一下:你想让“threadId.x”成为最内循环,你应该组织数据布局,以便它以合并的方式读取它们。理想的数据结构应该可以访问
b * C * H * W + c * H * W + h * W + w
其中小写字母表示索引,大写字母表示形状(例如,0 <= w < W)。
在卷积运算(最常用层的一部分)中,您实际上是在每个 channel 中裁剪一个区域,计算与另一个 channel 中的一个区域(来自另一个张量)的点产生。所以需要快速运行的索引是 height-idx 和 width-idx。最后,您将沿 channel 轴添加(如卷积公式所建议的那样)。这也解释了为什么考虑 NWHC、NCWH 没有区别。
这会影响您对数据的排序方式。这就是您想要我上面描述的内存布局的原因。
最糟糕的布局是:
H, C, B, in threadId.z, threadId.y, threadId.x
最好的布局是:
B, C, H in threadId.z, threadId.y, threadId.x
对于 GEMM 也是(大部分)也是如此(这里一个矩阵应该是转置的)。没有可用的 CuDNN 源。但您可能有兴趣调查 cutlass .
关于tensorflow - 将张量从 NHWC 转置到 NCHW 有什么充分的理由吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48439017/
我想矢量化以下代码: def style_noise(self, y, style): n = torch.randn(y.shape) for i in range(n.shape[
对于给定的二维张量,我想检索值为 1 的所有索引。我希望能够简单地使用 torch.nonzero(a == 1).squeeze(),它将返回张量([1, 3, 2])。但是,torch.nonze
如果 x 是 dtype torch.float 的 torch.Tensor 那么操作 x.item() 和 float(x)完全一样? 最佳答案 操作x.item() 和float(x) 是不一样
我正在尝试提取 n 点 3D 坐标和 b 批处理中的特定行。本质上,我的张量 T1 的形状为 b*n*3。我有另一个形状为 b * n 的 bool 张量 T2,指示需要获取 n 的哪些行。本质上我的
以下代码掩码很好 mask = targets >= 0 targets = targets[mask] 但是,当我尝试使用两个条件进行屏蔽时,它会给出 RuntimeError: Boolean v
我正在定义一个简单的 conv2d 函数来计算输入和内核(均为 2D 张量)之间的互相关,如下所示: import torch def conv2D(X, K): h = K.shape[0]
作为训练 CNN 的一部分,我正在使用数组 inputs包含 对象。我想轮换一个人一些随机度数的对象 x ,如下所示: def rotate(inputs, x): # Rotate inpu
我有一个索引列表和一个具有形状的张量: shape = [batch_size, d_0, d_1, ..., d_k] idx = [i_0, i_1, ..., i_k] 有没有办法用索引 i_0
假设我有张量 t = torch.tensor([1,2,3,4,5]) 我想使用相同大小的索引张量来拆分它,该张量告诉我每个元素应该进行哪个拆分。 indices = torch.tensor([0
我尝试从生成器构建一个张量,如下所示: >>> torch.tensor(i**2 for i in range(10)) Traceback (most recent call last): F
假设我有一个一维 PyTorch 张量 end_index长度为L。 我想构造一个 2D PyTorch 张量 T有 L 行,其中 T[i,j] = 2什么时候j < end_index[i]和 T[
我在 pytorch 中有一个张量 x 比方说形状 (5,3,2,6) 和另一个形状 (5,3,2,1) 的张量 idx,其中包含第一个张量中每个元素的索引。我想用第二个张量的索引对第一个张量进行切片
我有以下火炬张量: tensor([[-0.2, 0.3], [-0.5, 0.1], [-0.4, 0.2]]) 以及以下 numpy 数组:(如有必要,我可以将其转换为其他内
tf.data.Dataset的构造函数接受一个参数 variant_tensor ,这只是 documented as : A DT_VARIANT tensor that represents t
我有: inp = torch.randn(4, 1040, 161) 我还有另一个名为 indices 的张量值: tensor([[124, 583, 158, 529], [1
我有一个张量 inps ,其大小为 [64, 161, 1]我有一些新数据d大小为 [64, 161] .如何添加 d至inps这样新的大小是[64, 161, 2] ? 最佳答案 使用 .unsqu
我有张量 t = torch.tensor([[1, 0, 0, 0], [0, 0, 1, 0], [0, 1, 0, 0], [1, 0, 0, 0]]) 和一个查询张量 q = torch.te
给定一个 3d 张量,说:batch x sentence length x embedding dim a = torch.rand((10, 1000, 96)) 以及每个句子的实际长度数组(或张
我想使用 [int, -1] 符号 reshape 张量(例如,压平图像)。但我事先并不知道第一个维度。一个用例是在大批量上进行训练,然后在较小的批量上进行评估。 为什么会出现以下错误:获取包含“_M
我有两个 torch 张量。一个形状为 [64, 4, 300],一个形状为 [64, 300]。我如何连接这两个张量以获得形状为 [64, 5, 300] 的合成张量。我知道用于此的 tensor.
我是一名优秀的程序员,十分优秀!