- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我一直在努力理解(但惨遭失败)图像卷积(具有高度、宽度、 channel )是如何在软件中实现的。
我听说有人说他们的卷积实现是使用 GEMM 完成的,或者使用“直接卷积”完成的,或者使用 1x1 内核完成的。
我发现它非常令人困惑,无法理解到处都有这么多不同的描述方式 - 我认为我理解像 pytorch conv2d 这样的典型卷积。作为对图像的数学运算,但是当有人说他们使用以下方法之一进行 conv2d 时,它们是什么意思?
对于使用 GEMM 进行卷积,我的理解是基于 this paper是每个输入图像和过滤器都使用 im2col
和 im2row
操作转换为二维矩阵,然后这两个只是矩阵相乘。
将 3d 输入图像(高度、宽度、输入 channel )转换为 2d 矩阵,将 4-d 内核(输出 channel 、输入 channel 、内核高度、内核宽度)转换为 2d矩阵。还是“基于 GEMM 的卷积实现”还有别的意思?如果这就是它的意思,那么它与“使用 1x1 内核进行卷积”有何不同?
最佳答案
1x1 kernels or 1x1 convolution (what does kernel even mean here)
您可以使用 3x3
卷积,因此您有一个包含 9
元素的正方形在图像上滑动(具有一些指定的步幅、膨胀等)。在这种情况下,您有 1x1
卷积,因此内核是单个元素(同样具有 stride=1
并且没有扩张)。
因此,您无需使用带求和的滑动窗口,而只需使用此单值核对每个像素进行线性投影。
这是一种廉价的操作,被用作许多现代架构中使用的深度可分离卷积的一部分,以增加/减少 channel 数量。
在您提供的文章中,置顶:
[...] function called GEMM. It’s part of the BLAS (Basic Linear AlgebraSubprograms)
所以 BLAS是描述一组低级代数运算以及它们应如何在计算机上执行的规范。
现在,您有很多 BLAS 实现是为特定架构量身定制的,或者具有在某些上下文中可用的某些特征。例如有 cuBLAS它是为 GPU 编写和优化的(并被 PyTorch 等深度学习“高级”库大量使用)或 Intel's MKL适用于 Intel CPU(您可以在网络上的任何地方阅读有关 BLAS 的更多信息)
通常这些是用低级(Fortran、C、汇编、C++)语言编写的,以实现最佳性能。
GEMM 是通用矩阵乘法例程,用于实现全连接层和卷积,由各种 BLAS 实现提供。它与深度学习卷积本身无关,它是一个快速矩阵乘法例程(考虑缓存命中之类的事情)
这是一种O(n^2)
复杂度的方法,因此您只需将项目相互相乘即可。有一种使用快速傅里叶变换的更有效方法,它是 O(n*log(n))
。一些信息presented in this answer关于这部分的问题更适合与数学相关的堆栈交换。
关于tensorflow - 说卷积实现基于 GEMM(矩阵乘法)或基于 1x1 内核是什么意思?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64506489/
我正在编写一个 JS 程序,我有一个条件可以根据输入进行一些算术运算。如果我遇到操作类型为“add”,我需要将两个值相加;如果我得到“times”作为我的运算符值,我需要相乘。 我尝试使用基本的 if
我正在编写一个仅作为查看器的应用程序 - 无需创建、无需编辑、无需保存。 显然,那么,不会有自动保存,但是还有什么其他东西可以从 autosavesInPlace 返回 YES 改变世界,从而对观看者
Azure 开始出现以下错误: Unsupported token. Unable to initialize the authorization context. 每当我尝试更改我的应用程序时,我都
当我编写 out.println() 时,Eclipse 提示 out 无法解析。 我导入了 java.io.* 和其他 servlet 包。 最佳答案 只是在黑暗中拍摄,我认为这就是您正在寻找的出路
Azure 开始出现以下错误: Unsupported token. Unable to initialize the authorization context. 每当我尝试更改我的应用程序时,我都
是否可以执行类似的操作来检查 radio 表单是否未选中: if !($(this).find("input:checked")) {} 正确的语法是什么? 最佳答案 试试这个: $(this).fi
我正在尝试从表中选择行,其中 date 列值等于澳大利亚悉尼的当前日期 (UTC+10h)。服务器位于悉尼,因此我想使用 SYSDATETIME()。这是我的查询: SELECT * FROM dat
我听说 JavaScript 实际上并不像其他语言那样“指向”内存中的值(或对象,因为在 JS 中一切都是对象)。相反,JS 变量引用内存中的其他值/对象。这是真的?指向和引用之间的语义区别是什么?
我的计算机科学类(class)有一项作业,其中要求读取包含多个测试分数的文件,并要求我对它们进行求和并求平均值。虽然求和和求平均值很容易,但我在读取文件时遇到问题。老师说用这个语法 Scanner s
Java 的 XML 解析器似乎认为我的 XML 文档在根元素之后的格式不正确。但我已经用几种工具验证了它,但他们都不同意。这可能是我的代码错误,而不是文档本身的错误。如果你们能给我提供任何帮助,我将
根据这份文件: http://www.stroustrup.com/terminology.pdf l 值具有同一性且不可移动。 公关值是可移动的,但没有身份。 x 值具有同一性并且是可移动的。 关于
这个问题在这里已经有了答案: What does "atomic" mean in programming? (7 个答案) 关闭 5 年前。 我正在阅读 MongoDB 的 documentati
在 PHP 和 MySQL 中有没有一种方法能够比较 2 个不同的数组(列表)变量并说出有多少项是相同的 例如, $array1 = "hello, bye, google, laptop, yes"
本文来自 Effective Java Programs that use the int enum pattern are brittle. Because int enums are compil
C++ 中有一些特性是类型安全的,而另一些则不是。 C++ 类型安全示例: char c = 'a'; int *p = &c; // this is not allowed (compiler
我有一个 CS 课的作业,它说要读取一个包含多个测试分数的文件,并要求我对它们求和并取平均值。虽然求和和平均很容易,但我在读取文件时遇到了问题。老师说要用这个语法 Scanner scores = n
嗯.. 有时,PyDev 会说“ Unresolved 导入错误”。 在我的环境中 Python2.6.6 Eclipse3.7 PyDev2.2.2 错误是。 > Unresolved import
我正在向服务器发送请求,服务器正在处理请求并做出响应。但是在我的应用程序中,我收到了: Error Domain=NSURLErrorDomain Code=-1017 "cannot parse r
在我最近的一次讨论中,有人告诉我这样说是不正确的,因为 Ajax 已经是 Javascript。 上下文: “我如何在网页中 blablababal,这样它就不必刷新页面” 我的回答: “使用 Jav
下午好。 我一直在尝试使用 ffmpeg 将 .mpeg 拆分为一系列 .jpeg 图像。请注意,这是指定 here 的逆问题,但我面临的问题与该线程的作者面临的问题不同。 具体来说,我已经在我的 f
我是一名优秀的程序员,十分优秀!