tensorflow - 说卷积实现基于 GEMM(矩阵乘法)或基于 1x1 内核是什么意思？-6ren

tensorflow - 说卷积实现基于 GEMM(矩阵乘法)或基于 1x1 内核是什么意思？

转载作者：行者123 更新时间：2023-12-05 04:57:18

29

4

我一直在努力理解(但惨遭失败)图像卷积(具有高度、宽度、 channel )是如何在软件中实现的。

我听说有人说他们的卷积实现是使用 GEMM 完成的，或者使用“直接卷积”完成的，或者使用 1x1 内核完成的。

我发现它非常令人困惑，无法理解到处都有这么多不同的描述方式 - 我认为我理解像 pytorch conv2d 这样的典型卷积。作为对图像的数学运算，但是当有人说他们使用以下方法之一进行 conv2d 时，它们是什么意思？

1x1 内核或 1x1 卷积(内核在这里是什么意思)
GEMM
“直接卷积”

对于使用 GEMM 进行卷积，我的理解是基于 this paper是每个输入图像和过滤器都使用 im2col 和 im2row 操作转换为二维矩阵，然后这两个只是矩阵相乘。

将 3d 输入图像(高度、宽度、输入 channel )转换为 2d 矩阵，将 4-d 内核(输出 channel 、输入 channel 、内核高度、内核宽度)转换为 2d矩阵。还是“基于 GEMM 的卷积实现”还有别的意思？如果这就是它的意思，那么它与“使用 1x1 内核进行卷积”有何不同？

最佳答案

1x1 kernels or 1x1 convolution (what does kernel even mean here)

您可以使用 3x3 卷积，因此您有一个包含 9 元素的正方形在图像上滑动(具有一些指定的步幅、膨胀等)。在这种情况下，您有 1x1 卷积，因此内核是单个元素(同样具有 stride=1 并且没有扩张)。

因此，您无需使用带求和的滑动窗口，而只需使用此单值核对每个像素进行线性投影。

这是一种廉价的操作，被用作许多现代架构中使用的深度可分离卷积的一部分，以增加/减少 channel 数量。

GEMM

在您提供的文章中，置顶:

[...] function called GEMM. It’s part of the BLAS (Basic Linear AlgebraSubprograms)

所以 BLAS是描述一组低级代数运算以及它们应如何在计算机上执行的规范。

现在，您有很多 BLAS 实现是为特定架构量身定制的，或者具有在某些上下文中可用的某些特征。例如有 cuBLAS它是为 GPU 编写和优化的(并被 PyTorch 等深度学习“高级”库大量使用)或 Intel's MKL适用于 Intel CPU(您可以在网络上的任何地方阅读有关 BLAS 的更多信息)

通常这些是用低级(Fortran、C、汇编、C++)语言编写的，以实现最佳性能。

GEMM 是通用矩阵乘法例程，用于实现全连接层和卷积，由各种 BLAS 实现提供。它与深度学习卷积本身无关，它是一个快速矩阵乘法例程(考虑缓存命中之类的事情)

直接卷积

这是一种O(n^2) 复杂度的方法，因此您只需将项目相互相乘即可。有一种使用快速傅里叶变换的更有效方法，它是 O(n*log(n))。一些信息presented in this answer关于这部分的问题更适合与数学相关的堆栈交换。

关于tensorflow - 说卷积实现基于 GEMM(矩阵乘法)或基于 1x1 内核是什么意思？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/64506489/

29

4

0

文章推荐： jupyter - Voila 仪表板基本 url

文章推荐： css - 在 Angular Material 中生成密度是什么意思？

文章推荐： python - 我不明白有两个输入的 map_fn

javascript - 如何根据 JS 中的条件传递算术运算符？对 'add' 说 +，对 'times' 说 *
我正在编写一个 JS 程序，我有一个条件可以根据输入进行一些算术运算。如果我遇到操作类型为“add”，我需要将两个值相加；如果我得到“times”作为我的运算符值，我需要相乘。我尝试使用基本的 if
macos - 是否值得在只读文档类中对 autosavesInPlace 说"is"？
我正在编写一个仅作为查看器的应用程序 - 无需创建、无需编辑、无需保存。显然，那么，不会有自动保存，但是还有什么其他东西可以从 autosavesInPlace 返回 YES 改变世界，从而对观看者
Azure 说 "Unsupported Token"
Azure 开始出现以下错误: Unsupported token. Unable to initialize the authorization context. 每当我尝试更改我的应用程序时，我都
java - out.println 说 out 无法解析
当我编写 out.println() 时，Eclipse 提示 out 无法解析。我导入了 java.io.* 和其他 servlet 包。最佳答案只是在黑暗中拍摄，我认为这就是您正在寻找的出路
Azure 说 "Unsupported Token"
Azure 开始出现以下错误: Unsupported token. Unable to initialize the authorization context. 每当我尝试更改我的应用程序时，我都
jQuery，使用 !说 "not selected"
是否可以执行类似的操作来检查 radio 表单是否未选中: if !($(this).find("input:checked")) {} 正确的语法是什么？最佳答案试试这个: $(this).fi
MySQL 说 'SYSDATETIME' 不存在
我正在尝试从表中选择行，其中 date 列值等于澳大利亚悉尼的当前日期 (UTC+10h)。服务器位于悉尼，因此我想使用 SYSDATETIME()。这是我的查询: SELECT * FROM dat
javascript - 说 javascript 变量指向一个值是否正确？
我听说 JavaScript 实际上并不像其他语言那样“指向”内存中的值(或对象，因为在 JS 中一切都是对象)。相反，JS 变量引用内存中的其他值/对象。这是真的？指向和引用之间的语义区别是什么？
Java 说 FileNotFoundException 但文件存在
我的计算机科学类(class)有一项作业，其中要求读取包含多个测试分数的文件，并要求我对它们进行求和并求平均值。虽然求和和求平均值很容易，但我在读取文件时遇到问题。老师说用这个语法 Scanner s
Java 说 XML 文档格式不正确
Java 的 XML 解析器似乎认为我的 XML 文档在根元素之后的格式不正确。但我已经用几种工具验证了它，但他们都不同意。这可能是我的代码错误，而不是文档本身的错误。如果你们能给我提供任何帮助，我将
c++ - 说 xvalues 具有身份并且是可移动的是正确的吗？
根据这份文件: http://www.stroustrup.com/terminology.pdf l 值具有同一性且不可移动。公关值是可移动的，但没有身份。 x 值具有同一性并且是可移动的。关于
mongodb - 说 MongoDB 在其写操作级别上是原子的是什么意思？
这个问题在这里已经有了答案: What does "atomic" mean in programming? (7 个答案) 关闭 5 年前。我正在阅读 MongoDB 的 documentati
php - 说 2 个数组中有多少项相同？
在 PHP 和 MySQL 中有没有一种方法能够比较 2 个不同的数组(列表)变量并说出有多少项是相同的例如， $array1 = "hello, bye, google, laptop, yes"
java - 说 int 枚举模式是编译时常量是什么意思？
本文来自 Effective Java Programs that use the int enum pattern are brittle. Because int enums are compil
c++ - 说 C++ 是一种部分类型安全的语言是否准确？
C++ 中有一些特性是类型安全的，而另一些则不是。 C++ 类型安全示例: char c = 'a'; int *p = &c; // this is not allowed (compiler
Java 说 FileNotFoundException 但文件存在
我有一个 CS 课的作业，它说要读取一个包含多个测试分数的文件，并要求我对它们求和并取平均值。虽然求和和平均很容易，但我在读取文件时遇到了问题。老师说要用这个语法 Scanner scores = n
Pydev 说， "Unresolved import"错误
嗯.. 有时，PyDev 会说“ Unresolved 导入错误”。在我的环境中 Python2.6.6 Eclipse3.7 PyDev2.2.2 错误是。 > Unresolved import
ios8 - AFNetworking 说 "cannot parse response"
我正在向服务器发送请求，服务器正在处理请求并做出响应。但是在我的应用程序中，我收到了: Error Domain=NSURLErrorDomain Code=-1017 "cannot parse r
javascript - 说 : "JavaScript + AJAX"? 是多余的吗
在我最近的一次讨论中，有人告诉我这样说是不正确的，因为 Ajax 已经是 Javascript。上下文: “我如何在网页中 blablababal，这样它就不必刷新页面” 我的回答: “使用 Jav
ffmpeg 说 : "option framerate not found"
下午好。我一直在尝试使用 ffmpeg 将 .mpeg 拆分为一系列 .jpeg 图像。请注意，这是指定 here 的逆问题，但我面临的问题与该线程的作者面临的问题不同。具体来说，我已经在我的 f

首页

博学

6Ren·AI

商城