gpt4 book ai didi

python - 3d 内核和 3d 图像(例如 RGB)的矩阵乘法到底是如何产生 2d 输出的?

转载 作者:太空宇宙 更新时间:2023-11-03 20:57:56 25 4
gpt4 key购买 nike

我一直在研究卷积神经网络架构。我对 3d 内核作用于 3d 输入图像的部分感到非常困惑(好吧,考虑到我们有这些图像的堆栈,它是 4d,但只是为了使解释更容易一些)。我知道互联网上充满了这样的东西。但我找不到矩阵乘法部分的确切答案。

为了让每个人都更容易理解,有人可以向我展示 (5,5,3) 矩阵(我们的内核)与 (28,28,3) 矩阵(我们的 RGB 图像)的卷积如何发生的实际乘法,输出一个二维数组。

此外,还请展示(带有详细图片)那些众多的二维数组如何被展平并连接到单个全连接层。

我知道,池化二维数组的最后一层被展平了。但是,由于大约有 64 个 2d 数组(只要考虑一下),.. 所以即使我们将每个数组展平,我们也会有 64 个展平的一维数组。那么,这最终如何连接到下一个全连接层? (请提供图片)

最佳答案

您有多个问题合而为一。我将回答有关“卷积如何发生”的问题。简短的回答:它不是矩阵乘法。

步骤 1) 在 RGB 图像上滑动一个大小为 (5,5,3) 的窗口,雕刻出该大小的子图像。顺便说一句,这些子图像的尺寸与内核的尺寸完全相同。

第 2 步)将每个子图像值与卷积分量的值相乘。其输出再次是由内核值“缩放”的 (5,5,3) 子图像。

第 3 步)将“缩放”(5,5,3) 子图像的所有值加在一起(有效地压缩尺寸)为一个值 - 这就是我们的最终输出。

关于python - 3d 内核和 3d 图像(例如 RGB)的矩阵乘法到底是如何产生 2d 输出的?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55892792/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com