gpt4 book ai didi

machine-learning - 在多 channel 图像数据集上训练卷积网络

转载 作者:行者123 更新时间:2023-11-30 08:59:35 25 4
gpt4 key购买 nike

我正在尝试从头开始实现一个卷积神经网络,但我无法弄清楚如何对 RGB 等具有 3 维的多 channel 图像执行(矢量化)操作。关于遵循文章和教程,例如 this CS231n tutorial ,很清楚为单个输入实现一个网络,因为输入层将是一个 3d 矩阵,但数据集中总是有多个数据点。因此,我无法弄清楚如何实现这些网络以对整个数据集进行矢量化操作。

我已经实现了一个以 3d 矩阵作为输入的网络,但现在我意识到它不适用于整个数据集,但我必须一次传播一个输入。我真的不知道转换网络是否是是否对整个数据集进行矢量化。但如果是,我如何对多 channel 图像的卷积网络进行矢量化?

最佳答案

如果我答对了你的问题,你基本上是在问如何为小批量处理卷积层,这将是一个 4 维张量。

简单来说,您希望独立处理批处理中的每个输入并对每个输入应用卷积。无需使用循环进行矢量化即可进行编码,这相当简单。

矢量化实现通常基于 im2col technique ,它基本上将 4-D 输入张量转换为一个巨大的矩阵并执行矩阵乘法。下面是在 python 中使用 numpy.lib.stride_tricks 实现前向传递:

import numpy as np

def conv_forward(x, w, b, stride, pad):
N, C, H, W = x.shape
F, _, HH, WW = w.shape

# Check dimensions
assert (W + 2 * pad - WW) % stride == 0, 'width does not work'
assert (H + 2 * pad - HH) % stride == 0, 'height does not work'

# Pad the input
p = pad
x_padded = np.pad(x, ((0, 0), (0, 0), (p, p), (p, p)), mode='constant')

# Figure out output dimensions
H += 2 * pad
W += 2 * pad
out_h = (H - HH) / stride + 1
out_w = (W - WW) / stride + 1

# Perform an im2col operation by picking clever strides
shape = (C, HH, WW, N, out_h, out_w)
strides = (H * W, W, 1, C * H * W, stride * W, stride)
strides = x.itemsize * np.array(strides)
x_stride = np.lib.stride_tricks.as_strided(x_padded,
shape=shape, strides=strides)
x_cols = np.ascontiguousarray(x_stride)
x_cols.shape = (C * HH * WW, N * out_h * out_w)

# Now all our convolutions are a big matrix multiply
res = w.reshape(F, -1).dot(x_cols) + b.reshape(-1, 1)

# Reshape the output
res.shape = (F, N, out_h, out_w)
out = res.transpose(1, 0, 2, 3)
out = np.ascontiguousarray(out)
return out

请注意,它使用了线性代数库的一些重要功能,这些功能在 numpy 中实现,但可能不在您的库中。

顺便说一句,您通常不希望将整个数据集作为一批推送 - 将其分成几批。

关于machine-learning - 在多 channel 图像数据集上训练卷积网络,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45820735/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com