gpt4 book ai didi

python - "Dropout"、 "Monte-Carlo Dropout"和 "Channel-wise Dropout"有什么区别?

转载 作者:行者123 更新时间:2023-11-28 21:32:44 24 4
gpt4 key购买 nike

我遇到过上述术语,但不确定它们之间的区别。

我的理解是 MC dropout 是正常的 dropout,它在测试期间也是活跃的,允许我们在多次测试运行中得到模型不确定性的估计。至于 channel-wise dropout,我一无所知。

奖励:在 Keras 中实现 MC dropout 和 channel-wise dropout 的简单方法是什么?

最佳答案

你说得对,在推理过程中也应用了 MC Dropout,这与常规 dropout 不同。如果你用谷歌搜索它,你可以很容易地找到关于这两者的大量信息。

关于 channel-wise dropout,我的理解是它不是丢弃特定的神经元,而是丢弃整个 channel 。

现在是 Keras 中的实现(我将使用 tf.keras)。

MC 丢失

像往常一样,Keras 定义了一个自定义层,无论它是训练还是测试,它都应用 dropout,因此我们可以只使用 tf.nn.dropout() 和恒定的 dropout 率:

import tensorflow as tf

class MCDropout(tf.keras.layers.Layer):
def __init__(self, rate):
super(MCDropout, self).__init__()
self.rate = rate

def call(self, inputs):
return tf.nn.dropout(inputs, rate=self.rate)

使用示例:

import tensorflow as tf
import numpy as np

model = tf.keras.models.Sequential()
model.add(tf.keras.layers.Conv2D(filters=6, kernel_size=3))
model.add(MCDropout(rate=0.5))
model.add(tf.keras.layers.Flatten())
model.add(tf.keras.layers.Dense(2))
model.compile(optimizer=tf.keras.optimizers.SGD(0.001),
loss='binary_crossentropy',
metrics=['accuracy'])

# generate dummy data for illustration
x_train = np.random.normal(size=(10, 4, 4, 3))
x_train = np.vstack([x_train, 2*np.random.normal(size=(10, 4, 4, 3))])
y_train = [[1, 0] for _ in range(10)] + [[0, 1] for _ in range(10)]
y_train = np.array(y_train)

model.fit(x_train,
y_train,
epochs=2,
batch_size=10,
validation_data=(x_train, y_train))

Channel-Wise Dropout

在这里您可以使用相同的 tf.nn.dropout() 函数,但是,您必须指定噪声形状。 documentation tf.nn.dropout() 给出了如何实现丢弃 channel 的确切示例:

shape(x) = [k, l, m, n] and noise_shape = [k, 1, 1, n], each batch and channel component will be kept independently and each row and column will be kept or not kept together.

这就是我们要在 call() 方法中做的事情:

class ChannelWiseDropout(tf.keras.layers.Layer):
def __init__(self, rate):
super(ChannelWiseDropout, self).__init__()
self.rate = rate

def call(self, inputs):
shape = tf.keras.backend.shape(inputs)
noise_shape = (shape[0], 1, 1, shape[-1])
return tf.nn.dropout(inputs,
rate=self.rate,
noise_shape=noise_shape)

将它应用到一些例子中:

model = tf.keras.models.Sequential()
model.add(tf.keras.layers.InputLayer(input_shape=(4, 4, 3)))
model.add(tf.keras.layers.Conv2D(filters=3, kernel_size=3))
model.add(ChannelWiseDropout(rate=0.5))

x_train = np.random.normal(size=(1, 4, 4, 3))

with tf.Session() as sess:
sess.run(tf.global_variables_initializer())
res = sess.run(model.output, feed_dict={model.inputs[0]:x_train})
print(res[:, :, :, 0])
print(res[:, :, :, 1])
print(res[:, :, :, 2])
# [[[2.5495746 1.3060737 ]
# [0.47009617 1.0427766 ]]]
# [[[-0. 0.]
# [-0. -0.]]] <-- second and third channels were dropped
# [[[-0. -0.]
# [-0. -0.]]]

注意

我正在使用 tf.__version__ == '1.13.1'tf 的旧版本使用 keep_prob = 1 - rate 而不是 rate 参数。

关于python - "Dropout"、 "Monte-Carlo Dropout"和 "Channel-wise Dropout"有什么区别?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55906129/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com