gpt4 book ai didi

python-3.x - 神经网络总是预测同一类

转载 作者:行者123 更新时间:2023-12-03 09:35:27 26 4
gpt4 key购买 nike

我正在尝试实现一个神经网络,将图像分类为两个离散类别之一。然而,问题是它目前总是为任何输入预测 0,我不确定为什么。

这是我的特征提取方法:

def extract(file):
# Resize and subtract mean pixel
img = cv2.resize(cv2.imread(file), (224, 224)).astype(np.float32)
img[:, :, 0] -= 103.939
img[:, :, 1] -= 116.779
img[:, :, 2] -= 123.68
# Normalize features
img = (img.flatten() - np.mean(img)) / np.std(img)

return np.array([img])

这是我的梯度下降程序:
def fit(x, y, t1, t2):
"""Training routine"""
ils = x.shape[1] if len(x.shape) > 1 else 1
labels = len(set(y))

if t1 is None or t2 is None:
t1 = randweights(ils, 10)
t2 = randweights(10, labels)

params = np.concatenate([t1.reshape(-1), t2.reshape(-1)])
res = grad(params, ils, 10, labels, x, y)
params -= 0.1 * res

return unpack(params, ils, 10, labels)

这是我的前向和后向(梯度)传播:
def forward(x, theta1, theta2):
"""Forward propagation"""

m = x.shape[0]

# Forward prop
a1 = np.vstack((np.ones([1, m]), x.T))
z2 = np.dot(theta1, a1)

a2 = np.vstack((np.ones([1, m]), sigmoid(z2)))
a3 = sigmoid(np.dot(theta2, a2))

return (a1, a2, a3, z2, m)

def grad(params, ils, hls, labels, x, Y, lmbda=0.01):
"""Compute gradient for hypothesis Theta"""

theta1, theta2 = unpack(params, ils, hls, labels)

a1, a2, a3, z2, m = forward(x, theta1, theta2)
d3 = a3 - Y.T
print('Current error: {}'.format(np.mean(np.abs(d3))))

d2 = np.dot(theta2.T, d3) * (np.vstack([np.ones([1, m]), sigmoid_prime(z2)]))
d3 = d3.T
d2 = d2[1:, :].T

t1_grad = np.dot(d2.T, a1.T)
t2_grad = np.dot(d3.T, a2.T)

theta1[0] = np.zeros([1, theta1.shape[1]])
theta2[0] = np.zeros([1, theta2.shape[1]])

t1_grad = t1_grad + (lmbda / m) * theta1
t2_grad = t2_grad + (lmbda / m) * theta2

return np.concatenate([t1_grad.reshape(-1), t2_grad.reshape(-1)])

这是我的预测功能:
def predict(theta1, theta2, x):
"""Predict output using learned weights"""
m = x.shape[0]

h1 = sigmoid(np.hstack((np.ones([m, 1]), x)).dot(theta1.T))
h2 = sigmoid(np.hstack((np.ones([m, 1]), h1)).dot(theta2.T))

return h2.argmax(axis=1)

我可以看到每次迭代的错误率都在逐渐降低,通常会在 1.26e-05 附近收敛。

到目前为止我尝试过的:
  • PCA
  • 不同的数据集(来自 sklearn 的 Iris 和来自 Coursera ML 类(class)的手写数字,两者的准确率都达到了约 95%)。但是,这两个都是批量处理的,所以我可以假设我的一般实现是正确的,但是我提取特征的方式或训练分类器的方式都有问题。
  • 尝试了 sklearn 的 SGDClassifier,但它的表现并没有好多少,给了我大约 50% 的准确率。那么这些功能有问题吗?

  • 编辑 :
    h2 的平均输出如下所示:
    [0.5004899   0.45264441]
    [0.50048522 0.47439413]
    [0.50049019 0.46557124]
    [0.50049261 0.45297816]

    因此,所有验证示例的 sigmoid 输出都非常相似。

    最佳答案

    My network does always predict the same class. What is the problem?



    我有过几次这样的经历。虽然我目前懒得看你的代码,但我想我可以给出一些一般性的提示,这些提示也可能帮助其他有相同症状但可能存在不同潜在问题的人。

    调试神经网络

    拟合一项数据集

    对于网络应该能够预测的每个类别,请尝试以下操作:
  • 创建一个只有一个 i 类数据点的数据集。
  • 使网络适合此数据集。
  • 网络是否学会了预测“第 i 类”?

  • 如果这不起作用,则有四种可能的错误来源:
  • Buggy 训练算法 : 尝试一个较小的模型,打印很多在两者之间计算的值,看看它们是否符合您的期望。
  • 除以0:在分母上加一个小数
  • 0/负数的对数:如除以 0
  • 数据 : 有可能你的数据类型错误。例如,可能需要您的数据类型为 float32 但实际上是一个整数。
  • 型号 :也有可能您刚刚创建了一个无法预测您想要什么的模型。当您尝试更简单的模型时,应该会发现这一点。
  • 初始化/优化 :根据模型,您的初始化和优化算法可能起着至关重要的作用。对于使用标准随机梯度下降的初学者,我认为随机初始化权重(每个权重不同的值)非常重要。 - 另见:this question / answer

  • 学习曲线

    sklearn详情。

    Learning Curve showing the training error / test error curves to approach each other

    这个想法是从一个很小的训练数据集开始(可能只有一个项目)。那么模型应该能够完美地拟合数据。如果这可行,您将创建一个稍大的数据集。你的训练错误应该会稍微去 向上 在某一点。这揭示了您的模型对数据进行建模的能力。

    数据分析

    检查其他类出现的频率。如果一个类支配其他类(例如一个类占数据的 99.9%),这是一个问题。寻找“异常值检测”技术。

    更多的
  • 学习率 :如果您的网络没有改善并且仅比随机机会略好,请尝试降低学习率。对于计算机视觉,学习率为 0.001经常使用/工作。如果您使用 Adam 作为优化器,这也很重要。
  • 预处理 :确保对训练和测试使用相同的预处理。您可能会看到混淆矩阵的差异(请参阅 this question )

  • 常见错误

    这是受 reddit 的启发:
  • 您忘记应用预处理
  • Dying ReLU
  • 学习率太小/太大
  • 最后一层的激活函数错误:
  • 你的目标不是一回事吗? -> 不要使用 softmax
  • 目标的单个元素为负 -> 不要使用 Softmax、ReLU、Sigmoid。 tanh 可能是一个选项
  • 网络太深:你无法训练。首先尝试一个更简单的神经网络。
  • 极不平衡的数据:您可能需要查看 imbalanced-learn
  • 关于python-3.x - 神经网络总是预测同一类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41488279/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com