validation - 当训练和验证损失与 epoch 1 不同时意味着什么？-6ren

validation - 当训练和验证损失与 epoch 1 不同时意味着什么？

转载作者：行者123 更新时间：2023-11-30 08:26:27

我最近在 Keras 中研究深度学习模型，它给了我非常令人困惑的结果。该模型能够随着时间的推移掌握训练数据，但它在验证数据上的结果始终较差。

我知道，如果验证准确度上升一段时间然后开始下降，则表明您过度拟合训练数据，但在这种情况下，验证准确度只会下降。我真的很困惑为什么会发生这种情况。有谁对可能导致这种情况发生的原因有任何直觉吗？或者有什么建议可以测试以解决这个问题吗？

编辑以添加更多信息和代码

好的。所以我正在制作一个模型来尝试进行一些基本的股票预测。通过查看过去 40 天的开盘价、最高价、最低价、收盘价和交易量，该模型试图预测价格是否会上涨两个平均真实区间而不下降一个平均真实区间。作为输入，我从雅虎财经获取了 CSV，其中包含道琼斯工业平均指数中所有股票过去 30 年的信息。该模型对 70% 的股票进行训练，并对另外 20% 的股票进行验证。这导致大约 150,000 个训练样本。我目前正在使用一维卷积神经网络，但我也尝试过其他较小的模型(逻辑回归和小型前馈神经网络)，并且我总是得到相同的结果，要么是发散的训练和验证损失，要么根本没有学到任何东西，因为模型太简单了.

代码如下:

import numpy as np
from sklearn import preprocessing
from sklearn.metrics import auc, roc_curve, roc_auc_score
from keras.layers import Input, Dense, Flatten, Conv1D, Activation, MaxPooling1D, Dropout, Concatenate
from keras.models import Model
from keras.callbacks import ModelCheckpoint, EarlyStopping, Callback
from keras import backend as K
import matplotlib.pyplot as plt
from random import seed, shuffle
from os import listdir

class roc_auc(Callback):
    def on_train_begin(self, logs={}):
        self.aucs = []

    def on_train_end(self, logs={}):
        return

    def on_epoch_begin(self, epoch, logs={}):
        return

    def on_epoch_end(self, epoch, logs={}):
        y_pred = self.model.predict(self.validation_data[0])
        self.aucs.append(roc_auc_score(self.validation_data[1], y_pred))
        if max(self.aucs) == self.aucs[-1]:
            model.save_weights("weights.roc_auc.hdf5")
        print(" - auc: %0.4f" % self.aucs[-1])
        return

    def on_batch_begin(self, batch, logs={}):
        return

    def on_batch_end(self, batch, logs={}):
        return

rrr = 2
epochs = 200
batch_size = 64
days_input = 40
seed(42)
X_train = []
X_test = []
y_train = []
y_test = []

files = listdir("Stocks")
total_stocks = len(files)
shuffle(files)

for x, file in enumerate(files):
    test = False
    if (x+1.0)/total_stocks > 0.7:
        test = True
    if test:
        print("Test -> Stocks/%s" % file)
    else:
        print("Train -> Stocks/%s" % file)
    stock = np.loadtxt(open("Stocks/"+file, "r"), delimiter=",", skiprows=1, usecols = (1,2,3,5,6))
    atr = []
    last = None

    for day in stock:
        if last is None:
            tr = abs(day[1] - day[2])
            atr.append(tr)
        else:
            tr = max(day[1] - day[2], abs(last[3] - day[1]), abs(last[3] - day[2]))
            atr.append((13*atr[-1]+tr)/14)
        last = day.copy()

    stock = np.insert(stock, 5, atr, axis=1)
    for i in range(days_input,stock.shape[0]-1):   
        input = stock[i-days_input:i, 0:5].copy()
        for j, day in enumerate(input):
            input[j][1] = (day[1]-day[0])/day[0]
            input[j][2] = (day[2]-day[0])/day[0]
            input[j][3] = (day[3]-day[0])/day[0]
        input[:,0] = input[:,0] / np.linalg.norm(input[:,0])
        input[:,1] = input[:,1] / np.linalg.norm(input[:,1])
        input[:,2] = input[:,2] / np.linalg.norm(input[:,2])
        input[:,3] = input[:,3] / np.linalg.norm(input[:,3])
        input[:,4] = input[:,4] / np.linalg.norm(input[:,4])
        preprocessing.scale(input, copy=False)
        output = -1
        buy = stock[i][1]
        stoploss = buy - stock[i][5]
        target = buy + rrr*stock[i][5]

        for j in range(i+1, stock.shape[0]):
            if stock[j][0] < stoploss or stock[j][2] < stoploss:
                output = 0
                break
            elif stock[j][1] > target:
                output = 1
                break

        if output != -1:
            if test:
                X_test.append(input)
                y_test.append(output)
            else:
                X_train.append(input)
                y_train.append(output)

shape = list(X_train[0].shape)
shape[:0] = [len(X_train)]
X_train = np.concatenate(X_train).reshape(shape)
y_train = np.array(y_train)

shape = list(X_test[0].shape)
shape[:0] = [len(X_test)]
X_test = np.concatenate(X_test).reshape(shape)
y_test = np.array(y_test)

print("Train class split is %0.2f" % (100*np.average(y_train)))
print("Test class split is %0.2f" % (100*np.average(y_test)))

inputs = Input(shape=(days_input,5))

x = Conv1D(32, 5, padding='same')(inputs)
x = Activation('relu')(x)
x = MaxPooling1D()(x)

x = Conv1D(64, 5, padding='same')(x)
x = Activation('relu')(x)
x = MaxPooling1D()(x)

x = Conv1D(128, 5, padding='same')(x)
x = Activation('relu')(x)
x = MaxPooling1D()(x)

x = Flatten()(x)
x = Dense(128, activation="relu")(x)
x = Dense(64, activation="relu")(x)
output = Dense(1, activation="sigmoid")(x)

model = Model(inputs=inputs,outputs=output)

model.compile(optimizer='adam',
              loss='binary_crossentropy',
              metrics=['accuracy'])

filepath="weights.best.hdf5"
checkpoint = ModelCheckpoint(filepath, monitor='val_acc', verbose=0, save_best_only=True, mode='max')
auc_hist = roc_auc()
callbacks_list = [checkpoint, auc_hist]

history = model.fit(X_train, y_train, validation_data=(X_test,y_test) , epochs=epochs, callbacks=callbacks_list, batch_size=batch_size, class_weight ='balanced').history

model_json = model.to_json()
with open("model.json", "w") as json_file:
    json_file.write(model_json)

model.save_weights("weights.latest.hdf5")
model.load_weights("weights.roc_auc.hdf5")

plt.plot(history['acc'])
plt.plot(history['val_acc'])
plt.title('model accuracy')
plt.ylabel('accuracy')
plt.xlabel('epoch')
plt.legend(['train', 'test'], loc='upper left')
plt.show()
plt.plot(history['loss'])
plt.plot(history['val_loss'])
plt.title('model loss')
plt.ylabel('loss')
plt.xlabel('epoch')
plt.legend(['train', 'test'], loc='upper left')
plt.show()

plt.plot(auc_hist.aucs)
plt.title('model ROC AUC')
plt.ylabel('AUC')
plt.xlabel('epoch')
plt.show()

y_pred = model.predict(X_train)

fpr, tpr, _ = roc_curve(y_train, y_pred)
roc_auc = auc(fpr, tpr)

plt.subplot(1, 2, 1)
plt.plot(fpr, tpr, label='ROC curve (area = %0.2f)' % roc_auc)
plt.plot([0, 1], [0, 1], color='navy',linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.0])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Train ROC')
plt.legend(loc="lower right")

y_pred = model.predict(X_test)

fpr, tpr, thresholds = roc_curve(y_test, y_pred)
roc_auc = auc(fpr, tpr)

plt.subplot(1, 2, 2)
plt.plot(fpr, tpr, label='ROC curve (area = %0.2f)' % roc_auc)
plt.plot([0, 1], [0, 1], color='navy',linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.0])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Test ROC')
plt.legend(loc="lower right")
plt.show()

with open('roc.csv','w+') as file:
    for i in range(len(thresholds)):
        file.write("%f,%f,%f\n" % (fpr[i], tpr[i], thresholds[i]))

按 100 个批处理而不是按纪元显示结果

我听取了建议并进行了一些更新。现在，类(class)比例从 25% 到 75% 平衡为 50% 到 50%。此外，验证数据现在是随机选择的，而不是一组特定的股票。通过以更精细的分辨率(100 个批处理 vs 1 个时期)绘制损失和准确率图表，可以清楚地看到过度拟合。该模型实际上在开始发散之前从一开始就开始学习。我对它开始过度拟合的速度感到惊讶，但现在我可以看到这个问题，希望我可以调试它。

最佳答案

可能的解释

编码错误
由于训练/验证数据差异而导致过度拟合
类别倾斜(以及训练/验证数据的差异)

我会尝试的事情

交换训练集和验证集。问题还出现吗？
更详细地绘制前 10 个时期的曲线(例如，在初始化之后立即；每隔几次训练迭代，而不仅仅是每个时期)。您仍然以 > 75% 开始吗？那么您的类(class)可能会出现偏差，您可能还想检查您的训练-验证划分是否分层。

代码

这是没用的:np.concatenate(X_train)
在此处发布代码时，请尽可能使其具有可读性。这包括删除注释掉的行。

这对我来说看起来很可疑，因为编码错误:

if test:
    X_test.append(input)
    y_test.append(output)
else:
    #if((output == 0 and np.average(y_train) > 0.5) or output == 1):
    X_train.append(input)
    y_train.append(output)

使用sklearn.model_selection.train_test_split反而。之前对数据进行所有转换，然后用此方法进行分割。

关于validation - 当训练和验证损失与 epoch 1 不同时意味着什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44616841/

文章推荐： java - 在java中删除动态数组

文章推荐： javascript - 使用 ES6 解构的 if 语句中的评估顺序

swift - 什么是单| swift 意味着
我在 OS X 中构建菜单栏项时找到了一些示例代码。它使用了单个 |我不确定它的实际含义。 (我想做的是在菜单项左键单击时调用一个函数，但在右键单击时显示菜单) 这是我的代码 //Get refere
java - Collection 意味着？
为什么它在第 23 行抛出编译错误。'a' 是 Apple 类的对象，col 是包含 Apple 对象的列表，但它仍然是抛出下面提到的编译错误: 类型 Collection 中的方法 add(capt
java - 使用 "this"意味着 "super"使用字段可以吗
我有一个类A，它扩展了抽象类B。让B有一个 protected 字段值我想在 A 中使用这个字段。如果 A 没有 value，我可以编写 this.value 从 B 获取它。与super.va
mysql - DBLint 规则 31 意味着
DBLint 用于检查数据库状态。有46条规则。在 www.dblint.org 上对每条规则都有一些简单的解释，但对规则 31 的描述如下: 定义的主键不是最小键:主键是最小的 super 键。如果
swift - 什么(()？)和()？意味着 swift ？
var aa: (()?) = (john.residence?.address = someAddress) var bb: ()? = john.residence?.printNumberOfR
jquery - (function( $ ){...})( jQuery ); 是什么意思？做/意味着？
我对 jquery 的可重用插件有点陌生。我已经多次遇到这段代码，但无法弄清楚究竟发生了什么。 (function( $ ){ ... })( jQuery ); 谁能帮我解答一下吗？最佳答案
c - foo() 的用例是什么(意味着 foo 有未知数量的参数)？
这个问题已经有答案了: int foo (int argc, ...) vs int foo() vs int foo(void) in C (4 个回答) 已关闭 9 年前。所以我最近在 Hack
c - 下面代码中的链表 : What does (! elem) 意味着 and (!(elem = *stack)) ？
typedef struct Element { struct Element *next; void *data; } Element; 在 pop 函数中，(!(elem = *s
android - 数据加载两次...意味着 AsyncTask onPostExecute 加载相同的数据两次？
数据加载两次...意味着 AsyncTask onPostExecute 加载相同的数据两次？我的 AsyncTask onPostExecute 运行两次它加载相同的数据...我正在运行异步任务以从
angularjs - 运行 yo 意味着 js 挂起
运行“yomeanjs”时，我无限期地挂起“这可能需要几分钟”。当我尝试运行 grunt 时，它失败了，与 npm start 相同。我使用的是 Win 8.1，并安装了最新的 Node 和 Mon
android - Stashed Activity 意味着 Activity 对象不存在？
我正在看 big nerd ranch 的“Android Programming”中的这个页面，我对下面的句子感到困惑。它声明“当 Activity 被隐藏时， Activity 对象不存在”。这让
c++ - const vector 意味着 const 元素？
是否 const vector意味着它的元素是const也一样？在下面的代码中， v[0].set (1234);在 void g ( const vector & v )产生编译器错误 const
.net - 这个 xpath 意味着 "//Form/*[. = ' on']"
我是 xml 相关事物的新手我无法理解: SelectNodes(@"//Form/*[. = 'on']"); 注:SelectNodes是 XmlNode 的函数.(与 XmlDocument
c - UEFI Shelllib - ASSERT 意味着 ShellLib 的初始化？
我想方便地控制命令行参数。因此我想使用 ShellLib。我的代码是这样的: ... #include ... EFI_STATUS EFIAPI UefiMain ( EFI_HANDL
bash - [-n "$VARIABLE"] 是什么 ||退出 0 意味着
着眼于更正 Debian 上/etc/init.d/hostapd 中的一个问题。但是，我不知道这行代码是做什么的，也不知道它是如何工作的 [ -n "$DAEMON_CONF" ] || exit
ios - 在 Swift 中，当 false 意味着 true
有没有人遇到过类似我下图所示的情况？我有一个变量 landingBools.didSlowPast40Knots(正如您从调试打印输出中看到的那样)为假，但出于某种原因，if 语句评估为真。知道为
javascript - 带有 javascript 的多个下拉菜单。不幸的是只有丑陋的 "brute force"意味着
我设法使用 flexbox 和一些非常基本的 JavaScript 为自己构建了三个下拉菜单。因为我不太了解，所以我使用了一个简单的函数三次，而不是使用参数、变量和其他东西。我将其称为丑陋的“蛮力”
javascript - 什么是exports.displayName =(未定义: ?字符串);意味着 react native ？
这周刚开始学习 javascript。我有一个非常菜鸟的问题。 exports.displayName = (undefined: ?string); 在 React Native 中意味着什么？这
javascript - `always returns unordered result` 意味着 `returns false` 吗
我正在阅读有关 NaN here 的内容它说: A comparison with a NaN always returns an unordered result even when compari
java - 需要用 * 编码 String 中的重复模式，这样 * 意味着 "repeat from beginning"
编码格式:引入*表示“从头开始重复”。例子。输入-{a,b,a,b,c,a,b,a,b,c,d}可以写成{a,b,*,c,*,d}。输出:5；例如2:ABCABCE，输出- 5。这里*表示从头开始重

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城