python - 贝叶斯优化可能不适用于 CNN 的原因有哪些-6ren

python - 贝叶斯优化可能不适用于 CNN 的原因有哪些

转载作者：行者123 更新时间：2023-12-02 09:24:34

24

4

我尝试将贝叶斯优化应用于 MNIST 手写数字数据集的简单 CNN，但几乎没有迹象表明它有效。我尝试过进行 k 倍验证来消除噪声，但似乎优化仍然没有在收敛到最佳参数方面取得任何进展。一般来说，贝叶斯优化可能失败的主要原因有哪些？在我的具体情况下？

其余部分只是上下文和代码片段。

模型定义:

def define_model(learning_rate, momentum):
    model = Sequential()
    model.add(Conv2D(32, (3,3), activation = 'relu', kernel_initializer = 'he_uniform', input_shape=(28,28,1)))
    model.add(MaxPooling2D((2,2)))
    model.add(Flatten())
    model.add(Dense(100, activation='relu', kernel_initializer='he_uniform'))
    model.add(Dense(10, activation='softmax'))
    opt = SGD(lr=learning_rate, momentum=momentum)
    model.compile(optimizer=opt, loss='categorical_crossentropy', metrics=['accuracy'])
    return model

一次训练运行，超参数:batch_size = 32，学习率 = 1e-2，动量 = 0.9，10 epoch。 (蓝色=训练，黄色=验证)。

5 折交叉验证准确性的箱线图，具有与上述相同的超参数(以了解分布情况)

网格搜索将batch_size保持为32，并保持10个纪元。我在单次评估而不是 5 倍评估中进行了此操作，因为差值不足以破坏结果。

贝叶斯优化。如上，batch_size=32 和 10 epoch。在相同范围内搜索。但这次使用 5 倍交叉验证来平滑噪声。它应该进行 100 次迭代，但距离还需要 20 个小时。

space = {'lr': hp.loguniform('lr', np.log(np.sqrt(10)*1e-4), np.log(1e-1)), 'momentum': 1 - hp.loguniform('momentum', np.log(np.sqrt(10)*1e-3), np.log(np.sqrt(10)*1e-1))}
tpe_best = fmin(fn=objective, space=space, algo=tpe.suggest, trials=Trials(), max_evals=100)

尝试的学习率

尝试的动力

从第 27 次迭代到第 49 次迭代，它看起来不错，但随后又失去了理智。

编辑

为提问者提供更多详细信息。

导入

# basic utility libraries
import numpy as np
import pandas as pd
import time
import datetime
import pickle
from matplotlib import pyplot as plt
%matplotlib notebook

# keras
from keras.datasets import mnist
from keras.utils import to_categorical
from keras.models import Sequential
from keras.layers import Conv2D, MaxPooling2D, Flatten, Dense, Input, BatchNormalization
from keras.optimizers import SGD
from keras.callbacks import Callback
from keras.models import load_model

# learning and optimisation helper libraries
from sklearn.model_selection import KFold
from hyperopt import fmin, tpe, Trials, hp, rand
from hyperopt.pyll.stochastic import sample

单次评估

def evaluate_model(trainX, trainY, testX, testY, max_epochs, learning_rate, momentum, batch_size, model=None, callbacks=[]):
    if model == None:
        model = define_model(learning_rate, momentum)
    history = model.fit(trainX, trainY, epochs=max_epochs, batch_size=batch_size, validation_data=(testX, testY), verbose=0, callbacks = callbacks)
    return model, history

交叉验证

def evaluate_model_cross_validation(trainX, trainY, max_epochs, learning_rate, momentum, batch_size, n_folds=5):
    scores, histories = list(), list()
    # prepare cross validation
    kfold = KFold(n_folds, shuffle=True, random_state=1)
    # enumerate splits
    for trainFold_ix, testFold_ix in kfold.split(trainX):
        # select rows for train and test
        trainFoldsX, trainFoldsY, testFoldX, testFoldY = trainX[trainFold_ix], trainY[trainFold_ix], trainX[testFold_ix], trainY[testFold_ix]
        # fit model
        model = define_model(learning_rate, momentum)
        history = model.fit(trainFoldsX, trainFoldsY, epochs=max_epochs, batch_size=batch_size, validation_data=(testFoldX, testFoldY), verbose=0)
        # evaluate model
        _, acc = model.evaluate(testFoldX, testFoldY, verbose=0)
        # stores scores
        scores.append(acc)
        histories.append(history)
    return scores, histories

如何设置贝叶斯优化(或随机搜索)

def selective_search(kind, space, max_evals, batch_size=32):

    trainX, trainY, testX, testY = prep_data()

    histories = list()
    hyperparameter_sets = list()
    scores = list()

    def objective(params):
        lr, momentum = params['lr'], params['momentum']
        accuracies, _ = evaluate_model_cross_validation(trainX, trainY, max_epochs=10, learning_rate=lr, momentum=momentum, batch_size=batch_size, n_folds=5)
        score = np.log10(1 - np.mean(accuracies))
        scores.append(score)
        with open('{}_scores.pickle'.format(kind), 'wb') as file:
            pickle.dump(scores, file)
        hyperparameter_sets.append({'learning_rate': lr, 'momentum': momentum, 'batch_size': batch_size})
        with open('{}_hpsets.pickle'.format(kind), 'wb') as file:
            pickle.dump(hyperparameter_sets, file)
        return score

    if kind == 'bayesian':
        tpe_best = fmin(fn=objective, space=space, algo=tpe.suggest, trials=Trials(), max_evals=max_evals)
    elif kind == 'random':
        tpe_best = fmin(fn=objective, space=space, algo=rand.suggest, trials=Trials(), max_evals=max_evals)
    else:
        raise BaseError('First parameter "kind" must be either "bayesian" or "random"')

    return histories, hyperparameter_sets, scores

然后我如何实际运行贝叶斯优化。

space = {'lr': hp.loguniform('lr', np.log(np.sqrt(10)*1e-4), np.log(1e-1)), 'momentum': 1 - hp.loguniform('momentum', np.log(np.sqrt(10)*1e-3), np.log(np.sqrt(10)*1e-1))}

histories, hyperparameter_sets, scores = selective_search(kind='bayesian', space=space, max_evals=100, batch_size=32)

最佳答案

这是我的进展更新，并在一定程度上回答了我的问题。标题是我没有运行足够的迭代。

迭代得分和 2.迭代获得最佳得分
- 正如拟合线所示，我们确实观察到了准确性提高的趋势。这可能较少，因为最小值正在改进，而更多，因为算法花费更少的时间评估超参数，而这些超参数显然不是最佳性能的候选者。
迭代学习率和4.相应的箱线图和须线图
- 我们在这里看到的一个奇怪的事情是试验超参数的收敛和发散。我的猜测是因为统计偏差产生的噪音不允许算法可靠地绘制地形。它无法确定最小值，因为每次测试一组特定的超参数时，它都会得到略有不同的答案。
- 尽管如此，我们确实看到了一些迹象，表明该算法将其搜索空间限制在比整个范围更窄的邻域内，正如预期的那样。
迭代动量和 6.相应的箱线图和须线图
- 在这里，我们对学习率进行了类似的观察。有趣的是平均值随着学习率趋于收敛和发散的方式。请记住我之前提到过，随着动量的增加，我们需要降低学习率以保持良好的模型训练性能。因此，如果我们试图保持良好的性能，动量和学习率之间就会存在某种耦合。这就是优化算法在这里为我们演示的内容!

关于python - 贝叶斯优化可能不适用于 CNN 的原因有哪些，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59788599/

24

4

0

文章推荐： erlang - 如何在 Erlang 中的标准输入上按字符读取

文章推荐： Eclipse 无法识别 Scala 代码

文章推荐： xcode6 - 如何重新安装IOS模拟器

hadoop - Cassandra:原因:InvalidRequestException(原因:无效的限制)
我对cassandra并使用1.2.10非常陌生。我有一个时间戳数据类型的主键列。现在，我正在尝试检索日期范围的数据。由于我们知道不能在cassandra中使用，因此我使用的是大于()来获取日期范围。
objective-c - 以编程方式调用 segue 原因 NSInvalidArgumentException，原因 : 'UILabel length' unrecognized selector
我正在尝试进行有条件的转场。但我得到: Terminating app due to uncaught exception 'NSInvalidArgumentException', reas
iphone - 构建用新的应用程序版本替换旧版本的应用程序会导致应用程序崩溃!原因？
我有一个游戏项目，在调试和发布模式下在设备上运行得非常好。我有两个版本。旧版本和新版本具有更多(后来我添加了)功能，并且两者的 bundle ID、版本相同。当我构建旧版本时，之前没有安装“myGam
java - ClassCastException 原因
这个问题已经有答案了: 奥 git _a (2 个回答) 已关闭 5 年前。我正在获取 ClassCastException 。这两个类来自不同的 jar，但是JettyContinuationPr
java - 如何获取外部包中的异常原因/原因
以下代码行抛出异常: HttpResponse response = client.execute(request); // actual HTTP request 我能够捕获它并打印: Log
java - ClassNotFoundException 原因
就目前情况而言，这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放，visit
java - 为什么这里抛出中断异常...原因？
public class TwoThreads { private static Object resource = new Object(); private static void
C程序-段错误，原因
当我输入 6 (int) 作为值时，运行此命令会出现段错误 (gcc filename.c -lm)。请帮助我解决这个问题。预期的功能尚未实现，但我需要知道为什么我已经陷入段错误。谢谢! #incl
c++ - 不良顶点数据的常见陷阱/原因？
所以，过去一周半我一直在研究这个 .OBJ/.MTL 网格解析器。在这段时间里，我一直在追踪/修复很多错误、清理代码、记录代码等等。问题是，每修复一个错误，仍然会出现这个问题，而且一张图片胜过一千个
为什么某些元素以数组和标量形式出现的 Python 原因
我正在运行一个代码，它基本上围绕 3 个维度旋转一个大数据数组(5000 万行)。但是，我遇到了一个奇怪的问题，我已将其缩小到如何评估旋转矩阵。基本上，对于除绕 x 轴以外的任何旋转，python 代
更改包名称大小写约定的 Java 原因
就在你说这是重复之前，我已经看到了其他问题，但我仍然想发布这个。所以我正在阅读 Thinking in Java -Bruce Eckel 这篇文章是关于小写命名约定的: In Java 1.0 a
Android SocketTimeoutException 原因
我想在我的应用程序中使用 REST API。它为我从这个应用程序发出的所有请求抛出 SocketTimeoutException。 Logcat 输出:(您也可以在此处看到带有漂亮格式的输出:http
python - 如何抑制显示后续异常的父异常(原因)
我知道 raise ... from None 并已阅读 How can I more easily suppress previous exceptions when I raise my own
gcc - 生成coreutils时发生MinGW错误(Windows和Linux上均发生一致错误)-原因？
在未能找到各种Unix工具(例如xargs和whatnot)的最新独立二进制文件(this version很好，但需要外部DLL)后，我承担了自己进行编译的挑战。 ...这是痛苦的。最终，尽管如此，
php - stream_socket_accept()失败时如何查找错误代码/原因
我有一个用PHP编写的流套接字服务器。为了查看一次可以处理多少个连接，我用C语言编写了一个模拟器来创建1000个不同的客户端以连接到服务器。 stream_socket_accept几次返回fals
android - 构建失败，原因:读取zip文件时出错
我的Android Studio昨天运行良好，但是今天当我启动Android Studio并想在移动设备上运行应用程序时，发生了以下错误，我在互联网和stackoverflow上进行了搜索，但没有解
grails - Grails Java域类中的toString()原因
默认情况下，grails似乎为Java域对象的toString()返回:。那当然不是我想要的，所以我尝试@Override toString()返回我想要的。当我尝试grails generate-a
spring - 原因:在Spring Security中无法将空值或空值传递给构造函数
尝试通过LDAP通过LDAP对用户进行身份验证时，出现以下错误。 Reason: Cannot pass null or empty values to constructor. 谁能告诉我做错了什么
Python模块无法加载共享库，原因: image not found
我正在尝试使用应用程序附带的 Houdini Python 模块，该模块是 Houdini 安装文件夹的一部分，位于标准 Python 路径之外。按照安装说明操作后，运行 Houdini Termin
c - 在非常小的代码片段中寻找 SEGFAULT 原因
简单地说，我正在为基本数据库编写单链表的原始实现。当用户请求打印索引下列出的元素高于数据库中当前记录数量时，我不断出现段错误，但仅当差值为 1 时。对于更高的数字，它只会触发我在那里编写的错误系统。

首页

博学

6Ren·AI

商城

python - 贝叶斯优化可能不适用于 CNN 的原因有哪些