gpt4 book ai didi

python - 为什么 Keras 的评估生成器和评估对相同数据报告的精度不同?

转载 作者:行者123 更新时间:2023-11-30 09:39:17 28 4
gpt4 key购买 nike

我正在使用 Keras 的 ImageDataGeneratorflow_from_directory 来训练神经网络。我遇到的问题是 evaluate_generatorevaluate 报告相同数据的不同精度。这是minimal example ,它报告 evaluate_generator 的准确度为 0.24,但 evaluate 的准确度为 0.44:

import os
import numpy as np
import cv2
import keras
import tensorflow as tf

np.random.seed(1)
tf.set_random_seed(1)

test_data_path = os.path.join("data", "test")

def load_data_from_image_files(base_data_path):
X = []
y = []
for data_folder in os.listdir(base_data_path):
data_folder_path = os.path.join(base_data_path, data_folder)
if os.path.isdir(data_folder_path):
for filename in os.listdir(data_folder_path):
if filename.endswith(".jpg"):
X.append(cv2.imread(os.path.join(data_folder_path, filename)))
if data_folder == "null":
y.append([0])
else:
y.append([1])
return np.array(X).astype("float32") / 255.0, np.array(y)

with open("model.json", "r") as json_file:
model = keras.models.model_from_json(json_file.read())
model.load_weights("model.h5")
model.compile(loss="binary_crossentropy", optimizer="adam", metrics=["accuracy"])

X_test, y_test = load_data_from_image_files(test_data_path)
test_datagen = keras.preprocessing.image.ImageDataGenerator(rescale=1./255)
test_generator = test_datagen.flow_from_directory(
test_data_path,
target_size=(96, 96),
batch_size=1,
shuffle=False,
class_mode="binary")
_, generator_test_accuracy = model.evaluate_generator(generator=test_generator, steps=test_generator.samples)
_, test_accuracy = model.evaluate(X_test, y_test)
print("evaluate_generator: %.3f, evaluate: %.3f" % (generator_test_accuracy, test_accuracy))

(这是来自 keras-generator-minimal-example 存储库的 test.py。)此脚本加载的预训练模型定义如下:

model = keras.models.Sequential()
model.add(keras.layers.Flatten(input_shape=(96, 96, 3)))
model.add(keras.layers.Dense(4, activation="relu"))
model.add(keras.layers.BatchNormalization())
model.add(keras.layers.Dense(1, activation="sigmoid"))
model.compile(loss="binary_crossentropy", optimizer="adam", metrics=["accuracy"])

设置和训练模型的完整脚本是 here .

我的问题是,上面示例中的 model.evaluate_generatormodel.evaluate 应该报告相同的准确性,还是我搞砸了?如果我只是缺少一个参数或其他东西,我将非常感谢您在正确的方向上的插入。

<小时/>

旁注:this Github issue似乎可能相关,尽管该问题的评论中提出的各种修复方案并不能解决我的问题。设置 shuffle=Falseworkers=1 和/或 max_queue_size=1 不会改变任何内容,而设置 use_multiprocessing=True 导致我的终端中出现一系列以下错误并且脚本挂起:

/home/jack/.local/lib/python3.6/site-packages/keras/utils/data_utils.py:616: UserWarning: The input 0 could not be retrieved. It could be because a worker has died.
UserWarning)

由于我无法解决这个次要问题,因此我不知道在 evaluate_generator 中设置 use_multiprocessing=True 是否可以解决我遇到的问题精度不匹配。

最佳答案

事实证明,差异是由 OpenCV 的 imread 使用 BGR 格式造成的,而 Keras 的 flow_from_directory expects RGB by default 。将 channel 反转为 RGB 解决了该问题。

关于python - 为什么 Keras 的评估生成器和评估对相同数据报告的精度不同?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59958934/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com