gpt4 book ai didi

python - 如何将 tf.data.Dataset 拆分为 x_train、y_train、x_test、y_test for keras

转载 作者:行者123 更新时间:2023-12-04 08:51:14 26 4
gpt4 key购买 nike

如果我有一个数据集

dataset = tf.keras.preprocessing.image_dataset_from_directory(
directory,
labels="inferred",
label_mode="int",
class_names=None,
color_mode="rgb",
batch_size=32,
image_size=(32, 32),
shuffle=True,
seed=None,
validation_split=None,
subset=None,
interpolation="bilinear",
follow_links=False,
)
我如何将它分成 x 和 y 数组? x 数组将是 IMG 数组,而 y 数组将具有每个 img 的类别。

最佳答案

这将为你做分离。您需要做的是创建一个目录,我们称之为 c:\train。现在在该目录中,您需要创建一系列子目录,每个类一个。例如,如果您有狗的图像和猫的图像,并且您想构建一个分类器来区分图像是猫还是狗,那么在 train 目录中创建两个子目录。将一个目录命名为cats,将另一个子目录命名为dogs。现在将所有猫的图像放在 cat 子目录中,将所有狗的图像放在 dog 子目录中。现在让我们假设您要使用 75% 的图像进行训练,使用 25% 的图像进行验证。现在使用下面的代码创建一个训练集和一个验证集。

train_batch_size = 50  # Set the training batch size you desire
valid_batch_size = 50 # Set this so that .25 X total sample/valid_batch_size is an integer
dir = r'c:\train'
img_size = 224 # Set this to the desired image size you want to use
train_set = tf.keras.preprocessing.image_dataset_from_directory(
directory=dir, labels='inferred', label_mode='categorical', class_names=None,
color_mode='rgb', batch_size=train_batch_size, image_size=(img_size, img_size),
shuffle=True, seed=None, validation_split=.25, subset="training",
interpolation='nearest', follow_links=False)
valid_set = tf.keras.preprocessing.image_dataset_from_directory(
directory=dir, labels='inferred', label_mode='categorical', class_names=None,
color_mode='rgb', batch_size=valid_batch_size, image_size=(img_size, img_size),
shuffle=False, seed=None, validation_split=.25, subset="validation",
interpolation='nearest', follow_links=False)
使用labels='inferred' 标签将是子目录的名称。在示例中,它们将是猫和狗。使用 label_mode='categorical' 标签数据是一个热向量,因此当您编译模型时设置 loss='CategoricalCrossentropy'。注意训练集 shuffle 设置为 true 而验证集 shuffle 设置为 False。构建模型时,顶层应该有 2 个节点,激活应该是 softmax。当您使用 model.fit 来训练您的模型时,希望每个 epoch 都检查一次您的验证集。因此,在狗猫示例中,您有 1000 张狗图像和 1000 张猫图像,总共 2000 张。75% = 1500 将用于训练,500 将用于验证。如果您设置 valid_batch_size=50,则每个 epoch 将需要 10 个步骤来遍历所有验证图像。同样,如果 train_batch_size=50,则需要 30 个步骤来遍历训练集。当您运行 model.fit 时,设置 steps_per_epoch=30 和 validation_steps=10。实际上我更喜欢使用 tf.keras.preprocessing.image.ImageDataGenerator 来生成数据集。它很相似,但用途更广。文档是 here.如果喜欢它,因为它允许您根据需要指定预处理功能,还允许您重新调整图像值。通常,您希望使用 1/255 作为重新调整值。
如果您只想拆分训练数据,您可以使用 sklearn 中的 train_test_split。文档是 here. , 下面的代码展示了如何将其分成训练集、验证集和测试集。假设您需要 80% 的数据用于训练,10% 用于验证,10% 用于测试。假设 X 是一个 np 图像数组,y 是相关的标签数组。下面的代码显示了拆分
from sklearn.model_selection import train_test_split
X_train, X_tv, y_train, y_tv = train_test_split( X, y, train_size=0.8, random_state=42)
X_test, X_valid, y_test, y_valid=train_test_split(X_tv,y_tv, train_size=.5, randon_state=20)

关于python - 如何将 tf.data.Dataset 拆分为 x_train、y_train、x_test、y_test for keras,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64093720/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com