gpt4 book ai didi

python - keras model.fit() 提供了 tf.Dataset 对象的可初始化迭代器

转载 作者:太空宇宙 更新时间:2023-11-03 11:39:25 25 4
gpt4 key购买 nike

我正在使用 tf.keras API 构建我的 CNN 模型,并使用 tf.Dataset API 为我的模型创建输入管道。 tf.keras.datasets 中的 mnist 数据集用于测试,并通过执行代码在内存中准备:

(train_images,train_labels),(test_images,test_labels) = tf.keras.datasets.mnist.load_data()

还有一些与我的 keras 模型兼容的预处理:

Train_images = np.expand_dims(train_images,3).astype('float')/255.0
Test_images = np.expand_dims(test_images,3).astype('float')/255.0

Train_labels = tf.keras.utils.to_categorical(train_labels)
Test_labels = tf.keras.utils.to_categorical(test_labels)

这些数据以数组的形式存储在内存中,创建数据集对象有两种选择。第一个是简单地使用 tf.data.Dataset.from_tensor_slices:

image = tf.data.Dataset.from_tensor_slices((Train_images,Train_labels))

并将此结果对象输入到 model.fit():

model.fit(x=image,steps_per_epoch=1000)

或通过以下方式输入此数据集的迭代器:

iterator = image.make_one_shot_iterator()

model.fit(x=iterator,steps_per_epoch=1000)

这两个选项都可以正常工作,因为此处名为 image 的数据集是使用内存中的数据创建的。然而,根据Importing Data在这里,我们可能希望避免这样做,因为它会多次复制数据并占用内存。因此,另一种选择是基于 tf.placeholder 以及可初始化迭代器创建这样的数据集对象:

X = tf.placeholder(tf.float32,shape = [60000,28,28,1])
Y = tf.placeholder(tf.float32,shape = [60000,10])
image2 = tf.data.Dataset.from_tensor_slices((X,Y))
iterator2 = image.make_initializable_iterator()

with tf.Session() as sess:
sess.run(iterator2.initializer,feed_dict={X:Train_images,Y:Train_labels}
sess.run(iterator2.get_next())

这种迭代器在使用 tf.Session() 时在内存中提供数据时工作正常,并且避免了数据的多个副本。但我找不到让它与 keras.model.fit() 一起工作的方法,因为你不能真正调用 iterator.initializer 或在那里提供任何数据。有没有办法使用这种迭代器?

最佳答案

我不认为 keras 正式支持传递可初始化迭代器的情况,正如您所指出的,没有地方可以提供占位符和值映射。

但是,可以使用 keras callbacks 解决方法:

import tensorflow as tf
import numpy as np
import pandas as pd

# Make sure only tensorflow.keras is imported, don't mix with keras
from tensorflow.keras import layers
import tensorflow.keras.backend as K

# example data
x_values = np.random.randn(200, 100).astype(np.float32)
y_labels = np.random.randint(low=0, high=9, size=200)

graph = tf.Graph()
with graph.as_default():
# make datasets from placeholders as in https://www.tensorflow.org/guide/datasets#reading_input_data
# X:
features_placeholder = tf.placeholder(tf.float32, x_values.shape, name='features')
dataset_x = tf.data.Dataset.from_tensor_slices({'x': features_placeholder})
# Y:
labels_placeholder = tf.placeholder(tf.float32, [None], name='labels')
dataset_y = tf.data.Dataset.from_tensor_slices({'y': labels_placeholder})

# compose datasets to make X-Y pairs for training
dataset0 = tf.data.Dataset.zip((dataset_x, dataset_y))
dataset0 = dataset0.batch(16).repeat()

# build model with keras
inputs = tf.keras.Input(name='x', shape=(x_values.shape[1],))
mlp1 = layers.Dense(16, name='mlp-1', activation='relu')
mlp1_out = mlp1(inputs)
output = layers.Dense(1, name='y', activation='linear')
output_out = output(mlp1_out)
model = tf.keras.Model(inputs=inputs, outputs=output_out)
# The compile step specifies the training configuration.
model.compile(optimizer=tf.train.RMSPropOptimizer(0.001), loss='mse', metrics=['mse'])

iterator = dataset0.make_initializable_iterator()
feed_dict = { labels_placeholder: y_labels, features_placeholder: x_values }

class InitIteratorCallback(tf.keras.callbacks.Callback):
"""
Ensures that placeholders in dataset are initialized before each epoch begins
"""

def on_epoch_begin(self, epoch, logs=None):
sess = K.get_session()
sess.run(iterator.initializer, feed_dict=feed_dict)


model.fit(iterator, callbacks=[InitIteratorCallback()],
epochs=10, steps_per_epoch=300)

关于python - keras model.fit() 提供了 tf.Dataset 对象的可初始化迭代器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52691569/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com