gpt4 book ai didi

python - 使用数据集来消费 Numpy 数组

转载 作者:行者123 更新时间:2023-11-28 21:02:35 25 4
gpt4 key购买 nike

我正在尝试在图表中使用 Numpy 数组,使用数据集输入数据。

我已通读 this ,但不太明白我应该如何在数据集中提供占位符数组。

如果我们举一个简单的例子,我从:

A = np.arange(4)
B = np.arange(10, 14)

a = tf.placeholder(tf.float32, [None])
b = tf.placeholder(tf.float32, [None])
c = tf.add(a, b)

with tf.Session() as sess:
for i in range(10):
x = sess.run(c, feed_dict={a: A, b:B})
print(i, x)

然后我尝试修改它以使用数据集,如下所示:

A = np.arange(4)
B = np.arange(10, 14)

a = tf.placeholder(tf.int32, A.shape)
b = tf.placeholder(tf.int32, B.shape)
c = tf.add(a, b)

dataset = tf.data.Dataset.from_tensors((a, b))

iterator = dataset.make_initializable_iterator()

with tf.Session() as sess3:
sess3.run(tf.global_variables_initializer())
sess3.run(iterator.initializer, feed_dict={a: A, b: B})

for i in range(10):
x = sess3.run(c)
print(i, x)

如果我运行它,我会得到“InvalidArgumentError:你必须为占位符张量提供一个值......”

for 循环之前的代码模仿示例 here ,但我不知道如何在不为每次调用 sess3.run(c) [这会很昂贵] 提供 feed_dict 的情况下使用占位符 a 和 b。我怀疑我必须以某种方式使用迭代器,但我不明白如何使用。

更新

看来我在选择示例时过于简单化了。我真正想做的是在训练神经网络或类似网络时使用数据集。

对于一个更明智的问题,我将如何使用数据集来提供下面的占位符(尽管想象 X 和 Y_true 更长......)。文档将我带到循环开始的地方,然后我不确定。

X = np.arange(8.).reshape(4, 2)
Y_true = np.array([0, 0, 1, 1])

x = tf.placeholder(tf.float32, [None, 2], name='x')
y_true = tf.placeholder(tf.float32, [None], name='y_true')

w = tf.Variable(np.random.randn(2, 1), name='w', dtype=tf.float32)

y = tf.squeeze(tf.matmul(x, w), name='y')

loss = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(
labels=y_true, logits=y),
name='x_entropy')

# set optimiser
optimiser = tf.train.AdamOptimizer().minimize(loss)

with tf.Session() as sess:
sess.run(tf.global_variables_initializer())

for i in range(100):
_, loss_out = sess.run([optimiser, loss], feed_dict={x: X, y_true:Y_true})
print(i, loss_out)

尝试以下只会让我得到一个 InvalidArgumentError

X = np.arange(8.).reshape(4, 2)
Y_true = np.array([0, 0, 1, 1])

x = tf.placeholder(tf.float32, [None, 2], name='x')
y_true = tf.placeholder(tf.float32, [None], name='y_true')

dataset = tf.data.Dataset.from_tensor_slices((x, y_true))
iterator = dataset.make_initializable_iterator()

w = tf.Variable(np.random.randn(2, 1), name='w', dtype=tf.float32)

y = tf.squeeze(tf.matmul(x, w), name='y')

loss = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(
labels=y_true, logits=y),
name='x_entropy')

# set optimiser
optimiser = tf.train.AdamOptimizer().minimize(loss)

with tf.Session() as sess:
sess.run(tf.global_variables_initializer())

sess.run(iterator.initializer, feed_dict={x: X,
y_true: Y_true})

for i in range(100):
_, loss_out = sess.run([optimiser, loss])
print(i, loss_out)

最佳答案

使用 iterator.get_next()Dataset 中获取元素,例如:

next_element = iterator.get_next()

初始化迭代器

sess.run(iterator.initializer, feed_dict={a:A, b:B})

并且至少从 Dataset

获取值

value = sess.run(next_element)

编辑:

上面的代码只是返回Dataset 中的元素。 Dataset API 旨在为 input_fn 提供 featureslabels,因此所有额外的预处理计算都应在 Dataset API 中执行。如果你想添加元素,你应该定义一个应用于元素的函数,比如:

def add_fn(exp1, exp2):
return tf.add(exp1, exp2)

然后您可以将这些函数映射到您的数据集:

dataset = dataset.map(add_fn)

完整代码示例:

A = np.arange(4)
B = np.arange(10, 14)
a = tf.placeholder(tf.int32, A.shape)
b = tf.placeholder(tf.int32, B.shape)
#c = tf.add(a, b)
def add_fn(exp1, exp2):
return tf.add(exp1, exp2)
dataset = tf.data.Dataset.from_tensors((a, b))
dataset = dataset.map(add_fn)
iterator = dataset.make_initializable_iterator()
next_element = iterator.get_next()
with tf.Session() as sess:
sess.run(iterator.initializer, feed_dict={a: A, b: B})
# just one element at dataset
x = sess.run(next_element)
print(x)

关于python - 使用数据集来消费 Numpy 数组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47798492/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com