python - 在 Tensorflow 2.0 中迭代无限重复的 tf.data 数据集的正确方法是什么-6ren

python - 在 Tensorflow 2.0 中迭代无限重复的 tf.data 数据集的正确方法是什么

转载作者：行者123 更新时间：2023-12-04 13:57:01

25

4

TF2.0 文档建议使用 python for 循环迭代数据集:

for step, (x_batch_train, y_batch_train) in enumerate(train_dataset):
    # do training

问题是，如果数据集无限重复(据我所知，出于性能原因，这是有道理的)这个循环将永远不会结束。

我目前正在做的是设置一些我想要迭代的时期和训练步骤:

train_iter = iter(train_dataset)
for i in range(num_epochs):
    # do some setup
    for step in range(num_batches):
        (x_batch, y_batch) = next(train_iter)
        # do training
    # log metrics

我不确定的是这是否会对我的训练过程的表现产生负面影响。这是否会使我的训练运行速度变慢，或者我是否会通过像这样运行我的训练来阻止 Tensorflow 优化我的代码？
最重要的是，设置一个时期内要处理的批次数量可能有点烦人，因为我想在我的数据管道中进行随机扩充。因此，我的数据集中唯一样本的数量在不同的训练类(class)之间可能会有所不同。不过这也不是什么大问题。

我试图通过谷歌找到答案，但不幸的是没有运气。

最佳答案

代码的问题，

train_iter = iter(train_dataset)
for i in range(num_epochs):
    # do some setup
    for step in range(num_batches):
        (x_batch, y_batch) = next(train_iter)

是每个 epoch , model看到 batches以相同的顺序，这是效率不高的。

此类代码的示例输出如下所示:

tf.Tensor(4, shape=(), dtype=int64) tf.Tensor(3, shape=(), dtype=int64)
tf.Tensor(0, shape=(), dtype=int64) tf.Tensor(1, shape=(), dtype=int64)
tf.Tensor(8, shape=(), dtype=int64) tf.Tensor(2, shape=(), dtype=int64)
tf.Tensor(6, shape=(), dtype=int64) tf.Tensor(9, shape=(), dtype=int64)
tf.Tensor(7, shape=(), dtype=int64) tf.Tensor(5, shape=(), dtype=int64)
tf.Tensor(4, shape=(), dtype=int64) tf.Tensor(3, shape=(), dtype=int64)
tf.Tensor(0, shape=(), dtype=int64) tf.Tensor(1, shape=(), dtype=int64)
tf.Tensor(8, shape=(), dtype=int64) tf.Tensor(2, shape=(), dtype=int64)
tf.Tensor(6, shape=(), dtype=int64) tf.Tensor(9, shape=(), dtype=int64)
tf.Tensor(7, shape=(), dtype=int64) tf.Tensor(5, shape=(), dtype=int64)
tf.Tensor(4, shape=(), dtype=int64) tf.Tensor(3, shape=(), dtype=int64)
tf.Tensor(0, shape=(), dtype=int64) tf.Tensor(1, shape=(), dtype=int64)
tf.Tensor(8, shape=(), dtype=int64) tf.Tensor(2, shape=(), dtype=int64)
tf.Tensor(6, shape=(), dtype=int64) tf.Tensor(9, shape=(), dtype=int64)
tf.Tensor(7, shape=(), dtype=int64) tf.Tensor(5, shape=(), dtype=int64)

如上所示，每个 Epoch 对应的值是相同的，或者换句话说， Batches为每个 epoch 重复( 4, 0, 8, 6, 7 和 3,1,2,9,5 重复三次)。

优化高效的方式通过 batches不同的顺序是使用参数， reshuffle_each_iteration=True .示例代码如下所示:

import tensorflow as tf

dataset = tf.data.Dataset.range(10)
dataset = dataset.shuffle(buffer_size=5, reshuffle_each_iteration=True)
iter(dataset)

buffer_size = 10
batch_size = 2

for epoch in range(num_epochs):
    dataset_epoch = dataset.batch(batch_size)
    for x, y in dataset_epoch:
      print(x,y)

上面代码的输出如下所示，可以观察到与任何批次对应的值都没有重复:

tf.Tensor(2, shape=(), dtype=int64) tf.Tensor(0, shape=(), dtype=int64)
tf.Tensor(3, shape=(), dtype=int64) tf.Tensor(1, shape=(), dtype=int64)
tf.Tensor(7, shape=(), dtype=int64) tf.Tensor(6, shape=(), dtype=int64)
tf.Tensor(9, shape=(), dtype=int64) tf.Tensor(4, shape=(), dtype=int64)
tf.Tensor(5, shape=(), dtype=int64) tf.Tensor(8, shape=(), dtype=int64)
tf.Tensor(0, shape=(), dtype=int64) tf.Tensor(5, shape=(), dtype=int64)
tf.Tensor(6, shape=(), dtype=int64) tf.Tensor(7, shape=(), dtype=int64)
tf.Tensor(4, shape=(), dtype=int64) tf.Tensor(9, shape=(), dtype=int64)
tf.Tensor(3, shape=(), dtype=int64) tf.Tensor(2, shape=(), dtype=int64)
tf.Tensor(8, shape=(), dtype=int64) tf.Tensor(1, shape=(), dtype=int64)
tf.Tensor(2, shape=(), dtype=int64) tf.Tensor(5, shape=(), dtype=int64)
tf.Tensor(1, shape=(), dtype=int64) tf.Tensor(7, shape=(), dtype=int64)
tf.Tensor(6, shape=(), dtype=int64) tf.Tensor(8, shape=(), dtype=int64)
tf.Tensor(9, shape=(), dtype=int64) tf.Tensor(3, shape=(), dtype=int64)
tf.Tensor(0, shape=(), dtype=int64) tf.Tensor(4, shape=(), dtype=int64)

希望这可以帮助。快乐学习!

关于python - 在 Tensorflow 2.0 中迭代无限重复的 tf.data 数据集的正确方法是什么，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60266064/

25

4

0

文章推荐： azure - 限制从 Azure 函数子网对存储帐户的访问

文章推荐： python - Elastic Beanstalk 最大环境变量长度

javascript - 如何使列表项滚动动画看起来连续/无限
我有 3 个列表项，每 3 秒向上旋转一次。我正在使用 transformY 属性来做这件事。问题是，当它到达最后一个元素时，它会循环返回，从而产生重新开始的效果。如何通过在最后一项之后继续向上旋转
无限/重复世界的数学/计算与旋转
我如何制作一个处理旋转的无限/重复世界，就像在这个游戏中一样: http://bloodfromastone.co.uk/retaliation.html 我通过具有这样的层次结构对我的旋转移动世界进
javascript - 是否可以不限制字符重复的正则表达式范围的上限值(无限)？
这个问题已经有答案了: Using explicitly numbered repetition instead of question mark, star and plus (4 个回答) 已关闭
java - 无限 while 循环以及读取文件时出现问题
程序说明: I have this program of mine which is intended to read every word from a file (large one) and t
java - 无限 While 循环
while 循环应该比较这两个对象的 ibsn。正在比较的对象: list[0] = new ReadingMatter ("Words and Stuff", "9-082-1090-1");
JavaScript 无限 For 循环
已关闭。这个问题是 not reproducible or was caused by typos 。目前不接受答案。这个问题是由拼写错误或无法再重现的问题引起的。虽然类似的问题可能是 on-top
c - 无限 while 循环中的信号
我完全被屏蔽了。我尝试修改 C 中的“警报”信号，以便在秒数到期时读取一个简单的变量。我的代码如下: 在主要部分: int semnal; signal(SIGALRM, alarmHandle
Java 无限 While 循环
我正在接受多行信息(字符串，直到我稍后解析它们)。例如: 1 5 0 2 9 6 2 9 1 我编写这段代码来分隔行，因为我将不得不以某种方式操作每一行。 Scanner scan = new Sca
javascript - 如何制作动态名称选择器(无限)
我不熟悉 jQuery，并且我有多余的 jQuery 调用，我想将它们放入循环中。 $('.class1').on('click', function () { ... $('.class2').on
php - 广度优先搜索方式的一般树遍历(无限)
我有一个树结构，其中每个节点都有 5 个子节点，并且不允许超过 5 个。我希望以广度优先搜索的方式遍历这棵树。现在我想使用广度优先搜索方式从选定的父节点计算空节点。例如如果给定的父节点为 1，则
PHP 无限 while 循环阻止对脚本的其他调用
目标/动机我想写一个服务，它应该一直运行。但是当服务已经运行时，应该不可能再次启动该服务。用例用户 X 打开页面 myService.php 并通过单击页面上的按钮启动服务。之后关闭浏览器。一段
c++ - “无限”未在此范围内声明
我正在尝试编译 shogun 工具箱，但遇到了这个错误 C:/shogun-3.0.0/shogun-3.0.0/src/shogun/../shogun/mathematics/Math.h
javascript - 无限 6 面骰子滚轮
需要学校的 JavaScript 作业帮助，但不知道该怎么做，希望得到一些提示？我们应该创建一个 6 面掷骰子程序，用户可以选择应该掷多少个骰子，最少 1 个和最多 5 个骰子。所用骰子数量的总和
iphone - 无限 ScrollView 的动画
我在无限 ScrollView 中有 5 张图片。因此，为了使 scrollView 无限/循环，我将图像定位如下: 5 1 2 3 4 5 1含义:最后一张图片第一张图片第二张图片.....最后一
elixir - 如何中断(无限)流？
我正在使用 ExTwitter库，并希望能够偶尔终止对流式 API 的调用以更改参数。我当前的代码看起来像这样: for tweet #finished end 关于elixir - 如何中断(无
Javascript/jQuery - 动画背景随着淡入淡出而变化(无限)
我想每 3 秒更改一次 div 的背景。这需要循环，因此一旦最后一个背景图像显示，它就会循环回到第一个背景图像，依此类推。我在这样做时遇到了麻烦。我之前发过一篇文章，内容非常模糊，没有得到帮助。
javascript - AngularJS:无限$digest循环错误？
我在做this教程，无法让我的页面正确加载。我不断在控制台中收到错误:[$rootScope:infdig]。我对 Angular 很陌生，但从我读到的内容来看，我在某个地方有一个无限循环。我预计它
javascript - 无限 asyncIterator 未按预期工作
所以我试图创建一个无限的 asyncIterator/生成器。该代码应该为“for wait of”循环生成“Hello”和“Hi”，然后永远等待下一个值。问题是它不等待第三个值，也不在循环后打印 2
javascript - 无限 Canvas 背景滚动无卡顿
下图显示了我如何在 HTML5/JS 中制作无限背景滚动。我的连续背景由 X block Canvas 组成。我将在到达下一个 Canvas 之前立即渲染它，并释放上一个 Canvas。这里的问题是动
storage - 无限(或非常高)长度的整数存储
作为一个业余项目，我正在研究一些自制的素数生成问题，尝试编写一些不同的实现作为自学 C 和 C++ 的方法。当然，生成低素数的最快方法是已经拥有它们，所以我想着手建立一个硬盘素数列表数据文件。我想编写

首页

博学

6Ren·AI

商城

python - 在 Tensorflow 2.0 中迭代无限重复的 tf.data 数据集的正确方法是什么