- ubuntu12.04环境下使用kvm ioctl接口实现最简单的虚拟机
- Ubuntu 通过无线网络安装Ubuntu Server启动系统后连接无线网络的方法
- 在Ubuntu上搭建网桥的方法
- ubuntu 虚拟机上网方式及相关配置详解
CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.
这篇CFSDN的博客文章TensorFlow dataset.shuffle、batch、repeat的使用详解由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.
直接看代码例子,有详细注释!! 。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
|
import
tensorflow as tf
import
numpy as np
d
=
np.arange(
0
,
60
).reshape([
6
,
10
])
# 将array转化为tensor
data
=
tf.data.Dataset.from_tensor_slices(d)
# 从data数据集中按顺序抽取buffer_size个样本放在buffer中,然后打乱buffer中的样本
# buffer中样本个数不足buffer_size,继续从data数据集中安顺序填充至buffer_size,
# 此时会再次打乱
data
=
data.shuffle(buffer_size
=
3
)
# 每次从buffer中抽取4个样本
data
=
data.batch(
4
)
# 将data数据集重复,其实就是2个epoch数据集
data
=
data.repeat(
2
)
# 构造获取数据的迭代器
iters
=
data.make_one_shot_iterator()
# 每次从迭代器中获取一批数据
batch
=
iters.get_next()
sess
=
tf.Session()
sess.run(batch)
# 数据集完成遍历完之后,继续抽取的话会报错:OutOfRangeError
|
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
|
In [
21
]: d
Out[
21
]:
array([[
0
,
1
,
2
,
3
,
4
,
5
,
6
,
7
,
8
,
9
],
[
10
,
11
,
12
,
13
,
14
,
15
,
16
,
17
,
18
,
19
],
[
20
,
21
,
22
,
23
,
24
,
25
,
26
,
27
,
28
,
29
],
[
30
,
31
,
32
,
33
,
34
,
35
,
36
,
37
,
38
,
39
],
[
40
,
41
,
42
,
43
,
44
,
45
,
46
,
47
,
48
,
49
],
[
50
,
51
,
52
,
53
,
54
,
55
,
56
,
57
,
58
,
59
]])
In [
22
]: sess.run(batch)
Out[
22
]:
array([[
0
,
1
,
2
,
3
,
4
,
5
,
6
,
7
,
8
,
9
],
[
30
,
31
,
32
,
33
,
34
,
35
,
36
,
37
,
38
,
39
],
[
20
,
21
,
22
,
23
,
24
,
25
,
26
,
27
,
28
,
29
],
[
10
,
11
,
12
,
13
,
14
,
15
,
16
,
17
,
18
,
19
]])
In [
23
]: sess.run(batch)
Out[
23
]:
array([[
40
,
41
,
42
,
43
,
44
,
45
,
46
,
47
,
48
,
49
],
[
50
,
51
,
52
,
53
,
54
,
55
,
56
,
57
,
58
,
59
]])
|
从输出结果可以看出:
shuffle是按顺序将数据放入buffer里面的; 。
当repeat函数在shuffle之后的话,是将一个epoch的数据集抽取完毕,再进行下一个epoch的.
那么,当repeat函数在shuffle之前会怎么样呢?如下:
1
2
3
4
5
|
data
=
data.repeat(
2
)
data
=
data.shuffle(buffer_size
=
3
)
data
=
data.batch(
4
)
|
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
|
In [
25
]: sess.run(batch)
Out[
25
]:
array([[
10
,
11
,
12
,
13
,
14
,
15
,
16
,
17
,
18
,
19
],
[
20
,
21
,
22
,
23
,
24
,
25
,
26
,
27
,
28
,
29
],
[
0
,
1
,
2
,
3
,
4
,
5
,
6
,
7
,
8
,
9
],
[
40
,
41
,
42
,
43
,
44
,
45
,
46
,
47
,
48
,
49
]])
In [
26
]: sess.run(batch)
Out[
26
]:
array([[
50
,
51
,
52
,
53
,
54
,
55
,
56
,
57
,
58
,
59
],
[
0
,
1
,
2
,
3
,
4
,
5
,
6
,
7
,
8
,
9
],
[
30
,
31
,
32
,
33
,
34
,
35
,
36
,
37
,
38
,
39
],
[
30
,
31
,
32
,
33
,
34
,
35
,
36
,
37
,
38
,
39
]])
In [
27
]: sess.run(batch)
Out[
27
]:
array([[
10
,
11
,
12
,
13
,
14
,
15
,
16
,
17
,
18
,
19
],
[
50
,
51
,
52
,
53
,
54
,
55
,
56
,
57
,
58
,
59
],
[
20
,
21
,
22
,
23
,
24
,
25
,
26
,
27
,
28
,
29
],
[
40
,
41
,
42
,
43
,
44
,
45
,
46
,
47
,
48
,
49
]])
|
可以看出,其实它就是先将数据集复制一遍,然后把两个epoch当成同一个新的数据集,一直shuffle和batch下去.
以上这篇TensorFlow dataset.shuffle、batch、repeat的使用详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持我.
原文链接:https://blog.csdn.net/sgyuanshi/article/details/90183610 。
最后此篇关于TensorFlow dataset.shuffle、batch、repeat的使用详解的文章就讲到这里了,如果你想了解更多关于TensorFlow dataset.shuffle、batch、repeat的使用详解的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
如果我用 dataset.batch(n).prefetch(m), 将预提取m个批次或m个 sample ? 最佳答案 Dataset.prefetch(m) 转换预取其直接输入的m元素。在这种情况
根据 TensorFlow documentation 、tf.contrib.data.Dataset 类的 prefetch 和 map 方法,都有一个名为 buffer_size 的参数. 对于
我正在使用 Flink 0.10.1 的 DataSet API 编写应用程序。我可以在 Flink 中使用单个运算符获取多个收集器吗? 我想做的是如下所示: val lines = env.read
为了使用 Google Colabs TPU,我需要一个 tf.dataset.Dataset .那么如何在这样的数据集上使用数据增强? 更具体地说,到目前为止我的代码是: def get_datas
我有一个包含 2 个相关数据表(主数据表和详细信息)的数据集。我想将与我的过滤器匹配的数据(例如主数据列 A =“XXX”)复制到另一个数据集。 现在我发现这个过程需要很长时间(1k 条记录大约需要一
我正在使用 .pvd文件同时加载多个文件到 Paraviw。对于具有单个数据集的时间序列,该文件看起来像这样: 我想指定要与 a.*.vtu 一起加载的其他文件(
我听说 Google 主办(或将举办)一场网络分类竞赛,他们提供了一个大型(170k+ 文档)网站数据集,这些网站被分为多个类别(体育、计算机、科学等),我尝试环顾四周在他们的 2009 年到 201
谁能给我解释一下 DataSet.Copy() vs Dataset.Clone()也让我知道一些我们可以使用这些的场景 最佳答案 Clone 将创建一个新的空数据集,其架构(表和列)与旧数据集相同。
dataset = dataset.batch(50) dataset = dataset.prefetch(buffer_size=1) 是预取 1 个批次还是 1 个元素? 根据 tensorfl
在 Delphi 中,与 Dataset.Next 相比,使用 Dataset.Prior 是否会降低性能? 背景: 我有一个在数据集中搜索特定记录的例程。我从数据集中的最后一条记录开始,然后使用 D
我正在使用 Spark(2.0) 开发 Spark SQL,并使用 Java API 读取 CSV。 CSV 文件中有一个双引号、逗号分隔的列。例如:“Express Air,Delivery Tru
为什么要使用DataSet.BeginInit 和DataSet.EndInit? 我已经经历了official msdn documentation ,它说 Begins the initializ
我正在尝试向新的数据集 X 添加一个位于不同数据集 Y 中的数据表。如果我直接添加它,我会得到以下错误: DataTable already belongs to another DataSet. 我
我有一个表示为形状为 (num_features, num_examples) 的 NumPy 矩阵的数据集,我希望将其转换为 TensorFlow 类型 tf.Dataset。 我正在努力理解这两种
这是 question 的转发在 ai.stackexchange 中询问。由于该论坛没有太多吸引力,我想我可以在这里尝试一下机会。 我有一个特定对象的不同尺寸的图像数据集。该物体的一些图像也处于不同
我有两个数据集: main_ds = tf.data.Dataset.from_tensor_slices(list(range(1000, 1100))) backgroud_ds = tf.dat
拥有Dataset单列 json 字符串: +--------------------+ | value| +--------------------+ |{"Contex
我正在尝试解决 Azure 数据工厂中的以下场景: 我在 Azure Blob 存储中有大量文件夹。每个文件夹包含不同数量的 parquet 格式的文件。文件夹名称包含生成该文件夹中包含的数据的日期,
我正在尝试解决 Azure 数据工厂中的以下场景: 我在 Azure Blob 存储中有大量文件夹。每个文件夹包含不同数量的 parquet 格式的文件。文件夹名称包含生成该文件夹中包含的数据的日期,
我有一个顺序数据集,我可以从中创建窗口来训练 RNN。在某些情况下,我想扔掉某些 window 。但是,当我使用 dataset.window 和 dataset.filter 时,管道内部会出现一些
我是一名优秀的程序员,十分优秀!