gpt4 book ai didi

python - 优化性能的 tf.data 管道设计

转载 作者:行者123 更新时间:2023-12-04 17:43:44 24 4
gpt4 key购买 nike

我是 TensorFlow 的新手,我想知道使用 tfdata 设置数据集有任何特定的顺序。例如:

    data_files = tf.gfile.Glob("%s%s%s" % ("./data/cifar-100-binary/", self.data_key, ".bin"))
data = tf.data.FixedLengthRecordDataset(data_files, record_bytes=3074)
data = data.map(self.load_transform)
if self.shuffle_key:
data = data.shuffle(5000)

data = data.batch(self.batch_size).repeat(100)
iterator = data.make_one_shot_iterator()
img, label = iterator.get_next()
# label = tf.one_hot(label, depth=100)
print('img_shape:', img.shape)

在这种情况下,我读取数据然后打乱数据,然后是批处理和重复规范。使用这种方法,我的计算机的 RAM 增加了 2%

然后我又尝试了一种方法:

    data_files = tf.gfile.Glob("%s%s%s" % ("./data/cifar-100-binary/", self.data_key, ".bin"))
data = tf.data.FixedLengthRecordDataset(data_files, record_bytes=3074)
data = data.map(self.load_transform)
data = data.batch(self.batch_size).repeat(100)
if self.shuffle_key:
data = data.shuffle(5000)
iterator = data.make_one_shot_iterator()
img, label = iterator.get_next()
# label = tf.one_hot(label, depth=100)
print('img_shape:', img.shape)

所以在这种情况下,当我首先指定批处理大小时,重复然后随机播放,RAM 利用率增加了 40%(我不知道为什么),如果有人能帮助我解决这个问题,那就太好了。那么我应该始终遵循一个序列来使用 tf.data 在 tensorflow 中定义数据集吗?

最佳答案

内存使用量会增加,因为您正在打乱批处理而不是单个记录。

data.shuffle(5000) 将填充 5000 元素的缓冲区,然后从缓冲区随机采样以生成下一个元素。

data.batch(self.batch_size) 将元素类型从单个记录更改为成批记录。因此,如果您在 shuffle 之前调用 batch,则 shuffle 缓冲区将包含 5000 * self.batch_size 记录,而不仅仅是 5000.

调用shufflebatch 的顺序也会影响数据本身。在改组之前进行批处理将导致批处理中的所有元素都是顺序的。

batchshuffle 之前:

>>> dataset = tf.data.Dataset.range(12)
>>> dataset = dataset.batch(3)
>>> dataset = dataset.shuffle(4)
>>> print([element.numpy() for element in dataset])
[array([ 9, 10, 11]), array([0, 1, 2]), array([3, 4, 5]), array([6, 7, 8])]

shuffle before batch:

>>> dataset = tf.data.Dataset.range(12)
>>> dataset = dataset.shuffle(4)
>>> dataset = dataset.batch(3)
>>> print([element.numpy() for element in dataset])
[array([1, 2, 5]), array([4, 7, 8]), array([0, 3, 9]), array([ 6, 10, 11])]

通常在批处理之前进行洗牌,以避免批处理中的所有元素都是连续的。

关于python - 优化性能的 tf.data 管道设计,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53208970/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com