python - Keras 自定义数据生成器，适用于无法放入内存的大型 hdf5 文件-6ren

python - Keras 自定义数据生成器，适用于无法放入内存的大型 hdf5 文件

转载作者：行者123 更新时间：2023-12-02 04:34:58

25

4

我正在尝试使用预训练的 InceptionV3 模型对 food-101 dataset 进行分类，其中包含 101 个类别的食物图像，每个类别 1000 个。到目前为止，我已将此数据集预处理为单个 hdf5 文件(我认为这与训练时加载图像相比是有益的)，其中包含以下表格:

数据分割是标准的 70% 训练、20% 验证、10% 测试，因此，例如 valid_img 的大小为 20200*299*299*3。标签是针对 Keras 进行单编码的，因此 valid_labels 的大小为 20200*101。

这个 hdf5 文件大小为 27.1 GB，因此它无法放入我的内存中。 (有 8 GB，尽管在运行 Ubuntu 时实际上可能只有 4-5 GB 可用。而且我的 GPU 是 GTX 960，带有 2 GB VRAM，到目前为止，当我尝试启动时，Python 看起来有 1.5 GB 可用训练脚本)。我正在使用 Tensorflow 后端。

我的第一个想法是使用 model.train_on_batch() 和双重嵌套 for 循环，如下所示:

#Loading InceptionV3, adding my fully connected layers, compiling model...    

dataset = h5py.File('/home/uzoltan/PycharmProjects/food-101/food-101_299x299.hdf5', 'r')
    epoch = 50
    for i in range(epoch):
        for i in range(100): #1000 images can fit in the memory easily, this could probably be range(10) too
            train_images = dataset["train_img"][i * 706:(i + 1) * 706, ...]
            train_labels = dataset["train_labels"][i * 706:(i + 1) * 706, ...]
            val_images = dataset["valid_img"][i * 202:(i + 1) * 202, ...]
            val_labels = dataset["valid_labels"][i * 202:(i + 1) * 202, ...]
            model.train_on_batch(x=train_images, y=train_labels, class_weight=None,
                                 sample_weight=None, )

我对这种方法的问题是 train_on_batch 为验证或批量改组提供 0 支持，因此每个时期的批处理顺序不同。

因此，我寻找了 model.fit_generator() ，它具有提供与 fit() 相同的所有功能的良好特性，并且具有内置的 ImageDataGenerator 你可以与CPU同时进行图像增强(旋转、水平翻转等)，从而使你的模型更加稳健。我的问题是，如果我理解正确的话，ImageDataGenerator.flow(x,y) 方法需要同时使用所有样本和标签，但我的训练/验证数据不适合我的 RAM。

这是我认为自定义数据生成器发挥作用的地方，但是在广泛查看了 Keras GitHub/Issues 页面上的一些示例之后，我仍然不知道应该如何实现自定义生成器，它会从我的 hdf5 文件中批量读取数据。 有人可以为我提供一个很好的示例或指针吗？如何将自定义批量生成器与图像增强结合起来？或者也许更容易为 train_on_batch() 实现某种手动验证和批量改组？如果是这样，我也可以在那里使用一些指针。

最佳答案

对于仍在寻找答案的人，我围绕 ImageDataGeneator 的 apply_transform 制作了以下“粗略包装器”方法。

from numpy.random import uniform, randint
from tensorflow.python.keras.preprocessing.image import ImageDataGenerator
import numpy as np

class CustomImagesGenerator:
    def __init__(self, x, zoom_range, shear_range, rescale, horizontal_flip, batch_size):
        self.x = x
        self.zoom_range = zoom_range
        self.shear_range = shear_range
        self.rescale = rescale
        self.horizontal_flip = horizontal_flip
        self.batch_size = batch_size
        self.__img_gen = ImageDataGenerator()
        self.__batch_index = 0

    def __len__(self):
        # steps_per_epoch, if unspecified, will use the len(generator) as a number of steps.
        # hence this
        return np.floor(self.x.shape[0]/self.batch_size)

    def next(self):
        return self.__next__()

    def __next__(self):
        start = self.__batch_index*self.batch_size
        stop = start + self.batch_size
        self.__batch_index += 1
        if stop > len(self.x):
            raise StopIteration
        transformed = np.array(self.x[start:stop])  # loads from hdf5
        for i in range(len(transformed)):
            zoom = uniform(self.zoom_range[0], self.zoom_range[1])
            transformations = {
                'zx': zoom,
                'zy': zoom,
                'shear': uniform(-self.shear_range, self.shear_range),
                'flip_horizontal': self.horizontal_flip and bool(randint(0,2))
            }
            transformed[i] = self.__img_gen.apply_transform(transformed[i], transformations)
        return transformed * self.rescale

可以这样调用:

import h5py
f = h5py.File("my_heavy_dataset_file.hdf5", 'r')
images = f['mydatasets/images']

my_gen = CustomImagesGenerator(
    images, 
    zoom_range=[0.8, 1], 
    shear_range=6, 
    rescale=1./255, 
    horizontal_flip=True, 
    batch_size=64
)

model.fit_generator(my_gen)

关于python - Keras 自定义数据生成器，适用于无法放入内存的大型 hdf5 文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47059698/

25

4

0

文章推荐： java - Spring Security Token认证如何认证？

文章推荐： nlp - 如何将 CLAWS7 标签转换为 Penn 标签？

文章推荐： r - 你能解释一下替换函数如何计算向量长度吗？

hdf5 - HDF 是否进行字符串实习？
只是想知道我对组/数据集名称的自由程度如何，或者是否需要使名称简短(因此可读性较差)。这适用于包含许多具有许多重复名称的组和数据集的 HDF5 文件。一些 XML API 做 string inter
Pandas、大数据、HDF 表以及调用函数时的内存使用情况
简短问题当 Pandas 在 HDFStore 上工作时(例如: .mean() 或 .apply() )，它是否将内存中的完整数据作为 DataFrame 加载，还是将记录作为 Serie 进行处
Pandas :同一 HDF 中的大型数据帧？
我有几个不同的相关数据框(如果需要，可以使用 id 加入它们)。但是，我并不总是同时需要它们。由于它们非常大，将它们存储在单独的 HDF 存储中是否有意义？或者当我处理同一文件中的其他帧时，携带“未
python - 更新 HDF 文件中的一个字段
我似乎无法让它发挥作用。所有示例和线程都让人创建新的数据集。我只想更新已创建的数据集中的一个字段。这是我所拥有的: h5_file = h5py.File(event_file_path, "r+"
Java HDF fsDataOutputStream 写入失败创建空文件
我在 hadoop 上写入小文件时遇到一个奇怪的问题。下面是示例程序 public void writeFile(Configuration conf, String message, String
linux - 授予 hdf 删除目录的权限
当我运行 hdf namenode -format 时，它想要删除目录 /home/hadoop/hadooptmpdata/dfs/name/current 但它没有权限执行此操作。如何授予它权限？
python - Pandas Hdf 获取表信息
有没有办法使用 pandas HDF 存储获取 HDF 表的信息？例如在 SQL 中有: SELECT COUNT(*) 我想阅读基本表格大小而不必自己加载表格。最佳答案试试这个: In [4]
python - 以表格式使用 hdf 时内存泄漏？
在 pandas 下，每次我使用表格格式而不是固定格式时，我的内存消耗都会爆炸。 import numpy as np np.random.seed(seed=10) df = pd.DataFram
python - 在 HDF 存储中构建数据
我正在处理大量数据集，每个数据集都是一个 pandas DataFrame，由于它们的大小，我需要从磁盘访问它们。从我读到的内容来看，HDF 似乎是与它们一起工作的好方法，但我对构建数据的最佳方法有点
Azure Blob 存储和 HDF 文件存储
我正在开发云服务器，我需要使用 blob 存储来存储 HDF 文件 ( http://www.hdfgroup.org/HDF5/ )。与文件中的创建、读取、写入和修改数据元素相关的函数来自 HDF
python - Pandas 不修改默认的 hdf 格式
我正在尝试将数据存储为 hdf 格式，并希望将默认数据类型设置为表，以便稍后查询。我正在使用基本代码: import pandas as pd from numpy import random as
python - 加载 HDF 时出现非法指令(核心已转储)
我最近在 Lubuntu 上安装了 Anacondas Python。我正在尝试加载可在 Windows PC 上运行的 HDF 文件: In [14]: import pandas as pd I
python - pandas 内存消耗 hdf 文件分组
我写了下面的脚本，但是我有一个内存消耗的问题，pandas 分配了超过 30 G 的内存，其中数据文件的总和大约是 18 G import pandas as pd import numpy as n
database - HDF 与 NoSQL 解决方案
您好，我看到了一些以 HDF5 格式存储的科学数据，我想知道是否有任何 NoSQl 解决方案可以达到与 HDF5 相同的读/写性能。我的示例的数据使用树结构(/root 然后/root/key 然后
python - 从 hdf 文件中获取列名(标题)
我想知道如何获取 hdf 文件的列名(似乎存储在 hdf header 中)；例如，一个文件可能有名为 [a,b,c,d] 的列，而另一个文件有 [a,b,c] 列，而另一个文件有 [b,e,r,z]
python - 如何从 Pandas HDF 存储中读取 nrows？
我想做什么？ pd.read_csv(... nrows=###) 可以读取文件的前 n 行。我想在使用 pd.read_hdf(...) 时做同样的事情。问题是什么？我对 documentati
python - 如何高效地将数千张高清照片加载到 pandas df 中并转换为 HDF？
我想将数千张动物图像加载到 pandas df 中，添加特征并可能转换为 HDF。我使用 cv2.imread() 尝试了以下方法 import cv2 import os import numpy
apache-kafka - HDF 模式注册表和 Confluence 模式注册表之间的主要区别是什么？
我想知道 HDF 套件中嵌入的 kafka 和 Confluence 套件中嵌入的 kafka 之间的差异，特别是模式注册工具。最佳答案 https://registry-project.readt
apache-kafka - HDF 模式注册表和 Confluence 模式注册表之间的主要区别是什么？
我想知道 HDF 套件中嵌入的 kafka 和 Confluence 套件中嵌入的 kafka 之间的差异，特别是模式注册工具。最佳答案 https://registry-project.readt
写入 hdf 时的 Pandas/Pytable 内存开销
我使用 pandas 和 hdf5 文件来处理大量数据(例如 10GB 或更多)。我想使用表格格式，以便在读取数据时能够有效地查询数据。但是，当我想将数据写入 hdf 存储时(使用 DataFrame

首页

博学

6Ren·AI

商城

python - Keras 自定义数据生成器，适用于无法放入内存的大型 hdf5 文件