python - 如何为 Keras/tf.Keras 构建自定义数据生成器，其中 X 图像被增强并且对应的 Y 标签也是图像-6ren

python - 如何为 Keras/tf.Keras 构建自定义数据生成器，其中 X 图像被增强并且对应的 Y 标签也是图像

转载作者：行者123 更新时间：2023-12-04 15:18:37

25

4

我正在使用 UNet 进行图像二值化，并且有一个包含 150 个图像及其二值化版本的数据集。我的想法是随机增加图像，使它们看起来不同，所以我做了一个函数，可以将 4-5 种类型的噪声、偏度、剪切等中的任何一种插入到图像中。我可以很容易地使用ImageDataGenerator(preprocess_function=my_aug_function)增加图像但问题是我的 y 目标 也是一个形象。另外，我可以使用类似的东西:

train_dataset = (
    train_dataset.map(
        encode_single_sample, num_parallel_calls=tf.data.experimental.AUTOTUNE
    )
    .batch(batch_size)
    .prefetch(buffer_size=tf.data.experimental.AUTOTUNE)
)

但它有两个问题:

对于更大的数据集，它会炸毁内存，因为数据需要已经在内存中

这是我需要在旅途中增强图像以使其看起来像我有一个庞大的数据集的关键部分。

另一种解决方案可能是将增强图像保存到一个目录中并使其大小为 30-40K，然后加载它们。这样做会很愚蠢。
现在的想法是我可以使用 Sequence作为父类，但如何使用相应的 Y 二值化图像不断增加和生成新图像？
我有一个想法，如下面的代码。有人可以帮助我增强和生成 y 图像。我有我的 X_DIR, Y_DIR其中二进制和原始图像名称相同但存储在不同目录中。

class DataGenerator(tensorflow.keras.utils.Sequence):
    def __init__(self, files_path, labels_path, batch_size=32, shuffle=True, random_state=42):
        'Initialization'
        self.files = files_path
        self.labels = labels_path
        self.batch_size = batch_size
        self.shuffle = shuffle
        self.random_state = random_state
        self.on_epoch_end()


    def on_epoch_end(self):
        'Updates indexes after each epoch'
        # Shuffle the data here


    def __len__(self):
        return int(np.floor(len(self.files) / self.batch_size))

    def __getitem__(self, index):
        # What do I do here? 


    def __data_generation(self, files):
        # I think this is responsible for Augmentation but no idea how should I implement it and how does it works.

最佳答案

自定义图像数据生成器
将目录数据加载到 CustomDataGenerator 的数据框中

def data_to_df(data_dir, subset=None, validation_split=None):
    df = pd.DataFrame()
    filenames = []
    labels = []
    
    for dataset in os.listdir(data_dir):
        img_list = os.listdir(os.path.join(data_dir, dataset))
        label = name_to_idx[dataset]
        
        for image in img_list:
            filenames.append(os.path.join(data_dir, dataset, image))
            labels.append(label)
        
    df["filenames"] = filenames
    df["labels"] = labels
    
    if subset == "train":
        split_indexes = int(len(df) * validation_split)
        train_df = df[split_indexes:]
        val_df = df[:split_indexes]
        return train_df, val_df
    
    return df

train_df, val_df = data_to_df(train_dir, subset="train", validation_split=0.2)

自定义数据生成器


import tensorflow as tf
from PIL import Image
import numpy as np

class CustomDataGenerator(tf.keras.utils.Sequence):

    ''' Custom DataGenerator to load img 
    
    Arguments:
        data_frame = pandas data frame in filenames and labels format
        batch_size = divide data in batches
        shuffle = shuffle data before loading
        img_shape = image shape in (h, w, d) format
        augmentation = data augmentation to make model rebust to overfitting
    
    Output:
        Img: numpy array of image
        label : output label for image
    '''
    
    def __init__(self, data_frame, batch_size=10, img_shape=None, augmentation=True, num_classes=None):
        self.data_frame = data_frame
        self.train_len = len(data_frame)
        self.batch_size = batch_size
        self.img_shape = img_shape
        self.num_classes = num_classes
        print(f"Found {self.data_frame.shape[0]} images belonging to {self.num_classes} classes")

    def __len__(self):
        ''' return total number of batches '''
        self.data_frame = shuffle(self.data_frame)
        return math.ceil(self.train_len/self.batch_size)

    def on_epoch_end(self):
        ''' shuffle data after every epoch '''
        # fix on epoch end it's not working, adding shuffle in len for alternative
        pass
    
    def __data_augmentation(self, img):
        ''' function for apply some data augmentation '''
        img = tf.keras.preprocessing.image.random_shift(img, 0.2, 0.3)
        img = tf.image.random_flip_left_right(img)
        img = tf.image.random_flip_up_down(img)
        return img
        
    def __get_image(self, file_id):
        """ open image with file_id path and apply data augmentation """
        img = np.asarray(Image.open(file_id))
        img = np.resize(img, self.img_shape)
        img = self.__data_augmentation(img)
        img = preprocess_input(img)

        return img

    def __get_label(self, label_id):
        """ uncomment the below line to convert label into categorical format """
        #label_id = tf.keras.utils.to_categorical(label_id, num_classes)
        return label_id

    def __getitem__(self, idx):
        batch_x = self.data_frame["filenames"][idx * self.batch_size:(idx + 1) * self.batch_size]
        batch_y = self.data_frame["labels"][idx * self.batch_size:(idx + 1) * self.batch_size]
        # read your data here using the batch lists, batch_x and batch_y
        x = [self.__get_image(file_id) for file_id in batch_x] 
        y = [self.__get_label(label_id) for label_id in batch_y]

        return tf.convert_to_tensor(x), tf.convert_to_tensor(y)

关于python - 如何为 Keras/tf.Keras 构建自定义数据生成器，其中 X 图像被增强并且对应的 Y 标签也是图像，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/63827339/

25

4

0

文章推荐： python - 在python中连接数据框时如何分配新的描述性列

文章推荐： scala - 使用 Scalaz 比较两个 UUID ===

文章推荐： python - python请求数据中发送 "\r\n"符号

python - 单例 python 生成器？或者，pickle 一个 python 生成器？
我使用以下代码和嵌套生成器迭代文本文档并使用 get_train_minibatch() 返回训练示例。我想保留( pickle )生成器，这样我就可以回到文本文档中的相同位置。但是，您不能 pick
JavaScript 生成器
在本教程中，您将借助示例了解 JavaScript 生成器。在 JavaScript 中，生成器提供了一种使用函数和迭代器的新方法。使用生成器，您可以从函数内部的任何位置停止执行函数并从
HTML 生成器？
LESS is very cool .我一直想知道是否有任何好的 html 生成器可以让我更轻松地编写表单或做其他事情。除了 html，是否有一些类似的东西？最佳答案已尝试 Haml ？从它的网
PHP中你可能忽略的性能优化利器：生成器
前言如果是做python或者其他语言的小伙伴，对于生成器应该不陌生。但很多php开发者或许都不知道生成器这个功能，可能是因为生成器是php 5.5.0才引入的功能，也可以是生成器作用不是很明显。
日期范围的 F# 生成器？
我正在尝试编写一个使用生成器语法生成日期时间列表的函数: let dateRange = let endDate = System.DateTime.Parse("6/1/2010")
python - 一个类轮通过一个可迭代的(生成器)
我遇到了一些看起来像的代码: [func(val) for val in iterable] 有一个可迭代对象(在我的例子中是一个生成器)，用户想要为其副作用调用每个值的函数(例如 func 可以只是
德尔福 UUID 生成器
Delphi 有内置的东西来生成 UUID 吗？最佳答案 program Guid; {$APPTYPE CONSOLE} uses SysUtils; var Uid: TGuid; Result
JavaScript ES6 生成器
我正在深入研究 javascript 生成器，但我真的很困惑。我使用 node@0.11.x 运行此示例: function find() { process.nextTick(functi
hibernate ID 生成器
有人知道一些关于如何为 hibernate 创建自定义 ID 生成器的好教程吗？最佳答案在 Google 上粗略搜索“hibernate 自定义 id 生成器教程”发现了以下可能性。我排除了那些看
用于并发的 python 生成器
我正在关注 Python 大师 David Beazley 的幻灯片。它指出“生成器也用于并发。这是一个示例: from collections import deque def countdown(
python - 生成器:以固定偏移量预处理事件
我有一个生成事件的生成器，我想用可以从 API 获取的附加元数据来丰富它。某些事件具有与其链接的对象 ID，而其他事件则具有对象的哈希值，但不能同时具有两者。我无法根据哈希获取对象 id，我只能执行
java - 自定义类项列表的循环迭代器/生成器
假设我有一个自定义类: public class CustomClass { private String name; private String data; public
php - MySql "WHERE"生成器
我正在考虑实现一个函数来在 SQL 请求中“构建”WHERE 子句，如下所示: "SELECT * FROM table $where" 使用如下所示的循环构建 $where: $arr=array(
永远返回相同内容的 Python 生成器
我正在寻找执行此操作的标准函数: def Forever(v): while True: yield v 这看起来太琐碎了，我不敢相信没有标准版本。就此而言，有人知道指向所有标准生成器函
支持多浏览器的 CSS 生成器
我知道这个网站上有几个非常相似的相关问题，但是在看了这部剧之后，我相信这个问题本身就是独一无二的。如果有人能找到并提供证据证明我的问题完全被骗了，我会自己撤回它(所以请不要否决这个!)。我是 Jav
C++ 生成器 TtcpClient
void __fastcall TForm1::Button1Click(TObject *Sender) { int size = MemoEnter->GetTextLen() + 1;
Python ctypes 生成器
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
Python 生成器 - 改变最后的结果？
我试图在我的生成器的以下两个定义之间做出决定。哪个更好？哪个“更像 python ”？无论如何，有没有办法减轻每一个的缺点？ def myGenerator1(howMany): result
要列出的 Python 生成器
我有一个 Python 生成器 lexg，它在每次迭代时生成一个列表。该代码似乎在传统的 for 循环意义上工作，即 for i in lexg(2,2): print(i) 产生: [2, 0] [
返回一系列时间的 Python 生成器
我希望这不会超出 Python 生成器的能力，但我想构建一个这样，每次调用该函数时，它都会返回下一分钟直到结束时间。因此该函数读取开始时间和结束时间，并以分钟为单位返回时间，直到涵盖其间的所有时间。

首页

博学

6Ren·AI

商城

python - 如何为 Keras/tf.Keras 构建自定义数据生成器，其中 X 图像被增强并且对应的 Y 标签也是图像