python - 如何检查 Colab 中的预处理时间/速度？-6ren

python - 如何检查 Colab 中的预处理时间/速度？

转载作者：行者123 更新时间：2023-12-04 09:16:21

25

4

我正在 Google Colab GPU 上训练神经网络。因此，我将输入图像(总共 180k，105k 用于训练，76k 用于验证)与我的 Google Drive 同步。然后我安装 Google Drive 并从那里开始。
我在 Google Colab 中加载了一个带有图像路径和标签的 csv 文件，并将其存储为 Pandas 数据帧。
之后，我使用图像路径和标签列表。
我使用这个函数来得到我的标签 onehot-encoded 因为我需要每个标签一个特殊的输出形状 (7, 35) ，这是现有的默认函数无法完成的:

#One Hot Encoding der Labels, Zielarray hat eine Shape von (7,35)
from numpy import argmax
# define input string

def my_onehot_encoded(label):
    # define universe of possible input values
    characters = '0123456789ABCDEFGHIJKLMNPQRSTUVWXYZ'
    # define a mapping of chars to integers
    char_to_int = dict((c, i) for i, c in enumerate(characters))
    int_to_char = dict((i, c) for i, c in enumerate(characters))
    # integer encode input data
    integer_encoded = [char_to_int[char] for char in label]
    # one hot encode
    onehot_encoded = list()
    for value in integer_encoded:
        character = [0 for _ in range(len(characters))]
        character[value] = 1
        onehot_encoded.append(character)

    return onehot_encoded

之后，我使用自定义的 DataGenerator 将数据批量导入我的模型。 x_set 是我的图像的图像路径列表， y_set 是 onehot 编码的标签:

class DataGenerator(Sequence):

    def __init__(self, x_set, y_set, batch_size):
        self.x, self.y = x_set, y_set
        self.batch_size = batch_size

    def __len__(self):
        return math.ceil(len(self.x) / self.batch_size)

    def __getitem__(self, idx):
        batch_x = self.x[idx*self.batch_size : (idx + 1)*self.batch_size]
        batch_x = np.array([resize(imread(file_name), (224, 224)) for file_name in batch_x])
        batch_x = batch_x * 1./255
        batch_y = self.y[idx*self.batch_size : (idx + 1)*self.batch_size]
        batch_y = np.array(batch_y)

        return batch_x, batch_y

使用此代码，我将 DataGenerator 应用于我的数据:

training_generator = DataGenerator(X_train, y_train, batch_size=32)
validation_generator = DataGenerator(X_val, y_val, batch_size=32)

当我现在训练我的模型时，一个 epoch 持续 25-40 分钟，这是非常长的。

model.fit_generator(generator=training_generator,
                    validation_data=validation_generator,
                    steps_per_epoch = num_train_samples // 16,
                    validation_steps = num_val_samples // 16,
                    epochs = 10, workers=6, use_multiprocessing=True)

我现在想知道如何测量预处理时间，因为我不认为这是由于模型大小，因为我已经用较少参数的模型进行了试验，但训练时间并没有显着减少......所以，我很怀疑预处理...

最佳答案

要在 Colab 中测量时间，您可以使用 this autotime包裹:

!pip install ipython-autotime

%load_ext autotime

此外，对于分析，您可以使用 %time如前所述 here .
一般保证generator运行速度更快，建议您从gdrive复制数据到本地主机 colab ，否则会变慢。
如果您正在使用 Tensorflow 2.0 ，原因可能是 this漏洞。
解决方法是:

调用 tf.compat.v1.disable_eager_execution()在代码开头

使用 model.fit而不是 model.fit_generator .前者无论如何都支持生成器。

降级到 TF 1.14

不管 Tensorflow版本，限制您正在执行的磁盘访问量，这通常是一个瓶颈。
请注意，似乎确实有一个 issue生成器在 TF 中运行缓慢1.13.2和 2.0.1 (至少)。

关于python - 如何检查 Colab 中的预处理时间/速度？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/63193743/

25

4

0

文章推荐：正则表达式比较一行中的两个子字符串

文章推荐： wcf - WCF 上的 REST 服务的 WebInvoke 方法 =“POST” 或 "GET"

文章推荐： Python并行，信号量泄漏警告和无回溯中止

python - Google Colab 在下载数据集或将新包导入 colab notebook 时是否会使用我的互联网流量？
例如从 Keras 导入 CIFAR-10 时(使用 from keras.datasets import cifar10 (x_train, y_train), (x_test, y_test) =
google-colaboratory - 更改 COLAB 主帐户。如何更改我的 Colab 应链接到哪个电子邮件/驱动器？
我在 gmail 上有两个帐户，并且都同时打开:Account_1@gmail.com 和 Account_2@gmail.com 当我打开 https://colab.research.google
linux - 如何在 google colab 中启用拼写检查器(colab 在 linux 操作系统上运行)？
我们可以以任何方式在 google colab 中为 Markdown 单元格启用拼写检查器吗？请帮忙。最佳答案我不知道直接在 Google Colaboratory 中执行此操作的任何方法，但是
google-drive-api - 谷歌 colab 和谷歌驱动器 : Copy file from colab to Google Drive
似乎有很多方法可以从 Colab 访问 Google Drive 上的文件，但没有简单的方法可以将文件从 Google Colab 保存回 Google Drive。例如，要从 Colab 访问 G
python - Google CoLab - 如何运行位于我的 CoLab 环境的 'Files' 选项卡(即/content/)中的 jupyter notebook 文件
在 Google CoLab 左侧是一个可以打开的 Pane ，显示 Table of Contents , Code snippets , 和 Files . 在 Files Pane 中有一个上传
google-colaboratory - 在 colab 中使用 "Mount drive"Web 按钮的错误(已解决)。从 google colab 访问 "shared with me"文件(y2020，以前的解决方案似乎失败了)
[较新的编辑]:colab 团队报告说他们已于 2020 年 5 月 27 日更正了该问题。我已经检查过了 - 现在对我来说可以了。问题链接:https://github.com/googleco
python - 如何访问上传的json文件google colab
我一直在尝试读取 google colab 中的文件，它应该将文件作为简单的 JSON 读取，但我什至不能在没有得到 100 个的情况下执行 json.dumps(file)错误上传文件: impo
python - Colab 找不到文件
training_dataset_file = open('C:/Users/kbg04289/Desktop/mnist_train.csv', 'r') 我尝试了几种方法比如'用\'制作地址并检
python - Colab 中的随机森林分类器
我在 colab 单元中有以下代码: import sklearn.datasets import pandas as pd import numpy as np from sklearn.model
python - 从另一个驱动器帐户将数据集导入google colab
最后我正在研究谷歌合作实验室我收到了这个数据集celeba，它进入了google驱动器帐户，并且该帐户不是我的帐户，但是我可以访问它现在，由于互联网问题和驱动器容量，我无法卸载数据集，然后将其上传
python - 访问单元格内的其他单元格内容 (Colab)
德国的大家下午好! Google Colab 和我似乎对什么是可能的、什么是不可能的看法存在分歧......我只是想要一种从单元格内访问所有其他单元格的内容的方法。我的用例是，我想将当前 Colab
python - CoLab 访问文件
很高兴我可以在 CoLab 中运行 jupyter 笔记本，但我正在疯狂地保存和加载文件。例如，我正在为我的类(class)编写作业，并使用 HTML 标签在其中包含图形。 (我想使用 HTML 而不
latex - colab 笔记本中的方程编号
我正在使用\begin{equation}.. \end{equation}在 Colab 笔记本中的 Markdown 模式下，我没有像我期望的那样从 Latex 获得方程式编号。有没有办法解决这
python - Colab 中的交互式图表
有谁知道是否有办法制作图表，使轴值在 Colab 中悬停时显示？我找到了几个类似的答案 import matplotlib.pylab as plt import numpy as np f,a =
python - Colab 有动态生成动画的方法吗？
我写了一个 Langton 的 Ant 代码，我想让动画在 Colab 中运行，直到它被用户停止或在一定数量的帧之后。就像现在一样，它先生成所有的帧，然后将它们编译成动画然后显示。如果有很多帧，则需要
python - Colab 突然无法浏览目录
在过去的几个月里，我一直在使用 Google Colab，在连接到驱动器和使用 ! 键入 shell 命令时没有出现任何问题。然而今天突然出现错误，我找不到任何解决方法。 Colab 似乎无法在目录中
python - 如何将图片导入google colab
我开始使用 google colab 我想从我的笔记本电脑加载一组图像进行处理。我试过这个: 但是我得到了错误: TypeError: embedded NUL character 那么导入图像的正
keras - Google Colab 无法访问驱动器内容
即使我将我的 Google 云端硬盘(以及其中的数据集)定义为 google colab，但是当我运行我的代码时，我给出了这个错误:FileNotFoundError: [Errno 2] No su
Python 导师 + Google Colab
前言。我正在尝试使用 Google Colab 来教学生 Python。问题是，没有很好的工具来可视化代码执行。我尝试通过将 Python Tutor 与 Google Colab 集成来使用它，即创
python - Google Colab 在处理包含大量文件的云端硬盘文件夹时遇到问题
我已将多个文件夹从云端硬盘导入到 Google Colab。较小的文件夹在列出目录时工作正常，但当我尝试列出较大文件夹中的目录时，Colab 给我一个错误。我知道还有其他列出目录的方法，但当我尝试访

首页

博学

6Ren·AI

商城

python - 如何检查 Colab 中的预处理时间/速度？