theano - 使用 Theano/Lasagne 在 ImageNet 等大规模数据集上进行训练的最佳实践？-6ren

theano - 使用 Theano/Lasagne 在 ImageNet 等大规模数据集上进行训练的最佳实践？

转载作者：行者123 更新时间：2023-12-01 13:46:29

25

4

我发现 Theano/Lasagne 的所有示例都处理像 mnist 和 cifar10 这样的小数据集，它们可以完全加载到内存中。

我的问题是如何编写高效的代码来训练大规模数据集？具体来说，为了让 GPU 保持忙碌，准备小批量(包括实时数据增强)的最佳方法是什么？

也许喜欢使用 CAFFE 的 ImageDataLayer？例如，我有一个很大的 txt 文件，其中包含所有图像路径和标签。显示一些代码将不胜感激。

非常感谢!

最佳答案

如果数据不适合内存，一个好方法是准备小批量并将它们存储到 HDF5 文件中，然后在训练时使用。

但是，这在进行数据扩充时就足够了，因为这是在运行中完成的。由于 Python 的全局解释器锁，图像无法在 GPU 繁忙时加载和预处理。据我所知，最好的解决方法是 Fuel 库。Fuel 在不同的 Python 进程中加载和预处理小批量，然后通过 TCP 套接字将它们流式传输到训练进程: http://fuel.readthedocs.org/en/latest/server.html#data-processing-server

它还提供了一些函数来预处理数据，例如缩放和均值减法: http://fuel.readthedocs.org/en/latest/overview.html#transformers-apply-some-transformation-on-the-fly

希望这对您有所帮助。迈克尔

关于theano - 使用 Theano/Lasagne 在 ImageNet 等大规模数据集上进行训练的最佳实践？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35652757/

25

4

0

文章推荐： c - C中的一个函数，将 `push`个项目放到一个队列中

文章推荐： intellij-idea - 如何在 Intellij 中打开 Gradle 任务窗口？

文章推荐： gradle - Apache Spark 和 gRPC

imagenet - 如何从 Imagenet 获取选定的类图像？
背景我一直在玩Deep Dream和 Inceptionism ，使用 Caffe可视化 GoogLeNet 层的框架，为 Imagenet 构建的架构项目，一个用于视觉对象识别的大型视觉数据库。
resolution - ImageNet 数据集中图像的分辨率是多少？
有谁知道ImageNet中图片的分辨率数据集？抱歉，我在他们的网站或任何 papers 中都找不到它。 . 最佳答案图像的尺寸和分辨率各不相同。许多应用程序将所有图像的大小调整/裁剪为 256x2
python - Pytorch ImageNet 数据集
我无法从他们的官方网站下载原始 ImageNet 数据集。但是，我发现 pytorch 将 ImageNet 作为其 Torch 视觉数据集之一。一季度。那是原始的 ImageNet 数据集吗？ Q
python - 如何在没有 ImageNet 权重的情况下进行迁移学习？
这是我的项目的描述: 数据集 1:更大的数据集，包含图像的二进制类。数据集 2 : 包含 2在外观上与 Dataset1 非常相似的类.我想通过学习 Dataset1 来制作一个使用迁移学习的模型并
tensorflow - 如何找到 Imagenet 数据标签？
我有两个关于如何加载 Imagenet 数据的问题。我下载了ILSVRC2012验证集(因为训练集太大)但我有两个问题。我不明白如何找到标签。只有文件名类似于“ILSVRC2012_val_0000
image - 用于图像分类的 Imagenet 数据集的子集
我需要一个带注释的数据集，Imagenet 的子集，其中包括尺寸为 224x224 的方形图像。我尝试了 Tiny Imagenet 和 Cifar-10，但它们由相当小的图像组成，不符合我的需求。
computer-vision - 从 imagenet 下载数据
我被告知以下“小狗”图像 URL 列表来自 imagenet。 https://github.com/asharov/cute-animal-detector/blob/master/data/pup
python - Keras:获取 imagenet 上预训练模型的标签名称
我正在使用在 Imagenet 上预训练的 Keras Inception_v3: base_model = InceptionV3(weights='imagenet', include_top=T
machine-learning - 为什么 imagenet 数据集标签存在差异？
用于训练的标签和用于验证的标签是否相同？我认为它们应该是相同的；然而，网上提供的标签似乎存在差异。当我从官方网站下载其验证数据的 imagenet 2012 标签时，我得到的标签以 kit_fox 开
machine-learning - 卷积 ImageNet 网络对于翻转图像具有不变性
我正在使用深度学习caffe框架进行图像分类。我有一些有头像的硬币。其中一些是左向的，一些是右向的。为了对它们进行分类，我使用常见的方法 - 从已捕获大量图像模式的预训练 ImageNet 网络中
deep-learning - 如何修改 Imagenet Caffe 模型？
我想修改 ImageNet caffe 模型，如下所述: As the input channel number for temporal nets is different from that of
python - 获取用于在 tensorflow 中训练自定义模型的 imagenet 数据集的任何简单方法？
在我的实验中，我想在 imagenet 上训练我的自定义模型数据集。为简单起见，我对 10/100 类分类任务感兴趣。但是，直接下载imagenet数据集来自 tfds需要大量的硬盘空间。是否有任何解
computer-vision - 在适度的硬件设置上培训Tensorflow Inception-v3 Imagenet
我一直在使用单个GPU(GeForce GTX 980 Ti，6GB)的中等机器上训练Inception V3。最大批处理大小似乎在40左右。我使用了inception_train.py文件中指定的
tensorflow - 为什么 Keras 模型仅使用 imagenet 权重进行实例化？
如果我们查看 Keras 中的可用模型列表，如图所示 here我们看到几乎所有这些都是用 weights='imagenet' 实例化的。例如: model = VGG16(weights='imag
image-processing - 如何为 ImageNet 加速 "ImageFolder"
我在一所大学里，所有的文件系统都在一个远程系统中，无论我在哪里登录我的帐户，我都可以访问我的主目录。即使我通过 SSH 命令登录到 GPU 服务器。这就是我使用 GPU 服务器读取数据的条件。目前，
tensorflow - 为什么 Keras 模型仅使用 imagenet 权重进行实例化？
如果我们查看 Keras 中的可用模型列表，如图所示 here我们看到几乎所有这些都是用 weights='imagenet' 实例化的。例如: model = VGG16(weights='imag
neural-network - 裁剪/缩放 ImageNet 图像
ImageNet 图像大小不一，但神经网络需要固定大小的输入。一种解决方案是采用尽可能大的裁剪尺寸，以图像的中心点为中心。这有效，但有一些缺点。通常，图像中感兴趣对象的重要部分被剪掉，甚至在某些情况
python - 使用预训练的 ImageNet 模型进行 PyTorch 迁移学习
我想在已在 ImageNet 上训练的模型上使用迁移学习来创建图像分类器。如何用我自己的自定义分类器替换 torchvision.models ImageNet 分类器的最后一层？最佳答案获取预
machine-learning - 我在哪里可以找到 ImageNet VID 数据集？
2015 年 ImageNet 大规模视觉识别挑战赛 (ILSVRC2015) 使用新数据集引入了一项称为视频对象检测 (VID) 的任务。所以我去 ILSVER2015 网站并尝试查找数据集。 h
computer-vision - Caffe LENET 或 Imagenet 模型中的参数数量
如何计算模型中的参数数量，例如LENET 用于 mnist，或 ConvNet 用于 imagent 模型等。 caffe 中是否有任何特定函数可以返回或保存模型中的参数数量。问候最佳答案这是一

首页

博学

6Ren·AI

商城

theano - 使用 Theano/Lasagne 在 ImageNet 等大规模数据集上进行训练的最佳实践？