python - 如何在训练多类 CNN 模型时存储和加载包含 5000 万个 25x25 numpy 数组的训练数据？-6ren

python - 如何在训练多类 CNN 模型时存储和加载包含 5000 万个 25x25 numpy 数组的训练数据？

转载作者：行者123 更新时间：2023-12-01 10:52:15

27

4

我有一个图像处理问题，其中有五个类，每个类有大约 1000 万个示例作为训练数据，其中图像是 z 得分的 25x25 numpy 数组。

显然，我无法将所有训练数据加载到内存中，所以我必须使用 fit_generator .

我也是生成和扩充这些训练数据矩阵的人，但我无法在 fit_generator 内实时完成。因为训练模型会太慢。

首先，如何在磁盘上存储 5000 万个 25x25 .npy 数组？最好的做法是什么？

其次，我应该使用数据库来存储这些矩阵并在训练期间从中查询吗？我觉得SQLite不支持多线程，SQL数据集支持还是experimental在 tensorflow 中。

我很想知道是否有一种巧妙的方法来存储这 5000 万个矩阵，以便在训练期间进行检索是最佳的。

三、如何使用HDF5格式？我应该切换到 pytorch反而？

最佳答案

如何将 np.arrays() 存储在磁盘上？

将它们存储在 HDF5 文件中是个好主意。基本的 HDF5 类型是 Datasets ，其中包含同构类型的多维数组。 HDF5 Datasets文件可以组合成 HDF5 Groups文件，这些文件也可以包含其他组，以创建更复杂的结构。另一种方法是直接从磁盘中腌制您的 numpy 数组或更抽象的数据集对象，但是您的文件将只能由 Python 读取。也不鼓励 security reasons .最后，如果你想为 TensorFlow 读/写操作优化你的数据格式，你可以使用 TFRecord文件格式。以 TFRecord 格式保存 numpy 数组可能会很棘手，但值得庆幸的是有人 created a script to do that .

我应该使用数据库来存储这些矩阵并在训练期间从它们中查询吗？

你可以，但你会重新发明轮子。您需要的是一个或多个与训练过程并行的独立过程，读取下一批训练观察(预取)，并在训练过程处理上一批时对其应用一些转换。这样您就可以避免任何 IO 和预处理延迟，并且可以获得一些显着的性能提升。人工智能框架为这个问题开发了自己的工具。 In Pytorch ，有类(class)torch.utils.data.DataLoader . Here是一个教程，展示了如何使用 Dataloader 有效地加载 HDF5 文件。在 TensorFlow 中，您可以创建一个 input pipeline使用类 tf.data.Dataset .一种基本方法是首先打开一个文件 (1)，将文件中的数据读入内存 (2)，然后使用内存中的内容训练模型 (3)。让我们模拟一个 TF 数据集和训练循环:

import tf, time

class MyDataset(tf.data.Dataset):
    def __new__(self, filename="image_dataset.proto"):
        time.sleep(0.01) # mock step (1) delay
        return tf.data.TFRecordDataset([filename])

def train(dataset, nb_epoch=10):
    start_time = time.perf_counter()
    for epoch_num in range(nb_epoch):
        for sample in dataset: # where step (2) delay takes place
            time.sleep(0.01) # mock step (3) delay
        tf.print("Execution time:", time.perf_counter() - start_time)

您可以按顺序应用步骤(1、2、3):

train(MyDataset())

更好的方法是在训练过程仍在训练前一批数据的同时读取下一批数据，这样步骤 (2, 3) 可以并行发生。也可以将转换应用到下一批，同时仍然对上一批进行训练。预取:

train(MyDataset().prefetch(tf.data.experimental.AUTOTUNE))

此外，您可以有多个进程来读取您的文件，并并行运行一系列步骤 (1, 2):

train( tf.data.Dataset.range(2).interleave(\
    MyDataset().prefetch(tf.data.experimental.AUTOTUNE),\
    num_parallel_calls=tf.data.experimental.AUTOTUNE))

在 documentation 中了解更多信息.

我应该改用 Pytorch 吗？

Pytorch 能做的几乎所有事情，TensorFlow 也能做。一段时间以来，TensorFlow 一直是最适合生产的 AI 框架，谷歌将其用于其 TPU。不过，Pytorch 正在迎头 catch 。我会说 Pytorch 更面向研究/开发，而 TensorFlow 更面向生产。另一个不同之处在于您设计神经网络的方式:Pytorch 通过在彼此之上添加层来工作，而在 TensorFlow 中，您首先设计一个计算图，您在某个时间点对某些输入数据运行。人们经常在 Pytorch 中开发他们的模型，然后将它们导出为 TensorFlow 格式以用于生产。

关于python - 如何在训练多类 CNN 模型时存储和加载包含 5000 万个 25x25 numpy 数组的训练数据？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59836100/

27

4

0

文章推荐： java - 为什么我的代码不从命令行获取输入？

文章推荐： java - 选定的单选按钮未显示？

文章推荐： ruby-on-rails - factory_girl (4.2.0) 多对多关系

c# - Azure 存储(经典)与 Azure 存储 (V2) 代码不适用于 V2 存储
我正在运行一个辅助角色，并检查 Azure 上托管的存储中是否存在数据。当我将连接字符串用于经典类型的存储时，我的代码可以正常工作，但是当我连接到 V2 Azure 存储时，它会抛出此异常。 “远程服
javascript - HTML5 Web 存储 - 存储 JSON 数据然后检索它
在我的应用程序的主页上，我正在进行 AJAX 调用以获取应用程序各个部分所需的大量数据。该调用如下所示: var url = "/Taxonomy/GetTaxonomyList/" $.getJSO
vue.js - "export ' 存储 ' was not found in ' ../存储'
大家好，我正在尝试将我的商店导入我的 Vuex Route-Gard。路由器/auth-guard.js import {store} from '../store' export default
c# - Azure Blob 存储 - 上传 Blob 后如何获取 Blob 存储 ID？
我正在使用 C# 控制台应用程序 (.NET Core 3.1) 从 Azure Blob 存储读取大量图像文件并生成这些图像的缩略图。新图像将保存回 Azure，并将 Blob ID 存储在我们的数
python - 设置 Mlflow 后端 (SQLite) 和工件(Azure Blob 存储)存储
我想将 Mlflow 设置为具有以下组件: 后端存储(本地):在本地使用 SQLite 数据库存储 Mlflow 实体(run_id、params、metrics...) 工件存储(远程):使用 Az
c# - Azure Blob 存储 - 上传 Blob 后如何获取 Blob 存储 ID？
我正在使用 C# 控制台应用程序 (.NET Core 3.1) 从 Azure Blob 存储读取大量图像文件并生成这些图像的缩略图。新图像将保存回 Azure，并将 Blob ID 存储在我们的数
python - 设置 Mlflow 后端 (SQLite) 和工件(Azure Blob 存储)存储
我想将 Mlflow 设置为具有以下组件: 后端存储(本地):在本地使用 SQLite 数据库存储 Mlflow 实体(run_id、params、metrics...) 工件存储(远程):使用 Az
python - 使用适用于 Python 的 Azure 存储 SDK 将多个文件从文件夹上传到 Azure Blob 存储
我的 Windows 计算机上的本地文件夹中有一些图像。我想将所有图像上传到同一容器中的同一 blob。我知道如何使用 Azure Storage SDKs 上传单个文件BlockBlobServi
javascript - 向 Azure Blob 存储 [REST API][Azure Blob 存储] 发出 GET 请求时授权失败
我尝试发出 GET 请求来获取我的 Azure Blob 存储帐户的帐户详细信息，但每次都显示身份验证失败。谁能判断形成的 header 或签名字符串是否正确或是否存在其他问题？代码如下: cons
javascript - NeutralinoJS 存储
这是用于编写 JSON 的 NeutralinoJS 存储 API。是否可以更新 JSON 文件(推送数据)，而不仅仅是用新的 JS 对象覆盖数据。怎么做到的？？？ // Javascript
jenkins - 在调用并行阶段之前运行脚本(存储)
我有一个并行阶段设置，想知道是否可以在嵌套阶段之前运行脚本，所以像这样: stage('E2E-PR-CYPRESS') { when { allOf {
virtualbox - VBoxManage列出虚拟机详细信息(存储)
我想从命令行而不是从GUI列出VirtualBox VM的详细信息。我对存储细节特别感兴趣。当我在GUI中单击VM时，可以看到包括存储部分在内的详细信息: 但是到目前为止，我还没有找到通过命令行执行
rdbms - 存储/访问有向图的最佳方式
我有大约 3500 个防洪设施，我想将它们表示为一个网络来确定流动路径(本质上是一个有向图)。我目前正在使用 SqlServer 和 CTE 来递归检查所有节点及其上游组件，只要上游路径没有 fork
Jquery data() 存储
谁能告诉我 jquery data() 在哪里存储数据以及何时删除以及如何删除？如果我用它来存储ajax调用结果，会有性能问题吗？例如: $("body").data("test", { myDa
Firebase 存储 - 如何设置备份
有人可以建议如何为 Firebase 存储中的文件设置备份。我能够备份数据库，但不确定如何为 firebase 存储中的文件(我有图像)设置定期备份。最佳答案如何进行 Firebase 存储的本地
Firebase 存储 - 图像预览正在永久加载
我最近开始使用 firebase 存储和 firebase 功能。现在我一直在开发从功能到存储的文件上传。我已经让它工作了(上传完成并且文件出现在存储部分)，但是，图像永远保持这样(永远在右侧加载)
Firebase 存储 – 不能删除大小要求
我想只允许用户将文件上传到他们自己的存储桶中，最大文件大小为 1MB，仍然允许他们删除文件。我添加了以下内容: match /myusers/{userId}/{allPaths=**} { al
Azure 存储 - 数据湖生命周期管理问题
使用生命周期管理策略将容器的内容从冷访问层移动到存档。我正在尝试以下策略，希望它能在一天后将该容器中的所有文件移动到存档层，但事实并非如此在职的。我设置了选择标准“一天未使用后”。这是 json 代
Azure 存储，在安全性和速度之间进行选择
对于连接到 Azure 存储端点，有 http 和 https 两个选项。第一。 https 会带来开销，可能是 5%-10%，但我不支付同一个数据中心的费用。第二。 http 更快，但 Auth
Azure 存储 vhd
有人可以帮我理解这一点吗？我创建了Virtual Machine in Azure running Windows Server 2012 。我注意到 Azure 自动创建了一个存储帐户。当我进入该存

首页

博学

6Ren·AI

商城

python - 如何在训练多类 CNN 模型时存储和加载包含 5000 万个 25x25 numpy 数组的训练数据？