- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个图像处理问题,其中有五个类,每个类有大约 1000 万个示例作为训练数据,其中图像是 z 得分的 25x25 numpy 数组。
显然,我无法将所有训练数据加载到内存中,所以我必须使用 fit_generator
.
我也是生成和扩充这些训练数据矩阵的人,但我无法在 fit_generator
内实时完成。因为训练模型会太慢。
首先,如何在磁盘上存储 5000 万个 25x25 .npy 数组?最好的做法是什么?
其次,我应该使用数据库来存储这些矩阵并在训练期间从中查询吗?我觉得SQLite不支持多线程,SQL数据集支持还是experimental在 tensorflow 中。
我很想知道是否有一种巧妙的方法来存储这 5000 万个矩阵,以便在训练期间进行检索是最佳的。
三、如何使用HDF5格式?我应该切换到 pytorch反而?
最佳答案
如何将 np.arrays() 存储在磁盘上?
将它们存储在 HDF5 文件中是个好主意。基本的 HDF5 类型是 Datasets
,其中包含同构类型的多维数组。 HDF5 Datasets
文件可以组合成 HDF5 Groups
文件,这些文件也可以包含其他组,以创建更复杂的结构。另一种方法是直接从磁盘中腌制您的 numpy 数组或更抽象的数据集对象,但是您的文件将只能由 Python 读取。也不鼓励 security reasons .最后,如果你想为 TensorFlow 读/写操作优化你的数据格式,你可以使用 TFRecord
文件格式。以 TFRecord 格式保存 numpy 数组可能会很棘手,但值得庆幸的是有人 created a script to do that .
我应该使用数据库来存储这些矩阵并在训练期间从它们中查询吗?
你可以,但你会重新发明轮子。您需要的是一个或多个与训练过程并行的独立过程,读取下一批训练观察(预取),并在训练过程处理上一批时对其应用一些转换。这样您就可以避免任何 IO 和预处理延迟,并且可以获得一些显着的性能提升。人工智能框架为这个问题开发了自己的工具。 In Pytorch ,有类(class)torch.utils.data.DataLoader
. Here是一个教程,展示了如何使用 Dataloader 有效地加载 HDF5 文件。在 TensorFlow 中,您可以创建一个 input pipeline使用类 tf.data.Dataset
.一种基本方法是首先打开一个文件 (1),将文件中的数据读入内存 (2),然后使用内存中的内容训练模型 (3)。让我们模拟一个 TF 数据集和训练循环:
import tf, time
class MyDataset(tf.data.Dataset):
def __new__(self, filename="image_dataset.proto"):
time.sleep(0.01) # mock step (1) delay
return tf.data.TFRecordDataset([filename])
def train(dataset, nb_epoch=10):
start_time = time.perf_counter()
for epoch_num in range(nb_epoch):
for sample in dataset: # where step (2) delay takes place
time.sleep(0.01) # mock step (3) delay
tf.print("Execution time:", time.perf_counter() - start_time)
train(MyDataset())
train(MyDataset().prefetch(tf.data.experimental.AUTOTUNE))
train( tf.data.Dataset.range(2).interleave(\
MyDataset().prefetch(tf.data.experimental.AUTOTUNE),\
num_parallel_calls=tf.data.experimental.AUTOTUNE))
关于python - 如何在训练多类 CNN 模型时存储和加载包含 5000 万个 25x25 numpy 数组的训练数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59836100/
我正在运行一个辅助角色,并检查 Azure 上托管的存储中是否存在数据。当我将连接字符串用于经典类型的存储时,我的代码可以正常工作,但是当我连接到 V2 Azure 存储时,它会抛出此异常。 “远程服
在我的应用程序的主页上,我正在进行 AJAX 调用以获取应用程序各个部分所需的大量数据。该调用如下所示: var url = "/Taxonomy/GetTaxonomyList/" $.getJSO
大家好,我正在尝试将我的商店导入我的 Vuex Route-Gard。 路由器/auth-guard.js import {store} from '../store' export default
我正在使用 C# 控制台应用程序 (.NET Core 3.1) 从 Azure Blob 存储读取大量图像文件并生成这些图像的缩略图。新图像将保存回 Azure,并将 Blob ID 存储在我们的数
我想将 Mlflow 设置为具有以下组件: 后端存储(本地):在本地使用 SQLite 数据库存储 Mlflow 实体(run_id、params、metrics...) 工件存储(远程):使用 Az
我正在使用 C# 控制台应用程序 (.NET Core 3.1) 从 Azure Blob 存储读取大量图像文件并生成这些图像的缩略图。新图像将保存回 Azure,并将 Blob ID 存储在我们的数
我想将 Mlflow 设置为具有以下组件: 后端存储(本地):在本地使用 SQLite 数据库存储 Mlflow 实体(run_id、params、metrics...) 工件存储(远程):使用 Az
我的 Windows 计算机上的本地文件夹中有一些图像。我想将所有图像上传到同一容器中的同一 blob。 我知道如何使用 Azure Storage SDKs 上传单个文件BlockBlobServi
我尝试发出 GET 请求来获取我的 Azure Blob 存储帐户的帐户详细信息,但每次都显示身份验证失败。谁能判断形成的 header 或签名字符串是否正确或是否存在其他问题? 代码如下: cons
这是用于编写 JSON 的 NeutralinoJS 存储 API。是否可以更新 JSON 文件(推送数据),而不仅仅是用新的 JS 对象覆盖数据。怎么做到的??? // Javascript
我有一个并行阶段设置,想知道是否可以在嵌套阶段之前运行脚本,所以像这样: stage('E2E-PR-CYPRESS') { when { allOf {
我想从命令行而不是从GUI列出VirtualBox VM的详细信息。我对存储细节特别感兴趣。 当我在GUI中单击VM时,可以看到包括存储部分在内的详细信息: 但是到目前为止,我还没有找到通过命令行执行
我有大约 3500 个防洪设施,我想将它们表示为一个网络来确定流动路径(本质上是一个有向图)。我目前正在使用 SqlServer 和 CTE 来递归检查所有节点及其上游组件,只要上游路径没有 fork
谁能告诉我 jquery data() 在哪里存储数据以及何时删除以及如何删除? 如果我用它来存储ajax调用结果,会有性能问题吗? 例如: $("body").data("test", { myDa
有人可以建议如何为 Firebase 存储中的文件设置备份。我能够备份数据库,但不确定如何为 firebase 存储中的文件(我有图像)设置定期备份。 最佳答案 如何进行 Firebase 存储的本地
我最近开始使用 firebase 存储和 firebase 功能。现在我一直在开发从功能到存储的文件上传。 我已经让它工作了(上传完成并且文件出现在存储部分),但是,图像永远保持这样(永远在右侧加载)
我想只允许用户将文件上传到他们自己的存储桶中,最大文件大小为 1MB,仍然允许他们删除文件。我添加了以下内容: match /myusers/{userId}/{allPaths=**} { al
使用生命周期管理策略将容器的内容从冷访问层移动到存档。我正在尝试以下策略,希望它能在一天后将该容器中的所有文件移动到存档层,但事实并非如此在职的。我设置了选择标准“一天未使用后”。 这是 json 代
对于连接到 Azure 存储端点,有 http 和 https 两个选项。 第一。 https 会带来开销,可能是 5%-10%,但我不支付同一个数据中心的费用。 第二。 http 更快,但 Auth
有人可以帮我理解这一点吗?我创建了Virtual Machine in Azure running Windows Server 2012 。我注意到 Azure 自动创建了一个存储帐户。当我进入该存
我是一名优秀的程序员,十分优秀!